Você está na página 1de 336

Estadstica Inferencial II

Ral Jimne
z Gonzlez

Instituto Tecnolgico de Ensenada


2
0
0
0
1
9
9
5
1
9
9
0
1
9
8
5
1
9
8
0
1
9
7
5
9
,
5
9
,
0
8
,
5
8
,
0
7
,
5
7
,
0
6
,
5
6
,
0
A


o
s
Ventas
Estadstica Inferencial II
Instituto Tecnolgico de Ensenada

Ral Jimnez Gonzlez

Agosto de 2012

A mi esposa
Leticia Flores Flores
2

CAPTULO 1

Regresin lineal simple y mltiple

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Contenido
CAPTULO 1. Regresin lineal simple y mltiple. 4
1.1. Regresin Lineal simple. 4
1.1.1. Prueba de hiptesis en la regresin lineal simple.... 12
1.1.2. Calidad del ajuste en regresin lineal simple.... .. 19
1.1.3. Estimacin y prediccin por intervalo en regresin lineal simple.... 23
1.1.4. Uso de software estadstico....... 25
1.2. Regresin lineal mltiple 30
1.2.1. Pruebas de hiptesis en regresin lineal mltiple. 34
1.2.2. Intervalos de confianza y prediccin en regresin mltiple...... 37
1.2.3. Uso de un software estadstico...... 40
1.3. Regresin no lineal. 43
CAPTULO 2. Diseo de experimentos de un factor.. 45
2.1. Familia de diseos para comparar tratamientos. 49
2.2. El modelo de efectos fijos.. 50

2.3.
2.4.
2.5.
2.6.

Diseo completamente aleatorio y ANOVA. 50


Comparaciones o pruebas de rangos mltiples.. 62
Verificacin de los supuestos del Modelo. 71
Uso de un software estadstico... 80

CAPTULO 3. Diseo de bloques. 84


3.1. Diseos en bloques completos al azar 85
3.2. Diseo en cuadrado latino.. 95
3.3. Diseo en cuadrado grecolatino....... 104
3.4. Uso de un software estadstico. 108
CAPTULO 4. Conceptos bsicos en diseos factoriales.. 112
4.1. Diseos factoriales con dos factores. 114
4.2. Diseos factoriales con tres factores. 123
4.3. Diseo factorial general 128
4.4. Modelos de efectos aleatorios... 130
4.5. Uso de un software estadstico . 134
CAPTULO 5. Series de tiempo... 138
5.1. Modelo clsico de series de tiempo....... 141
5.2. Anlisis de fluctuaciones... 143
5.3. Anlisis de tendencia. 146
5.4. Anlisis de variaciones cclicas
......147
5.5. Medicin de variaciones estacionales e irregulares.. 148
5.6. Aplicacin de ajustes estacionales......... 148
5.7. Pronsticos basados en factores de tendencia y estacionales........150
Apndice. Tablas Estadsticas..166
Bibliografa....174

CAPTULO 1

Regresin lineal simple y mltiple


1.1. Regresin Lineal simple
1.1.1. Prueba de hiptesis en la regresin lineal simple
1.1.2. Calidad del ajuste en regresin lineal simple
1.1.3. Estimacin y prediccin por intervalo en regresin lineal simple
1.1.4. Uso de software estadstico

CAPTULO 1

Regresin lineal simple y mltiple

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
1.1. Regresin Lineal simple
El anlisis de regresin se usa con el propsito de prediccin. La meta del anlisis de
regresin es desarrollar un modelo estadstico que se pueda usar para pre
decir los

valores de una variable dependiente o de respuesta basados en los valores de al


menos
una variable independiente o explicativa. Este captulo se centra en un
modelo de
regresin lineal simple, que usa una variable numrica independiente para
predecir
la variable numrica dependiente .
Para establecer una relacin cuantitativa entre
y
es necesario dispo
ner de
cierta informacin muestral. Esta informacin consiste de un conjunto de p
ares de
observaciones de
y , donde cada uno de estos pares pertenece a un
a unidad
elemental particular de la muestra. Por ejemplo, suponga que el rendim
iento de un
proceso qumico est relacionado con la temperatura de operacin, o la expe
riencia
profesional de los trabajadores y sus respectivos sueldos, las estatura
s y pesos de
personas, la produccin agraria y la cantidad de fertilizantes utilizados, etc. Si
mediante
un modelo matemtico es posible describir tal relacin, entonces este modelo puede s
er
usado para propsitos de prediccin, optimizacin o control
Para ilustrar el concepto, considrense los datos de la tabla 1.1. En esta tabla,
se
relaciona la cantidad de fibra (madera) en la pulpa con la resistenci
a del producto
(papel).
Tabla 1.1 Datos de resist
encia de pulpa
Porcentaje de fibra
Resistencia
4
6
8
10
12
14
16
18
20
22
24
26
28
30
134
145
142
149
144
160
156

157
168
166
167
171
174
183
Es claro que la variable de respuesta o variable dependiente es la resistencia,
por
eso se denota con . Para tener una idea de la relacin que existe en
tre
y , los 14
pares de datos son graficados en un diagrama de dispersin de la figur
a 1.1.
De la
inspeccin de este diagrama de dispersin se ve que los puntos cercanos
siguen una
lnea recta, lo que indica que la suposicin de linealidad entre las dos
variables parece
ser razonable
El diagrama de dispersin es una grafica en la que cada punto trazado representa
un par de valores observados por las variables independiente y dependiente. El v
alor de
la variable independiente X, se traza en
relacin con el eje horizont
al y el valor de la
variable dependiente Y, en relacin con el eje vertical. La naturaleza de la relac
in entre
dos variables puede tomar muchas formas, que van desde algunas funcion
es
Regresin lineal simple

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
matemticas sencillas a otras en extremo complicadas. La relacin ms elemen
tal
consiste en una lnea recta o relacin lineal.
30 25 20 15 10 5
190
180
170
160
150
140
130
Porcentaje de fibra
R
e
s
i
s
t
e
n
c
i
a

Grfica de dispersin de Resistencia vs. Porcentaje de fibra


Figura 1.1 Diagrama de dispersin para los datos de resistencia de la pulpa
La relacin del modelo matemtico adecuado tiene influencia de la distribucin
de los valores y en el diagrama de dispersin. Es sencillo ver esto s
i se examinan
las siguientes graficas (figura 1.2)

Plan A

Plan

Plan C
Relacin lineal negativa

Relacin lineal positiva


No hay relacin entre X y Y

Plan

Relacin curvilnea positiva


cin curvilnea negativa

Plan E
Plan F
Relacin curvilnea en forma de U

Rela

Figura 1.2 Relacin entre dos variables


En la grafica A se observa que los valores de Y, en general, aumentan en forma
lineal cuando se incrementa .
En la grafica B es un ejemplo de una relacin lineal negativa. Cuando
crece,
se observa que los valores de Y decrecen. Un ejemplo de este tipo de relacin pued
e ser
el precio de un producto especfico y la cantidad de ventas.
6
CAPTULO 1
Regresin lineal simple y mltiple
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
En la grafica C
se muestra un conjunto de datos en el que existe
muy poca o
ninguna relacin entre y Y. Para cada valor de aparecen valores altos y bajos d
e Y.
En la grafica D muestran una relacin curvilnea entre y Y. Los valores de Y
aumentan cuando crece, pero el incremento disminuye para valores altos
de . un
ejemplo de esta relacin curvilnea puede ser la edad y el costo de man
tenimiento de
una maquina. Cuando la mquina tiene muchos aos, el costo de mantenimien
to se
eleva con rapidez al principio, pero despus de cierto nmero de aos se nivela.
En la grafica E muestra una relacin parablica o en forma de U entre
y Y.
Conforme aumenta, al principio Y disminuye; pero si aumenta ms, Y no slo deja
de disminuir sino que aumenta despus de su valor mnimo. Un ejemplo tipo de relacin
puede ser el nmero de errores por hora en una tarea y nmero de horas trabajadas.
Por ultimo en la grafica F indica una relacin exponencial o curvilnea negativa
entre y Y. en este caso, Y disminuye con rapidez al principio del i
ncremento de

pero despus, cuando aumenta ms, la velocidad de disminucin es mucho menor. Un


ejemplo de esta relacin exponencial puede ser el valor de reventa de un tipo da
do de
automvil y los aos que tiene. El primer ao el valor baja en forma drstica respet
o a
su precio original; sin embargo, la disminucin es mucho ms lenta en lo
s aos
subsecuentes.
El anlisis de regresin lineal simple se refiere a encontrar la lnea recta que mejor
se
ajuste a los datos. El mejor
ajuste puede definirse de varias maner
as. Quiz la ms
sencilla sea encontrar la lnea recta para la cual las diferencias entre los valor
es reales y
los valores pronosticados a partir de la recta ajustada de regresin se
an tan pequeas
como sea posible. Sin embargo, como estas diferencias son positivas pa
ra algunas
observaciones y negativas para otras, en trminos matemticos se minimiza la su
ma de
los cuadrados de las diferencias.
30 25 20 15 10 5
190
180
170
160
150
140
130
Porcentaje de fibra
R
e
s
i
s
t
e
n
c
i
a
S 3,87648
R-cuad. 93,0%
R-cuad.(ajustado) 92,4%
Grfica de lnea ajustada
Resistencia = 130,7 + 1,624 Porcentaje de fibra
Figura 1.3 Lnea recta que mejor se ajusta a los da
tos, donde la
distancia a los puntos es la ms pequea pos
ible
Suponga que
valor de ,
decir, que
observacin

las variables y Y estn relacionadas linealmente y que para cada


la variable dependiente, Y, es una variable aleatoria. Es
cada
de Y puede ser descrita por el modelo:

(1.1)
Regresin lineal simple

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
donde es un error aleatorio con media cero y varianza
. Tambin suponga que los
errores aleatorios no estn correlacionados. La ecuacin (1.1) es conocida
como el
modelo de regresin lineal simple. Bajo el supuesto de que este modelo es adecuado
y
como el valor esperado del error es cero, , se puede ver que el valor esperad
o
de la variable Y, para cada valor de , est dado por lnea recta

(1.2)
En donde

son los parmetros del modelo y son constantes desconocidas.


Por lo tanto, para tener bien especificada la ecuacin que relaciona las dos varia
bles ser
necesario estimar los dos parmetros, que tienen los siguientes significados:

- Es el punto en el cual la lnea recta intercepta o cruza el eje y.


- Es la pendiente de la lnea, es decir, es la cantidad en que se incrementa o
disminuye la variable por cada unidad que se incrementa
Un procedimiento para ajustar la mejor recta y, por lo tanto, para estimar

es mediante el mtodo de mnimos cuadrados, el cual consiste en lo siguiente:


si de la ecuacin (1.1) despejamos los errores, los elevamos al cuadrado y los sum
amos,
obtendremos lo siguiente:

(1.3)
De esta forma, se quieren encontrar los valores de

que minimizan la
suma de los errores cuadrados. Es decir, se busca ajustar la recta de manera que
la suma
de las distancias en forma vertical de los puntos a la recta se minimice, como
se ilustra
en la figura 1.3.
El procedimiento matemtico para minimizar los errores de la ecuacin (1.3) y
as encontrar los estimadores de mnimos cuadrados de

, consiste en derivar a
con respecto a
,

y derivar tambin a con respecto a


,

se obtiene:

Al igualar a cero las dos ecuaciones y resolverlas en forma simultnea


con
respecto a las dos incgnitas (

), se obtiene la solucin nica:

(1.4)

(1.5)
donde
8

CAPTULO 1

Regresin lineal simple y mltiple

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez

(1.6)

(1.7)
son las medias mustrales de las dos variables, es decir,

De esta forma, para obtener la recta ajustada es necesario aplicar


las frmulas
anteriores, lo cual es muy sencillo, como se muestra en la tabla 1.2 para los da
tos de la
resistencia de la pulpa.
Tabla 1.2 Procedimiento para realizar los clculos para la regresin simple para lo
s datos de la resistencia
de la pulpa.

4
6
8
10
12
14
16
18
20
22
24
26
28
30
134
145

142
149
144
160
156
157
168
166
167
171
174
183
16
36
64
100
144
196
256
324
400
484
576
676
784
900
17 956
21 025
20 164
22 201
20 736
25 600
24 336
24 649
28 224
27 556
27 889
27 241
30 276
33 489
536
870
1 136
1 490
1 728
2 240
2 496
2 826
3 360
3 652
4 008
4 446
4 872
5 490
137,2
140,4
143,7
146,9
150,2
153,4

156,7
159,9
163,2
166,4
169,7
172,9
176,2
179,4
-3,2
4,6
-1,7
2,1
-6,2
6,6
-0,7
-2,9
4,8
-0,4
-2,7
-1,9
-2,2
3,6
10,24
21,16
2,89
4,41
38,44
43,56
0,49
8,41
23,04
0,16
7,29
3.61
4,84
12,96

= 4
956

= 353
342

= 39
150

2216.6

Regresin lineal simple

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Por lo tanto, la lnea recta que mejor explica la relacin entre porcentaje de fibra
y resistencia del papel, est dada por

En la figura 1.3 se muestra el ajuste de esta lnea. De esta manera,


por cada
punto porcentual de incremento en el porcentaje de fibra, se espera u
n incremento de
resistencia de 1,6242 en promedio. La ecuacin (1.8) sirve para estimar
la resistencia
promedio esperada para cualquier porcentaje de fibra utilizada.
Nota:
La calculadora cientfica, trae la funcin de Regresin Lineal, un
a vez
activada esta funcin,
se procede a capturar por parejas (X, Y) corre
spondientes
sin
olvidar separarlas por una coma entre ambos datos,
se manda cada pa
r a memoria, al
finalizar la captura se obtienen los coeficientes correspondientes presionando l
a inversa
correspondiente de acuerdo al modelo de esta.
Utilizando un paquete computacional el resultado arrojado sera el siguiente:

Resumen de Minitab
Anlisis de regresin: Resistencia vs. Porcentaje de fibra
La ecuacin de regresin es
Resistencia = 131 + 1,62 Porcentaje de fibra
Coef.
Predictor
Coef
de EE
T
P
Constante
130,675
2,418
54,05 0,000
Porcentaje de fibra 1,6242
0,1285 12,64 0,000
Resumen de Excel
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,964432318
Coeficiente de determinacin R^2 0,930129695
R^2 ajustado 0,92430717
Error tpico 3,876481166
Observaciones 14
ANLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crtico de
F
Regresin 1 2400,531868 2400,531868 159,7467824 2,70702E-08
Residuos 12 180,3252747 15,02710623
Total 13 2580,857143
Coeficientes Error tpico Estadstico t Probabilidad Inferior 95%
Intercepcin 130,6747253 2,417790201 54,047173 1,05975E-15 125,406813
Porcentaje de fibra 1,624175824 0,128504099 12,63909737 2,70702E-08 1,344189444
Anlisis de los residuales
Observacin Pronstico Resistencia Residuos
1 137,1714286 -3,171428571
2 140,4197802 4,58021978
3 143,6681319 -1,668131868
4 146,9164835 2,083516484
5 150,1648352 -6,164835165

6 153,4131868 6,586813187
7 156,6615385 -0,661538462
8 159,9098901 -2,90989011
9 163,1582418 4,841758242
10 166,4065934 -0,406593407
11 169,6549451 -2,654945055
12 172,9032967 -1,903296703
13 176,1516484 -2,151648352
14 179,4 3,6
10
CAPTULO 1
Regresin lineal simple y mltiple
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
Anlisis de varianza
Fuente
GL
Regresin
1
Error residual 12
Total
13
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14

SC
2400,5
180,3
2580,9

Porcentaje
de fibra Resistencia
4,0
134,00
6,0
145,00
8,0
142,00
10,0
149,00
12,0
144,00
14,0
160,00
16,0
156,00
18,0
157,00
20,0
168,00
22,0
166,00
24,0
167,00
26,0
171,00
28,0
174,00
30,0
183,00

MC
2400,5
15,0

Ajuste
137,17
140,42
143,67
146,92
150,16
153,41
156,66
159,91
163,16
166,41
169,65
172,90
176,15
179,40

F
159,75

Ajuste
SE
1,97
1,75
1,55
1,37
1,22
1,11
1,04
1,04
1,11
1,22
1,37
1,55
1,75
1,97

P
0,000

Residuo
-3,17
4,58
-1,67
2,08
-6,16
6,59
-0,66
-2,91
4,84
-0,41
-2,65
-1,90
-2,15
3,60

Residuo
estndar
-0,95
1,32
-0,47
0,57
-1,68
1,77
-0,18
-0,78
1,30
-0,11
-0,73
-0,54
-0,62
1,08

Tabla 1.4. Formulas bsicas para el Anlisis de regresin para el modelo

Es el punto en el cual la lnea recta intercepta o cruza el


eje Y

Es la pendiente de la lnea, es decir, es la cantidad en que se


incrementa o
disminuye la variable
ad que se incrementa

Ecuacin de la regresin lineal estimada

Sumatoria de XY

por cada unid

Sumatoria de XX

Variabilidad total

Media de X

Media de Y

Sumatoria de los cuadrados del error

Suma de cuadrados de la regresin

Estimador insesgado de la varianza

Cuadrado medio del error

Cuadrado medio total


Regresin lineal simple
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez

Error estndar de estimacin

11

Coeficiente de determinacin en r
egresin lineal simple

Estadstico
para prueba de hiptesis en regresin lineal simple

Estimacin por intervalos para


, en
regresin lineal simple

Estimacin por intervalos para la pendiente en


regresin lineal simple

Estimacin para la ordenada al


origen en regresin lineal simple

Ejemplo
Suponga que el gerente de una cadena de servicios de entrega de paqu
etera desea
desarrollar un modelo para predecir las ventas semanales (en miles de dlares) p
ara las
tiendas individuales basado en el nmero de clientes que realizan compra
s. Se
seleccion una muestra aleatoria entre todas las tiendas de la cadena con los s
iguientes
resultados.
Tienda Clientes Ventas ($000) Tienda Clientes Ventas ($000)
1
2
3
4
5
6
7
8
9
10
907
926
506
741
789
889
874
510
529
420
11,20
11,05
6,48
9,21
9,42
10,08
9,45
6,73
7,24
6,12
11
12
13
14
15

16
17
18
19
20
679
872
924
607
452
729
794
844
1010
621
7,63
9,43
9,46
7,64
6,92
8,95
9,33
10,23
11,77
7,41
(a)
(b)
ra
los

Grafique el diagrama de dispersin.


Suponga una relacin lineal y utilice el mtodo de mnimos cuadrados pa
encontrar
coeficientes de regresin

y
(c) Interprete el significado de la pendiente.
(d) Pronostique las ventas semanales (en miles de dlares) para las tiendas que t
ienen 600
clientes.
(e) Qu otros factores adems del nmero de clientes pueden afectar las ventas?
12

CAPTULO 1

Regresin lineal simple y mltiple

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Respuestas
a)
1000 900 800 700 600 500 400
12
11
10
9
8
7
6
Clientes
V
e
n
t
a

s
Grfica de dispersin de Ventas vs. Clientes
b) Los coeficientes son
= 2,3086

= 0,0088
c) Por cada cliente ms, se espera un incremento en las ventas de 0,0088612 de m
iles
de dlares en promedio.
d)
e) Factores tan variados como, atencin al cliente, lejana, falta de estacionamien
to etc.,
etc.
Resumen de Excel
Coeficientes Error tpico Estadstico t Probabilidad
Intercepcin 2,308620077 0,486903934 4,741428269 0,000162977
Clientes 0,008861219 0,000647589 13,68338889 5,93374E-11

1.1.1. Prueba de hiptesis en la regresin lineal simple.


En cualquier anlisis de regresin no basta hacer los clculos que se explicaron antes
,
sino que es necesario evaluar qu tan bien el modelo (la lnea recta) explica la rel
acin
entre y . Una primera forma de hacer esto es probar una serie hiptesi
s sobre el
modelo. Para ello es necesario suponer una distribucin de probabilidad
para el
trmino de error,
Es usual suponer normalidad:
se distribuye en forma normal,
independiente, con media cero y varianza
.
Por lo general, la hiptesis de mayor inters plantea que la pen
diente es
significativamente diferente de cero. Esto se logra al aprobar la siguiente hipte
sis

(1.9)
Prue
ba de hiptesis en regresin lineal simple

13

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
El estadstico de prueba es:

(1.10)
Si la hiptesis nula es verdadera l estadstico (1.10) tiene una distribuc
in Student con
grados de libertad. Se rechaza
si el valor absoluto de este
estadstico es mayor que el correspondiente valor crtico obtenido de tablas
, es decir,
se rechaza
si:

(1.11)
En caso contrario no se rechaza
. No rechazar que
, en el caso del
modelo de regresin lineal simple, implica que no existe una relacin lin
eal
significativa entre y ; por tanto, no existe relacin entre estas variables o sta
es de
otro tipo.
La suma de cuadrados de los residuos o suma de cuadrados del error
(
y se
utiliza para estimar la varianza del error de ajuste de un modelo, y est dada por
:

A partir de la ecuacin (1.12) se obtiene que el valor esperado de


la suma de
cuadrados
, del error est dado por:

(1.13)
Por lo tanto, un estimador insesgado de
est dado por:

En el caso de los datos de la tabla 1.1, datos de resistencia de l


a pulpa, el
planteamiento de hiptesis sera el siguiente:

Aplicando el estadstico de prueba

El valor de -Student encontrado en tablas con grados de libertad y un


0,05 de nivel de significancia es
14
CAPTULO 1
Regresin lineal simple y mltiple
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez

Se rechaza la Hiptesis nula


Dado que el valor absoluto de
es significativamente mayor que el valor
encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechaz
amos
la hiptesis nula por lo tanto si existe una relacin entre ambas variables. 0 bien,
dado
que el valor-p es menor que el nivel de significancia, se rechaza la
hiptesis nula
valor-p .

En ocasiones, en lugar de probar que


, puede ser de inters probar que es
igual a cierta constante (

, en este caso en el numerador del estadstico


de la expresin (1,10) se resta , es decir, el estadstico queda de la
siguiente
manera

, y el criterio de rechazo es el mismo.

Si se utiliza como criterio de rechazo la comparacin de la significa


ncia
observada (p-value o valor p) contra la significancia predefinida (),
entonces se
rechaza
si el valor p .
Por otro lado, con respecto del parmetro
suele ser de inters probar la
siguiente hiptesis:

(1.15)
El estadstico de prueba es el siguiente:

El cual tiene una distribucin -Student con

grados de libertad, por lo que

se rechaza si:

o si se utiliza el criterio de la significancia observada se rechaza


si el valor-p .
No rechazar que

simplemente significa que el punto de corte de la lnea recta


pasa por el origen, es decir pasa por (0, 0). En ocasiones, en luga
r de probar que
, puede ser de inters probar que es igual a cierta constante

; en
ese caso, en el numerador del estadstico de la expresin (1.16) se resta , es decir
, el
estadstico queda de la siguiente manera:

(1.17)
y el criterio de rechazo es el mismo.
En el caso de los datos de la tabla 1.1, datos de resistencia de l
a pulpa, el
planteamiento de hiptesis sera el siguiente:
Prue
ba de hiptesis en regresin lineal simple
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez

Aplicando el estadstico de prueba

15

El valor de -Student encontrado en tablas con


de nivel de significancia es

grados de libertad y un 0,05

Se rechaza la Hiptesis nula


Dado que el valor absoluto de
es significativamente mayor que el valor
encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechaz
amos
la hiptesis nula por lo tanto el punto de corte de la lnea recta no pasa por el o
rigen,
es decir, no pasa por (0, 0). O bien, dado que el valor-p es menor
que el nivel de
significancia, se rechaza la hiptesis nula valor-p .

La estimacin de los parmetros del modelo y las pruebas de hiptesis sobre los
mismos se sintetizan en la siguiente tabla:
Parmetro Estimacin Error estndar Estadstico Valor-p
Intercepcin

Pendiente

Las pruebas de hiptesis para el ejemplo de las ventas contra clientes,


el
resumen que nos arroja Excel y Minitab incluye el clculo del valor de t y el
valor-p,
optando por cualesquiera de ambos estadsticos las hiptesis quedaran de la siguiente
manera:

El valor de -Student encontrado en tablas con


de nivel de significancia es

grados de libertad y un 0,05

Se rechaza la Hiptesis nula


16

CAPTULO 1

Regresin lineal simple y mltiple

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Dado que el valor absoluto de
es significativamente mayor que el valor
encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechaz

amos
la hiptesis nula por lo tanto si existe una relacin entre ambas variables. 0 bien,
dado
que el valor-p es menor que el nivel de significancia, se rechaza la
hiptesis nula
valor-p .

en el caso de las hiptesis para la intercepcin tenemos:

Se rechaza la Hiptesis nula


Dado que el valor absoluto de
es significativamente mayor que el valor
encontrado en tablas con un nivel de significancia de 0,05 concluimos que rechaz
amos
la hiptesis nula por lo tanto el punto de corte de la lnea recta no pasa por el o
rigen,
es decir, no pasa por (0, 0). O bien, dado que el valor-p es menor
que el nivel de
significancia, se rechaza la hiptesis nula valor-p .

Resumen de Excel
Coeficientes Error tpico Estadstico t Probabilidad
Intercepcin 2,308620077 0,486903934 4,741428269 0,000162977
Clientes 0,008861219 0,000647589 13,68338889 5,93374E-11
Ejercicios
1.- Cul es el propsito general del anlisis de regresin?
2.- En el anlisis de regresin intervienen dos tipos de variables: las
independientes y
las dependientes. Explique con sus palabras y a travs de ejemplos, las caractersti
cas de
estos dos tipos de variables.
3.- En el
a de la
superficie:
resistencia
compresin
.

artculo de Concrete Research (Caractersticas del concreto cerc


Permeabilidad intrnseca), se presentaron los datos sobre la
a la
y la permeabilidad intrnseca
de varias mezclas y curados de concreto

Las cantidades resumidas son

,
= 23 530,
,

= 157,42, y

= 1 697,80. Suponga que las dos variables se relacionan de acuerdo co


n el modelo
de regresin lineal simple.
a) Calcule las estimaciones de mnimos cuadrados de la pendiente y la
ordenada al
origen
b) Use la ecuacin de la recta ajustada para predecir la permeabilidad que se obse
rvara
cuando la resistencia a la compresin es = 4,3.
c) D una estimacin puntual de la permeabilidad media cuando la resisten
cia a la
compresin es = 3,7.
d) Suponga que el valor observado de la permeabilidad para = 3,7 es
= 46,1

Ejercicios

17

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
4.- Se utilizaron mtodos de regresin para analizar los datos de un est
udio para
investigar la relacin entre la temperatura superficial de una carretera (x) y la
deflexin
del pavimento (y). Las cantidades resumidas fueron
,
,
= 8,86,

,
= 143 215,8,

= 1 083,67.

a) Calcule las estimaciones de mnimos cuadrados de la pendiente y la


ordenada al
origen. Grafique la recta de regresin
b) Use la ecuacin de la recta ajustada para predecir la deflexin del pavimento
que se
observara cuando la temperatura superficial es de 85.
c) Cul es la deflexin media del
pavimento cuando la temperatura superf
icial es
90?
d) Qu cambio en la deflexin media del pavimento se esperara para un cambio de 1
en la temperatura superficial?
5.- Se piensa que el nmero de libras de vapor consumidas mensualmente
por una
planta qumica se relaciona con la temperatura ambiente promedio (en ) d
e ese mes.
En la tabla siguiente se muestra la temperatura y el consumo anual:
Mes Temperatura Consumo/1 000
Ene.
Feb.
Mar.
Abr.
May
Jun.
Jul.
Ago.
Sep.
Oct.
Nov.
Dic.
21
24
32
47
50
59
68
74
62
50
41
30
185,79
214,47
288,03
424,84
454,58
539,03
621,55
675,06
562,03
452,93
369,95
273,98
a) Suponiendo que un modelo de regresin lineal simple es apropiado, aj
uste el
modelo de regresin que relacione el consumo de vapor () con la tempera
tura

promedio ().
b) Cul es la estimacin del consumo esperado de vapor cuando la temperat
ura
promedio es 55?
c) Qu cambio se espera en el consumo de vapor promedio cuando la temperatura
mensual promedio cambia 1?
d) Suponga que la temperatura mensual promedio es de 47. Calcule el
vapor
ajustado y el residual correspondiente.
18

CAPTULO 1

Regresin lineal simple y mltiple

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
6.- En un artculo de Journal of Environmental Energineering se reportan
los resultados de
un estudio sobre la presencia de sodio y cloruros en corrientes superficiales de
la parte
central de Rhode Island. Los datos que se presentan a continuacin corr
esponden a la
concentracin de cloruros (en mg/l) y al rea de carretera de la vertiente (en %).
4,4 6,6 9,7 10,6 10,8 10,9 11,8 12,1 14,3 14,7 15,0 17,3 19,2 2
3,1 27,4 27,7 31,8 39,5
0,19 0,15 0,57 0,70 0,67 0,63 0,47 0,70 0,60 0,78 0,81 0,78 0,69
1,30 1,05 1,06 1,74 1,62
a) Trace un diagrama de dispersin de los datos. Parecera apropiado un modelo
de regresin lineal simple en este caso?
b) Ajuste el modelo de regresin lineal simple usando el mtodo de mnimos
cuadrados.
c) Estime la concentracin de cloruros media de una vertiente que tiene
1% del
rea de carretera.
d) Encuentre el valor ajustado que corresponde a = 0,47
7.- Demuestre que en un modelo de regresin lineal simple el punto (
) se localiza
exactamente sobre la recta de regresin de mnimos cuadrados.
8.- En un artculo de Wear se presentan los datos del desgaste por rozamiento del
acero
dulce y la viscosidad del aceite. Los datos representativos, con = viscosidad d
el aceite
y = volumen del desgaste (
), son:
240

181

193

1,6

9,4

15,5

155
20,0

172
22,0

110

113
35,5

75
43,0

94
40,5

33,0

a) Construya un diagrama de dispersin de los datos. Parecera plausible u


n
modelo de regresin lineal simple?
b) Ajuste el modelo de regresin lineal simple usando mnimos cuadrados.
c) Estime el desgaste por rozamiento cuando la viscosidad es = 30.
d) Obtenga el valor ajustado de
cuando
= 22,0 y calcule el resid

ual
correspondiente.
9.- Considrense los datos del ejercicio 4 para
al de una
carretera y = deflexin del pavimento.

= temperatura superfici

a) Pruebe la significacin de la regresin utilizando


esta prueba. Qu conclusiones pueden sacarse?
b) Estime

. Encuentre el valor P para

c) Estime los errores estndar de la pendiente y la ordenada al origen.


10.- En un proceso de extraccin se estudia la relacin entre tiempo de extraccin y
rendimiento. Los datos obtenidos se muestran en la siguiente tabla.
Tiempo
(minutos)
10
15
20
Rendimiento
(%)
64 81,7 76,2

12

13

15

12

68,5

77,9

82,2

74,2

70

14
76

20
83,2

19

18

85,3
Ejercicios

9
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
a) En este problema cul variable se considera independiente y cul dependiente?
b) Mediante un diagrama de dispersin analice la relacin entre estas dos variables
.
c) Haga un anlisis de regresin (ajuste una lnea recta a estos datos, aplique
pruebas de hiptesis y verifique residuos).
d) La calidad del ajuste es satisfactoria? Argumente
e) Destaque el valor de la pendiente de la recta e interprtelo en trminos prcticos
.
f) Estime el rendimiento promedio que se espera a un tiempo de extraccin de 25
minutos y obtenga un intervalo de confianza para esta estimacin.
11.- Considere los datos del ejercicio 5 para = consumo de vapor y
= temperatura
promedio.
a) Pruebe la significacin de la regresin usando . Cul es el valor P para esta
prueba? Enuncie las conclusiones que resultan de esta prueba.
b) Estime
c) Estime los errores estndar de la pendiente y la ordenada al origen.
d) Pruebe la hiptesis

contra

usando
.
Encuentre el valor P para esta prueba.
e) Pruebe la hiptesis

contra

usando . Encuentre
el valor P para esta prueba y saque conclusiones.
12.- En el ejercicio 6 se presentan los datos
e cloruros en
corrientes superficiales y = rea de carretera.
a) Pruebe la hiptesis

para = concentracin d

contra

usando el procedimiento
indicado con un nivel de significancia del 0,01 (

1.1.2. Calidad del ajuste en regresin lineal simple


En la seccin anterior estudiamos pruebas de hiptesis
para verificar
que hay una
relacin significativa entre y ; sin embargo, no hemos visto si tal rel
acin permite
hacer estimaciones con una precisin aceptable. Por ejemplo, es de inters
saber qu
tanta de la variabilidad presente en fue explicada por el modelo, adems si se cu
mplen
los supuestos de los residuos.
Coeficiente de determinacin
. Un primer criterio para evaluar la calidad del
ajuste es observar la forma en que el modelo se ajust a los datos.
En el caso de la
regresin lineal simple esto se distingue al observar si los puntos tie
nden a ajustarse
razonablemente bien a la lnea recta (vase la figura 1.3). Pero otro cr
iterio ms
cuantitativo es el que proporciona el coeficiente de determinacin, el cual est def
inido por:

(1.17)
Es claro que
. En general
se interpreta como la proporcin de la
variabilidad en los datos () que es explicada por el modelo. En el caso de los d
atos de
la resistencia de la pulpa (tabla 1.1) tenemos
20
CAPTULO 1
Regresin lineal simple y mltiple
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez

= 2580,86

Por lo tanto, podemos decir que 93% de la variacin observada en la resistencia


es explicada por el modelo (lnea recta), lo cual nos dice que la cal

idad del ajuste es


satisfactorio, y que por ello, la relacin entre
ente por una
lnea recta.

es descrita adecuadam

Nota. El resultado arrojado por Excel o Minitab, incluye el anlisis de


varianza
para el modelo de regresin simple cuyo cuadro sinttico es el siguiente:
Fuente de variacin Suma de cuadrados Grados de libertad Cuadrado medio
Valor-p
Regresin
Error o residual
Total

Anlisis de varianza en Minitab


Fuente
GL
Regresin
1
Error residual 12
Total
13
S = 3,87648

SC
2400,5
180,3
2580,9

R-cuad. = 93,0%

MC
2400,5
15,0

F
159,75

P
0,000

R-cuad.(ajustado) = 92,4%

Coeficiente de determinacin ajustado


.
Este coeficiente se calcula de la
siguiente manera:

(1.18)
Resumen de Excel
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,964432318
Coeficiente de determinacin R^2 0,930129695
R^2 ajustado 0,92430717
Error tpico 3,876481166
Observaciones 14
ANLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crtico de
F
Regresin 1 2400,531868 2400,531868 159,7467824 2,70702E-08
Residuos 12 180,3252747 15,02710623
Total 13 2580,857143
Coeficientes Error tpico Estadstico t Probabilidad Inferior 95%
Intercepcin 130,6747253 2,417790201 54,047173 1,05975E-15 125,406813
Porcentaje de fibra 1,624175824 0,128504099 12,63909737 2,70702E-08 1,344189444
Anlisis de los residuales
Observacin Pronstico Resistencia Residuos

1 137,1714286 -3,171428571
2 140,4197802 4,58021978
3 143,6681319 -1,668131868
4 146,9164835 2,083516484
5 150,1648352 -6,164835165
6 153,4131868 6,586813187
7 156,6615385 -0,661538462
8 159,9098901 -2,90989011
9 163,1582418 4,841758242
10 166,4065934 -0,406593407
11 169,6549451 -2,654945055
12 172,9032967 -1,903296703
13 176,1516484 -2,151648352
14 179,4 3,6
Resumen de Excel
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,964432318
Coeficiente de determinacin R^2 0,930129695
R^2 ajustado 0,92430717
Error tpico 3,876481166
Observaciones 14
ANLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crtico de
F
Regresin 1 2400,531868 2400,531868 159,7467824 2,70702E-08
Residuos 12 180,3252747 15,02710623
Total 13 2580,857143
Coeficientes Error tpico Estadstico t Probabilidad Inferior 95%
Intercepcin 130,6747253 2,417790201 54,047173 1,05975E-15 125,406813
Porcentaje de fibra 1,624175824 0,128504099 12,63909737 2,70702E-08 1,344189444
Anlisis de los residuales
Observacin Pronstico Resistencia Residuos
1 137,1714286 -3,171428571
2 140,4197802 4,58021978
3 143,6681319 -1,668131868
4 146,9164835 2,083516484
5 150,1648352 -6,164835165
6 153,4131868 6,586813187
7 156,6615385 -0,661538462
8 159,9098901 -2,90989011
9 163,1582418 4,841758242
10 166,4065934 -0,406593407
11 169,6549451 -2,654945055
12 172,9032967 -1,903296703
13 176,1516484 -2,151648352
14 179,4 3,6
Calidad de ajuste en regresin lineal simple

21

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
donde el cuadrado medio total,
, se obtiene al dividir la suma de cuadrados total,
, entre sus grados d libertad. Cuando hay muchos trminos en un modelo
, el
estadstico

se prefiere en lugar de
, puesto que este ltimo es engaoso al
incrementarse en forma artificial con cada trmino que se agrega al modelo, aunque
sea
un trmino que no contribuya en nada a la explicacin de la respuesta.
En cambio, el

incluso baja de valor cuando el trmino que se agrega no aporta nada.


Se cumple que

. En general, para fines de prediccin se


recomienda un coeficiente de determinacin ajustado de al menos 0,7.
En el caso de los datos de la resistencia de la pulpa (tabla 1.1), el coeficien
te de
determinacin ajustado est dado por:

Observe que estos coeficientes son arrojados automticamente en Excel y


Minitab.

Coeficiente de correlacin . Es bien conocido que el coeficiente de correlacin,


, mide la intensidad de la relacin lineal entre dos variables
Si se
tiene pares
de datos de la forma (

, entonces este coeficiente se obtiene de la siguiente manera:

(1.19)
Se puede ver que
; si es prximo a , entonces tendremos
una relacin lineal negativa fuerte, y si es prximo a cero, entonces diremos que n
o
hay correlacin lineal, y finalmente se es prximo a , entonces tendremos
una
relacin lineal positiva fuerte. Por ejemplo, para los datos
de la re
sistencia de la
pulpa (tabla 1.1), el coeficiente de correlacin es;

lo cual habla de una correlacin lineal positiva fuerte.


22

CAPTULO 1

Regresin lineal simple y mltiple

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Error estndar de estimacin . Una medicin sobre la calidad del ajuste de un
modelo lo da el error estndar de estimacin, que es una estimacin de la
desviacin
estndar del error . En el caso de la regresin lineal simple, est dado por:

=
(1.20)

Es claro que a medida que el modelo ajuste mejor, la

ser menor y en
consecuencia el error estndar de estimacin tambin ser menor.
Anlisis grfico de residuos.
Como complemento a lo que se ha discutido hasta aqu, un anlisis adecua
do de los
residuos proporciona informacin adicional sobre la calidad del ajuste de
l modelo de
regresin y de esa manera es posible verificar si el modelo es adecuad
o. Las grficas
que suelen hacerse para completar el diagnstico del modelo consisten en:
a) graficar los residuos en papel de probabilidad normal,
b) graficar los residuos contra los predichos.
Por ejemplo, para los datos de la resistencia de la pulpa (tabla 1.2), se const
ruye
la grfica de probabilidad normal que se muestra en la figura 1.4. En sta se apreci
a
que el supuesto de normalidad sobre los errores se cumple razonablemente bien,
ya
que los puntos en esta grfica tienden a ajustarse a la lnea recta.
10 5 0 -5 -10
99
95
90
80
70
60
50
40
30
20
10
5
1
Residuo
P
o
r
c
e
n
t
a
j
e
Grfica de probabilidad normal
(la respuesta es Resistencia)
Figura 1.4 Grfica de probabilidad normal para los residuos de la resistencia de l
a pulpa
A partir de la tabla 1.2 es fcil obtener la grfica de residuos contra
predichos
que se muestra en la figura 1.5. Si el modelo es adecuado se espera que en est
a grfica
los puntos no sigan ningn patrn y que, por lo tanto, estn distribuidos
ms o menos

aleatoriamente a lo largo y ancho de la grfica. Cuando esto ocurre si


gnifica que el
modelo se ajusta de igual manera a lo largo de los valores de . Por el contra
rio, si se
aprecia algn patrn habr que ver cul es el tipo de patrn que se observa en la grfica
y diagnosticar cul es la falla que registra el modelo
Estimacin y prediccin por intervalos en regr
esin lineal simple

23

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
180 170 160 150 140
7,5
5,0
2,5
0,0
-2,5
-5,0
Valor ajustado
R
e
s
i
d
u
o
vs. ajustes
(la respuesta es Resistencia)
Figura 1.5 Grfica de residuos contra estimados o predichos para la res
istencia de la pulpa
En particular la figura 1.5 no muestra ninguna anomala, lo cual es una evidenci
a
ms a favor del modelo de regresin simple para este ejemplo.
1.1.3. Estimacin y prediccin por intervalo en regresin lineal simple
Una de las aplicaciones ms importantes en un anlisis de regresin es hac
er
estimaciones de la respuesta media para un valor dado de X. En el caso particul
ar de la
regresin lineal simple, sabemos que un estimador puntual de la respuest
a media lo da
la recta de regresin:

Adems de esto, en ocasiones es de inters obtener una estimacin por


intervalos

para a partir de cualquier valor de X, para lo cual aplicamos la siguiente ecua


cin:

(1.21)
A este intervalo se le conoce como intervalo para la recta de regresin. Not
e que su
amplitud depende del
y de la distancia entre
y
=

. La amplitud es mnima cuando


y se incrementa conforme

se hace ms grande.
Para ilustrar lo anterior consideremos el modelo ajustado a los datos del e
jemplo de
la resistencia de la pulpa (tabla 1.1), y obtenemos el intervalo de confianza pa
ra la
respuesta media en
= 12 (porcentaje de fibra)
Primeramente calculemos el estimador puntual para cuando

= 12, est dado


por

y un intervalo de confianza al 95% para


24
CAPTULO 1
Regresin lineal simple y mltiple
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez

De aqu que el intervalo de confianza para la respuesta media en


= 12 est dada
por:

Adems
rigen,

de la estimacin puntual para la pendiente y la ordenada al o

, es posible obtener estimaciones de los intervalos de confianza par


a estos
parmetros. La anchura de estos intervalos de confianza es una medida d
e la calidad
global de la recta de regresin. Si los trminos del error,
del modelo de regresin
tienen una distribucin normal e independiente, entonces tienen ambos una distribu
cin
igual a la de una variable aleatoria
grados de libertad. Esto l
leva a la
siguiente definicin de los intervalos de confianza del % para la pendiente y
la ordenada al origen.

(1.22)

(1.23)
En el caso del intervalo de confianza para la pendiente de los dat
os del
porcentaje de fibra (tabla 1.1) tenemos

Por lo que pendiente de forma puntual es 1,6242, y por intervalos con un 95% de
nivel de confianza tenemos que esta se encuentra entre 1,3442 y 1,9042
Ejercicios
1.- En un artculo se presentaron los datos de la concentracin del licor verde
(,
y la produccin de una mquina
a tabla
siguiente

papelera (. Los datos se muestran en l

Estimacin y prediccin por intervalo


s en regresin lineal simple

25

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Nmero de

observacin
Concentracin
Del licor verde

Produccin
(tons
1
2
3
4
5
6
7
8
9
10
11
12
13
40
42
49
46
44
48
46
43
53
52
54
57
58
825
830
890
895
890
910
915
960
990
1010
1012
1030
1050
a) Encuentre un intervalo de confianza de 99% para

b) La concentracin media de
cuando la produccin es

toneladas

c) Encuentre un intervalo de prediccin de 99% para la concentracin de

cuando
2.para

toneladas
Remtase

a los datos

del ejercicio 3 (de la seccin anterior)

intrnseca del concreto y


a la compresin.
Encuentre un intervalo de confianza de 95% para:
a) la pendiente
b) la ordenada al origen
c) la permeabilidad media cuando
d) Encuentre un intervalo de prediccin 95% para la permeabilidad cuando
3.- En el ejercicio 4 (de la seccin anterior) se presentaron los datos
de la temperatura
superficial de una carretera y la deflexin del pavimento . Encuentre un interval
o de
confianza de 99% para:
a) la pendiente
b) la ordenada al origen
c) la deflexin media cuando la temperatura es
d) Encuentre un intervalo de prediccin de 99% para la deflexin del pavimento cuand
o
la temperatura es de .

1.1.4. Uso de un software estadstico


Excel
En la hoja de clculo
de Excel se incluye la regresin lineal simple
y mltiple; para
ello, es necesario realizar la siguiente secuencia de opciones:
Datos
26

Anlisis de datos
CAPTULO 1

Regresin

Regresin lineal simple y mltiple

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Generalmente
Excel no trae instalado la herramienta de anlisis de dat
os esta
debe instalarse con la siguiente secuencia:
1.- En la hoja de clculo de Excel (pantalla principal) hacer clic con
el puntero en el
smbolo del sistema localizado en el extremo superior izquierdo

2.- De la ventana desplegada hacer clic en opciones de Excel (parte inferior)

3.- De la ventana desplegada hacer clic en

complementos

Uso de un software estadstico

27

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez

4.- De la ventana desplegada hacer clic en

ir

5.- De esta ventana activar la casilla de herramientas para anlisis (p


alomearla)
y dar
clic en aceptar. De esta manera hemos activado la opcin de anlisis de datos.

Para capturar la tabla de datos para el anlisis de regresin lineal sim


ple o
mltiple, primeramente capturamos los datos en la hoja de clculo,
poste
riormente
activamos Datos seguido de Anlisis de datos y seleccionamos Regresin
Datos
28

Anlisis de datos
CAPTULO 1

Regresin

Regresin lineal simple y mltiple

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez

En la ventana de captura se solicitar el rango de celdas donde se encuentran los


datos para la variable dependiente
variable(s)
regresora(s) Rango de entrada

Rango

de entrada

y para la(s)

Activamos
la casilla de rtulos,
por default est indicado en una hoj
a nueva,
seleccionamos adems cualquiera de las opciones de residuos, grafica de residua
les, y
curva de regresin ajustada y aceptar.
En Minitab
En Minitab la secuencia de captura para la regresin lineal simple o mltiple en la
hoja
de clculo una vez capturada las columnas de datos seleccionamos Estadsti
cas luego
Regresin seguida de Regresin nuevamente

Uso de un software estadstico

29

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez

de la ventana desplegada en respuesta indicamos la variable de respues


ta, en este caso
es resistencia y en predictor indicamos porcentaje de fibra activando tambin cual
quiera
de las opciones posibles, terminando en aceptar.

Nota: De la ventana de captura aparecen automticamente en el cuadro de


la izquierda
la informacin de la tabla, en respuesta, se indica con un clic del ratn en res
istencia y
este automticamente se manifiesta en el recuadro, en predictores de igual manera
se da
un clic en porcentaje de fibra y igualmente se manifiestan en el recuadro.

30

CAPTULO 1

Regresin lineal simple y mltiple

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
1.2. Regresin lineal mltiple
En muchas situaciones prcticas existen varias variables independientes que se cre
e que
influyen o estn relacionadas con una variable de respuesta , y por lo
tanto ser
necesario tomar en cuenta si se quiere predecir o entender mejor el comportamie
nto de
. Por ejemplo, para explicar o predecir el consumo de electricidad en
una casa
habitacin tal vez sea necesario considerar el tipo de residencia, el nmero de pers
onas
que la habitan, la temperatura promedio de la zona, etctera.
Sea

variables independientes o regresoras, y sea una variable


de respuesta, entonces el modelo de regresin lineal mltiple con
les
independientes es el polinomio de primer orden:}

variab

(1.22)
Donde los
son los parmetros del modelo que se conocen como coeficientes
de regresin y es el error aleatorio, con media cero,
. Si en la
ecuacin (1.22)

, estamos en el caso de regresin lineal simple y el modelo es una

lnea recta; si , tal ecuacin representa un plano. En general, la ecua


cin (1.22)
representa un hiperplano en el espacio de dimensiones generado por la
s variables
{
}.
El trmino lineal del modelo de regresin se emplea debido a que la e
cuacin
(1.22) es funcin lineal de los parmetros desconocidos

La interpretacin
de stos es muy similar a lo ya explicado para el caso de regresin lineal simp
le:
es
la ordenada al origen, y
mide el cambio esperado en por cambio unitario en
cuando el resto de las variables regresoras se mantienen fijas o constantes.
Para encontrar los coeficientes de regresin mltiple por el mtodo de mnimos
cuadrados aplicamos el siguiente sistema de ecuaciones normales:

(1.23)
Estas ecuaciones se pueden resolver para
,

y
mediante cualquier
mtodo apropiado para resolver sistemas de ecuaciones lineales
Por ejemplo La siguiente tabla muestra los pesos Y a la libra ms c
ercana, las
estaturas X
1
a la pulgada ms cercana y las edades X
2
al ao ms cercano de 12
muchachos.
Regresin lineal mltiple
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
Tabla 1.5 Peso, estatura y edad
Peso
Estatura

Edad

64
71
53
67
55
58
77
57
56
51
76
68
57
59
49
62
51
50
55
48
52
42
61
57
8
10
6
11
8

31

7
10
9
10
6
12
9
Para encontrar los coeficientes de regresin (
,
y
) mltiple mediante el
mtodo de mnimos cuadrados seria de la siguiente manera
Tabla 1.6 Procedimiento para realizar los clculos para la regresin mltiple
Y
1
X
2
X
2
Y
2
1
X
2
2
X
Y X
1
Y X
2
2 1
X X
64
71
53
67
55
58
77
57
56
51
76
68
57
59
49
62
51

50
55
48
52
42
61
57
8
10
6
11
8
7
10
9
10
6
12
9
4096
5041
2809
4489
3025
3364
5929
3249
3136
2601
5776
4624
3249
3481
2401
3844
2601
2500
3025
2304
2704
1764
3721
3249
64
100
36
121
64
49
100
81
100
36
144
81
3648
4189
2597
4154
2805

2900
4235
2736
2912
2142
4636
3876
512
710
318
737
440
406
770
513
560
306
912
612
456
590
294
682
408
350
550
432
520
252
732
513
= Ey
753
643
= E
2
x
106
= E
2
y
48,139
= E
2
1
x
34,843
= E
2
2
x
976
= E y x
1
40,830
= E y x
2

6,796
= E
2 1
x x
5,779
Al sustituir las sumatorias calculadas en las ecuaciones normales, se obtiene

= E
1
x
32

CAPTULO 1

Regresin lineal simple y mltiple

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Resolver este sistema de tres ecuaciones lineales para
,
y
, es por lo
menos tedioso. Es comn emplear matrices para simplificar el proceso. Hoy en da, es
ta
clase de clculos son realizados por la computadora.
El resultado seria el siguiente

,
y
por lo
tanto la ecuacin de regresin es

La solucin manual aplicando el sistema de tres ecuaciones lineales con


tres
incgnitas (3x3) pudiera ser aplicando el
mtodos de eliminacin de Gauss
o bien el
mtodo de Cramer. Para este tipo de planteamiento se recomienda el mtodo de Cramer
el cual consiste en la siguiente secuencia:

Siguiendo la misma secuencia de la multiplicacin para el denominador, as


como para
y

Sustituyendo los valores tendremos

Regresin lineal mltiple

33

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez

753
40,830
6,796

12
643
106

(2.56070963x10
10

643
106
753
643
34,843
5,779
40,830
34,843
5,779
976
6,796
5,779

643
34,843
5,779

106
5,779
976

12
643
106

643
34,843
5,779

+ 2.525323601x10
10
+ 2.501139642x10
10
) (2.510006097x10
10
+ 2.514782127x10
10
+ 2.562360144x10
10
)
( 408081216 + 393885082 + 393885082 ) ( 39
1495948 + 400762092 + 403526224 )

Siguiendo el mismo procedimiento correspondiente para


y
tenemos los
coeficientes de regresin mltiple

Anlisis de regresin: Peso vs. Estatura; Edad en Minitab


La ecuacin de regresin es
Peso = 3,7 + 0,855 Estatura + 1,51 Edad
Coef.
de EE
16,17
0,4517
1,414

Predictor
Coef
Constante
3,65
Estatura 0,8546
Edad
1,506
S = 5,36321

R-cuad. = 70,9%

T
0,23
1,89
1,07

Anlisis de varianza

P
0,826
0,091
0,315

R-cuad.(ajustado) = 64,4%

Fuente
GL
Regresin
2
Error residual 9
Total
11

34

SC
629,37
258,88
888,25

CAPTULO 1

MC
F
P
314,69 10,94 0,004
28,76

Regresin lineal simple y mltiple

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Resultados en Excel
1.2.1. Pruebas de hiptesis en regresin lineal mltiple
Las hiptesis sobre los parmetros del modelo son equivalentes a las real
izadas para
regresin lineal simple, pero ahora son ms necesarias porque en regresin
mltiple
tenemos ms parmetros en el modelo; sin embargo, por lo general es necesario evalua
r
su verdadera contribucin a la explicacin de la respuesta. Tambin requerim
os de la
suposicin de que los errores se distribuyen en forma normal, independie
ntes, con
media cero y varianza

. Una consecuencia de esta suposicin es que


las observaciones
son:

.
La hiptesis global ms importante sobre un modelo de regresin mltiple
consiste en ver si la regresin es significativa. Esto se logra proband
o la siguiente
hiptesis:

Aceptar
significa que ningn trmino o variable en el modelo tiene una
contribucin significativa al explicar la variable de respuesta . Mientras que
rechazar
implica que por lo menos un trmino en el modelo contribuye de manera
significativa a explicar . El procedimiento para probar esta hiptesis
es una
generalizacin del procedimiento utilizado para probar la hiptesis equivale
nte en
regresin lineal simple.
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,841756673
Coeficiente de determinacin R^2 0,708554296
R^2 ajustado 0,643788584
Error tpico 5,363214691
Observaciones 12
ANLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crtico de
F
Regresin 2 629,3733536 314,6866768 10,9402688 0,003895018
Residuos 9 258,8766464 28,76407182
Total 11 888,25
Coeficientes Error tpico Estadstico t Probabilidad Inferior 95%
Intercepcin 3,651215805 16,16780562 0,22583249 0,82637676 -32,9229014
Estatura 0,854609929 0,451664156 1,892135824 0,0910251 -0,167125373
Edad 1,50633232 1,414265835 1,06509843 0,31457045 -1,692959262
Anlisis de los residuales
Observacin Pronstico Peso Residuos
1 64,41464032 -0,414640324
2 69,13652482 1,863475177
3 54,56509625 -1,565096251
4 73,20668693 -6,20668693
5 59,28698075 -4,28698075
6 56,9260385 1,073961499
7 65,71808511 11,28191489
8 58,22948328 -1,229483283
9 63,15425532 -7,154255319
10 48,58282675 2,417173252
11 73,85840932 2,141590679
12 65,92097264 2,079027356
Pruebas de hiptes
is en regresin lineal mltiple
35

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
El estadstico de prueba para la significancia del modelo de regresin li
neal
mltiple esta dado por:

(1.24)
que bajo
tiene una distribucin
. As, se rechaza
si

o tambin si

Ejemplo
Se probar la significacin de la regresin (con
los
pesos , estaturas y edades de la tabla 1.5

El valor de

utilizando los datos de

calculado por formula nos da un valor de


= 10,9402 ,por
comodidad observamos el resumen arrojado por Excel y/o Minitab

10,94
En tanto que el valor de encontrado en tablas cuando tenemos un nive
l de
significancia de 0,05 y 2 grados de libertad en el numerador y 9 en
el denominador el
cual es igual a 4,26

=
=

Se rechaza la Hiptesis nula


Dado que el valor encontrado en formula es mayor al punto crtico en
base al
nivel de significancia por lo que rechazamos la hiptesis nula y aceptamos la alte
rna lo
cual implica que por lo menos un trmino en el modelo contribuye de m
anera
significativa a explicar
Tabla 1.7 ANOVA para la significancia del modelo de regr
esin lineal mltiple
Fuente de
variacin
Suma de
cuadrados
Grados de

libertad
Cuadrado
medio

Regresin
Error o residuo
Total

n-1

36

CAPTULO 1

Regresin lineal simple y mltiple

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Anlisis de varianza en Minitab
Fuente
GL
Regresin
2
Error residual 9
Total
11

SC
629,37
258,88
888,25

MC
F
P
314,69 10,94 0,004
28,76

Coeficiente de determinacin
El que un modelo sea significativo no necesariamente implica que sea
bueno en
trminos de que explique la variacin de los datos. Por ello es importan
te tener
mediciones adicionales de la calidad del ajuste del modelo, como las
grficas de
residuales y el coeficiente de determinacin. Con la informacin del anlisis de varia
nza
de la tabla 1.7 es muy sencillo calcular el coeficiente de determinac
in
, y el
coeficiente de determinacin ajustado
:

(1.25)

(1.26)
Ambos coeficientes se interpretan de forma similar al caso de regresin
lineal
simple, es decir, como el porcentaje de variabilidad de los datos que son explic
ados por
el modelo. Se cumple que

; en general, para hablar de un modelo que


tiene un ajuste satisfactorio es necesario que ambos coeficientes tenga
n valores
superiores a 0,7. Cuando en el modelo hay trminos que no contribuyen
de manera
significativa a ste, el
tiende a ser menor que el
. Por lo tanto, es deseable
depurar el modelo y para ello las siguientes pruebas de hiptesis son de mucha uti
lidad.
Para los datos de la tabla 1.5 tenemos que

Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,841756673
Coeficiente de determinacin R^2 0,708554296
R^2 ajustado 0,643788584
Error tpico 5,363214691
Observaciones 12
ANLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crtico de
F
Regresin 2 629,3733536 314,6866768 10,9402688 0,003895018
Residuos 9 258,8766464 28,76407182
Total 11 888,25
Coeficientes Error tpico Estadstico t Probabilidad Inferior 95%
Intercepcin 3,651215805 16,16780562 0,22583249 0,82637676 -32,9229014
Estatura 0,854609929 0,451664156 1,892135824 0,0910251 -0,167125373
Edad 1,50633232 1,414265835 1,06509843 0,31457045 -1,692959262
Anlisis de los residuales
Observacin Pronstico Peso Residuos
1 64,41464032 -0,414640324
2 69,13652482 1,863475177
3 54,56509625 -1,565096251
4 73,20668693 -6,20668693
5 59,28698075 -4,28698075
6 56,9260385 1,073961499
7 65,71808511 11,28191489
8 58,22948328 -1,229483283
9 63,15425532 -7,154255319
10 48,58282675 2,417173252
11 73,85840932 2,141590679
12 65,92097264 2,079027356
Pruebas de hiptesi
s en regresin lineal mltiple
37
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
Coeficiente de correlacin mltiple
Es la raz cuadrada del coeficiente de determinacin

(1.27)
y es una medida de la intensidad de la relacin entre la variable dependiente, ,
y el
conjunto de variables o trminos en el modelo

Error estndar de estimacin

Al igual que en regresin lineal simple, el error estndar de estimacin proporciona l


a
medida del error de ajuste de un modelo, stas tienen una interpretacin similar a l
a que
se dio para el caso de regresin lineal simple. En cuanto al clculo en el caso mltip
le,
el error estndar de estimacin,

(1.28)
En el caso del ejemplo de los pesos, estatura y edades tenemos

1.2.2. Intervalos de confianza y prediccin en regresin mltiple


En los modelos de regresin mltiple con frecuencia es conveniente constru
ir
estimaciones de intervalos de confianza para los coeficientes de regres
in
. Por
ejemplo, a partir de la tabla 1.6 es claro que un estimador por int
ervalos de cada
coeficiente en lo individual est dado por:

(1.29)
Tabla 1.8 Anlisis de regresin mltiple
Parmetro Estimacin Error estndar Estadstico
Intercepcin

Valor-p

.
.

.
.

.
.

38

CAPTULO 1

Regresin lineal simple y mltiple

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez

Tambin es posible obtener un intervalo de confianza con respecto a la respuesta


media en un punto particular, digamos

est dado por:

Ejercicios de regresin lineal mltiple


13.- Por qu se requiere la regresin lineal mltiple?
14.- Se realizo un estudio para investigar la relacin de la resistencia al corte
del terreno
() con la profundidad en pies (
) y el contenido de humedad
. Se hicieron 10
observaciones, obtenindose las siguientes cantidades resumidas
,
,
,
,
,

,
,
y

a) Establezca las ecuaciones normales de mnimos cuadrados para el model


o

b) Estime los parmetros del modelo del inciso a)


c) Cul es la resistencia predicha cuando
pies y
?
15.- En una empresa dedicada a anodizar artculos de aluminio (bateras de
cocina), el
anodizado se logra con una solucin hecha a base de cidos (sulfrico, ctrico, brico) y
dicromato de aluminio. En este proceso se controla el pH de la solucin, la temper
atura,
la corriente y el tiempo de permanencia. Debido al poco grosor del a
nodizado, han
aumentado las quejas por la escasa resistencia y durabilidad del producto. Para
resolver
este problema se decide estudiar, mediante un experimento, la relacin d
el pH y la
temperatura con el grosor del anodizado. Los datos se muestran en la siguiente t
abla:
pH Temperatura Espesor
1,2
1,8
1,2
1,8
1,2
1,8
1,2
1,8
1,5

1,5
-8
-8
8
8
-8
-8
8
8
0
0
9
14
10
19
8
12
11
20
14
13
a) Cules son las variables independientes y cul la dependiente? Argumente
Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,841756673
Coeficiente de determinacin R^2 0,708554296
R^2 ajustado 0,643788584
Error tpico 5,363214691
Observaciones 12
ANLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crtico de
F
Regresin 2 629,3733536 314,6866768 10,9402688 0,003895018
Residuos 9 258,8766464 28,76407182
Total 11 888,25
Coeficientes Error tpico Estadstico t Probabilidad Inferior 95%
Intercepcin 3,651215805 16,16780562 0,22583249 0,82637676 -32,9229014
Estatura 0,854609929 0,451664156 1,892135824 0,0910251 -0,167125373
Edad 1,50633232 1,414265835 1,06509843 0,31457045 -1,692959262
Anlisis de los residuales
Observacin Pronstico Peso Residuos
1 64,41464032 -0,414640324
2 69,13652482 1,863475177
3 54,56509625 -1,565096251
4 73,20668693 -6,20668693
5 59,28698075 -4,28698075
6 56,9260385 1,073961499
7 65,71808511 11,28191489
8 58,22948328 -1,229483283
9 63,15425532 -7,154255319
10 48,58282675 2,417173252
11 73,85840932 2,141590679
12 65,92097264 2,079027356
Intervalos de confianza y predicc
in en regresin mltiple
39
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez

b) Ajuste un modelo del tipo

y anote la
ecuacin del modelo ajustado
c) A partir del modelo ajustado, cul es el espesor estimado cuando se
utiliza un
pH = 2 y una temperatura de 10 grados?
d) El modelo es adecuado? Argumente con base en graficas de residuos,
pruebas
de hiptesis y coeficientes de determinacin.
16.- Se realiz un experimento para estudiar el sabor del queso panela en funcin d
e la
cantidad del cuajo y la sal. La variable de respuesta observada es e
l sabor promedio
reportado por un grupo de cinco panelistas que probaron todos los que
sos y los
calificaron en una escala hednica. Los datos obtenidos se muestran a continuacin:
Sal Cuajo Sabor
6
5,5
4,5
4
4,5
5,5
5
5
0,3
0,387
0,387
0,3
0,213
0,213
0,3
0,3
5,67
7,44
7,33
6,33
7,11
7,22
6,33
6,66
a) Ajuste el modelo

b) El modelo explica la variacin observada en el sabor? Argumente con


base en la
significancia del modelo, los residuales y el coeficiente de determinacin.
c) Ajuste un modelo que incluya trminos cuadrticos y analice con detalle la c
alidad del
ajuste aplique las pruebas de hiptesis
d) Compare el error estndar de estimacin (
y los coeficientes de determinacin
(

) para ambos modelos


e) Cul modelo prefiere para explicar el sabor?
17.- Se piensa que la energa elctrica consumida mensualmente por una planta qumica
se relaciona con la temperatura ambiente promedio (
, el nmero de das laborales del
mes (
, la pureza promedio del producto
y las toneladas del producto producidas
. Se cuenta con los datos del ltimo ao, los cuales se presentan en l
a tabla
siguiente:

240
236
290
274
301

316
300
296
267
276
288
261
25
31
45
60
65
72
80
84
75
60
50
38
24
21
24
25
25
26
25
25
24
25
25
23
91
90
88
87
91
94
87
86
88
91
90
89
100
95
110
88
94
99
97
96
110
105
100
98
a) Ajuste un modelo de regresin lineal mltiple a estos datos
40
CAPTULO 1
Regresin lineal simple y mltiple

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
b) Prediga el consumo de electricidad para un mes en el que
,
das
y
toneladas
c) Calcule
para este modelo. Interprete esta cantidad
d) Grafique los residuales contra . Interprete la grafica
1.2.3. Uso de un software estadstico
Para capturar la tabla de datos para el anlisis de regresin lineal
ml
tiple,
primeramente capturamos los datos en la hoja de clculo,
posteriormente
activamos
Datos seguido de Anlisis de datos y seleccionamos Regresin, y aceptar
Datos

Anlisis de datos

Regresin

En la ventana de captura se solicitar el rango de celdas donde se encuentran los


datos para la variable dependiente
Rango de entrada
y para la(s)
variable(s)
regresora(s)
Rango de entrada (para los datos de X1 y X2, se somb
rean ambos
simultneamente con el ratn, en este caso a partir de la columna 2)

Uso de software estadstico

41

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Activamos
la casilla de rtulos,
por default est indicado en una hoj
a nueva,
seleccionamos adems cualquiera de las opciones de residuos, grafica de residua
les, y
curva de regresin ajustada y aceptar y tendremos el resultado.

Utilizando Minitab
En Minitab la secuencia de captura para la regresin lineal simple o mltiple en la
hoja
de clculo una vez capturada las columnas de datos seleccionamos Estadsti
cas luego
Regresin seguida de Regresin nuevamente

Estadsticas

Regresin

Regresin

De la ventana desplegada en respuesta indicamos la variable de respues


ta, en
este caso es resistencia y en predictor indicamos porcentaje de fibra activand
o tambin
cualquiera de las opciones posibles, terminando en aceptar.

Resumen
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,841756673
Coeficiente de determinacin R^2 0,708554296
R^2 ajustado 0,643788584
Error tpico 5,363214691
Observaciones 12
ANLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crtico de
F
Regresin 2 629,3733536 314,6866768 10,9402688 0,003895018
Residuos 9 258,8766464 28,76407182
Total 11 888,25
Coeficientes Error tpico Estadstico t Probabilidad Inferior 95% Superior 95% Infer
ior 95,0% Superior 95,0%
Intercepcin 3,651215805 16,16780562 0,22583249 0,82637676 -32,92290147 40,2253330
8 -32,92290147 40,22533308
Estatura 0,854609929 0,451664156 1,892135824 0,0910251 -0,167125376 1,876345234
-0,167125376 1,876345234
Edad 1,50633232 1,414265835 1,06509843 0,31457045 -1,692959268 4,705623908 -1,69
2959268 4,705623908
42
CAPTULO 1
Regresin lineal simple y mltiple
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
Nota: De la ventana de captura aparecen automticamente en el cuadro de
la izquierda
la informacin de la tabla, en respuesta , se indica con un clic del
ratn en peso y este
automticamente se manifiesta, en predictores de igual manera se da un clic a cada
uno
y estos se manifiestan en el recuadro.
Anlisis de regresin: Peso vs. Estatura; Edad
La ecuacin de regresin es
Peso = 3,7 + 0,855 Estatura + 1,51 Edad
Coef.
Predictor
Coef de EE
T
P
Constante
3,65 16,17 0,23 0,826
Estatura 0,8546 0,4517 1,89 0,091
Edad
1,506 1,414 1,07 0,315

S = 5,36321

R-cuad. = 70,9%

R-cuad.(ajustado) = 64,4%

Anlisis de varianza
Fuente
GL
SC
MC
F
P
Regresin
2 629,37 314,69 10,94 0,004
Error residual 9 258,88 28,76
Total
11 888,25
Fuente
GL SC sec.
Estatura 1 596,74
Edad
1
32,63
Observaciones poco comunes
Obs Estatura Peso Ajuste
7
55,0 77,00 65,72

Ajuste
Residuo
SE Residuo estndar
1,96
11,28
2,26R

R denota una observacin con un residuo estandarizado grande.

Regresin no lineal

43

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
1.3. Regresin no lineal
Si las dos variables X
recta, se habla de
regresin lineal simple

y Y

se relacionan segn un modelo de lnea

Cuando las variables X y Y se relacionan segn una lnea curva, se habl


a de
regresin no lineal o curvilnea. Aqu se puede distinguir entre regresin pa
rablica,
exponencial, potencial etc.
Supongamos que al hacer la representacin grfica correspondiente la
distribucin bidimensional, hemos obtenido la figura 6.1c. Se observa una clara re
lacin
entre las dos variables, pero desde luego, esa relacin no es lineal.
Por tanto, debemos buscar la funcin que ha de describir la dependencia
entre
las dos variables.
Nos limitaremos al estudio de las ms utilizadas: la funcin parablica, la
logartmica, la exponencial y la potencial.

Parbola de Regresin
En muchos casos, es una funcin de segundo grado la que se ajusta lo
suficiente a la
situacin real dada.
La expresin general de un polinomio de 2 grado es:

donde a, b y c son los parmetros.


El problema consiste, por tanto, en determinar dichos parmetros para un
a
distribucin dada. Seguiremos para ello, un razonamiento similar al que
hicimos en el
caso del modelo de regresin lineal simple, utilizando el procedimiento de ajuste
de los
mnimos cuadrados, es decir, haciendo que la suma de los cuadrados de las desviaci
ones
con respecto a la curva de regresin sea mnima:

donde, siguiendo la notacin habitual, y


i
son los valores observados de la variable
dependiente, e los valores estimados segn el modelo; por tanto, podemos escrib
ir D
de la forma:

44

CAPTULO 1

Regresin lineal simple y mltiple

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Para encontrar los valores de a, b y c que hacen
nterior,
deberemos igualar las derivadas parciales de D con respecto
cero
y resolver el sistema resultante. Las ecuaciones que
ema se conocen
como ecuaciones normales de Gauss (igual que en el
in lineal
simple).

mnima la expresin a
a dichos parmetros a
forman dicho sist
caso de la regres

Funcin Exponencial, Potencial y Logartmica


El problema de ajustar un modelo potencial, de la forma
y uno exponencial
se reduce al de la funcin lineal, con solo tomar logaritmos.
Modelo potencial:
Si tomamos logaritmos en la expresin de la funcin potencial, obtendremos:

Como vemos es la ecuacin de una recta:


, donde ahora .
De modo que el problema es sencillo, basta con transformar Y en y X en y
ajustar una recta a los valores transformados. El parmetro b del model
o potencial
coincide con el coeficiente de regresin de la recta ajustada a los datos transfor
mados, y
A lo obtenemos mediante el antilog(a).
Modelo exponencial:
Tomando logaritmos en la expresin de la funcin exponencial, obtendremos:

Tambin se trata de la ecuacin de una recta


, pero ahora
ajustndola a
y a X; de modo que, para obtener el parmetro A del m
odelo
exponencial, basta con hacer antilog(a), y el parmetro B se obtiene tomando antil
og(b).
Modelo logartmico:
La curva logartmica Y = a + b es tambin una recta, pero en lugar de
estar
referida a las variables originales X e Y, est referida a y a Y.
Hemos visto, cmo, a pesar de ser inicialmente modelos mucho ms complejo
s
que el de una recta, estos tres ltimos se reducen al modelo lineal s
in ms que
transformar adecuadamente los datos de partida.
45

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Captulo 2
Diseo de experimentos de un factor

2.1.
2.2.
2.3.
2.4.
2.5.
2.6.

46

Familia de diseos para comparar tratamientos


El modelo de efectos fijos
Diseo completamente aleatorio y ANOVA
Comparaciones o pruebas de rangos mltiples
Verificacin de los supuestos del Modelo
Uso de un software estadstico

CAPTULO 2

Diseo de experimentos de un factor

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Competencias
1. Identificar dentro de la familia de los diseos experimentales, aquel
los
utilizados en la comparacin de tratamientos.
2. Diferenciar los distintos modelos estadsticos y los anlisis de varian
zas en
experimentos con un slo factor.
3. Realizar las diversas pruebas de rangos mltiples y la comparacin por
contrastes.
4. Verificar los supuestos del modelo estadstico en diseos con un solo factor.
Experimentos con un solo factor
En este tipo de diseo de experimento se considera un slo factor de inters y
el objetivo es comparar ms de dos tratamientos, con el fin de elegir
la mejor
alternativa entre las varias que existen, o por lo menos para tener
una mejor
comprensin del comportamiento de la variable de inters en cada uno de
los distintos
tratamientos.

En esta unidad se presentan los diseos experimentales que se utilizan cuando el


objetivo es comparar ms de dos tratamientos. Puede ser de inters comparar tres o ms
mquinas, varios proveedores, cuatro procesos, tres materiales, cinco dosi
s de un
frmaco, etc.
Es obvio que, al hacer tales comparaciones, existe un inters y un objetivo clar
o.
Por ejemplo, una comparacin de cuatro dietas de alimentacin en la que
se utilizan
ratas de laboratorio, se hace con el fin de estudiar si alguna dieta
que se propone es
mejor o igual que las que ya existentes; en este caso, la variable
de inters es el peso
promedio alcanzado por cada grupo de animales despus de ser alimentado con la die
ta
que le toco.
Por lo general, el inters del experimentador est centrado en comparar
los
tratamientos en cuanto a sus medias poblacionales, sin olvidar que tam
bin es
importante compararlos con respecto a sus varianzas. As, desde el punto
de vista
estadstico, la hiptesis fundamental a probar cuando se comparan varios t
ratamientos
es:

(2.1)
Con la cual se quiere decidir si los tratamientos son iguales estadsticamente
en
cuanto a sus medias, frente a la alternativa de que al menos dos de ellos son di
ferentes.
La estrategia natural para resolver este problema es obtener una mue
stra
representativa de mediciones en cada uno de los tratamientos, y construir un est
adstico
de prueba para decidir el resultado de dicha comparacin
Se podra pensar que una forma de probar la hiptesis nula de la expresin (2.1)
es mediante la prueba T de Student aplicadas a todos los posibles pares de me
dias; sin
embargo, esta manera de proceder incrementara de manera considerable el error t
ipo I

(rechazar
siendo verdadera).
Experimentos con un solo factor

47

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Ejemplo
En el caso de comparar
un
operador diferente y se
tado,
entonces, es claro que
se quiere
comparar a las mquinas de

varias mquinas, si cada mquina es manejada por


sabe que ste tiene una influencia en el resul
el factor operador debe tomarse en cuenta si
manera justa.

Un operador ms hbil puede ver a su mquina (aunque sta sea la peor) com
o la
que tiene el mejor desempeo, lo que impide una comparacin adecuada de
los equipos. Para evitar este sesgo habra dos maneras de anular el po
sible
efecto del factor operador:
- Utilizando el mismo operador en las cuatro mquinas. Esta estrategia
no es
aconsejable, ya que al utilizar el mismo operador, se elimina el efec
to
del factor operador, pero restringe la validez de la comparacin a dicho
operador, y es posible que el resultado no se mantenga al utilizar o
tros
operadores.
- Cada operador trabaje durante el experimento con cada una de las mq
uinas,
esta estrategia es ms recomendable, ya que al utilizar todos los operadores con
todas las mquinas permite tener resultados de la comparacin que son
vlidos para todos los operadores. Esta ltima de manera nulificar el efe
cto de
operadores, recibe el nombre de Bloqueo.
Factores de bloqueo.
Son factores adicionales al factor de inters que se incorporan de mane
ra explcita
en un experimento comparativo, para estudiar de manera ms adecuada y eficaz al
factor de inters.
Observacin. Cuando se comparan varias mquinas, manejadas por operadores
diferentes, es pertinente incluir explcitamente al factor operadores (bloques) pa
ra lograr
el propsito del estudio. Tambin se podran controlar el tipo de material, lotes,
tipo
de producto, da, turno, etc. Se controlan factores que por conocimiento
del
proceso o experiencia previa, se sabe que pueden afectar en forma sensible el re
sultado
de la comparacin

En el campo de la industria es frecuente hacer experimentos o pruebas


con la
intencin de resolver un problema o comprobar una idea (conjetura, hiptes
is); por
ejemplo, hacer algunos cambios en los materiales, mtodos o condiciones de operac
in
de un proceso, probar varias temperaturas en una mquina hasta encontrar la que
de el
mejor resultado o crear un nuevo material con la intencin de lograr mejoras o eli
minar
algn problema.
Sin embargo, es comn que estas pruebas o experimentos se hagan sobre
la
marcha, con base en el ensayo y error, apelando a la experiencia y
a la intuicin, en
lugar de seguir un plan experimental adecuado que garantice una buena respuesta
a las
interrogantes planteadas. Algo similar ocurre con el anlisis de los dat
os
experimentales, donde ms que hacer un anlisis riguroso de toda la infor
macin
obtenida y tomar en cuenta la variacin, se realiza un anlisis informal, intuitivo Es
tal
el poder de la experimentacin que, en ocasiones, se logra mejoras a p
esar de que el
experimento se hizo con base en el ensayo y error. Sin embargo, en situaciones d
e cierta
48
CAPTULO 2
Diseo de experimentos de un factor
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
complejidad no es suficiente aplicar este tipo de experimentacin, por lo
que es mejor
proceder siempre en una forma eficaz que garantice la obtencin de las respuestas
a las
interrogantes planteadas en un lapso corto de tiempo y utilizando pocos recursos
.
El diseo estadstico de experimentos es precisamente la forma ms eficaz
de
hacer pruebas. El diseo de experimentos consiste en determinar cules pru
ebas se
deben realizar y de qu manera, para obtener datos que, al ser analiza
dos
estadsticamente, proporcionen evidencias objetivas que permitan responder
las
interrogantes planteadas, y de esa manera clarificar los aspectos inciertos de u
n proceso,
resolver un problema o lograr mejoras. Algunos problemas tpicos que pue
den
resolverse con el diseo y el anlisis de experimentos son los siguientes:
1. Comparar a dos o ms materiales con el fin de elegir al que mejor
cumple los
requerimientos.
2. Comparar varios instrumentos de medicin para verificar si trabajan c
on la
misma precisin y exactitud.
3. Determinar los factores (las x vitales) de un
proceso que tienen

impacto sobre
una o ms caractersticas del producto final.
4. Encontrar las condiciones de operacin (temperatura, velocidad, humedad
, por
ejemplo) donde se reduzcan los defectos o se logre un mejor desempeo
del
proceso.
5. Reducir el tiempo de ciclo del proceso.
6. Hacer el proceso insensible o robusto a oscilaciones de variables ambientale
s.
7. Apoyar el diseo o rediseo de nuevos productos o procesos
8. Ayudar a conocer y caracterizar nuevos materiales.
En general, cuando se requiere mejorar un proceso existen dos maneras
bsicas
de obtener la informacin necesaria para ello:
- Observar o monitorear va herramientas estadsticas, hasta obtener seales
tiles que permitan mejorarlo; se dice que sta es una estrategia pasiva.
- La otra manera consiste en experimentar, es decir, hacer cambios
estratgicos y deliberados al proceso para provocar dichas seales tiles.
Al analizar los resultados del experimento se obtienen las pautas a s
eguir, que
muchas veces se concretan en mejoras sustanciales del proceso. En este
sentido,
experimentar es mejor que sentarse a esperar a que el proceso nos in
dique por s solo
cmo mejorarlo. El diseo de experimentos es un conjunto de tcnicas activa
s, en el
sentido de que no esperan que el proceso mande las seales tiles, sino
que ste se
manipulan para que proporcione la informacin que se requiere para su mejora.
El saber diseo de experimentos y otras tcnicas estadsticas, en combinacin
con conocimientos del proceso, sitan al responsable del mismo como un
observador
perceptivo y proactivo que es capaz de proponer mejoras y de observar algo inter
esante
(oportunidades de mejora) en el proceso y en los datos donde otra persona no ve
nada.
Nota. Comentarles la ancdota de las naranjas
Experimentos con un solo factor

49

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
2.1. Familia de diseos para comparar tratamientos.
Los diseos experimentales ms utilizados para comparar tratamientos son:
1. Diseo completamente al azar (DCA)
2. Diseo en bloque completamente al azar (DBCA)
3. Diseo en cuadro latino (DCL)
4. Diseo en cuadro grecolatino (DCGL)

La diferencia fundamental entre estos diseos es el nmero de factores de


bloque que
incorporan o controlan de forma explcita durante el experimento. La com
paracin de
los tratamientos en cuanto a la respuesta media que logran, en cualqu
iera de estos
diseos, se hace mediante la hiptesis

que se prueba con la tcnica estadstica llamada Anlisis de Varianza


(AN
OVA)
con uno, dos, tres o cuatro criterios de clasificacin, dependiendo del nmero
de factores de bloques incorporados al diseo.
Diseo Factores de
bloqueo
ANOVA
con Modelo estadstico
DCA 0 Un criterio

DBCA 1 Dos criterios

DCL 2 Tres criterios

DCGL 3 Cuatro criterios

Y es la variable de salida,

la media global,

el efecto del i-simo tratamiento,


error aleatorio, y
,

son los efectos de tres factores de bloqueo.


El modelo estadstico que describe el comportamiento de la variable obse
rvada
Y en cada diseo, incorpora un trmino adicional por cada factor de bloq
ueo
controlado.
De acuerdo con los modelos dados en la tabla, para cada diseo
comparativo se tienen al menos dos fuentes de variabilidad: los tratamientos o
niveles
del factor de inters y el error aleatorio. Se agrega una nueva fuente de variabil
idad por
cada factor de bloque que se controla directamente. Se observa que los diseos sup
onen
que no hay efectos de interaccin entre los factores, lo cual sera lo
deseable
que ocurra; de no ocurrir as, tal efecto se recarga al error y el p
roblema de
comparacin no se resuelve con xito.
Un efecto de interaccin entre dos factores hace referencia a que el efecto
de cada factor depende del nivel en que se encuentra el otro.

50

CAPTULO 2

Diseo de experimentos de un factor

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez

2.2. El modelo de efectos fijos


El modelo de efectos fijos (es cuando se estudian todos los posibles
tratamientos) de
anlisis de la varianza se aplica a situaciones en las que el experimentador ha so
metido
al grupo o material analizado a varios factores, cada uno de los cuales le afect
a slo a la
media, permaneciendo la "variable respuesta" con una distribucin normal.
Este modelo se supone cuando el investigador se interesa nicamente por los nivele
s del
factor presentes en el experimento, por lo que cualquier variacin obser
vada en las
puntuaciones se deber al error experimental.
En caso que los tratamientos tengan efecto, las observaciones
se podrn
describir con el modelo estadstico lineal dado por:

(2.2)
donde es el parmetro de escala comn a todos los tratamientos, llamado
media
global,
; es un parmetro que mide el efecto del tratamiento

es el error
atribuible a la medicin
. Este modelo implica que en el diseo completamente al
azar actuaran a lo ms dos fuentes de variabilidad: Los tratamientos y el error ale
atorio.
La media global de la variable de respuesta no se considera una fuente de varia
bilidad
por ser una constante comn a todos los tratamientos, que hace las vec
es de punto de
referencia con respecto al cual se comparan las respuestas medias de los tratami
entos.
Si la respuesta media de un tratamiento particular
es muy diferente de la
respuesta media global , es un sntoma de que existe un efecto de dicho tratamient
o, ya
que como se ver ms adelante,

. La diferencia que debe tener las medias


entre s para concluir que
hay un efecto (que los tratamientos son d
iferentes), nos lo
dice el anlisis de varianza (ANOVA).
En la prctica puede suceder que los tratamientos que se desea compar
ar sean
demasiados como para experimentar con todos. Cuando esto sucede es con
veniente

comparar slo una muestra de la poblacin de tratamientos, de modo que


pasa a ser
una variable aleatoria con su propia varianza
que deber estimarse a partir de los
datos. En este captulo slo se presenta el caso en que todos los trata
mientos que se
tienen se prueban, es decir, se supone una poblacin pequea de tratamien
tos, lo cual
hace posible compararlos a todos. En este caso, el modelo dado por la ecuacin (2.
2) se
llama modelo de efectos fijos.

2.3. Diseo completamente al azar y ANOVA


Muchas comparaciones, como las antes mencionadas, se hacen con base en
el diseo
completamente al azar (DCA), que es el ms simple de todos los diseos que se utiliz
an
para comparar dos o ms tratamientos, dado que slo consideran dos fuente
s de
Diseos completamente al azar y ANOVA

51

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
variabilidad: los tratamientos y el error aleatorio. En la siguiente u
nidad veremos
diseos que consideran la influencia de otras fuentes de variabilidad (bloques).
Este diseo se llama completamente al azar porque todas las corridas
experimentales se realizan en orden aleatorio completo. De esta manera,
si durante el
estudio se hacen en total N pruebas, stas se corren al azar, de manera que los po
sibles
efectos ambientales y temporales se vayan repartiendo equitativamente en
tre los
tratamientos.
Ejemplo 1
Comparacin de cuatro mtodos de ensamble. Un equipo de mejora investiga
el
efecto de cuatro mtodos de ensamble A, B, C y D, sobre el tiempo de
ensamble en
minutos con un nivel de significancia de 0.05. En primera instancia,
la estrategia
experimental es aplicar cuatro veces los cuatro mtodos de ensamble en
orden
completamente aleatorio (las 16 pruebas en orden aleatorio). Los tiempos
de ensamble
obtenidos se muestran en la tabla 2.1. Si se usa el diseo completamente al azar (
DCA),
se supone que, adems del mtodo de ensamble, no existe ningn otro factor que influya
de manera significativa sobre la variable de respuesta (tiempo de ensamble)

Tabla 2,1 Diseo completamente al azar


para el ejemplo 1
Mtodo de ensamble
A B C D
6
8
7
8
7
9
10
8
11
16
11
13
10
12
11
9

Ejemplo 2
Comparacin de cuatro tipos de cuero. Un fabricante de calzado desea me
jorar la
calidad de las suelas, las cuales se pueden hacer con uno de los cuatro tipos de
cuero A,
B, C y D disponibles en el mercado. Para ello, prueba los cueros con una mquin
a que
hace pasar los zapatos por una superficie abrasiva; la suela de stos
se desgasta al
pasarla por dicha superficie. Como criterio de desgaste se usa la prdi
da de peso
despus de un nmero fijo de ciclos. Se prueban en orden aleatorio 24 zapatos, sei
s de
cada tipo de cuero. Al hacer las pruebas en orden completamente al a
zar se evitan
sesgos y las mediciones en un tipo de cuero resultan independientes de las
dems. Los
datos (en miligramos) sobre el desgaste de cada tipo de cuero se muestran en la
tabla 2.2
Tabla 2,2
entos)
Tipo de cuero Observaciones
A
B
C
D
264 260 258 241 262
208 220 216 200 213
220 263 219 225 230
217 226 215 227 220
256,7
209,8
230,8
220,7

Comparacin de cuatro tipos de cuero (cuatro tratami


Promedio

255
206
228
222

52

CAPTULO 2

Diseo de experimentos de un factor

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
El anlisis de la varianza de un criterio (ANOVA de un criterio) es u
na
metodologa para analizar la variacin entre muestras y la variacin al int
erior de las
mismas con varianzas, en lugar de rangos. Como tal, es un mtodo estadstico til par
a
comparar dos o ms medias poblacionales.
El objetivo del anlisis de varianza en el DCA es probar las hiptesis
de
igualdad de los tratamientos con respecto a la media de la correspond
iente variable de
respuesta:

Nota: Primeramente explicare el clculo manual tradicional para ANOVA,


posteriormente el simplificado y ms prctico, as como su solucin utilizando
un
paquete computacional.
El mtodo de ANOVA con un criterio requiere del clculo de dos estimaciones
independientes para
, la varianza poblacional comn. Estas dos estimaciones se
denotan por
y
.

. Se denomina estimacin de la varianza entre muestras (Mtodo entre)

. Se denomina estimacin de la varianza al interior de las muestras (Mtodo dentro)


El estadstico entonces resulta

y tiene una distribucin muestral que sigue


una distribucin F.
Estadstico F para el ANOVA con un criterio

(2,3)
El cual se contrastara con el valor de encontrado en tablas en relac
in a los
grados de libertad del numerador entre grados de libertad del denomina
dor y con un
nivel de significancia () prefijado.
Se rechaza la
si

Se deduce que si
es grande, se contradice la hiptesis de que no hay efectos
de tratamientos; en cambio, si
es pequeo se confirma la validez de

Mtodo dentro
El mtodo dentro de estimacin de la varianza produce una estimacin vlida
sin
importar si la hiptesis nula de las medias poblacionales iguales es cierta. Esto
se debe a
que la variabilidad de los valores de la muestra se determina comparando cada el
emento
Diseos completamente al azar y ANOVA
Instituto Tecnolgico de Ensenada

53

Biol. Ral Jimnez Gonzlez


en los datos con
acin A
se compara con
lacin B se
compara con la
alcular la
estimacin de la

la media muestral. Cada valor de la muestra obtenido de la pobl


la media muestral A; cada elemento obtenido de la pob
media muestral B, y as sucesivamente. La ecuacin para c
varianza con el mtodo dentro es:

donde:
(2,4)
= Estimacin de la varianza muestral con el mtodo entre.
= i-simo elemento de los datos de grupo j.
= media del grupo j
- C = nmero de grupos
- n = nmero de elementos de la muestra en cada grupo.
El nmero adecuado de grados de libertad para el mtodo dentro se calcula como
c(n-1) si el nmero de observaciones en cada grupo es igual. Como a cada elemento
del
grupo se le resta la media de ese grupo, slo (n-1) elementos de cada
grupo pueden
variar. Adems como se tienen c grupos, c se multiplica por (n-1) para
obtener los
grados de libertad para el mtodo dentro.
Grados de libertad para

gl
w
= C(n 1)
Mtodo entre

El segundo mtodo para estimar la varianza comn de la poblacin produce u


na
estimacin vlida slo si la hiptesis nula es cierta. Para entender el mtodo
entre
recuerde el teorema del lmite central. Este importante teorema en estadstica esta
blece
que la distribucin de las medias muestrales tiende a una distribucin normal confor
me
crece el tamao de la muestra, con una media y una desviacin estndar o
\n. Si el
error estndar de la media es o\n, entonces la varianza de la distribu
cin es igual al
error estndar al cuadrado, o
2
\n.
Esta varianza es una medida de las diferencias entre todas las medias muestral
es
que puedan obtenerse de la distribucin y la media de la poblacin. La raz cuadrada d
e
esta varianza es el error estndar de la media, es decir, la diferencia estndar
entre una
media muestral y la media poblacional.
En ANOVA, para estimar la varianza de la distribucin muestral de
medias, se debe estimar primero la media poblacional. La media de tod
os los valores
muestrales proporciona esa estimacin. Despus, se determina la diferencia
entre la
media de cada grupo y esta media poblacional estimada, y estas diferencias se el
evan al
cuadrado y se suman. Este valor, con frecuencia se llama la suma de
cuadrados entre
(SC
b
). Esta suma se divide entonces entre el nmero adecuado de grados de
libertad
para obtener la estimacin de la varianza de la distribucin muestral. La
ecuacin
siguiente da el clculo de la estimacin de la varianza de la distribucin muestral de
las
medias:
54

CAPTULO 2

Diseo de experimentos de un factor

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez

donde:
(2,5)
= Estimacin del mtodo entre de la varianza poblacional comn.
= media del grupo j.
= media global (media de todos los valores), usada como estimacin de .
- C = nmero de grupos
- n = nmero de elementos de la muestra en cada grupo si el nmero de
observaciones en cada uno es el mismo.
Grados de libertad para

gl
b
= (C 1)
Tabla ANOVA
Los resultados del anlisis de varianza se presentan en una tabla ANOVA
que
resume los valores importantes de la prueba. Esta tabla tiene un form
ato estndar que
usan los libros y los problemas de computadora que ejecutan ANOVA. La
siguiente
tabla muestra la forma general de la tabla ANOVA.
En dicha tabla se resumen los clculos necesarios para la prueba de igualdad de
las
medias poblacionales usando anlisis de varianza. Primero se usa el mtodo dentro pa
ra
estimar o
2
. Cada valor de los datos se compara con su propia media, y la sum
a de las
diferencias al cuadrado se divide entre los grados de libertad c(n-1).
Fuf fFuente de
variacin
SC GL Estimacin de
o
2
Coeficiente F
Grupos Entre

2
c - 1
/ gl
b
S S
/

Grupos Dentro

2
c(n-1)
/ gl
b
Total ( x
ij
x )
2

donde:
=
- i =
- c =
- n =

Nmero
Nmero
Nmero
Nmero

de
de
de
de

la columna
la fila
columnas (grupos)
elementos en cada grupo (tamao de la muestra)

La tabla ANOVA contiene columnas con las fuentes de variacin, las suma
s de
cuadrados, los grados de libertad, las estimaciones de la varianza y
el valor F para el
procedimiento de anlisis de varianza.

Retomando el problema del efecto de cuatro mtodos de ensamble A, B, C y D,


sobre el tiempo de ensamble en minutos tenemos:
Diseos completamente al azar y ANOVA
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
Mtodo de ensamble

55

A B C D
6
8
7
8
7
9
10
8
11
16
11
13
10
12
11
9
Media (
i
)

7,25

8,5

12,75
10,5
Media global :

= 9,73
C = 4,

= 4

n = 4

Completando la tabla ANOVA, quedando de la siguiente manera


Fuente de
Variacin
SC
gl Estimacin de o
2
Coeficiente F
--------------------------------------------------------------------------------------------------------Grupos entre
69,49
3
69,75/3 = 23,25
23,25/2
,45 = 9,42
Grupos dentro
29,48
12
29,48/12 = 2,45
----------------------------------------------------------- ---------------------------------------------TOTA
98,97
15
Como la hiptesis a probar es
H
0
:
1

2
=
3
=
4
H
1
:

No todas las poblaciones tienen la misma media

El valor de F calculado por tabla cuando tenemos un nivel de signifi


cancia de

0,05 y 3 grados de libertad en el numerador y 12 grados de libertad en el denom


inador
es
F
0,05
(3,12) = 3,49
Como nuestro estadstico de prueba F (9,42) excede el valor crtico tabul
ado
(3,49), rechazamos
la hiptesis nula y aceptamos la alterna, concluyend
o que
s hay
diferencia o efecto de los mtodos de ensamble en cuanto a su tiempo promedio.
56

CAPTULO 2

Diseo de experimentos de un factor

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Ahora veremos el procedimiento y notacin ms comnmente utilizado para la
solucin de ANOVA
Tabla 2.3 Diseo completamente al azar (DC
A)
Tratamientos

.
.
.
.

Notacin de puntos
Sirve para presentar de manera abreviada cantidades numricas que se pueden calcul
ar a
partir de los datos experimentales donde
representa la
observacin en el
tratamiento , con
y
. Las cantidades de inters son las
siguientes:
-

Note que el punto indica la suma sobre el correspondiente subndice. As,


algunas
relaciones vlidas son:

(2.6)
donde

es el total de observaciones.
ANOVA
Como ya lo mencionamos el objetivo del anlisis de varianza en el DCA
es probar la
hiptesis de igualdad de los tratamientos con respecto a la media de c
orrespondiente
variable de respuesta.
Para probar la hiptesis dada por la relacin:

mediante la tcnica de ANOVA, lo primero es descomponer la variabilidad total de


los
datos en sus dos componentes: la variabilidad debida a tratamientos y
la que
corresponde al error aleatorio (equivalente al mtodo entre y mtodo dentr
o), como se
hace a continuacin.
Una medida de la variabilidad total presente en las observaciones de la tabla 2.
3
es la suma total de cuadrados (
) dada por:
Diseos completamente al azar y ANOVA
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez

57

(2.7)
donde
es la suma de los

datos en el experimento.
La suma de cuadrados de tratamientos (
) sta dado por:

(2.8)
donde apreciamos que la
mide la variacin o diferencias entre tratamientos, ya
que si stos son muy diferentes entre s, entonces la diferencia

tender a ser
grande en valor absoluto, y con ello tambin ser grande la

La suma de cuadrados del error (


) sta dado por:

(2.9)
donde la
mide la variacin dentro de tratamientos, ya que si hay mucha variacin
entre las observaciones de cada tratamiento entonces

tender a ser grande en


valor absoluto. En forma abreviada, esta descomposicin de la suma total de cuadra
dos
se puede describir como:

(2.10)
La suma de cuadrados divididos entre sus respectivos grados de liber
tad se
llaman cuadrados medios. Los dos que ms interesan son el cuadrado medi
o de
tratamientos (
) y el cuadrado medio del error (
, que se denotan por:

(2.11)

(2.12)
Con base en este hecho se construye el estadstico de prueba como sigue: se sabe
que
y
son independientes, por lo que

son dos
variables son dos variables aleatorias independientes con distribucin jicuadrada con
y grados de libertad, respectivamente. Entonces, bajo el supuesto de que la
hiptesis
es verdadera, el estadstico

(2.13)
sigue una distribucin con ( grados de libertad en el numerador y (
)
grados de libertad en el denominador. De la ecuacin (2.13) se deduce
que si
es
grande, se contradice la hiptesis de que no hay efecto de tratamientos; en cambio
, si
58

CAPTULO 2

Diseo de experimentos de un factor

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
es pequeo se confirma la validez de
. As para un nivel de significancia prefijado,
se rechaza
si

donde
es el percentil ( ) x 100 de
la distribucin . Tambin se rechaza
si el valor-p , donde el valor-p es el rea
bajo la distribucin
a la derecha del estadstico
, es decir, el
)

Toda la informacin necesaria para calcular el estadstico


hasta llegar al
valor-p se escribe en la llamada tabla de anlisis de varianza (ANOVA) que se mues
tra en
la tabla 2.4. En esta tabla, las abreviaturas significan lo siguiente:
fuente de
variabilidad (efecto),
suma de cuadrados,
grados de libertad,
cuadrado medio,
estadstico de prueba, valor-p = significancia observada
Tabla 2.4 Tabla de ANOVA para DCA
SC GL CM
Valor-p
Tratamientos

Error
Total

)
Anlisis del ejemplo 1 (comparacin de cuatro tipos de mtodos de ensamble)
.
La interrogante que se plante en el problema de la comparacin entre los cuatro
tipos
de mtodos de ensamble fue: existen diferencias entre el tiempo promedio
de los
diferentes mtodos de ensamble? La respuesta a esta pregunta es el resu
ltado de
contrastar las hiptesis:

Clculos manuales
Detalles de los clculos para el ANOVA en DCA para el tiempo de ensamble
Mtodos de ensamble Operaciones bsicas
Observaciones
A B
C
D
6 7 11 10
8 9 16 12
7 10 11 11
8
8 13
9

Suma de los cuadrados de todas las observaciones o datos

=
suma de los datos

total de mediciones

media global
Total por
Tratamiento (
29 34 51 42
Numero de datos
En cada tratamiento (
4
4
4
Media muestral por
Tratamiento (

7.25
8.50
12.75
10.50
Desviaciones respecto -2.50 -1.25 3.0 0.75
A la media global (

Diseos completamente al azar y ANOVA

59

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
1.- Suma total de cuadrados o variabilidad total de los datos:

= 1620 -

2.- Suma de cuadrados de tratamientos o variabilidad debida a la dife


rencia entre
mtodos de ensamble:

3.- Suma de cuadrados del error o variabilidad dentro de mtodos de ensamble:

4.- Cuadrados medios de tratamientos y del error (efecto ponderado de


cada fuente de
variacin):

5.- Estadstico de prueba:

Con toda esta informacin se procede a llenar la tabla ANOVA. El val


or de la
significancia observada o valor-p es el rea bajo la curva de la distr
ibucin
a la
derecha de
, lo cual es difcil de calcular de forma manual. Sin embargo,
cuando esto no sea posible, recordemos que otra forma de rechazar o no una hiptes
is es
comparar el estadstico de prueba contra un nmero crtico de tablas. En el caso de
las
tablas de la distribucin , en donde se lee que el valor crtico para
es
. Como:

entonces se rechaza
, con lo cual se concluye que s hay diferencias o efecto de los
mtodos de ensamble en cuanto a su tiempo promedio
Tabla ANOVA
Fuente de
variaciones
SC GL CM
Valor
crtico
para F
Tratamientos 69,5 3 23,17 9,42 3,49

Error 29,5 12 2,46


Total 99,0 15
Resultados arrojados en un paquete computacional (Excel y Minitab), par
a el
ejemplo 1 de los tiempos de ensamble para los cuatro mtodos.
60
CAPTULO 2
Diseo de experimentos de un factor
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez

ANOVA unidireccional: A; B; C; D Minitab


Fuente GL
SC
MC
F
P
Factor 3 69,50 23,17 9,42 0,002
Error 12 29,50 2,46
Total 15 99,00
S = 1,568

Nivel
A
B
C
D

R-cuad. = 70,20%

N Media Desv.Est.
4 7,250
0,957
4 8,500
1,291
4 12,750
2,363
4 10,500
1,291

R-cuad.(ajustado) = 62,75%
ICs de 95% individuales para la media
basados en Desv.Est. agrupada
--------+---------+---------+---------+(------*------)
(------*------)
(------*------)
(------*------)
--------+---------+---------+---------+7,5
10,0
12,5
15,0

Desv.Est. agrupada = 1,568

Diagrama de cajas simultneos


Los diagramas de cajas es una herramienta
para describir el comporta
miento e unos
datos, y es de suma utilidad para comparar procesos, tratamientos y,
en general, para
hacer anlisis por estratos (lotes, proveedores, turnos). En el resultado
arrojado por
Minitab se observa en la figura (figura 2.1) que el mtodo C parece d
iferente al los
mtodos A y B en cuanto a sus medias; la media del mtodo D tambin se ve diferente
a la media del mtodo A. Por otra parte, se observa un poco ms de vari
abilidad en el
mtodo C que en todos los dems. Lo que sigue es verificar que lo que se observa en
el
diagrama de cajas implica diferencias significativas entre los distintos tratami
entos; por
lo tanto, es necesario hacer pruebas estadsticas porque los datos que se analizan
en los
diagramas de cajas son muestras.

Diseos completamente al azar y ANOVA

61

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
En general, cuando los diagramas no se traslapan es probable que lo
s
tratamientos correspondientes sean diferentes entre s, y la probabilidad es ma
yor en la
medida que los diagramas estn basados en ms datos. Cuando se traslapan
un poco
puede ser que haya o no diferencias significativas, y en cualquier ca
so es conveniente
utilizar una prueba estadstica para determinar cules diferencias son sign
ificativas.
Estas pruebas se vern en la siguiente seccin.
D C B A
17,5
15,0
12,5
10,0
7,5
5,0
D
a
t
o
s
Grfica de caja de A; B; C; D
Figura 2.1 Diagrama de cajas para los mtodos de ensamble
Anlisis del ejemplo 2 (comparacin de cuatro
se
plante en el problema de la comparacin
fue: existen
diferencias entre el desgaste promedio de
o? La respuesta a
esta pregunta es el resultado de contrastar las

tipos de cuero). La interrogante que


entre los cuatro tipos de cuero
los diferentes tipos de cuer
hiptesis:

En el resultado arrojado por Excel, se muestra el anlisis de varianza


para este
ejemplo. Como el valor-p = 0,0000 es menor que la significancia prefijada , se
rechaza
y se acepta que al menos un par de tipos de cuero tiene un desgas
te
promedio diferente
Anlisis de varianza de un factor en Excel
RESUMEN
Grupos Cuenta Suma Promedio Varianza
A 6 1540 256,6666667 68,6666667
B 6 1263 210,5 52,7
C 6 1385 230,8333333 266,966667
D 6 1327 221,1666667 22,9666667
ANLISIS DE VARIANZA
Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los c
uadrados F Probabilidad Valor crtico para F
Entre grupos 7019,458333 3 2339,819444 22,7553556 1,17615E-06 3,098391224
Dentro de los grupos 2056,5 20 102,825
Total 9075,958333 23
62
CAPTULO 2
Diseo de experimentos de un factor
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
ANOVA unidireccional: A; B; C; D Minitab
Fuente GL
Factor 3
Error 20
Total 23
S = 10,14

Nivel
A
B
C
D

N
6
6
6
6

SC
MC
F
P
7019 2340 22,76 0,000
2057 103
9076
R-cuad. = 77,34%

Media
256,67
210,50
230,83
221,17

R-cuad.(ajustado) = 73,94%

ICs de 95% individuales para la media


basados en Desv.Est. agrupada
Desv.Est. ----+---------+---------+---------+----8,29
(----*-----)
7,26 (-----*----)
16,34
(----*-----)
4,79
(----*-----)
----+---------+---------+---------+----208
224
240
256

Desv.Est. agrupada = 10,14


2.4. Comparaciones o pruebas de rangos mltiples
El anlisis de varianza es un procedimiento poderoso para probar la hom
ogeneidad de
un conjunto de medias. Sin embargo, si rechazamos la hiptesis nula (

) y aceptamos
la alterna (que no todas las medias son iguales) an no sabemos cules
de las medias
poblacionales son iguales y cules son diferentes.
Comparacin de parejas de medias de tratamientos.
Cuando no se rechaza la H
0
:
1
=
2
=
3
, el objetivo del experimento est cubierto y
la conclusin es que los tratamientos no son diferentes. Si por el con
trario se rechaza
H
0
, y por consiguiente se acepta la H
1
: No todas las poblaciones tienen la misma media,
es necesario investigar cules tratamientos resultaron diferentes, o cules
provocan la
diferencia.
Estas interrogantes se responden probando la igualdad de todos los p
osibles
pares de medias, para lo cual se han propuesto varios mtodos, conocido
s como
mtodos de comparaciones mltiples o pruebas de rango mltiple. La diferenci
a
primordial entre los mtodos radica en la potencia que tienen para dete
ctar las
diferencias entre las medias. Se dice que una prueba es ms potente si
es capaz de
detectar diferencias ms pequeas.
Hay varios mtodos estndar para realizar comparaciones pareadas que apoyen
la credibilidad de la tasa de error tipo I.
Mtodo de la diferencia mnima significativa de Fisher (mtodo LSD).
Una vez que se rechazo
en el ANOVA, el problema es probar la igualdad de todos
los posibles pares de medias con la hiptesis:
Compara
cin o pruebas de rangos mltiples
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez

63

para toda . Para tratamientos se tienen en total pares de medias. Por


ejemplo, si
existen
posibles pares de medias. El estadstico de prueba
para cada una de las hiptesis dadas es la correspondiente diferencia e
n valor absoluto
entre sus medias muestrales

. Se rechaza la hiptesis

si ocurre que

(2.14)
donde el valor de
se lee en las tablas de la distribucin T de student con
grados de libertad que corresponde al error, el
es el cuadrado medio del
error y se obtiene de la tabla ANOVA,
y

son el nmero de observaciones para los


tratamientos , respectivamente. La LSD se llama diferencia mnima significativa
de
Fisher, ya que es la diferencia mnima que debe existir entre dos medias muestrale
s para
considerar que los tratamientos correspondientes son significativamente diferent
es. As,
cada diferencia de medias muestrales que si el diseo es balanceado, es
decir, si

, la diferencia mnima significativa se reduce a:

(2.15)
En caso de rechazar
se acepta la hiptesis alternativa la cual nos dice que las
medias de los tratamientos
son diferentes. El mtodo LSD tiene una p
otencia
importante, por lo que en ocasiones declara significativas aun pequeas diferencia
s.
Ilustremos esta prueba continuando con el ejemplo 1, en el cual, con el ANOVA
se rechaz la hiptesis nula y se acept que al menos un par de medias de tratamien
tos
(mtodos de ensamble) son diferentes entre s. Para investigar cules pares
de medias
son estadsticamente diferentes se prueban los seis posibles pares de hiptesis:

(2.16)
Utilizando el mtodo de LSD. EN el ANOVA se observa que los grados de
libertad del error son

, y que el cuadrado medio del error es

. Si
usamos una significacin predefinida de , de la tabla de la distribucin
T de
64
CAPTULO 2
Diseo de experimentos de un factor
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
Student con 12 grados de libertad, se obtiene que
,
. Como
en cada tratamiento se hicieron

pruebas, entonces

La decisin sobre cada una de las seis hiptesis listadas arriba se ob


tiene al
comparar las correspondientes diferencias de medias muestrales en valor absoluto
con el
nmero LSD = 2,42. Se declaran significativas aquellas diferencias que s
on mayores a
este nmero. Los resultados se muestran en la tabla 2,5, de donde se
concluye que

mientras que

.
Tabla 2,5 Aplicacin de la prueba LSD a mtodos de ensamble
Diferencia
poblacional
Diferencia muestral
en valor absoluto
Decisin

7,25 - 8,50 = 1.25 2,42


7,25 12,75 = 5,50 2,42
7,25 10,50 = 3,25 2,42
8,50 12,75 = 4,25 2,42
8,50 10,50 = 2 2,42
12,75 10,50 = 2,25 2,42
No significativo
Significativo
Significativo
Significativo
No significativo
No significativo
En el resultado de comparacin de parejas arrojado por minitab, por el
mtodo

de LSD, observamos que este nos indica los


ra las
comparaciones de cada par de muestras, por
unto medio de
cada comparacin (centro) y contrastarlo con
e student
obtenido en tablas (2,42) y tomar la decisin que

intervalos de confianza pa
lo que debemos tomar el p
el valor del estadstico t d
corresponda

Intervalos de confianza individuales de Fisher(LSD) del 95%


Todas las comparaciones en parejas en Minitab
Se rest A a:
Inferior Centro Superior -------+---------+---------+---------+-B
-1,166 1,250
3,666
(-----*-----)
C
3,084 5,500
7,916
(-----*-----)
D
0,834 3,250
5,666
(-----*-----)
-------+---------+---------+---------+--4,0
0,0
4,0
8,0
Se rest B a:
Inferior Centro Superior -------+---------+---------+---------+-C
1,834 4,250
6,666
(-----*-----)
D
-0,416 2,000
4,416
(-----*-----)
-------+---------+---------+---------+--4,0
0,0
4,0
8,0
Se rest C a:
Inferior Centro Superior -------+---------+---------+---------+-D
-4,666 -2,250
0,166
(-----*-----)
-------+---------+---------+---------+--4,0
0,0
4,0
8,0

Compara
cin o pruebas de rangos mltiples

65

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Mtodo de Tukey.
Es el mtodo ms conservador para comparar pares de medias de tratamientos, el cu
al
consiste en comparar las diferencias entre medias muestrales con el va
lor crtico dado
por:

(2,17)
donde

Es el cuadrado medio del error (


/ gl
b
)
Es el nmero de observaciones por tratamiento
Es el nmero de tratamientos
Es igual a los grados de libertad para el error
Es el nivel de significancia prefijado
Son puntos porcentuales de la distribucin del rango estudentizado,
que se obtienen de la correspondiente tabla
Se declaran significativamente diferentes los pares de medias cuya di
ferencia
muestral en valor absoluto sea mayor que
. A diferencia de los mtodos LSD y
Duncan, el mtodo Tukey trabaja con un error
por el
experimentador.

muy cercano al declarado

Ejemplo. Al aplicar el mtodo de Tukey al ejemplo 1 de los mtodos de


ensamble, a
partir de la tabla ANOVA correspondiente, se toma la informacin pertine
nte y de las
tablas del rango estudentizado (tabla 1) dada en el apndice.

(
/ gl
b
) = 2,45
4
4
12
0,05

66

en tablas de rango estudentizado corresponde a 4,20


CAPTULO 2
Diseo de experimentos de un factor

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
sustituyendo en la ecuacin tenemos

Que al compararlo con las diferencias de medias muestrales, los resultados sobre
las hiptesis son:
Diferencia poblacional

Diferencia muestral
1,25
5,50
3,25
4,25
2,00
2,25

3,27
3,27
3,27
3,27
3,27
3,27

Decisin
No significativo
Significativo
No significativo
Significativo
No significativo
No significativo
De esta tabla se concluye que

.
Observe que esta prueba no encuentra diferencias entre los mtodos d ensamble A y
D,
la cual si se detecta por otros mtodos. Esto es congruente con el hecho de que la
prueba
de Tukey es menos potente que la prueba LSD (diferencia mnima significativa)
En el resultado de comparacin de parejas arrojado por minitab, por el
mtodo
de Tukey, observamos que este nos indica los intervalos de confianza
para las
comparaciones de cada par de muestras, por lo que debemos tomar el p
unto medio de
cada comparacin (centro) y contrastarlo con el valor del estadstico de
rango
estudentizado obtenido en tablas (4,20) y sustituyendo en la formula obteniendo
el valor
de
, el cual se contrasta con la diferencia de medias y se tomar la decisin
que corresponda
Intervalos de confianza simultneos de Tukey del 95%
Todas las comparaciones en parejas en Minitab
Se rest A a:
Inferior Centro Superior -----+---------+---------+---------+---B -2,043 1,250
4,543
(------*-----)
C
2,207 5,500
8,793
(------*------)
D -0,043 3,250
6,543
(------*-----)
-----+---------+---------+---------+----5,0
0,0
5,0
10,0

Se rest B a:
Inferior Centro Superior -----+---------+---------+---------+---C
0,957 4,250
7,543
(------*-----)
D -1,293 2,000
5,293
(------*------)
-----+---------+---------+---------+----5,0
0,0
5,0
10,0
Se rest C a:
Inferior Centro Superior -----+---------+---------+---------+---D -5,543 -2,250
1,043
(------*-----)
-----+---------+---------+---------+----5,0
0,0
5,0
10,0

Compara
cin o pruebas de rangos mltiples

67

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Mtodo de Duncan.
En este mtodo para la comparacin de medias, si las muestras son de igual tamao,
los promedios se acomodan en orden ascendente y el error estndar de los promedio
s
se estima con

(2,18)
Este procedimiento de Duncan tambin se llama prueba de rango mltiple de
Duncan. Este procedimiento tambin se basa en la notacin general del ran
go
studentizado. El rango de cualquier subconjunto de medias muestrales de
be exceder
cierto valor antes de que se encuentre que cualquiera de las medias es diferent
e. Este
valor se llama rango de menor significancia para las medias y se denota como

(2,19)
( = muestras)
Grados de libertad para el error que corresponden a (

=
)
=

Cuadrado medio del error (

/ gl
b
)
=

Numero de observaciones por tratamiento


= Valores crticos para la prueba de Duncan (obtenidos en tabla)

Los valores de la cantidad


, que se denominan rango studentizado de menor
significancia, dependen del nivel de
significancia que se desea y el
nmero de grados
de libertad del cuadrado medio del error. Estos valores se pueden obt
ener de la tabla
valores crticos para la prueba de Duncan (tabla 2)
Las diferencias observadas entre las medias muestrales se comparan con los ra
ngos
(rango de menor significancia) de la siguiente manera:
- Primero se comparan la diferencia entre la media ms grande y la ms pequea
con el rango
- Luego, la diferencia entre la media ms grande y la segunda ms pequea
se
compara con el rango
- Estas comparaciones continan hasta que la media mayor se haya compar
ado
con todas las dems.
- Enseguida, se compara la diferencia entre la segunda media ms grande
y la
media menor con el rango
- Despus la diferencia entre la segunda media ms grande y la segunda
ms
pequea se compara con el valor de

- Y as sucesivamente hasta que se comparan los


posibles con el rango que les corresponda

pares de medias

En las comparaciones donde la diferencia observada es mayor que el ra


ngo
respectivo, se concluye que esas medias son significativamente diferente
s. Si dos
68
CAPTULO 2
Diseo de experimentos de un factor
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
medias caen entre otras dos que no son muy diferentes, entonces esas
dos medias
poblacionales tambin se consideran estadsticamente iguales.
Ejemplo. Supongamos que nos interesa probar las seis hiptesis para los
cuatro
mtodos de ensamble del problema anterior.
= 0,05
=

12
= 2,46

=
= 0,78
=
Estos valores se obtienen de la tabla correspondiente

Substituyendo en la ecuacin tenemos:

= (3,08)(0,78)

= (3,23)(0,78)

= (3,33)(0,78)

Estos rangos se comparan con las diferencias de medias de acuerdo a


l mtodo
descrito anteriormente.
Las cuatro medias muestrales acomodadas en orden ascendente son:

de aqu se obtienen las diferencias en el orden dado por el mtodo de Duncan y se


van
comparando con el rango correspondiente.
En la siguiente tabla se resumen los resultados
Diferencia poblacional

Diferencia muestral
Comparada con su rango

12,75 7,25 = 5,5 2,60 =


12,75 8,50 = 3,27 2,52 =
12,75 10,50 = 2,25 2,40 =
10,50 7,25 = 3,25 2,60 =
10,50 8,50 = 2,0 2,40 =
8,50 7,25 = 1,25 2,40 =
Decisin

Significativo
Significativo
No significativo
Significativo
No significativo
No significativo
Compara

cin o pruebas de rangos mltiples

69

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
De esta tabla se concluye que

, mientras que

. Que son las mismas conclusiones que se obtuvieron con


el mtodo LSD. En general, las pruebas de Duncan y LSD tienen un desempeo similar.
Mtodo de Dunnet (Comparacin de tratamientos con un control).
En muchos problemas cientficos y de ingeniera no interesa extraer infere
ncias con
respecto a todas las posibles comparaciones entre las medias de los tratamientos
. En su
lugar, el experimento a menudo dicta la necesidad de comparar de mane
ra simultnea
cada tratamiento con un control. Por ejemplo, al comparar varios medicamentos pa
ra el
resfriado es conveniente que uno de los tratamientos sea que los paci
entes no utilicen
ningn medicamento, esto sirve como referencia para decidir la posible u
tilidad de los
medicamentos.
Un procedimiento
de prueba desarrollado por C.W. Dunnett determina
diferencias significativas entre cada media del tratamiento y el control, en un
solo nivel
de significancia.
Por facilidad, denotemos como tratamiento control al
tratamiento.
Hacer comparaciones con respecto al control implica probar las
hiptesi
s dadas
por:

con
si,

, donde es el tratamiento control. La hiptesis nula se rechaza

donde

= Media del tratamiento

= Media del tratamiento control


Valor encontrado en tablas de Dunnett
= Grados de libertad del cuadrado medio del error
= Cuadrado medio del error
Donde
se encuentra en las tablas (tabla 3) valores crticos para la
prueba de Dunnett;
son los grados de libertad del cuadrado medio de
l error. Se
recomienda que el tamao de muestra del tratamiento control sea grande,
a fin de
estimar su media con mayor precisin.

Ejemplo. Para ilustrar el procedimiento de Dunnett , consideremos los


datos
experimentales de la siguiente tabla para la clasificacin unilateral don
de se estudia el
efecto de tres catalizadores sobre el rendimiento de una reaccin. Un cuarto trata
miento,
sin ningn catalizador, se utiliza como control.

70

CAPTULO 2

Diseo de experimentos de un factor

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Rendimiento de la reaccin
Control
r 3

Catalizador 1

Catalizador 2

Catalizado

50,7

54,1

52,7

51,5

53,8

53,9

49,2

53,1

57,0

53,1

52,5

54,1

52,7

54,0

52,5

51,2
50,8
49,7
48,0
47,2

= 53,5

54,04

49,38

= 51,44
=
=
= 2,59
= grados de libertad del erros medio
, como es prueba bilateral

= 53,5 51,44 = 2,06


= 54,04 51,44 = 2,6
= 49,38 51,44 = 2,06

= 2,59

= 2,59(0,9593) = 2,48

2,06 2,48 Se acepta la hiptesis nula, no hay diferencia significativa de la mues


tra 1
con la patrn
2,60 2,48 Se rechaza la nula y se acepta la alterna
2,06 2,48 Se acepta la hiptesis nula

RESUMEN

Grupos Cuenta Suma Promedio Varianza


Control 5 257,2 51,44 2,478
Catalizador 1 5 267,5 53,5 0,465
Catalizador 2 5 270,2 54,04 3,238
Catalizador 3 5 246,9 49,38 3,022
ANLISIS DE VARIANZA
Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los c
uadrados F Probabilidad Valor crtico para F
Entre grupos 67,786 3 22,59533333 9,82085552 0,000651134 3,238871522
Dentro de los grupos 36,812 16 2,30075
Total 104,598 19
Anlisis de varianza de un factor (Resultado de Excel)
Compara
cin o pruebas de rangos mltiples
71
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
ANOVA unidireccional: Control; Catalizador 1; Catalizador 2; Catalizador 3
Fuente GL
SC
MC
F
P
Factor 3 67,79 22,60 9,82 0,001
Error 16 36,81 2,30
Total 19 104,60
Nivel
N Media Desv.Est.
Control
5 51,440 1,574
Catalizador 1 5 53,500 0,682
Catalizador 2 5 54,040 1,799
Catalizador 3 5 49,380 1,738
Comparacin de Dunnett con un control
nivel de significancia de la familia = 0,05
nivel de significancia individual = 0,0196
Valor crtico = 2,59
Control = Control
Intervalos para media de tratamientos menos media de control
Nivel
Inferior Centro Superior
Catalizador 1
-0,427 2,060
4,547
Catalizador 2
0,113 2,600
5,087
Catalizador 3
-4,547 -2,060
0,427
Nivel
--------+---------+---------+---------+Catalizador 1
(---------*---------)
Catalizador 2
(---------*---------)
Catalizador 3 (---------*---------)
--------+---------+---------+---------+-2,5
0,0
2,5
5,0
2.5. Verificacin de los supuestos del modelo
La validez de los resultados obtenidos en cualquier anlisis de varianza
queda
supeditada a que los supuestos del modelo se cumplan. Estos supuestos son:

A) Normalidad
B) Varianza constante (igual varianza de los tratamientos)
C) Independencia
Esto es, la respuesta (Y) se debe distribuir de manera normal, con la misma vari
anza
en cada tratamiento y las mediciones deben ser independientes. Estos supuestos s
obre Y
se traducen en supuestos sobre el termino error () en el modelo

Es una prctica comn utilizar la muestra de residuos para comprobar lo


s
supuestos del modelo, ya que si los supuestos se cumplen, los residuos
o residuales se
pueden ver
como una muestra aleatoria de una distribucin normal con
media cero y
varianza constante.
72

CAPTULO 2

Diseo de experimentos de un factor

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Los residuos,
se definen como la diferencia entre la respuesta observada (
)
y la respuesta predicha por el modelo (
), lo cual permite hacer un diagnstico ms
directo de la calidad del modelo, ya que su magnitud seala qu tan bien describe a
los
datos del modelo. Veamos
Recordemos que el modelo que se espera describa los datos en el DCA est dada por:

donde
( = 1,2, , = 1,2,, ) Es el simo dato en el tratamiento
Es la media global

Es el efecto del tratamiento


Representa al error asociado con la observacin
Cuando se realiza el ANOVA, y slo cuando ste resulta significativo, entonces
se procede a estimar el modelo ajustado o modelo de trabajo dado por:

donde

Es la respuesta predicha
Es la media global estimada

Es el efecto estimado del tratamiento


Los gorros indican que son estimadores, es decir, valores calculados a
partir de
los datos del experimento. El trmino del error desaparece del modelo estimado, p
or el
hecho de que su valor esperado es igual a cero (
Como la media global se estima con
.. y el efecto del tratamiento con

.., el
modelo ajustado del DCA se puede escribir como:

Para comprobar cada supuesto existen pruebas analticas y grficas que veremos

a continuacin. Por sencillez, muchas veces se prefieren las pruebas grfi


cas. stas
tienen el inconveniente de que no son exactas, pero aun as , en la
mayora de las
situaciones prcticas proporcionan la evidencia suficiente en contra o a
favor de los
supuestos.
Normalidad
Un procedimiento grfico para verificar el cumplimiento del supuesto de normalida
d de
los residuos consiste en graficar los residuos en papel o en la grfica de probabi
lidad normal
que se incluye casi en todos los paquetes estadsticos. Esta grfica del tipo
ti
ene
Ver
ificacin de los supuestos del modelo
73
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
las escalas de tal manera que si los residuos siguen una distribucin
normal, al
graficarlos tienden a quedar alineados en una lnea recta; por lo tanto, si clara
mente no
se alinean se concluye que el supuesto de normalidad no es correcto.
Cabe enfatizar el hecho de que el ajuste de los puntos a una recta
no tiene que
ser perfecto, dado que el anlisis de varianza resiste pequeas y moderadas desviaci
ones
al supuesto de normalidad.

Figura 2.2 Grafica de normalidad para los cu


atro tipos de cuero
Varianza constante
Una forma de verificar el supuesto de varianza constante (o que los tratamientos
tienen la
misma varianza) es graficado los predichos contra residuos (

), por lo general

va en el eje horizontal y los residuos en el eje vertical. Si los puntos en


esta grfica
se distribuyen de manera aleatoria en una banda horizontal (sin ningn
patrn claro y
contundente), entonces
es seal d que se cumple el supuesto de que l
os tratamientos
tienen igual varianza. Por el contrario, si se distribuyen con algn pa
trn claro y
contundente, como por ejemplo una forma de corneta o embudo, entonces
es seal de

que no se est cumpliendo el supuesto de varianza constante.

Figura 2.3 Grafica de la varianza constante para lo


s cuatro tipos de cuero
Independencia
La suposicin de independencia en los residuos puede verificarse si se grafica
el orden
en que se colect un dato contra el residuo correspondiente. De esta m
anera, si al
graficar en el eje horizontal el tiempo (orden de corrida) y en el eje vertical
los residuos,
40 20 0 -20
99
90
50
10
1
Residuo
P
o
r
c
e
n
t
a
j
e
250 240 230 220 210
30
20
10
0
-10
Valor ajustado
R
e
s
i
d
u
o
30 20 10 0 -10
8
6
4
2
0
Residuo
F
r
e
c
u
e
n

c
i
a
Grfica de probabilidad normal vs. ajustes
Histograma
Grficas de residuos para A; B; C; D
40 20 0 -20
99
90
50
10
1
Residuo
P
o
r
c
e
n
t
a
j
e
250 240 230 220 210
30
20
10
0
-10
Valor ajustado
R
e
s
i
d
u
o
30 20 10 0 -10
8
6
4
2
0
Residuo
F
r
e
c
u
e
n
c
i
a
Grfica de probabilidad normal vs. ajustes
Histograma
Grficas de residuos para A; B; C; D
74
CAPTULO 2
Diseo de experimentos de un factor
Instituto Tecnolgico de Ensenada

Biol. Ral Jimnez Gonzlez


se detecta una tendencia o patrn no aleatorio claramente definido, esto es eviden
cia de
que existe una correlacin entre los errores y, por lo tanto, el supuesto de indep
endencia
no se cumple. Si el comportamiento de los puntos es aleatorio dentro
de una banda
horizontal, el supuesto se est cumpliendo.
La violacin de este supuesto generalmente indica deficiencias en la planeacin
y ejecucin del experimento; asimismo, puede ser un indicador de que no
se aplico en
forma correcta el principio de aleatorizacin, o de que conforme se fueron realiza
ndo las
pruebas experimentales aparecieron factores que afectaron la respuesta o
bservada. Por
ello, en caso de tener problemas con este supuesto, las conclusiones que se obti
enen del
anlisis son endebles y por ello es mejor revisar lo hecho y tratar de investi
gar por qu
no se cumpli con ese supuesto de independencia, a fin de reconsiderar la situacin.
En el ejemplo
para comparar los cuatro tipos de cuero, las grficas
resultantes
figuras 2.2 y 2.3. Se observa el cumplimiento de los supuestos de normalidad y
varianza
constante, sin embargo, en las dos grficas es notorio un punto que se aleja basta
nte del
resto, el cual es un punto aberrante cuyo origen debe investigarse

Eleccin del tamao de la muestra


Una decisin importante en cualquier diseo de experimentos es decidir el
nmero de
replicas que se har por cada tratamiento (tamao de muestra). Por lo ge
neral, si se
esperan diferencias pequeas entre tratamientos ser necesario un mayor tam
ao de
muestra.
Aunque existen varios mtodos para estimar el tamao muestral, muchas vece
s
tienen poca aplicabilidad porque requieren cierto conocimiento previo sobre la v
arianza
del error experimental.
Si recurrimos a la experiencia vemos que el nmero de rplicas en la mayora de
las situaciones experimentales en las que se involucra un factor vara entre cinco
y diez;
incluso, en algn caso puede llegar hasta 30. La tendencia podra inclina
rse por un
extremo de este rango e incluso salirse de ste, de acuerdo con las s
iguientes
consideraciones:
- A menor diferencia que se espera en los tratamientos, mayor ser la cantidad de
rplicas si se quieren detectar diferencias significativas, y viceversa, es deci
r, si

se esperan grandes diferencias quiz con pocas replicas sea suficiente


- Si se espera mucha variacin dentro de cada tratamiento, debido a la
variacin
de fuentes no controladas como mtodos de medicin, medio ambiente, materia
prima, etc., entonces se necesitarn ms rplicas
- Si son varios tratamientos (cuatro o ms), entonces ste es un punto
favorable
para reducir el nmero de rplicas.
Adems de lo anterior, es preciso considerar los costos y el tiempo gl
obal del
experimento. De aqu que si toman en cuenta las consideraciones antes e
xpuestas se
podr establecer el tamao de muestra que permita responder en una primer
a fase las
preguntas ms importantes que se plantearon con el experimento
Eleccin del tamao de la muestra

75

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Supongamos que el experimentador ya tiene el nmero de tratamientos que
desea
probar, y que tomando en cuenta las consideraciones antes citadas tiene una pro
puesta
inicial del nmero de rplicas por tratamiento que va a utilizar,
. Tambin tiene una
idea aproximada del valor de (la desviacin estndar del error aleatorio), as como u
na
idea de la magnitud de las diferencias,
, entre tratamientos que le interesa detectar.
Por ejemplo, supongamos que en el caso de los tiempos promedio de los
s
de ensamble (del ejemplo 1), tiene idea realizar

= 4 mtodo

= 5 pruebas; en cuanto a las


diferencias, le interesa detectar 2 minutos,
entre un mtodo y otro, y espera que cada
mtodo tenga una variabilidad intrnseca de
= 1,5; esto debido a factor
es no
controlados (habilidad del operador, cansancio, variabilidad de las part
es a ensamblar,
error de medicin del tiempo de ensamble, etctera).
La formula que tentativamente debemos usar para la eleccin del tamao de muestra
es:

El valor de arrojado por esta frmula dar una idea del nmero de rplicas
por
tratamiento, de acuerdo con las consideraciones iniciales que se reflej
an a travs de

, y sobre todo por el nmero total de corridas experimentales,


x
, que es lo que muchas veces interesa ms al experimentador debido a
los costos y
tiempos. Si est fuera del presupuesto se podrn revisar algunas considera
ciones y
quiz pensar en un nmero menor de tratamientos.
Al aplicar esta expresin al caso de los cuatro mtodos del ensamble obtenemos
con un nivel se significancia del 0,05:
= 4
= 5
= 1,5
= 2
= 0,05

= 5,1
Por lo tanto
se debera utilizar como tamao de muestra (nmero de
pruebas por tratamiento).
Ejercicios.

1 Explique en qu consiste y cundo se debe aplicar el diseo completament


e al azar
con un solo criterio de clasificacin.
2 Una analista de una cadena de supermercados, quiere saber si las tres tiendas
tienen el
mismo promedio en dlares por compra. Se elige una muestra aleatoria de seis compr
as
en cada tienda. En la siguiente tabla se presenta los datos recolectados de est
a muestra
junto con las medias maestrales para cada tienda. Haga las pruebas ne
cesarias
con un
nivel de significancia de 0,01. Y concluya con un reporte de todo lo analizado a
lo largo
76
CAPTULO 2
Diseo de experimentos de un factor
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
de la unidad, en este reporte usted como analista deber de incluir y
describir todo lo
que considere importante para el cliente, es decir la gerencia del supermercado.
Tabla nmero 1

Datos maestrales para ANOVA (en dlares) para el ejercicio

Tienda 1
Tienda 2
Tienda 3
--------------------------------------------------------------------------12,05
15,17
9,48
23,94
18,52
6,92
14,63
19,57
10,47
25,78
21,40
7,63
17,52
13,59
11,90
18,45
20,57
5,92
3. Se hace un estudio sobre la efectividad de tres marcas de spray
para matar moscas.
Para ello, cada producto se aplica a un grupo de 100 moscas, y se cuentan el nmer
o de
moscas muertas expresando en porcentajes. Se hacen seis rplicas y los
resultados
obtenidos se muestran a continuacin
Nmero de replicas
Marca de spray 1 2 3 4 5 6
1
2
3
72
55
64
65
59
74
67
68
61
75
70
58
62

53
51
73
50
69
a) Formule la hiptesis adecuada y aplique el mtodo estadstico.
b) Existe diferencia entre la efectividad promedio de los productos en spray.
c) Hay algn spray mejor, Argumente su respuesta.
d) D un intervalo al 95% de confianza para la efectividad promedio (p
orcentaje)
de cada una de las marcas
e) De ser necesario, aplique los mtodos de comparacin o pruebas de ran
gos
mltiples.
4. Para estudiar la confiabilidad de ciertos tableros electrnicos para carros, se
someten
a un envejecimiento acelerado durante 100 horas a determinada temperatu
ra, y como
variables de inters se mide la intensidad de corriente que circula ent
re dos puntos,
cuyos valores aumentan con el deterioro. Se probaron 20 mdulos repartidos de mane
ra
equitativamente en cinco temperaturas y los resultados obtenidos fueron los sigu
ientes:
15
18
13
12
17
21
11
16
23
19
25
22
28
32
34
31
45
51
57
48
a) Formule la hiptesis y el modelo estadstico para el problema.
b) Realice el anlisis de varianza para estos datos, a fin de estudiar
si la
temperatura afecta la intensidad de corriente promedio.
Ejercicios
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez

77

c) La temperatura afecta la variabilidad de las intensidades? Es decir, verifi


que si
hay igual varianza entre los diferentes tratamientos.
5. Una compaa farmacutica desea evaluar el efecto que tiene la cantidad de almidn
en la dureza de las tabletas. Se decidi producir lotes con una cantidad determ
inada de
almidn, y que las cantidades de almidn a probar fueron 2%, 5% y 10%. La variable d
e
respuesta sera el promedio de la dureza de 20 tabletas de cada lote.
Se hicieron 4
rplicas por tratamiento y se obtuvieron los siguientes resultados:
% de
2
5
10
4,3
6,5
9,0

almidn Dureza

5,2
7,3
7,8

4,8
6,9
8,5

4,5
6,1
8,1

a) Hay evidencia suficiente de que el almidn influye en la dureza de las tabletas


?
Halle el ANOVA.
b) Realice los anlisis complementarios necesarios.
c) Si se desea maximizar la dureza de las tabletas, qu recomendara al fabricante?
d) Verifique los supuestos del modelo
6.- Un qumico del departamento de desarrollo de un laboratorio farmacutico desea
conocer cmo influye el tipo de aglutinante utilizado en tabletas de am
picilina de
500 mg en el porcentaje de friabilidad; para ello, se eligen los sig
uientes
aglutinantes: polivinilpirrolidona (PVP), carboximetilcelulosa sdica (CMC)
y
grenetina (Gre). Los resultados del diseo experimental son los siguientes.
Aglutinante % de friabilidad
PVP
CMC
Gre
0,485
0,250
0,073
0,205
0,0161
9,64
9,37
9,53
9,86
9,79
0,289
0,275
0,612
0,152
0,137
a) Especifique el nombre del diseo experimental
b) Sospecha que hay algn efecto significativo del tipo de aglutinante s
obre la
variable de respuesta?
c) Escriba las hiptesis para probar la igualdad de medias y el modelo estadstico.
d) Realice el anlisis adecuado para probar las hiptesis e intrprete los resultados
.
e) Revise los supuestos, hay algn problema?
7. En el siguiente experimento biolgico se usan cuatro concentraciones
de cierto
qumico para reforzar el crecimiento en centmetros de cierto tipo de pla

nta con el
tiempo.
Se utilizan cinco plantas en cada concentracin y se mide e
l crecimiento de
cada planta. Se toman los siguientes datos de crecimiento. Tambin se aplica un co
ntrol
(ningn qumico)

78

CAPTULO 2

Diseo de experimentos de un factor

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
concentracin
Control 1 2 3 4
6,8
7,3
6,3
6,9
7,1
8,2
8,7
9,4
9,2
8,6
7,7
8,4
8,6
8,1
8,0
6,9
5,8
7,2
6,8
7,4
5,9
6,1
6,9
5,7
6,1
Utilice la prueba bilateral de Duncan en el nivel de significancia de 0,05 para
comparar
de manera simultnea las concentraciones con el control.
8.
En un experimento en el que se investig
la cantidad de radn li
berado en las
duchas. Se us agua enriquecida con radn, y se probaron seis dimetros di
ferentes de
los orificios de las regaderas. Los datos del experimento se presentan
en la siguiente
tabla.
Dimetro de
Los orificios
Radn liberado (%)
0,37
0,51

0,71
1,02
1,40
1,99
80
75
74
67
62
60

83
75
73
72
62
61

83
79
76
74
67
64

85
79
77
74
69
66

a) El tamao de los orificios afecta el porcentaje promedio de radn liberado? Use


b) Encuentre el valor P para el estadstico F del inciso a)
c) Analice los residuales de este experimento.
d) Encuentre un intervalo de confianza de 95% para el porcentaje promedio de
radn liberado cuando el dimetro de los orificios es 1,40
f) Use los diversos mtodos de comparacin o pruebas de rangos mltiples.
9.- Se describe un experimento para determinar el efecto de los vacos de aire so
bre la
resistencia porcentual conservada del asfalto. Para los fines del experimento, l
os vacos
de aire se controlan en tres niveles: bajo (2-4%), medio (4-6%) y alto (6-8%). L
os datos
se presentan en la tabla siguiente:
Nivel del
vaco de aire
Resistencia conservada (%)
Bajo
Medio
Alto
106
90 103
90 79 88 92 95
80
69
94
91 70 83 87 83
78
80
62
69 76 85 69 85
a) Los diferentes niveles de los vacos de aire afectan de manera significativa a
la
resistencia conservada promedio? Use .
b) Encuentre el valor P para el estadstico F del inciso a)
c) Analice los residuales de este experimento.
d) Encuentre un intervalo de confianza del 95% para la resistencia conservada
promedio cuando hay un nivel alto de vacos de aire.
Ejercicios

79

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
e) Aplique el mtodo de la LSD. Usando
tratamientos son diferentes?

, cules medias de los

10.Se investigaron cuatro mtodos diferentes para preparar el compues


to
superconductor

. Los autores sostienen que la presencia de oxgeno durante el

proceso de preparacin afecta la temperatura de transicin de superconduccin


del
material. Los mtodos de preparacin 1 y 2 usan tcnicas que estn diseadas
para
eliminar la presencia de oxgeno, mientras que los mtodos 3 y 4 permiten la presenc
ia
de oxgeno. Se hicieron cinco observaciones de
(en ) para cada mtodo, y los
resultados son los siguientes:
Mtodo de
preparacin
Temperatura de transicin
( )
1
2
3
4
14,8
14,6
12,7
14,2

14,8
15,0
11,6
14,4

14,7
14,9
12,4
14,4

14,8
14,8
12,7
12,2

14,9
14,7
12,1
11,7

a) Hay evidencia que apoye la afirmacin de que la presencia de oxgeno durante


la preparacin afecta la temperatura de transicin media? Use .
b) Cul es el valor P para la prueba F del inciso anterior
c) Analice los residuales de este experimento.
d) Aplique el mtodo de la LSD en el experimento. Qu mtodos de preparacin
difieren se ?
11. Ejercicio. Se utilizan cuatro laboratorios para realizar anlisis qumicos. Mues
tras
del mismo material se mandan a los laboratorios para su anlisis como parte del es
tudio
para determinar si, en promedio, dan los mismos resultados. Los resultados analti
cos
para los cuatro laboratorios son los siguientes:

Laboratorios
A
B
58,7
62,7
61,4
64,5
60,9
63,1
59,1
59,2
58,2
60,3

C
55,9
56.1
57,3
55,2
58,1

D
60,7
60,3
60,9
61,4
62,3

Realice una prueba de rango mltiple de LSD, Tukey y Duncan con un ni


vel de
significancia de 0,05 y 0,01, para determinar cules laboratorios difieren, en pr
omedio,
en sus anlisis

80

CAPTULO 2

Diseo de experimentos de un factor

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
2.6. Uso de un software estadstico
Excel
a) En una hoja de Excel capturar primeramente la tabla de datos
b) En la misma hoja de clculo seleccionar del cintillo superior Datos,
luego
Anlisis de datos
c) Seleccionar anlisis de varianza de un factor en la ventana desplegada

d) En rango de entrada (en ventana de captura) seleccionar todos los


grupos,
incluyendo su rtulo (sombrearlos con el mouse), automticamente se incluyen.
e) En el siguiente recuadro seleccionar si nuestros datos estn ordenados en fi
lia o
columnas, adems indicar si tenemos rtulos en los encabezados, e indicar
que
los resultados los arroje en una hoja nueva

Uso de software estadstico

81

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Nota: Si no aparece Anlisis de datos en la parte superior derecha de la hoja de cl
culo,
se deber de activar de la siguiente manera:
- En el smbolo del sistema en la parte superior izquierda de los encabezados da
r
clic.
- En la ventana desplegada seleccionar opciones de Excel en la parte
inferior
dando un clic.
- De la ventana desplegada sealar en el men del lado izquierdo complementos
- De la ventana desplegada en el lado derecho, sealar en la parte in
ferior de la
misma ir con un clic.
- De la ventana desplegada palomear el recuadro de herramientas para anlisis,
y aceptar
- Nota como no est instalada esta herramienta el sistema nos preguntar
a si
queremos instalarla a lo que indicaremos que si, y la instalara en u
n par de
minutos.

Minitab
- En la hoja de clculo que despliega Minitab capturar nuestra tabla d
e datos
indicando sus correspondientes rtulos en la primer fila que no est numerada
- En el cintillo superior indicar con el mouse Estadsticas
- Del men desplegado seleccionar ANOVA, en el men desplegado seleccionar
Un solo factor (Desapilado) y dar clic con el mouse

- En ventana de captura desplegada (Anlisis de varianza- Un solo facto


r), en la
parte izquierda aparecern automticamente los grupos de tabla de datos
- En el cuadro superior derecho (Respuestas (en columnas separadas)) i
ndicar
separando por un espacio (sin comas) los nombres de las columnas que
generalmente son letras, esto tambin se logra dando doble clic en cada letra del
cuadro de la izquierda, automticamente son capturadas
- En nivel de confianza por default es 95%
82
CAPTULO 2
Diseo de experimentos de un factor
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
- Sealar Aceptar y nos arrojara el resultado ANOVA
rior de la
hoja de calculo

en la parte supe

- Si queremos hacer comparaciones de rango mltiples, entonces sealamos de la


ventana anterior comparaciones dando un clic.
- En la ventana desplegada sealaremos las comparaciones que queramos, y
en
control nivel del grupo indicamos la A, y damos clic en aceptar

Uso de software estadstico

83

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
- Si queremos las graficas del supuesto del modelo entonces,
damos
clic a
grficas (antepenltima ventana) y sealamos tres en uno y damos clic en
aceptar

84
Captulo

Diseo de bloques

3.1.
3.2.
3.3.
3.4.

Diseos en bloques
Diseo en cuadrado
Diseo en cuadrado
Uso de un software

completos al azar.
latino.
grecolatino.
estadstico.

Diseo en bloques completos al azar

85

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Competencias a desarrollar
- Identificar las caractersticas generales y los usos que se le dan a los dis
eos en
bloques.
- Explicar la definicin del diseo en bloques completos al azar, as como
su
hiptesis, modelo estadstico y anlisis de varianza.
- Describir la seleccin y la aleatorizacin del diseo en cuadro latino y
su
diferencia con el diseo en cuadro grecolatino

3. 1. Diseos en bloques completos al azar.


Cuando se quieren comparar ciertos tratamientos o estudiar el efecto d
e un factor, es
deseable que las posibles diferencias se deban principalmente al factor de inters
y no a

otros factores que no se consideran en el estudio. Cuando esto no ocurre y exist


en otros
factores que no se controlan o nulifican para hacer la comparacin, las
conclusiones
podran ser afectadas sensiblemente.
Por ejemplo, supongamos que se quieren comparar varias mquinas, si cada mquina es
manejada por un operador diferente y se sabe que ste tiene una influe
ncia en el
resultado, entonces es claro que el factor operador debe tomarse en cue
nta si se quiere
comparar a las mquinas de manera justa.
Un operador ms hbil puede hacer ver a su mquina (aunque sta sea la p
eor)
como la que tiene el mejor desempeo, lo cual impide hacer una comparacin adecuada
de los equipos.
Para
evitar este sesgo hay dos maneras de anular el posible efect
o del factor
operador: la manera lgica es utilizar el mismo operador en las cuatro
maquinas; sin
embargo, tal estrategia no siempre es aconsejable, ya que utilizar el
mismo sujeto
elimina el efecto del factor operador pero restringe la validez de la
comparacin con
dicho operador, y es posible que el resultado no se mantenga al util
izar a otros
operadores. La otra forma de anular el efecto operador en la comparac
in consiste en
que cada operador trabaje durante el experimento con cada una de las
mquinas. Esta
estrategia es la ms recomendable, ya que utilizar a todos los operadore
s con todas las
mquinas permite tener resultados de la comparacin que son vlidos para to
dos los
operadores. Esta forma de nulificar el efecto de operadores, recibe el
nombre de
bloqueo.
Factores de bloque
A los factores adicionales al factor de inters que se incorporan de manera e
xplcita en
un experimento comparativo se les llama factores de bloque. stos tienen
la
particularidad de que no se incluyen en el experimento porque interese
analizar su
efecto, sino como un medio para estudiar de manera adecuada y eficaz
al factor de
inters.
Los factores de bloque entran al estudio en un nivel de importancia
secundaria
con respecto al factor de inters y, en este sentido, se puede afirmar
que se estudia un
solo factor, porque es uno el factor de inters.
86
CAPTULO 3
Diseo de bloques
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
En un diseo en bloques completos al azar (DBCA) se consideran tres fu

entes de
variabilidad:
- El factor de tratamientos
- El factor de bloque
- El error aleatorio
es decir, se tienen tres posibles culpables de la variabilidad presente
en los datos. La
palabra completo en el nombre del diseo se debe a que en cada bloque
se prueban
todos los tratamientos, o sea, los bloques estn completos. La aleatoriz
acin se hace
dentro de cada bloque; por lo tanto, no se realiza de manera total
como en el diseo
completamente al azar.
Los factores de bloqueo que aparecen en la prctica son: Turno, lote, da, tipo de
material, lnea de produccin, operador, maquina, mtodo, etc.
Supongamos una situacin experimental con k tratamientos y b bloques. El
aspecto de los datos para este caso se muestra en la
onsiderando una
repeticin en cada combinacin de tratamiento y bloque.

tabla 3,1. C

Tabla 3.1 Arreglo de los datos en un


diseo en
bloques completos al azar
Tratamiento Bloque

1
2
3
.
k

.
.
.
.

Modelo estadstico
Cuando se decide utilizar un DBCA, el experimentador piensa que cada
medicin ser
el resultado del efecto del tratamiento donde se encuentre, del efecto al que
pertenece y
de cierto error que se espera sea aleatorio. El modelo estadstico para
este diseo est
dado por:

donde
Es la medicin que corresponde al tratamiento y al bloque
Es la media global poblacional
Es el efecto debido al tratamiento
Es el efecto debido al bloque
Es el error aleatorio atribuible a la medicin

Diseo en bloques completos al azar

87

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Hiptesis a probar
La hiptesis de inters es la misma para todos los diseos comparativos, y est pada
por:

que tambin se puede expresar como

En cualquiera de estas hiptesis la afirmacin a probar es que la respuesta media


poblacional lograda con cada tratamiento es la misma para los tratamientos y qu
e, por
lo tanto, cada respuesta media
es igual a la media global poblacional . De manera
alternativa, es posible afirmar que todos los efectos de tratamiento sobre la
variable de
respuesta son nulos, porque cuando el efecto

, entonces necesariamente
la respuesta media del tratamiento es igual a la media global (
).
Anlisis de varianza
La hiptesis dada se prueba con un anlisis de varianza con dos criterio
s de
clasificacin, porque se controlan dos fuentes de variacin: el factor de tratamient
os y el
factor de bloque. En la tabla 3.2 se muestra el aspecto del ANOVA para diseo DBC
A.
Tabla 3.2 ANOVA para un diseo en bloques completos al azar
Fuentes de
variabilidad
Suma de
cuadrados
Grado de
libertad
Cuadrado
medio
Valor-p
Tratamientos
Bloques

Error

Total
SC
TRAT
SC
B

SC
E
SC
T
K 1
b 1

(k 1)(b 1)
N - 1
CM
TRAT
CM
B

CM
E

Los clculos necesarios pueden ser manuales, pero siempre es ms prctico


hacerlos con un software estadstico, porque adems proporciona muchas otras opcione
s
grficas y tabulares tiles (no slo el ANOVA). Utilizando la notacin de pu
ntos, las
frmulas ms prcticas para calcular las sumas de cuadrados son:

88

CAPTULO 3

Diseo de bloques

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez

y la del error se obtiene por sustraccin como:

Ejemplo
En el ejemplo donde se planteo la comparacin
de los cuatro mtodos de
ensamble,
ahora se va a controlar activamente en el experimento a los operadores que reali
zaran el
ensamble, lo que da lugar al siguiente diseo en bloques completamente al azar.
Mtodo Operador
1 2 3 4
A
B
C
D
6
7
10
10
9
10
16
13
7
11
11
11
8
8
14
9
Recordemos que la variable de respuesta son los minutos en que se
realiza el
ensamble. Para comparar los cuatro mtodos se plantea la hiptesis:

la cual se prueba mediante el anlisis de varianza dado en la siguiente tabla( Ex


cel y
Minitab)
Nota: para capturar la tabla en Excel se sombrea totalmente, tal y como est indic
ada la
tabla anterior, en la herramienta de Anlisis de varianza de dos factores con una
sola
muestra por grupo)
RESUMEN Cuenta Suma Promedio Varianza
A 4 30 7,5 1,66666667
B 4 36 9 3,33333333
C 4 51 12,75 7,58333333
D 4 43 10,75 2,91666667
Operador 4 33 8,25 4,25
4 48 12 10
4 40 10 4
4 39 9,75 8,25
ANLISIS DE VARIANZA
Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los c
uadrados F Probabilidad Valor crtico para F
Filas 61,5 3 20,5 10,25 0,002919257 3,862548358
Columnas 28,5 3 9,5 4,75 0,029845948 3,862548358
Error 18 9 2
Total 108 15
Anlisis de varianza de dos factores con una sola muestra
por grupo
Diseo en bloques completos al azar

89

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
De esta tabla se observa que para los mtodos se obtuvo un valor-p =
0,003
, por lo que se rechaza la
de que el tiempo medio poblacional de los
mtodos de ensamble son iguales, y se acepta que al menos dos de los
mtodos son
diferentes en cuanto al tiempo medio que se requiere.
De la misma manera para operadores, como su valor-p = 0,030
, el
factor de bloque (operadores) tambin afecta, es decir, existen diferenci
as entre los
operadores en cuanto al tiempo promedio.

Resultados arrojados en Minitab 15


ANOVA de dos factores: Dato vs. Mtodo; Operador
Fuente
Mtodo
Operador
Error
Total

GL

SC
MC
F
61,5
20,5
10,25
3
28,5
9,5
4,75
9
18,0
2,0
15
108,0

S = 1,414

R-cuad. = 83,33%

R-cuad.(ajustado) = 72,22%

Calculo manual para Diseo de bloque


ANOVA para el diseo bloque
Fuente de
variaciones
SC GL CM F Valor
crtico
para F
Tratamientos

Bloque

P
0,003
0,030

Error

Total

90

CAPTULO 3

Diseo de bloques

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
1.- Suma de cuadrados de tratamientos o variabilidad debida a la dife
rencia entre las
marcas de llantas, bloque 1 y bloque 2

2.- Suma total de cuadrados o variabilidad total de los datos

3.- Suma de cuadrados del error o variabilidad dentro de mtodos de ensamble

4.- Cuadrados medios de tratamientos, del bloque, y del error

5- Estadstico de prueba

Concentrado en tabla
ANOVA
Suma de
cuadrados
Grados de
libertad
Promedio de
los cuadrados F
Valor
crtico
para F
61,5 3 20,5 10,25
3,8625483
28,5 3
9,5

4,75

3,8625486
18 9 2
108 15

Diseo en bloques completos al azar

91

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Comparacin de parejas de medias de tratamiento en el DBCA.
Cuando se rechaza la hiptesis de igualdad de los cuatro tratamientos,
es natural
preguntarse cules de ellos son diferentes entre s. Para averiguarlo se utiliza alg
una de
las pruebas que se estudiaron en la seccin Comparaciones o pruebas de
rangos
mltiples del captulo anterior. Por ejemplo, recordemos que la
Diferencia
mnima
significativa (LSD) para dos tratamientos,
en un DCA est dada por

Entonces, en bloque esta expresin se transforma en

donde b es el nmero de bloques, que hace las veces de nmero de rplicas, y (k-1)(b-1
)
son los grados de libertad del

De aqu que en el ejemplo de los cuatro mtodos de ensamble tenemos que


=
=
2,26 (valor buscado en tablas de T
de estudent)

Al comparar esta diferencia mnima significativa con los datos se obtien


e la siguiente
tabla:
Diferencia poblacional

Diferencia muestral
-1,5
-5,25
-3,25
-3,75
-1,75
2,00

2,26
2,26
2,26
2,26
2,26
2,26

Decisin
No significativo
Significativo
Significativo
Significativo
No significativo
No significativo
Ejercicios
1.- En qu situaciones se aplica un diseo en bloques completos al azar?
En qu
diferentes los factores de tratamiento y de bloque?
2.- Se hace un estudio sobre la efectividad de tres marcas de atomiz
ador para matar
moscas. Para ello, cada producto se aplica a un grupo de 100 moscas,
y se cuenta el
nmero
de moscas muertas expresando en porcentajes. Se hicieron seis r
eplicas, pero
en das diferentes; por ello, se sospecha que puede haber algn efecto importante de
bido
a esta fuente de variacin. Los datos obtenidos se muestran a continuacin.
92
CAPTULO 3
Diseo de bloques
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
Marca del atomizador Nmero de replicas (da)
A
B
C
72
55
64
65
59
74

67
68
61
75
70
58
62
53
51
73
50
69
a)
b)
c)
d)

Suponiendo un DBCA, formule las hiptesis adecuadas y el modelo estadstico.


Existe diferencia entre la efectividad promedio de los atomizadores?
Hay algn atomizador mejor? Argumente su respuesta
Hay diferencias significativas en los resultados de diferentes das en
que se
realiz el experimento? Argumente su respuesta

ANOVA de dos factores: datos vs. Spray, replicas Minitab


Fuente
Spray
replicas
Error
Total

GL
2
5
10
17

SC
296,33
281,33
514,33
1092,00

MC
148,167
56,267
51,433

F
2,88
1,09

P
0,103
0,421

a)

a) No existe diferencias entre la efectividad de los spray


b) No existe evidencia estadsticas para suponer lo que existe algn spray mejor
que el otro
c)

En el ANOVA para los diferentes das de los spray se acepta la hiptesis nula
de que no importa el da, es decir son iguales
3.- A continuacin se muestran los datos para un diseo en bloque al azar
Tratamiento Bloque
1 2 3 4
A
B
C
3
7
4
4
9
6
2
3
3
6
10
7
ANLISIS DE VARIANZA
Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los c
uadrados F Probabilidad Valor crtico para F
Filas 296,3333333 2 148,1666667 2,88075178 0,102804418 4,102821015
Columnas 281,3333333 5 56,26666667 1,09397278 0,420717751 3,325834529
Error 514,3333333 10 51,43333333
Total 1092 17
Diseo en bloques completos al azar

93

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
a) Obtenga la tabla de anlisis de varianza y anote los principales conclusiones
b) Obtenga la diferencia mnima significativa (LSD) para comparar tratamientos en
este diseo en bloque.

a) valor-p = 0,0057

, por lo que se rechaza la

, es decir existe
diferencia entre los tratamientos
valor-p = 0,0032
, el factor de bloque (tratamientos) tambin af
ecta, es
decir, existen diferencias entre el bloque, por lo que se rechaza la

b)
=
=
c)

Diferencia poblacional

Diferencia muestral
-3,5 1,65
-1,25 1,65
2,25 1,65
Decisin
Significativo
No Significativo
Significativo

5.- En una empresa lechera se tienen varios silos para almacenar leche (ciste
rnas de 60
000 L). Un aspecto crtico para que se conserve la leche es la temper
atura de
almacenamiento. Se sospecha que en algunos silos hay problemas, por el
lo, durante
cinco das se decide registrar la temperatura a cierta hora crtica. Obvi
amente la

temperatura de un da a otro es una fuente de variabilidad que podra i


mpactar la
variabilidad total.
RESUMEN Cuenta Suma Promedio Varianza
A 4 15 3,75 2,916666667
B 4 29 7,25 9,583333333
C 4 20 5 3,333333333
Tratamiento 3 14 4,666666667 4,333333333
3 19 6,333333333 6,333333333
3 8 2,666666667 0,333333333
3 23 7,666666667 4,333333333
ANLISIS DE VARIANZA
Origen de las variaciones Suma de cuadrados Grados de libertad Promedio de los c
uadrados F Probabilidad Valor crtico para F
Filas 25,16666667 2 12,58333333 13,72727273 0,005768838 5,14325285
Columnas 42 3 14 15,27272727 0,003244859 4,757062664
Error 5,5 6 0,916666667
Total 72,66666667 11
Anlisis de varianza de dos factores con una sola muestra por grupo
94
CAPTULO 3
Diseo de bloques
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
Da
Silo Lunes Martes Mircoles Jueves Viernes
A
B
C
D
E
4,0
5,0
4,5
2,5
4,0
4,0
6,0
4,0
4,0
4,0
5,0
2,0
3,5
6,5
3,5
0,5
4,0
2,0
4,5
2,0
3,0
4,0
3,0
4,0
4,0
a) En este problema, cul es el factor de tratamiento u cul el factor de bloque?
b) Suponga un DBCA, formule las hiptesis adecuadas y el modelo estadstico.

c) Hay diferencia entre los silos?


d) La temperatura de un da a otro es diferente?
e) Revise residuos, hay algn problema evidente?
6.- Se diseo un experimento para estudiar el rendimiento de cuatro det
ergentes. Las
siguientes lecturas de blancura se obtuvieron con un equipo especial diseado para 1
2
cargas de lavado, distribuidas en tres modelos de lavadoras:
Detergente Lavadora 1 Lavadora 2 Lavadora 3
A
B
C
D
45
47
50
42
43
44
49
37
51
52
57
49
a) Seale el nombre del diseo experimental utilizado
b) Formule la hiptesis que se quiere probar en este problema
c) Realice el anlisis estadstico ms apropiado para estos datos y obtenga
conclusiones.
7.- Se realizo un experimento para determinar el efecto de cuatro sus
tancias qumicas
diferentes sobre la resistencia de una tela. Estas sustancias qumicas se usan com
o parte
del proceso de acabado del planchado permanente. Se seleccionaron cinco muestra
s de
tela, y se corri un diseo de bloques completos aleatorizados para probar cada ti
po de
sustancia qumica sobre cada muestra de tela en orden aleatorio. Se pro
barn las
diferencias de las medias utilizadas en el anlisis de varianza con
Muestra de tela
Sustancia
Qumica
1 2 3 4 5
1
2
3
4
1,3
2,2
1,8
3,9
1,6
2,4

1,7
4,4
0,5
0,4
0,6
2,0
1,2
2,0
1,5
4,1
1,1
1,8
1,3
3,4
a) Seale el nombre del diseo experimental utilizado
b) Formule la hiptesis que se quiere probar en este problema
c) Realice el anlisis estadstico ms apropiado para estos datos y obtenga
conclusiones.
Diseo en bloques completos al azar

95

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
3.2. Diseo en cuadrado latino
En el diseo en cuadro latino (DCL) se controlan dos factores de bloque y se estud
ia un
factor de tratamientos, por lo que se tienen cuatro fuentes de variab
ilidad que pueden
afectar la respuesta observada, estas son:
-

Los tratamientos
El factor de bloque I (renglones)
El factor de bloque II (columnas)
El error aleatorio

Se llama cuadro latino por dos razones: es un cuadro debido a que t


iene la
restriccin adicional de que los tres factores involucrados se prueban e
n la misma
cantidad de niveles, y es latino porque se utilizan letras latinas pa
ra denotar a los
tratamientos o niveles del factor de inters. Sean A, B, C, , K, los
k tratamientos a
comparar, por lo tanto ambos factores de bloques tienen tambin k niveles cada uno
. El
aspecto de los datos se muestra en la siguiente tabla.
Bloque II (columnas)
1 2 3 k
Bloque I
(renglones)
1
2

3
.
.
k
A = Y
111
B = Y
221
C = Y
331
.
.
K = Y
kk1
B = Y
212
C = Y
322
D = Y
432
.
.
A = Y
1k2
C = Y
313
D = Y
423
E = Y
533
.
.
B = Y
2k3

K = Y
K1K
A = Y
12K
B = Y
23K

.
.
J = Y
JkK
Ahora se necesitan al menos tres subndices, por ejemplo, la respuesta
Y
313
se
gener en el tratamiento tres (C), en el primer nivel del factor rengln
y en el tercer
nivel del factor columna.
El modelo estadstico para describir el comportamiento de las observaciones est
dado por

donde
es la observacin del tratamiento , en el nivel , del factor rengln y
en el
nivel del factor columna;
es el error atribuible a dicha observacin. De acuerdo
con este modelo, la variabilidad total presente en los datos se puede descompone
r como

y los grados de libertad correspondientes son

El ANOVA para el diseo en cuadro latino se muestra en la tabla 3.4.


En l se
prueba la hiptesis sobre los efectos de tratamiento del factor rengln

y del factor
96
CAPTULO 3

Diseo de bloques

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
columna. Otra vez, la hiptesis fundamental es la de los tratamientos;
las otras dos
proporcionan un adicional al objetivo inicial y permiten comprobar la
relevancia de
controlar los factores de bloque.
Tabla 3.4 ANOVA para el cuadro latino
Fuentes de
variabilidad
Suma de
cuadrados
Grado de
libertad
Cuadrado
medio
Valor-p
Tratamientos
Renglones

Columnas
Error
Total
SC
TRAT
SC
B1

SC
B2
SC
E
SC
T
k 1
k 1

k 1
(k 2)(k 1)
k
2
- 1
CM
TRAT
CM
B1

CM
B2
CM
E

Seleccin y aleatorizacin de un cuadro latino. No cualquier arreglo de letras lati


nas
en forma de cuadro es cuadro latino, la regla fundamental es que cad
a letra debe
aparecer slo una vez en cada rengln y en cada columna. Un cuadro latino estndar es
aquel en el que en la primera columna y en el primer rengln aparecen
las letras en
orden alfabtico. Por ejemplo, un cuadro latino estndar de tamao cuatro est dado por:
A
B
C
D

B
C
D
A

C
D
A
B

D
A
B
C

Existen adems los siguientes tres cuadros latinos de dimensin cuatro:


y
Para cuatro tratamientos se pueden construir un total de 576
cuadros latinos de
los cuales cuatro son estndar. La seleccin del diseo debera ser elegir uno al azar d
e
los 576 posibles; no obstante,
es prcticamente imposible construirlos
a todos para
seleccionar uno al azar. Sin embargo, ocurre que dado un cuadro latin
o, cualquier
intercambio de columnas o de renglones es tambin cuadro latino, por eso la estrat
egia
de seleccin y aleatorizacin recomendada en la prctica es la siguiente:
A
B
C
D
A
B
C
D

B
A
D
C
B
D
A
C

C
D
B
A
C
A
D
B

D
C
A
B
D
C
B
A

A
B
C
D

B
A
D
C

C
D
A
B

D
C
B
A
Diseo en cuadro latino

97

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
- Se construye el cuadro latino estndar ms sencillo.
- Se aleatoriza el orden de los renglones (o columnas) y posteriormente se
aleatoriza el orden de las columnas (o renglones).
- Por ltimo, los tratamientos a comparar se asignan en forma aleatoria
a
las letras latinas.
El cuadro latino tiene dos restricciones a la aleatorizacin debido a l
os dos
factores de bloque, lo que implica que a la hora de correr el experimento no hay
ningn
margen de aleatorizacin. Es decir, se puede correr por columna o por
rengln segn
convenga. Lo que no es correcto es hacer todas las pruebas de un tra
tamiento, y luego
todas las de otro, y as sucesivamente, puesto que se puede introducir
ruido adicional
debido a factores no controlables que cambian con el tiempo.

Ejemplo.
Comparacin de cuatro marcas de llantas. Una compaa de mensajera est
interesada en determinar cul marca de llantas tiene mayor duracin en trm
inos del
desgaste. Para ello se planea un experimento en cuadro latino, en el que se comp
aran las
cuatro marcas de llantas sometindolas a una prueba de 32 000 kilmetros de recorrid
o,
utilizando cuatro diferentes tipos de auto y las cuatro posiciones posibles de
las llantas
en el auto. As, el factor de inters es el tipo de llantas o marca,
y
se controlan dos
factores de bloque: el tipo de carro y la posicin de la llanta en el auto. Estos
factores de
bloque se controlan ya que, por experiencia, se sabe que el tipo de carro y l
a posicin
de la llanta tienen efecto en el desgaste de la misma.
La eleccin del cuadro latino a utilizar se hace antes de obtener los
datos. Para
ello, a partir de un cuadro latino
inicial se aleatorizan las colum
nas y los renglones;
despus, las diferentes marcas de llantas se asignan de manera aleatoria
a las letras
latinas que denotan los niveles del factor de inters
Posicin Carro
1 2 3 4
1
2
3
4
C = 12
B = 14
A = 17

D
D
C
B
A
A
D
C
B
B
A
D
C

=
=
=
=
=
=
=
=
=
=
=
=
=

13
11
12
14
14
13
11
10
13
8
3
9
9

Las pruebas se hacen al mismo tiempo con choferes, a quienes se les


instruye
para que manejen de manera similar
sobre el mismo terreno para los
cuatro
automviles. Al hacer las pruebas de los cuatro autos al mismo tiempo se evita el
efecto
del ambiente en el desgaste; asimismo, el conductor y el tipo de terreno podran i
nfluir,
pero se considera suficiente mantenerlos lo ms homogneo posible durante
el
experimento. El diseo y los datos observados se muestran en la tabla anterior.
Se
mide la diferencia mxima entre el grosor de la llanta nueva y el gro
sor de la llanta
despus de recorrido los 32 000 kilmetros. Obviamente, a mayor diferencia en gros
or
mayor desgaste. Las unidades de medicin son milsimas de pulgada
98

CAPTULO 3

Diseo de bloques

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
ANOVA resultante
Fuente de
variabilidad
Suma de
cuadrados
Grados de
libertad
Promedio de los
cuadrados F Valor-p
Valor crtico
para F
Marca 5,6875 3 10 0,37 0,775 4,76
Posicin 16,1875 3 2,0625 1,07
0,431
Carro 103,6875 3 12,8958
6,83
Error
30,375
6
0,895833

4,76
0,023 4,76

Total 155,9375 15
Se observa que nuestro punto critico tanto para la posicin, el tipo
de carro y las
marcas es de 4,76. Concluimos que en las marcas y posicin no existe evidencia de
que
esta influya por lo que se acepta la hiptesis nula de que son iguale

s a un nivel de
significancia de = 0,05. En cuanto al tipo de carro observamos que este si inf
luye en
el desgaste de las llantas por lo que rechazamos la hiptesis nula
Resultado arrojado en Minitab
Modelo lineal general: Desgaste vs. Posicin, Carro, Marcas
Factor
Posicin
Carro
Marcas
Fuente
P
Posicin
,431
Carro
0,023
Marcas
0,775
Error
Total

Tipo
fijo
fijo
fijo
GL

Niveles
4
4
4

SC sec.

3
3
3

Valores
1, 2, 3, 4
1, 2, 3, 4
A, B, C, D
SC ajust.

16,188

16,187

103,688

103,688

5,687
6
15

30,375
155,938

Calculo manual para ANOVA de cuadro latino


Fuente de
variaciones
SC GL CM F Valor
crtico
para F
Tratamientos

MC ajust.

5,687
30,375

5,396
34,563
1,896
5,062

1,07
6,83
0,37

Bloque 1
(filas)

Bloque 2
(columnas)

Error

Total

Diseo en cuadro latino


Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez

99

Sumas bsicas para el clculo manual


Posicin, carro y marca Operaciones bsicas
C
B
A
D

=
=
=
=

12
14
17
13

D
C
B
A

=
=
=
=

11
12
14
14

A
D
C
B

=
=
=
=

13
11
10
13

B
A
D
C

=
=
=
=

8
3
9
9

Suma de los cuadrados de los tratamientos

Suma de los cuadrados de filas (bloque 1)

Suma de los cuadrados de las columnas (bloque 2)

suma
de los datos

total de medicin

media global
Suma total por Tratamiento (
Sumatoria de las letras A,B,C y D
correspondientes
47
49
43
44
Suma total por fila Bloque 1 (
44
Suma total por

40

50

columna Bloque II

49

(
56

51

47

29

1.- Suma de cuadrados de tratamientos o variabilidad debida a la dife


rencia entre las
marcas de llantas, bloque 1 y bloque 2

2.- Suma total de cuadrados o variabilidad total de los datos

3.- Suma de cuadrados del error o variabilidad dentro de mtodos de ensamble

4.- Cuadrados medios de tratamientos, del bloque 1, del bloque 2 y del error

100

CAPTULO 3

Diseo de bloques

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez

5- Estadstico de prueba

ANOVA para el diseo del cuadro latino


Fuente de
variaciones
SC GL CM F Valor crtico
para F
Tratamientos 5,68 3 1,89 0,37 4,76
Renglones
(Bloque 1)
16,19 3 5,39 1,06 4,76
Columnas
(Bloque2)
103,69 3 34,56 6,83 4,76
Error 30,37 6 5,06

Comprobacin de supuestos. Como se coment antes, la validez del anlisis d


e
varianza recae en tres supuestos que siempre deben verificarse:
- Normalidad
- Varianza constante
- Independencia de los residuos
Adems de la ausencia de observaciones atpicas o aberrantes. Como se observa en
la figura 3.6, el supuesto de normalidad se cumple al caer los residuos o punt
os ms o
menos en lnea recta (Grafica de probabilidad normal). Tambin se cumple el supuesto
de varianza constante de acuerdo a la grafica de residuos vs valor a
justado, y en la
grafica de residuos vs orden de observacin, en la que los residuos se
ubican
aleatoriamente dentro de una banda horizontal; su dispersin vertical es
la misma a lo
Diseo en cuadro latino

101

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
largo de los grficos. No se comprob
el supuesto de independencia porq
ue no se
conoce el orden en que se realizaron las mediciones del desgaste.
Figura 3.6 Grficas de residuos para la verificacin de supuestos
4 2 0 -2 -4
99
90
50
10
1
Residuo
P
o
r
c
e
n
t
a
j
e
15,0 12,5 10,0 7,5 5,0
1
0
-1
-2
-3
Valor ajustado
R
e
s
i

d
u
o
1 0 -1 -2 -3
4
3
2
1
0
Residuo
F
r
e
c
u
e
n
c
i
a
16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1
1
0
-1
-2
-3
Orden de observacin
R
e
s
i
d
u
o
Grfica de probabilidad normal vs. ajustes
Histograma vs. orden
Grficas de residuos para Desgaste

Ejercicios
1.- Las letras A, B, C y D representan cuatro variedades de trigo;
los renglones
representan cuatro diferentes fertilizantes; y las columnas 4 anos dife
rentes. Los datos
de la siguiente tabla son los rendimientos para las cuatro variedades
de trigo, medidas
en kilogramos por parcela. Se supone que las diversas fuentes de vari
acin no
interactan. Utilice un nivel de significancia de 0.05 para probar la
; no hay
diferencia en los rendimientos promedio de las cuatro variedades de trigo
Rendimiento del trigo (kg por parcela)

Modelo lineal general: Rendimiento vs. Fertilizante, Ano, Trigo


Factor
Fertilizante
Ano
Trigo

Tipo
fijo
fijo
fijo

Niveles
4
4
4

Valores
1, 2, 3, 4
1, 2, 3, 4
A, B, C, D

Fuente
GL
SC sec.
SC ajust.
Fertilizantes 1981 1982
1983 1984
Fertilizante 1 A
70
B
75
C
68
D
81
Fertilizante 2 D
66
A
59
B
55
C
63
Fertilizante 3 C
59
D
66
A
39
B
42
Fertilizante 4 B
41
C
57
D
39
A
55
102
CAPTULO 3
Diseo de bloques

MC ajust.

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Fertilizante
3
1557,19
1557,19
519,06
11,92
0,006
Ano
3
417,69
417,69
139,23
3,20
0,
105
Trigo
3
263,69
263,69
87,90
2,02
0
,213
Error
6
261,37
261,37
43,56
Total
15
2499,94
La variabilidad debida al fertilizante, aos y tipos de tratamiento. La = 2,02 es
sobre 3 y 6 grados de libertad El valor p de aproximadamente 0,2 es en realidad

demasiado grande para concluir que las variedades de trigo afectan de manera
significativa el rendimiento.
2.- El departamento de matemticas de una universidad desea evaluar las
capacidades
de enseanza de cuatro profesores. A fin de eliminar cualquier efecto d
ebido a los
diferentes cursos de matemticas y los diferentes horarios, se decide re
alizar un
experimento con el uso de un diseo de cuadros latinos en que las let
ras A, B, C y D
representan a los cuatro diferentes profesores. Cada profesor ensena una seccin d
e cada
de cuatro diferentes cursos programados en cada uno de los cuatro dif
erentes horarios
durante el da. Los datos muestran las calificaciones asignadas por estos profesor
es a 16
estudiantes de aproximadamente igual capacidad. Utilice un nivel de sig
nificancia de
0,05 para probar la hiptesis de que los diferentes profesores no tiene
n efecto en las
calificaciones.
Horario Curso
lgebra Geometra Estadstica Clculo
1
2
3
4
A 84
B 91
C 59
D 75
B 79
C 82
D 70
A 91
C 63
D 80
A 77
B 75
D 97
A 93
B 80
C 68
3.- Una empresa fabricante quiere investigar los efectos de cinco
lor en el
tiempo de fraguado de una mezcla de concreto nueva. Las
n el tiempo de
fraguado se pueden esperar de los cambios diarios en la
humedad y
tambin de los diferentes trabajadores que preparan los moldes de
minar
estas fuentes externas de variacin se utiliza un diseo
de 5 x 5 en el
que las letras A, B, C, D y E representan los cinco aditivos. Los
guado, en

aditivos de co
variaciones e
temperatura y
prueba. Para eli
de cuadro latino
tiempos de fra

horas, para los 25 moldes. El nivel de significancia de 0,05, Podemos


decir que los
aditivos de color tienen algn efecto en el tiempo de fraguado de la mezcla de con
creto?
Da
Trabajador 1 2 3 4 5
1
2
3
4
5
D 10,7
E 11,3
A 11,8
B 14,1
C 14,5
E 10,3
C 10,5
B 10,9
A 11,6
D 11,5
B 11,2
D 12,0
C 10,5
E 11.0
A 11,5
A 10,9
B 11,5
D 11,3
C 11,7
E 12,7
C 10,5
A 10,3
E 7,5
D 11,5
B 10,9
4.- Se quiere estudiar el efecto de cinco diferentes catalizadores (A, B, C, D y
E) sobre
el tiempo de reaccin de un proceso qumico. Cada lote de material slo permite cinc
o
Diseo en cuadro latino

103

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
corridas y cada corrida requiere aproximadamente 1,5 horas por lo que
slo se pueden
realizar cinco corridas diarias. El experimentador decide correr los experimento
s con un
diseo en cuadro latino para controlar activamente a los lotes y das. L
os datos
obtenidos son:
Da
Lote 1 2 3 4 5
1
2

3
4
5
A
C
B
D
E
B
E
A
C
D
D
A
C
E
B
C
D
E
B
A
E
B
D
A
C

8
11
4
6
4
7
2
9
8
2
1
7
10
6
3
7
3
1
6
8
3
8
5
10
8

a) Cmo se aleatoriza el experimento?


b) Anote la ecuacin del modelo y las hiptesis estadsticas correspondientes
c) Existen diferencias entre los tratamientos? Cules tratamientos son diferentes
entre si?
d) Verifique los supuestos del modelo, considerando que los datos se obtuvieron
columna por columna, da a da
5.- Se comprueba el peso en gramos de un material de tres proveedores: A, B y C,
por
tres diferentes inspectores: I, II y III, utilizando tres diferentes escalas: 1,
2 y 3. El
experimento se lleva a cabo como el siguiente cuadro latino:
Escala
Inspector 1 2 3
I
II
III
A 16
B 15
C 13
B 10
C 9
A 11
C 11
A 14
B 13
a) Hay diferencias entre los proveedores?
b) Hay diferencias entre los inspectores y entre las escalas?

c) Si el peso debe ser 15 g, cul proveedor es mejor?


d) Si algn factor de bloque es no significativo, elimnelo y haga el anlisis
adecuado
6.- Cuando se comparan varios fertilizantes o diferentes variedades de cierto cu
ltivo, es
tpico que se deba considerar el gradiente de fertilidad del suelo (factor column
a) o los
efectos residuales de cultivos previos (factor rengln). Considerando esto
s factores de
bloque, Gmez y Gmez (1984) plantean un experimento en cuadro
latino p
ara
comparar, en cuanto a rendimiento en toneladas por hectrea, tres varied
ades de maz
hibrido (A, B, C) y una variedad control
(D). Para ello, se utiliz
a un campo agrcola
cuadrado de 16 hectreas, dividido en parcelas de una hectrea. Los datos
de
rendimiento obtenidos en cada parcela se muestran a continuacin:

104

CAPTULO 3

Diseo de bloques

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
RenCol 1 2 3 4
1
2
3
4
B 1,640
C 1,475
A 1,670
D 1,565
D 1,210
A 1,185
C 0,710
B 1,290
C 1,425
D 1,400
B 1,665
A 1,655
A 1,345
B 1,290
D 1,180
C 0,660
a) Existen diferencias en los rendimientos de las diferentes variedades de maz?
b) Cul de los factores de bloque tuvo efectos?
c) Se habran detectado las mismas diferencias en los tratamientos con un diseo
completamente al azar?
d) Y con un diseo en bloques completos al azar?

3.3. Diseo en cuadrado grecolatino

Con el diseo en cuadro grecolatino (DCGL) se controlan tres factores d


e bloque,
adems del factor de tratamiento. Se llama cuadro grecolatino porque los cuatro fa
ctores
involucrados se prueban en la misma cantidad de niveles, de aqu que se pueda escr
ibir
como un cuadro (ver tabla 3.5); adems, se utilizan letras latinas para
denotar a los
tratamientos y letras griegas para nombrar a los niveles del tercer factor de bl
oque.
Tabla 3.5 Diseo en cuadro grec
olatino
Columnas
1 2 3 4
R
e
n
g
l
o
n
e
s
1
2
3
4
A
B
C
D
B
A
D
C
C
D
A
B
D
C
B
A
Al igual que en el cuadro latino, cada letra (latinas y griegas) debe aparecer sl
o
una vez en cada rengln y en cada columna. Adems, cada par de letras debe apar
ecer
slo una
vez en todo el arreglo.
El modelo estadstico que describe a las med
iciones en un
cuadro grecolatino est dado por

donde
es la observacin o respuesta que se encuentra en el tratamiento (-sima
letra latina), en el rengln , en la columna y en la -sima letra griega;
es el efecto
del tratamiento ,
es el efecto del rengln ,
representa el efecto de la columna y
representa el efecto de la -sima letra griega, que son los niveles del tercer f
actor
de bloque; el trmino
representa el error aleatorio atribuible a la medicin
.
Es importante no confundir las letras griegas del modelo que represent
an efectos, con
las letras griegas en el diseo que simbolizan a los niveles del terce
r factor de bloque.
La variabilidad total presente en los datos se puede partir de la manera usual c
omo

Diseo en cuadro grecolatino


Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
donde las sumas

105

miden la variabilidad debida a los factores de


bloque rengln, columna y de letras griegas, respectivamente. Para tratam
ientos, los
grados de libertad correspondientes a cada suma son

Un bosquejo del anlisis de varianza se muestra en la tabla 3.6, en l


a cual se
prueban las hiptesis de igualdad de letras latinas (tratamientos), de r
englones, de
columnas y de letras griegas
Tabla 3.6 ANOVA para el diseo en cuadro grecolatino
Fuente de
variabilidad
Suma de cuadrados Grados de libertad
Tratamientos
(letras latinas)
Factor de bloque I
(renglones)
Factor de bloque II
(columnas)
Factor d bloque III
(letras griegas)
Error
Total

k-1
k-1
k-1
k-1
(k-3)(k-1)

Ejemplo
En el caso del ejemplo donde se comparan los cuatro mtodos de ensamble y se tiene
el
factor de bloque operador, se podran tener dos factores de bloque adicionales:
- Orden en el que se hace el ensamble
- Lugar donde se hace
De acuerdo con esto, el diseo en cuadro grecolatino se observa en la
siguiente
tabla.

106

CAPTULO 3

Diseo de bloques

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Tabla 3.7 Diseo en cuadro grecolatino para mtodos de ensamble
Operador
1 2 3 4
O
r
d
e
n
d
e
l
e
n
s
a
m
b
l
e
1
2
3
4
C = 10
B
A
D
B
C
D
A
D
A
B
C
A
D
C
B
Tabla 3,8 ANOVA para el diseo en cuadro grecolatino
Fuente Suma de
cuadrados
Gl Cuadrado
medio
Razn F Valor-p F critica
Mtodo
Operador
Orden
Lugar
Residual
Total

83,5
18,5
9,5
2,0
3,5
117,0
3
3
3
3
3
15
27,8333
6,16667
3,16667
0,666667
1,16667
23,86
5,29
2,71
0,57
0,0135
0,1024
0,2170
0,6714
9,28
Resultado arrojado en Minitab
Modelo lineal general: promedio vs. Mtodo; operador; orden; lugar
Factor
Mtodo
operador
orden
lugar

Tipo Niveles Valores


fijo
4
1; 2; 3; 4
fijo
4
1; 2; 3; 4
fijo
4
1; 2; 3; 4
fijo
4
1; 2; 3; 4

Fuente
GL SC sec. SC ajust.
Mtodo
3
9,500
9,500
operador 3 18,500
18,500
orden
3 83,500
83,500
lugar
3
2,000
2,000
Error
3
3,500
3,500
Total
15 117,000
S = 1,08012

R-cuad. = 97,01%

MC ajust. F
3,167 2,71
6,167 5,29
27,833 23,86
0,667 0,57
1,167

P
0,217
0,102
0,014
0,671

R-cuad.(ajustado) = 85,04%

El anlisis de varianza para el ejemplo se aprecia que el nico efecto


significativo son los tratamientos (mtodos), y ninguno de los factores
de bloque tiene
un efecto significativo sobre el tiempo de ensamble. El factor operador tiene un
valor-p
bajo, lo cual indica que podra tener un efecto significativo; sin emba

rgo, en este
experimento fue imposible detectarlo. Si contrastamos con respecto a F critica
para los
cuatro casos F en tablas es F = 9,28,
por lo cual se rechaza la
hiptesis nula para
mtodo, en cuanto para operador, orden y lugar se acepta.

Diseo en cuadro grecolatino

107

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Ejercicios.
1.- Una compaa distribuidora ubicada en los suburbios est interesada en
estudiar la
diferencia en costos (tiempo y gasolina) entre las cuatro rutas (A, B, C, D) que
llegan a
la zona comercial, ms importante para ellos, en el otro extremo de la ciudad.
Deciden
correr un experimento en cuadro grecolatino controlando los factores de bloque c
hofer,
marca de vehculo ( ) y da de la semana. El experimento se repite en
dos
semanas diferentes, en las cuales no hay das festivos ni quincenas. Lo
s costos
observados en pesos se muestran en la siguiente tabla:
Chofer/da Lunes Martes Mircoles Jueves
Carlos
Enrique
Genaro
Luis
825, 750
650, 725
700, 675
475, 480
585, 610
540, 560
650, 740
560, 615
550, 580
580, 635
635, 540
650, 725
580, 650
850, 770
450, 550
670, 730
a) Haga el anlisis de varianza de este experimento
b) Realice las pruebas de comparaciones mltiples para los factores significativo
s
c) Represente los tratamientos y factores de bloque usando grficas de

medias y
diagrama de dispersin.
d) Cul es la mejor ruta? Cul es la peor?
e) Hay diferencias significativas entre los choferes? Y entre el tipo o
marca de
unidad?
2.El rendimiento de un proceso qumico se midi utilizando cinco lote
s de materia
prima, cinco concentraciones del cido, cinco tiempos de procesamiento (A, B, C, D
y
E) y cinco concentraciones del catalizador ( , ). Se us el cuadrado grecolatino
siguiente. Analizar los datos de este experimento (utilizar
y sacar
conclusiones.
Concentracin de cido
Lote 1 2 3 4 5
1
2
3
4
5
A
26
B
18
C, 20
D
15
E,
10
B,
16
C
21
D, 12
E
15
A,
24
C,
19
D,
18
E
16
A
22
B,
17
D
16
E, 11
A,
25
B
14
C,
17
E,
13
A,
21
B
13
C
17
D,
14

108

CAPTULO 3

Diseo de bloques

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
3.4. Uso de un software estadstico

= 0,05)

Para capturar los datos


ente
secuencia:

en Minitab para el diseo de bloques se sigue la sigui

Primeramente en la hoja de clculo


de Minitab, se capturan los datos
en las
columnas uno dos y tres de la siguiente manera:
a) En la columna uno se captura el mtodo u tratamiento indicando
de
que
mtodo se trata y cuantas repeticiones hay del mismo, repitiendo el mis
mo
nmero 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 4
b) En la segunda columna se anota el operador, en la posicin que le
corresponde. 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4
c) En la tercera columna se anota el dato numrico de la tabla de datos, es decir
el tiempo promedio para este caso.
6, 9, 7, 8, 7, 10, 11, 8, 10, 16, 11, 14, 10, 13, 11, 9
d) En el cuadro de captura ser en ANOVA de dos factores, en la ventana de
captura se
anotara en Respuestas el nombre de la tercer columna, en
este
caso dato,
en el cuadro del
factor
fila se anota el nombre de
la primera
columna que corresponde al mtodo o tratamiento, en el factor columna s
e
anota el nombre del factor bloque que en este caso es operador
Nota, recordar que esto se hace en el cuadro principal de la izquier
da dando dos clics
con el ratn.
e) Indicar aceptar y obtendremos el resultado.

Para capturar los datos en Minitab para el


e dos
factores) se sigue la siguiente secuencia:

cuadro latino (ANOVA d

Primeramente en la hoja de clculo de Minitab, se capturan los datos e


n las columnas
uno dos tres y cuatro de la siguiente manera:
Uso de software estadstico

109

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
f) En la columna uno, se captura la posicin (para el problema de comparacin
de llantas) indicando
cuantas repeticiones hay de ese nmero repitiendo
el
mismo nmero 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4
g) En la segunda columna se anota el carro, tal y como se indica en
el diseo
del
cuadro. 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4
h) En la tercera columna se anota la letra que corresponde a la mar
ca de las
llantas en la secuencia que le corresponda segn los nmeros de la columna
anterior,

C, D, A, B, B, C, D, A, A, B, C, D, D, A, B, C
i) En la cuarta columna se anota los valores correspondientes a la respuesta, e
s
decir, el desgaste. 12, 11, 13, 8, 14, 12, 11, 3, 17, 14, 10, 9, 13, 14, 13, 9
j) Ahora en Estadsticas de Minitab, seleccionar ANOVA, luego
Modelo
linear general.
k) En respuesta seleccionar la columna cuatro (desgaste) dando dos clic con el
ratn, luego en Modelo, indicar con dos clic del ratn, carro, marca y
desgaste (recordar que esto se hace en el cuadro principal de la izq
uierda
quedando de manera continua sin comas, pero con su espacio de separacin)
l) En factores aleatorios se deja en blanco, y se indica aceptar, y obtendr
emos
el resultado

Para capturar los datos en Minitab


para el cuadro grecolatino (ANOVA
de tres
factores de bloque) se sigue la siguiente secuencia:
Primeramente en la hoja de clculo de Minitab, se capturan los datos e
n las columnas
uno dos tres, cuatro y cinco de la siguiente manera:
a) En la columna uno
se captura la tratamiento o mtodo,
indicando
con un
nmero
cuantas repeticiones hay de ese tratamiento, repitiendo el mismo
nmero 1,
b) En la
eferencia),
decir si es
110

1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 4
segunda columna se anota el operador (para el ejemplo de r
es
repeticin 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4
CAPTULO 3
Diseo de bloques

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
c) En la tercera columna se anota el nmero que representa a la letra latin
a como
se colocaron el
diseo del cuadro (para este caso el orden de las c
uatro letras
inciales fue C, B, D, y A (C = 1, B = 2, D = 3 y A = 4)). Anotando el nmero
que represente a cada letra indicada en el cuadro. 1, 2, 3 ,4, 2, 1, 4, 3, 4, 3,
2, 1,
3, 4, 1, 2
d) En la cuarta columna se anota el nmero que representa a la letra griega
como
se colocaron el
diseo del cuadro (para este caso el orden de las c
uatro letras
inciales fue , , , y
( = 1,
= 2, , = 3 y = 4)). Anotand
o el
nmero que represente a cada letra indicada en el cuadro.
1, 2, 3, 4, 4, 3, 2, 1, 3, 4, 1, 2, 2, 1, 4, 3
e) En la quinta columna se anota los valores correspondientes a la respuesta,
es
decir, el tiempo o promedio (para este ejemplo), siendo:
10, 10, 12, 7, 8, 15, 7, 14, 6, 14, 11, 13, 11, 8, 10, 8
f) Ahora en Estadsticas de Minitab, seleccionar ANOVA, luego
Modelo l
inear
general.

g) En respuesta seleccionar la columna quinta (tiempo o promedio) dando dos cli


c
con el ratn, luego en Modelo, indicar con dos clic del ratn, mtodo, operador,
orden y lugar (recordar que esto se hace en el cuadro principal de la izquierda
)
h) En factores aleatorios
se deja en blanco, y se indica aceptar,
y obtendremos el
resultado
Uso de software estadstico

111

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez

15/11/2011 11:26:49

Modelo lineal general: promedio vs. Mtodo; operador; orden; lugar


Factor
Metodo
operador
orden
lugar

Tipo Niveles Valores


fijo
4 1; 2; 3; 4
fijo
4 1; 2; 3; 4
fijo
4 1; 2; 3; 4
fijo
4 1; 2; 3; 4

Anlisis de varianza para promedio, utilizando SC ajustada para pruebas


Fuente
GL
Metodo
3
operador 3
orden
3
lugar
3
Error
3
Total
15

SC sec.
9,500
18,500
83,500
2,000
3,500
117,000

S = 1,08012

R-cuad. = 97,01%

112

CAPTULO 4

SC ajust.
9,500
18,500
83,500
2,000
3,500

MC ajust.
3,167
6,167
27,833
0,667
1,167

P
0,217
0,102
0,014
0,671

R-cuad.(ajustado) = 85,04%

Diseos factoriales

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
CAPTULO 4

F
2,71
5,29
23,86
0,57

Conceptos bsicos en diseos factoriales

4.1.
4.2.
4.3.
4.4.
4.5.

Diseos factoriales con dos factores


Diseos factoriales con tres factores
Diseo factorial general
Modelos de efectos aleatorios
Uso de un software estadstico

Diseos factoriales

113

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Competencias
Explicar cuando un diseo de experimentos es un diseo factorial, describi
endo los
conceptos bsicos que estos involucran y mostrado cmo se hace tal experimentacin.
Desarrollar los diseos factoriales de dos y tres factores. Conocer el
diseo factorial
general y diferenciar los modelos de efectos fijos con los modelos de efectos al
eatorios.
Interpretar correctamente los anlisis grficos y el anlisis de varianza en
los diseos
factoriales.
Conceptos bsicos en diseos factoriales
Es frecuente que en muchos procesos existan varios factores de los qu
e es necesario
investigar de manera simultnea su influencia sobre una o varias variables de resp
uesta,
donde cada factor tiene la misma importancia a priori desde el momento que
se decide
estudiarlo, y es poco justificable suponer de antemano que los factore
s no interactan
entre s. Los diseos experimentales que permiten estudiar de manera simul
tnea el
efecto de varios factores son los llamados diseos factoriales.
El objetivo de un diseo factorial es estudiar el efecto de varios fac

tores sobre
una o varias respuestas o caractersticas de calidad y determinar una c
ombinacin de
niveles de los factores en la cual el desempeo del proceso sea mejor
que en las
condiciones de operacin actuales; es decir, encontrar nuevas condiciones de opera
cin
del proceso que eliminen o disminuyan ciertos problema de calidad en
la variable de
salida.
Los factores pueden ser de tipo cualitativo (mquinas, tipos de material
,
operador, la presencia o ausencia de una operacin previa, etc.), o de t
ipo cuantitativo
(temperatura, humedad, velocidad, presin, etc.). Para poder estudiar la m
anera en que
incluye cada factor sobre la variable respuesta, es necesario elegir al menos do
s niveles
de prueba para cada uno de ellos (tres mquinas, dos operadores, tres ve
locidades, dos
temperaturas, etc.). Con el diseo factorial completa se corren aleatoria
mente en el
proceso todas las posibles combinaciones que pueden formarse con los n
iveles
seleccionados.
Un diseo de experimentos factorial o arreglo factorial es el conjunto de puntos
experimentales o tratamientos que pueden formarse considerando todas las
posibles
combinaciones de los niveles de los factores. Por ejemplo, con k = 2
factores, ambos
con dos niveles de prueba, se forma el diseo factorial
, que consiste de
cuatro combinaciones o puntos experimentales.
Considerando otra vez k = 2 factores, pero ahora uno con tres niveles
y el otro
con dos niveles, se pueden construir 3 x 2 combinaciones que dan lug
ar al diseo
factorial 3 x 2. Observe que en el nombre del diseo factorial va implcita el nmero
de
tratamientos que lo componen. Para obtener el nmero de corridas experim
entales se
multiplica el nmero de tratamientos por el nmero de rplicas, donde una
rplica se
lleva a cabo cada vez que se repite el arreglo completo.
Ms en general, la familia de diseos factoriales
consiste de k factores, todos
con dos niveles de prueba; y la familia de diseos factoriales
consiste de k factores
114
CAPTULO 4

Diseos factoriales

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
cada uno con tres niveles de prueba. Es claro que si los k factores

no tienen
cantidad de
cribirse el
producto de
tro
niveles y
ial

la misma
niveles, entonces no se puede factorizar de esta forma, y debe es
manera ms explcita: por ejemplo con k = 3 factores, el primero con cua
los dos restantes con dos niveles, se tiene el diseo factor

, que consiste de 16 combinaciones de niveles diferentes.


4.1. Diseos factoriales con dos factores
El experimento factorial ms sencillo es en el que intervienen solamente
dos factores,
por ejemplo, A y B. Hay niveles del factor A y niveles del factor B. El experi
mento
tiene rplicas y cada rplica contiene todas las combinaciones de tratamientos .
Considere los factores A y B con
y
(
) niveles de prueba,
respectivamente. Con ellos se puede construir el arreglo o diseo factor
ial , que
consiste de
tratamientos. Se llama rplica cada repeticin completa del
arreglo
factorial. Los diseos factoriales que involucran menos de cuatro factore
s se corren
replicados para poder tener la potencia necesaria en las pruebas estads
ticas sobre los
efecto de inters, de tal forma que si se hacen rplicas, el nmero total
de corridas
experimentales es ( ).
Efecto principal y efecto de interaccin
El efecto de un factor se define como el cambio observado en la var
iable de respuesta
debido a un cambio de nivel de tal factor. En particular, los efectos principa
les son los
cambios en la media de la variable de respuesta que se deben a la accin ind
ividual de
cada factor. En trminos matemticos, el efecto principal de un factor con dos nivel
es es
la diferencia entre la respuesta media observada cuando tal factor est
uvo en su primer
nivel, y la respuesta media observada cuando el factor estuvo en su segundo nive
l.
Ejemplo
Diseo factorial
. Suponga que en un proceso de fermentacin
tequilera, se tienen
dos factores A: tipo de levadura y B: temperatura, cada uno con dos niveles deno
tados por

respectivamente. La respuesta de inters es el


rendimiento del proceso de fermentacin. En la tabla 4.1 se muestran lo
s cuatro
tratamientos o puntos del diseo factorial
, y entre parntesis se ha indicado cada
nivel con los cdigos (1, -1). En el experimento original cada tratamiento se co
rri tres
veces (tres rplicas), lo cual da un total de 12 corridas del proceso pero, por si
mplicidad,
en la ltima columna de la tabla 4.1 slo se anotaron los resultados de
la primera
rplica.
Tabla 4.1 Diseo factorial
A: Levadura B: Temperatura Y: Rendimiento

28
41
63
45
Para los datos de la tabla 4.1, los efectos principales estn dados por
Diseos factoriales con dos factores
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
Efecto A =

115

Efecto B =

por lo que en trminos absolutos el efecto principal de B es mayor. P


or otra parte, se
dice que dos factores interactan entre s o tienen un efecto de interac
cin sobre
la
variable de respuesta, cuando el efecto de un factor depende del nive
l en que se
encuentra el otro. Por ejemplo, los factores A y B interactan si el efecto de A
es muy
diferente en cada nivel de B, o viceversa. Ahora veamos esto con los
datos de la tabla
4.1: el efecto de A cuando B es baja est determinado por
Efecto A (con B bajo) = 41 - 28 = 13
y cuando la temperatura es alta, el efecto de A es
Efecto A (con B alta) = 45 - 63 = 13
Como estos dos efectos de A en funcin del nivel de B son muy dife
rentes,
entonces es evidencia de que la eleccin ms conveniente del nivel de A
depende del
nivel en que est B, y viceversa. Es decir, eso es evidencia de que los factores d
e A y B
interactan sobre Y. En la prctica, el clculo del efecto A en cada nive
l de B no se
hace, y ms bien se calcula el efecto global de la interaccin de los dos factores,
que se
denotan por AB y se calculan como la diferencia entre la respuesta media cuando
ambos
factores se encuentran en el m ismo nivel: (-1, -1); (1, 1), y la respuesta
media cuando
los factores se encuentran en niveles opuestos: (-1, 1) (1, -1). Para el ejemplo
, el efecto
de interaccin levadura x temperatura est dado por

Los valores absolutos (sin importar el signo) de los efectos princip


ales y del
efecto de interaccin son una medida de importancia de su efecto sobre
la variable de

respuesta. Sin embargo, como se tienen estimaciones muestrales, para sa


ber si los
efectos son estadsticamente significativos (diferentes de coro) se requiere el anl
isis de
varianza (ANOVA).
Modelo estadstico
Con un diseo factorial
se pueden estudiar los dos efectos individuales y el ef
ecto
de interaccin de ambos factores. En trminos estadsticos, lo que se afirm
a es que el
comportamiento de la respuesta Y en el experimento con k rplicas se p
odra describir
mediante el modelo de efectos:

donde es la media general,


es el efecto debido al i-simo nivel del factor
es el
efecto del j-simo nivel del factor B,
representa al efecto de interaccin en la
116
CAPTULO 4
Diseos factoriales
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
combinacin
es el error aleatorio que supone sigue una distribucin con media
cero y varianza constante

y son independientes entre s. Para que la


estimacin de los parmetros en este modelo sea nica, se introducen las restricciones
:

Es decir, los efectos dados en el modelo son desviaciones respecto de


la media
global. Puede usarse el anlisis de varianza para probar hiptesis relativas a los
efectos
principales de los factores A y B y la interaccin AB.
En este modelo, las hiptesis de inters para los tres efectos son:

Estas hiptesis se prueban mediante la tcnica de anlisis de varianza qu


e para
un diseo factorial
con rplicas resulta de descomponer la variacin total como,

donde los respectivos grados de libertad de cada una de ellas son:

El factor
ror
(

en los grados de libertad de la suma de cuadrados del er

) seala que se necesitan al menos dos rplicas del experimento para cal
cular ese
componente y, por ende, para construir una tabla de ANOVA. Recordemos
que las
sumas de cuadrados divididas entre sus correspondientes grados de liber
tad se llama
cuadrados medios . Al dividir stos entre el cuadrado medio del error
se
obtienen estadsticos de prueba con distribucin F. Toda esta
se sintetiza
en la siguiente tabla:
ANOVA para el diseo factorial
FV SC GL CM
Valor-p
Efecto A
Efecto B
Efecto AB
Error
Total

informacin

Si el valor-p es menor al nivel de significancia prefijado, se recha


za la
hiptesis nula y se concluye que el correspondiente efecto est activo o
influye en la
variable de respuesta.
Diseos factoriales con dos factores

117

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Recordemos la notacin de puntos para representar sumas y medias:

Con esta notacin la suma de cuadrados totales es:

donde N = es el total de observaciones en el experimento. Las sumas de cuadrado


s
de efectos son:

y al final, al restar stas del total, se obtiene la suma de cuadrados del error c
omo:

Ejemplo
Consideremos un experimento en el que se quiere estudiar el efecto de
los factores A:
profundidad de corte sobre el acabado de un metal y B: velocidad de
alimentacin.
Aunque los factores son de naturaleza continua, en este proceso slo se
puede trabajar
en 4 y 3 niveles, respectivamente. Por ello, se decide correr un factorial compl
eto 4 x 3
con tres rplicas, que permitir obtener toda la informacin relevante en r
elacin al
efecto de esos factores sobre el acabado. Al aleatorizar las 36 prueb
as se obtienen los
datos de la siguiente tabla:
118
CAPTULO 4
Diseos factoriales
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez

Datos del experimento factorial 4 x 3


B: velocidad
A
:

P
r
o
f
u
n
d
i
d
a
d
0,20 0,25 0,30 Total
0,15
64
60
92
86
88
99
98
102
763
0,18
68
73
98
104
88
104
99
95
808
0,21
88
92
99
108
95
108
110
99

74
198
266
299

79
220
290
298

82
262
302
317

881
0,24 99
104 299
96
104

110
99
114
111
107

313
332

944
Total
979 1 171 1 246

El acabado () est en unidades de gramos e interesa minimizar su valor


De acuerdo a esto para obtener el ANOVA para el ejemplo, calculemos
los
totales necesarios. De donde:

La suma de cuadrados totales y la suma de cuadrados del error estn dadas por

Con esta informacin se construye el anlisis de varianza de la tabla


4.2. Del
ANOVA se concluye que los tres efectos A: velocidad, B: profundidad y
AB estn
activos o influyen en el acabado. Dado que el efecto de integracin AB
resulta
significativo, prcticamente toda la informacin relevante del experimento se apreci
a en
su representacin grfica (figura 4.1). Ntese que aparecen tantas lneas como
niveles
tenga el factor que se dibuja en la parte de arriba, que en este c
aso es la
profundidad
con sus cuatro niveles que se denotan con la escala de -1 a 1. La
significancia de
la
interaccin detectada por el ANOVA se observa en el hecho de que las
lneas en la
figura 5.1 tienen pendientes relativamente diferentes. Como lo que inte
resa es
minimizar la variable de respuesta, se observa que a mayor velocidad y profundid
ad hay
una tendencia a obtener peores acabados. Adems se ve que cuando se tiene veloci
dad
Diseos factoriales con dos factores

119

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
alta (
) el efecto de profundidad es menor (vase la dispersin de las lneas en
la
figura cuando la velocidad es alta). Por lo tanto, las condiciones de

operacin o
tratamiento que convienen es profundidad y velocidad bajas (

).
El ANOVA de la tabla 5.2 se dice que no est desglosado, ya que cuando en un
experimento hay factores cuantitativos con ms de dos niveles, el ANOVA
se puede
desglosar para estudiar con mayor detalle en el efecto de tal factor.
Tabla 5.2 ANOVA para el ejemplo
FV SC GL CM
Valor-p
B: velocidad
A: profundidad
AB
Error
Total
3 160.5
2 125,10
557,07
689,33
6 532,0
2
3
6
24
35
1 580,25
708,37
92,84
28,72
55,02
24,66
3,23
0,0000
0,0000
0,0180
El planteamiento de hiptesis quedara de la siguiente manera:
Con su nivel de significancia como con sus grados de libertad respect
ivamente
tenemos que el valor de F crtica es:

y
Se concluye que

Se rechaza

Se rechaza

Se acepta

Resultado arrojado en Minitab para el ejemplo anterior


Factores:
2
Corridas base: 12
Bloques base:
1

Rplicas:
3
Total de corridas: 36
Total de bloques:
1

Nmero de niveles: 4; 3
Modelo lineal general: RESPUESTA vs. PRFUNDIDAD; VELOCIDAD
Factor
Tipo
PRFUNDIDAD A fijo
VELOCIDAD B fijo

Niveles
4
3

Valores
0.15; 0.18; 0.21; 0.24
0.20; 0.25; 0.30

Anlisis de varianza para RESPUESTA, utilizando SC ajustada para pruebas


Fuente
PRFUNDIDAD A
VELOCIDAD B
PRF.*VEL. AB
Error
Total
120
CAPTULO

GL
3
2
6
24
35
4

SC sec. SC ajust. MC ajust.


2125,11
2125,11
708,37
3160,50
3160,50
1580,25
557,06
557,06
92,84
689,33
689,33
28,72
6532,00
Diseos factoriales

F
24,66
55,02
3,23

P
0,000
0,000
0,018

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Comparacin de medias
Las comparaciones de medias se introdujeron en la seccin Diseo completamente al
azar y ANOVA del captulo 2, para despus de un ANOVA en el que se rechaza
,
investigar cules medias causa las diferencias detectadas. El ANOVA slo indica que
al
menos un par de niveles del factor significativo son diferentes entre
s, pero no dice

cules son. Por facilidad, denotemos los cuatro niveles de la profundida


d (A) del
ejemplo anterior como

as como los tres niveles de la velocidad (B)


como

Entonces es, los seis pares de hiptesis para comparar las medias del
factor A son:

mientras que para el factor B se tienen los tres pares de hiptesis,

Para probar estas hiptesis con el mtodo LSD habra que calcular las
diferencias muestrales en el valor absoluto y compararlas con la difer
encia mnima
significativa. Cabe aclarar que este anlisis es engaoso cuando el efecto de intera
ccin
es significativo. Por ello, y slo por ilustrar el mtodo, se prueban la
s hiptesis del
factor A ignorando por el momento la interaccin. La diferencia mnima si
gnificativa
para comparar los niveles
del factor A, est dada por:

Donde
es el punto porcentual 100(
de la distribucin T de
Student,
los grados de libertad del cuadrado medio del error,
y
son el
total de observaciones en los niveles
del factor A, que estn compara
ndo. De esta
manera, en el ejemplo, como es un diseo balanceado
=
= 9; entonces,

Comparacin de medias

121

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
De los totales marginales dados en el rengln inferior de la tabla d
onde se
representan los datos del experimento factorial 4 x 3, se obtienen las medi
as del factor
A, al dividir entre 9, que son el nmero de mediciones involucradas en cada total
. As,
las seis posibles diferencias muestrales en valor absoluto resultan ser:

donde slo la primer diferencia resulta no significativa, es decir, se acepta

; en cambio, en las cinco comparaciones restantes se rechaza


.
Ejercicios
1.- La pintura tapaporo de aviones se aplica en superficies de alumin
io utilizando dos
mtodos: por inmersin y por aspersin. El objeto de la pintura tapaporo es
mejorar la
adherencia de la pintura, y en algunas partes puede aplicarse utilizando cualqui
era de los
dos mtodos. Al grupo de ingenieros responsable del proceso de esta ope
racin le
interesa saber si tres pinturas tapaporo diferentes difieren en sus pr
opiedades de
adherencia. Se realiz un experimento factorial para investigar el efecto que tien
e el tipo
de pintura tapaporo y el mtodo de aplicacin sobre la adherencia de la
pintura. Se
pintaron tres ejemplares de prueba con cada pintura utilizando cada uno de los
mtodos
de aplicacin, se aplico la pintura final, y se midi la fuerza de adherencia. Probe
mos la
hiptesis apropiada y saquemos conclusiones
Tipo de
tapaporo
Inmersin Aspersin
1
2
3
4.0,
5.6,
3.8,
5.4,
5.8,
5.5,
28.7
34.1
27.0

4,5
4.9,
3.7,
4.9,
6.1,
5.0,

4.3
5.4
4.0
5.6
6.3
5.0

12.8
15.9
11.5
15.9
18.2
15.5

40.2 49.6 89.8 =

Resultado en Minitab

Diseo factorial de mltiples niveles


Factores:
2
Corridas base: 6
Bloques base: 1

Rplicas:
3
Total de corridas: 18
Total de bloques:
1

Nmero de niveles: 3; 2
Modelo lineal general: Respuesta vs. Tapaporo; Adherencia
Factor
Tapaporo
122

Tipo Niveles Valores


fijo
3 1; 2; 3
CAPTULO 4
Diseos factoriales

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Adherencia fijo
2 Inmersin; Aspersin
Anlisis de varianza para Respuesta, utilizando SC ajustada para pruebas
Fuente
GL SC sec.
Tapaporo
2 4,5811
Adherencia
1 4,9089
Tapaporo*Adherencia 2 0,2411
Error
12 0,9867
Total
17 10,7178
S = 0,286744

R-cuad. = 90,79%

SC ajust. MC ajust.
4,5811
2,2906
4,9089
4,9089
0,2411
0,1206
0,9867
0,0822

F
P
27,86 0,000
59,70 0,000
1,47 0,269

R-cuad.(ajustado) = 86,96%

Dado que utilizamos un = 0.05 y puesto que el valor de tanto para el factor
A (tipo de pintura) como para el factor B(tipo de aplicacin), con su
nivel de
significancia como con sus grados de libertad respectivamente tenemos
y
. Se concluye que los efectos principales del tipo de pintura
tapaporo y del mtodo de aplicacin afectan la fuerza de adherencia. Adems
, puesto
que 1,5
, no hay indicios de interaccin entre estos factores. En la
ltima columna del ANOVA se muestra el valor P para cada cociente F. Obsrvese que
los valores P de los dos estadsticos de prueba para los efectos princ
ipales son
considerablemente menores que 0,05 mientras que el valor P para el es
tadstico de
prueba de la interaccin es mayor que 0,05.

Se rechaza

Se rechaza

Se acepta

2.- Se presentan los resultados de un experimento en el que intervien


e una batera de
almacenamiento usada en el mecanismo de lanzamiento de un misil tierra
-aire para
cargar al hombro. Pueden usarse tres tipos de materiales para hacer l
as placas de la
batera. El objetivo es disear una batera que se mantenga relativamente s
in
alteraciones por la temperatura ambiente. La respuesta de salida de la batera es
la vida
efectiva en horas. Se seleccionan tres niveles de temperatura y se corre un expe
rimento
factorial con cuatro replicas. Los datos son los siguientes:
Material Temperatura (
Baja Media Alta
1 130
74
155
180
34
80
40
75
20
82
70
58
2 150
159
188
126
136
106
122
115
25
58
70
45
3 138
168

110
160
174
150
120
139
96
82
104
60
a) Pruebe las hiptesis apropiadas y saque conclusiones utilizando el anlisis de
Ejercicios

123

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
b) varianza con = 0.05
c) Analice grficamente la interaccin
d) Analice los residuales de este experimento
3.- En un artculo se describe un experimento para investigar el efecto de dos fac
tores
(tipo de cristal y tipo de fsforo) sobre la brillantez de un cinescopio. La varia
ble de
respuesta media es la corriente (en microamperes) necesaria para obtener un nive
l
especifico de brillantez. Los datos se presentan en la siguiente tabla:
Tipo de
cristal
Tipo de fsforo
1 2 3
1 280
290
285
300
310
295
290
285
290
2 230
235
240
260
240
235
220
225
230
a) Enuncie las hiptesis de inters en este experimento
b) Pruebe las hiptesis anteriores y saque conclusiones utilizando anlisis de
varianza con = 0.05
c) Analice los residuales de este experimento
4.- Se condujo un experimento para determinar si la temperatura del fuego o la p
osicin

en el horno afectan la densidad de endurecimiento de un nodo de carbono. Los dato


s
son los siguientes:
Posicin Temperatura ()
800 825 850
1 570
565
583
1 063
1 080
1 043
565
510
590
2 528
547
521
988
1 026
1 004
526
538
532
a) Enuncie las hiptesis de inters
b) Pruebe las hiptesis anteriores utilizando el anlisis de varianza con = 0.05.
A qu conclusiones se llega?
c) Utilizando el mtodo de la LSD de Fisher, investigar las diferencias entre la
media de la densidad del endurecimiento de los nodos en los tres diferentes
niveles de temperatura
4.2. Diseos factoriales con tres factores
Cuando se quiere investigar la influencia de tres factores (A, B y C
) sobre una o ms
variables de respuesta, y el nmero de niveles de prueba en cada uno de los factor
es es
a, b y c, respectivamente, se puede construir el arreglo factorial
, que co
nsiste
de
tratamientos o puntos experimentales. Entre los arreglos de este tipo qu
e se
utilizan con frecuencia en aplicaciones diversas se encuentran: el fact
orial
, el
124

CAPTULO 4

Diseos factoriales

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
factorial
y los factoriales mixtos con no ms de cuatro niveles en dos de los factores,
por ejemplo, el factorial 4 x 3 x 2 y el factorial 4 x 4 x 2, por mencionar dos
de ellos.
Hiptesis de inters
El estudio factorial de tres factores (A, B y C) permite investigar l
os efectos: A, B, C,
AB, AC, BC y ABC, donde el nivel de desglose o detalle con el que pueden estudi

arse
depende del nmero de niveles utilizando en cada factor. Por ejemplo, s
i un factor se
prueba en dos niveles, todo su efecto marginal (individual) es lineal, o sea que
su efecto
individual no se puede descomponer; pero, si tuviera tres niveles su efecto mar
ginal se
puede descomponer en una parte lineal y otra cuadrtica pura.
En resumen, se tienen siete efectos de inters sin considerar desglose, y con el
los
se pueden plantar las siete hiptesis nulas

cada una aparejada con su correspondiente hiptesis alternativa. El ANOVA para pro
bar
estas hiptesis se muestran en la siguiente tabla.
ANOVA para el diseo a x b x c
FV SC GL CM
Valor-p
Efecto A
Efecto B
Efecto C
Efecto AB
Efecto AC
Efecto BC
Efecto ABC
Error
Total

Al efecto cuyo valor-p sea menor al valor especificado para alfa, s


e declara
estadsticamente significativo o se dice que est activo. Las sumas de cu
adrados son
muy similares a las obtenidas para dos factores; habr que considerar u

n subndice
adicional para el tercer factor, y comenzando otra vea, por la suma t
otal de cuadrados,
stas resultan ser:

donde N = es el total de observaciones en el experimento. Las sumas de cuadrado


s
Diseos factoriales con tres factores
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
de efectos son:

125

Al restar stas del total, la suma de cuadrados del error resulta ser

cuyos respectivos grados de libertad se dan en la tabla anterior. Una


vez hecho el
ANOVA, se procede a interpretar los efectos activos, y luego (aunque
no
necesariamente despus) a diagnosticar la calidad del modelo.
Ejemplo
El experimento. Se desea investigar el efecto del tipo de suspensin (A
), abertura de
malla (B) y temperatura de ciclaje (C) en el volumen de sedimentacin
Y(%) de una
suspensin. Para ello se decide correr un experimento factorial 3 x 2
x 2 con seis
rplicas, y las observaciones obtenidas en las 72 corridas experimentales se muest
ran en
la siguiente tabla:

60, 75, 75
86, 70, 70
67, 73, 73
67, 68, 68
62, 68, 65

76,
71,
72,
76,
70,
75,
75,

65,
80,
80,
71,
68,
75,
75,

65
80
80
75
73
75
77

55, 53, 53
55, 55, 55
52, 52, 57
52, 54, 54
44, 44, 45
48, 48, 45
60, 60, 60
67, 67, 65
52, 51, 50
52, 48, 54
56, 55, 57
59, 50, 55
Los niveles de prueba para cada factor, tanto en unidades originales
como en
unidades codificadas, se muestran en la siguiente tabla
126

CAPTULO 4

Diseos factoriales

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Factor U. originales U. codificadas
Bajo Medio Alto Bajo Medio Alto
A: Tipo de suspensin
B: Abertura de malla
C: Temperatura

40
0

60
30
-1
-1
-1
0
1
1

1
El anlisis de
tabla. De
aqu se concluye
su valor-p es
mayor que . Por
AB y en
menor medida BC.
Los efectos
que no influyeron
VA
simplificado, pero

varianza para este ejemplo se muestra en la siguiente


que no influyen los efectos ABC, AC ni A, dado que
otra parte, se encuentran activos los efectos B, C,
stos son los cuatro efectos que se deben interpretar.
se pueden eliminar mandndolos al trmino error. El ANO
con el efecto A note que el

en ambos ANOVAS es
prcticamente igual. En general se recomienda interpretar slo los efectos significa
tivos.
Diseo factorial de mltiples niveles
Factores:
3
Corridas base: 12
Bloques base:
1

Rplicas:
6
Total de corridas: 72
Total de bloques:
1

Nmero de niveles: 3; 2; 2
Modelo lineal general: Respuesta vs. Suspensin; Abertura de malla; ...
Factor
Tipo Niveles Valores
Suspensin
fijo
3 A1; A2; A3
Abertura de malla fijo
2 B1; B2
temperatura
fijo
2 C1; C2
Anlisis de varianza para Respuesta, utilizando SC ajustada para pruebas
Fuente
GL SC sec.
P
Suspensin
2
13,86
Abertura de malla
1 480,50
0
temperatura
1 6086,72
0
Suspensin*Abertura de malla
2 788,25
Suspensin*temperatura
2
40,86
Abertura de malla*temperatura 1
56,89
9
Suspensin*Abertura de malla* 2
31,03
temperatura
Error
60 841,67
Total
71 8339,78
S = 3,74537

R-cuad. = 89,91%

SC ajust. MC ajust.

13,86
480,50

6,93
480,50

6086,72

6086,72

788,25
40,86
56,89

394,13
20,43
56,89

28,10 0,000
1,46 0,241
4,06 0,04

31,03

15,51

1,11 0,338

841,67

14,03

R-cuad.(ajustado) = 88,06%

Observaciones inusuales de Respuesta


Residuo

0,49 0,613
34,25 0,00
433,90 0,00

Obs Respuesta Ajuste Ajuste SE Residuo estndar


23
60,0000 72,6667
1,5290 -12,6667
-3,70 R
36
76,0000 66,8333
1,5290
9,1667
2,68 R
52
86,0000 72,6667
1,5290 13,3333
3,90 R
R denota una observacin con un residuo estandarizado grande.
Diseos factoriales con tres factores

127

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Dado que utilizamos un
= 0.05 y puesto que el valor de , con su
nivel de
significancia como con sus grados de libertad en tablas respectivamente
tenemos
y
.
;

Se acepta

Se rechaza

Se rechaza

Se rechaza

Se acepta

Se rechaza

Ejercicios
1.- Se investigan el porcentaje de la concentracin de madera dura en la pulpa cru
da, la
libertad de orientacin de la fibra o lof, y el tiempo de coccin de la pulpa en
cuanto a
sus efectos sobre la resistencia del papel. En la siguiente tabla se muestran lo
s datos de
un experimento factorial con tres factores.
Porcentaje de la
tiempo de coccin
Concentracin de

1.5 horas de tiempo de coccin


lof
lof

Madera dura
350
500
10

350

500

650

650
96.6

97.9

99.4

2.0 horas de

98.4

99.6

1000.6
96.0

98.6

100.4

96.0

15

98.5
97.5

98.7

96.0

96.0

96.9

97.5
97.0

95.6

97.8

97.4

98.5
96.6

98.4

97.6

99.0

20
97.6

98.4

99.0
97.2

98.1

99.8

100.9

96.2

98.1

99.8

a) Analice los datos usando el anlisis de varianza bajo el supuesto d


e que todos
los factores son fijos. Use
b) Encuentre los valores de P de los cocientes F del inciso a
2.- El departamento de control de calidad de una planta de acabados textiles est
udia los
efectos de varios
factores sobre el teido de una tela combinada de
algodn y fibra
sinttica que se usa para hacer camisas. Se seleccionan tres operadores, tres dura
ciones
del ciclo y dos temperaturas, y tres ejemplares de prueba pequeos de
tela se tieron
bajo cada conjunto de condiciones. La tela terminada se compar con un
patrn y se
asigno una puntuacin numrica. Los resultados se presentan en la tabla siguiente
Temperatura
300
350
Operador
ador
Duracin del ciclo
3
40
34
36

36

35

39
50
34

38

36

36

31
60
28

37

26

34

34

128

2
23

3
27

31

24

38

28

32

23

25

26

28

28

34

33

37

34

35

38

34

39

36

39

35

35

28

35

26

26

36

24

35

27

29

27

34

25

25

Diseos factoriales

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez

24

36

CAPTULO 4

Oper

a) Enuncie y pruebe las hiptesis apropiadas usando el anlisis de varian


za con
3.- Un ingeniero mecnico estudia la rugosidad superficial de una pieza
producida en
una operacin de corte de metal. Son de inters tres factores: la rapidez de aliment
acin
(A), la profundidad del corte (B) y el ngulo de la herramienta (C). A los tres fa
ctores se
les ha asignado dos niveles, y se corren dos rplicas de un diseo factorial

Rapidez de
alimentacin
Profundidad del corte
0.025 pulgada 0.04 pulgada
ngulo de la herramienta
15 25 15 25
30 pulg/min 9
7
11
10
9
11
10
8
30 pulg/min 10
12
10
13
12
15
16
14
a) Analice los datos usando el anlisis de varianza bajo el supuesto d
e que todos
los factores son fijos. Use
b) Encuentre los valores de P de los cocientes F del inciso a
4.3. Diseo factorial general
Lo que se ha dicho para los dos diseos factoriales con 2 y 3 factores puede exten
derse
fcilmente para cuando se tienen ms factores. Considerarse factores A, B,
C,, K
con niveles
respectivamente, donde la letra K denota al -simo o ltim
o
factor del conjunto a estudiar, no necesariamente el undcimo, que es e
l lugar de esta
letra
en el alfabeto. Con estos niveles y factores se puede construi
r el diseo factorial
general
que consiste de
tratamientos o puntos de prueba.
Con este diseo se pueden estudiar efectos principales,
interacciones
dobles,
interacciones triples, y as sucesivamente hasta la
nica interaccin de los factores (ABCK). El clculo del nmero de interaccion
es

de cierta cantidad de factores se hace mediante la operacin combinaciones de e


n

que cuenta el nmero de diferentes maneras de seleccionar


factores de los , donde =
Por ejemplo, el diseo factorial
tiene cinco efectos principales, 10
interacciones dobles, 10 interacciones triples, cinco interacciones cudrup
les y una
interaccin quntuple, lo cual da un total de 31 efectos. Por su parte,
el factorial
tambin tiene este mismo nmero de efectos, pero al contar con tres nive
les en cada
factor, cada efecto principal se puede descomponer en su parte lineal y cuadrtica
. Cabe
destacar que mientras el diseo factorial
tiene 32 tratamientos, el factorial
tiene
243, una cantidad de tratamientos difcil de manejar. Aun si pudiera correrse, rep
resenta
una opcin muy ineficaz; adems, existen arreglos experimentales ms pequeos
y
eficientes.
Diseo factorial general

129

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
De acuerdo con lo antes dicho, en el factorial general

se pueden

plantear
hiptesis que se prueban mediante el anlisis de varianza. Si se tienen
rplicas. Las primeras tres columnas de este ANOVA se muestran en la siguiente tab
la
ANOVA para el diseo factorial general
FV SC GL

Error
Total

La suma de cuadrados totales est dada por:

donde N = es el total de observaciones en el experimento. Las sumas


de
cuadrados de efectos son:

130

CAPTULO 4

Diseos factoriales

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez

Al final, la suma de cuadrados del error se calcula por sustraccin,

En el ANOVA para el factorial general


se observa la necesidad de
contar con al menos dos rplicas del experimento para calcular la suma de cuadrado
s del
error (
), y completar toda la tabla ANOVA. Sin embargo, esta necesidad de rplicas
( , que se ha mencionado,. Es para el caso irreal de que interesan
los
efectos. Pero resulta que, con excepcin del factorial
, en un factorial completo
prcticamente nunca interesan todos sus posibles efectos, puesto que en
trminos
generales slo algunos de ellos estn activos. El principio de Pareto, que en este
contexto
tambin se llama principio de esparcidad de efectos, dice que la mayora
de la
variabilidad observada se debe a unos pocos de los efectos posibles;
por lo comn se
debe a algunos efectos principales e interacciones dobles.

4.4. Modelos de efectos aleatorios


Hasta aqu los modelos de efectos que se han utilizado son modelos de
efectos o
factores fijos, lo cual significa que todos los niveles de prueba en cada factor
son todos
los disponibles para ese factor, o bien, se estudian todos los nivele
s de inters en ese
factor; es en este sentido que los niveles estn fijos. ste es el caso, por ejemplo
, cuando
en el factor operador se toman los tres nicos operadores como los niveles de prue
ba, o

cuando los niveles del factor mquinas son las cuatro mquinas existentes.
O bien,
cuando se comparan tres tipos de material porque son los que interesa comprar a
unque
existan otros materiales de ese tipo. Con factores fijos, las conclusiones obt
enidas slo
son validas para los niveles de prueba que se estudian en el experimento.
En ocasiones, los niveles de prueba son una muestra aleatoria de la poblacin de
niveles posibles. En este caso es ms apropiado utilizar un modelo de efectos o fa
ctores
aleatorios. Un ejemplo de esta situacin es cuando se prueban cinco ins
trumentos de
medicin, pero la poblacin de los mismos es de 100 instrumentos; obviame
nte, no es
posible experimentar con todos los equipos. Entonces se experimenta slo con cinco
de
ellos elegidos al azar, y las conclusiones obtenidas se infieren como
vlidas para la
poblacin entera de instrumentos.
La aplicacin de un modelo de efectos aleatorios conlleva la necesidad
de
considerar la incertidumbre asociada con la eleccin aleatoria de los niveles d
e prueba.
Es decir, ya no tiene sentido, para un factor A, preocuparse por el
efecto
del nivel
Modelo de efectos aleatorios

131

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
como en efectos fijos. Lo que ahora (con efectos aleatorios) tiene sentido es ha
blar de la
varianza con la que el factor aleatorio contribuye a la variacin total; es decir,
es preciso
estimar dicha varianza y probar si su contribucin a la variabilidad total es sign
ificativa.
El caso de dos factores aleatorios.
Si se
consideran dos factores aleatorios A y B, de los cuales se
prueban
niveles
elegidos de una poblacin grande de niveles, entonces si los
tratamie
ntos se
replican veces, el modelo de efectos aleatorios es

donde es la media general,


es el efecto debido al
es el efecto del

nivel del factor A,

nivel del factor B,

representa al efecto de interaccin


en la combinacin y
es el error aleatorio que se supone sigue una distribucin
normal con media cero y varianza constante,
y son independientes entre s. El
aspecto de este modelo es igual al de efectos fijos, pero el hecho de que los ef
ectos sean
aleatorios implica que no tiene sentido probar hiptesis directamente sobre tales
efectos
(medidas), sino que ahora el inters se enfoca en estudiar la varianza de dichos
efectos.
Para ello, se supone que los trminos

son variables aleatorias


independientes normales, con media cero y varianzas
,
,
, y
,
respectivamente.
De esta manera, si se calcula la varianza en ambos lados del modelo anterior,
se
obtiene el modelo de componentes de varianza dado por:

+
+

donde
,
,
son las contribuciones de cada efecto a la variacin total y se llaman
componentes de varianza;
es el componente de varianza debido al error aleatorio.
Las hiptesis de inters son

Los clculos necesarios para probar estas hiptesis involucran las mismas sumas
de cuadrados del modelo de efectos fijos (diseos factoriales con dos f
actores), de las
cuales se obtienen los correspondientes cuadrados medios. Para obtener los estads
ticos
de prueba
apropiados debe tomarse en cuenta que los valores esperados de los
cuadrados medios son

132

CAPTULO 4

Diseos factoriales

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez

de tal forma que para probar la hiptesis mencionadas, los estadsticos d


e prueba
apropiados en el ANOVA son

respectivamente. Observe que en el modelo de efectos aleatorios los cuadrados


medios
de los efectos principales se comparan con el cuadrado medio de la i
nteraccin, y no
con el cuadrado medio del error, como se hace en el modelo de efectos fijos. En
caso de
rechazar alguna de las hiptesis sobre las varianzas, se concluye que e
l efecto
correspondiente contribuye de manera significativa a la variacin de la
respuesta. La
conclusin prctica
no consiste en determinar el mejor tratamiento, sino
que
generalmente se traduce en tomar medidas para que la contribucin del componente
de
varianza se reduzca.
Al resolver las ecuaciones dadas por los valores esperados de cuadrados medios
para los componentes de varianza, se obtienen estimadores de stos en f
uncin de los
cuadrados medios del error, esto es,

Ejemplo
En una compaa dedicada a la fabricacin de bombas y vlvulas, algunos componentes
crticos tienen tolerancias muy estrechas que son difciles de cumplir. De
aqu que sea
necesario estimar el error de medicin con el fin de ver la posibilidad de reducir
lo para
cumplir con las especificaciones. El ancho de una pieza particular es una cara
cterstica
de calidad crtica, cuyas especificaciones son 69 0,4mm. Se eligen dos i
nspectores al
azar y siete piezas para correr un experimento, a fin de estimar la
contribucin de los
inspectores, de las piezas y del error aleatorio (repetibilidad) en la
variabilidad total
observada. El experimento utilizado se muestra en la siguiente tabla:

Modelo de efectos aleatorios

133

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Nmero de
piezas
Inspector Z Inspector W
1
2
1
1
2
3
4
5
6
7
69,38
69,60
39,72
69,80
69,58
69,70
69,50
69,50
69,48
69,40
69,56
69,40
69,90
70,02
69,62
69,52
69,78
69,90
69,70
69,92
69,46
69,50
69,50
69,42
69,68
69,64
69,94
69,88

Ntese que cada inspector mide dos veces cada pieza. Sean los inspect
ores el
factor A y las piezas el factor B, el primero con dos niveles y el

segundo con siete


niveles, en ambos casos seleccionados al azar. El modelo de componente
s de varianza
propuesto para describir estos datos es donde
es el componente de varianza de los
inspectores,
es el componente debido a las piezas,
es el componente de
interaccin de ambos factores y
es el componente aleatorio.
Interesa probar las hiptesis:

y estimar los componentes de varianza. El ANOVA para probar estas hiptesis se


muestran en la siguiente tabla.
FV SC GL CM
Valor-p
A: Insp.
B: Pieza
AB
Error
Total
0,00036
0,7516
0,0313
0,097
0,8803
1
6
6
14
27
0,00036
0,1252

0,0052
0,0069
0,069
24,07
0,75
0,8043
0,0000
0,6169
Las tres primeras columnas se obtienen igual que el modelo de efectos
fijos,
pero las dos ltimas deben corregirse de acuerdo con el estadstico de prueba apropi
ado
para un modelo de efectos aleatorios (

).
Los valor-p indican que la variabilidad de las piezas es
estadsticamente diferente a cero, mientras que la variabilidad de los inspectores
y de la
interaccin inspector x pieza no es significativa (es igual a cero). De
sde el punto de
vista del objetivo del experimento, los resultados del ANOVA son los
deseados: la
reproducibilidad (
+
) es estadsticamente igual a cero, es decir, los inspectores no
afectan el proceso de medicin. La estimacin de los componentes de varianza, a part
ir
de los cuadros medios, queda como:

134

CAPTULO 4

Diseos factoriales

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez

De aqu se concluye que la reproducibilidad (


+
) no tiene
contribucin y la repetibilidad expresada como 5.15 es igual a 0,428. Si
este valor se
compara con la tolerancia de 0.8, se encuentra que ocupa 53% de sta,
cuando lo
deseable es que este porcentaje sea menor al 10%, por lo que el
i
nstrumento es
inadecuado para discriminar entre piezas buenas y malas.
4.5. Uso de un software estadstico
Utilizando Minitab
1. El primer paso consisten en seleccionar la opcin Estadsticas del Men Principal
de
Minitab y, dentro de esa opcin, seleccionar la opcin DOE luego Factoria

l y Crear
diseo factorial como se presenta en la siguiente Figura.

2.
Como consecuencia de la accin anterior le debe aparecer la siguie
nte pantalla
<<Crear diseo factorial>>. El
paso en esta pantalla ser seleccionar en
Tipo de
diseo la casilla de Diseo factorial completo general luego escoger el nm
ero de
factores considerados en el experimento (en nuestro ejemplo son dos factores:
A y B),
por tanto en la casilla <<Nmero de factores>> usted deber tener el nmero 2. Luego

Uso de software

135

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
debe oprimir el botn de la opcin <<Diseos>> para poder escoger su diseo, nmero
de repeticiones y otras opciones.
3. En la siguiente ventana escribir el nombre de nuestros factores A
y B, adems de
indicar el numero de niveles para ambos (4 y 3 respectivamente), tambin indicar q
ue
realizamos tres
repeticiones por tratamiento, para esto en la
casil
la <<Nmero de
replicas>>, usted deber tener el valor de 3.
Finalice esta pantalla
oprimiendo
<<Aceptar>>. Esto lo devolver a la pantalla anterior <<Crear diseo factorial>>.

4.
De vuelta en la pantalla <<Crear diseo factorial>>. Seleccionar fa
ctores y
aparecer una siguiente ventana.

En la casilla <<Tipo>> seleccionar texto para ambos factores, <<Valores de nive


l>> ,
indicar los valores correspondientes tanto para el factor A as como pa
ra el factor B,
luego indicar aceptar, lo que lo llevara nuevamente a la pantalla <<C
rear diseo
factorial>>.
5.
De vuelta a la pantalla <<Crear diseo factorial>> oprima <<Aceptar
>>.
MINITAB le crear la
siguiente pantalla. Minitab crea las columnas de
los
tratamientos, lo nico que usted tiene que ingresar a MINITAB es una columna
con la respuesta del experimento. Proceda entonces a ingresar los datos
en la columna
C7

136

CAPTULO 4

Diseos factoriales

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez

6. Una vez capturados los datos (estos datos debern corresponder al fa


ctor A con
respecto a factor B de acuerdo a la tabla original) en su correspond
iente
rengln.
El
siguiente paso es regresar al paso 1.

slo que esta vez seleccionara la secuencia: <<Estadsticas>> seguida de <<DOE>>,


<<Factorial>> y <<Analizar diseo factorial>>.

Uso de software

137

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Esta accin resultar en la pantalla donde slo es necesario indicar la columna de
la variable de respuesta <<Respuesta>> seguido de aceptar y MINITAB le ofrecer
el
resultado correspondiente.

Para capturar los datos en Minitab, de tres factores, es idntico al d


e dos
factores, solo que en la ventana correspondiente indicar que se trata de tres
factores, y
se aplica la misma secuencia.

138

CAPTULO 5

Series de tiempo

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
CAPTULO 5
Series de tiempo

5.1. Modelo clsico de series de tiempo

5.2.
5.3.
5.4.
5.5.
5.6.
5.7.

Anlisis de fluctuaciones
Anlisis de tendencia
Anlisis de variaciones cclicas
Medicin de variaciones estacionales e irregulares
Aplicacin de ajustes estacionales
Pronsticos basados en factores de tendencia y estacionales.

Series de tiempo

139

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Series de tiempo
oda institucin, ya sea la familia, la empresa o el gobierno, tienen q
ue hacer planes
para el futuro si ha de sobrevivir y progresar. Hoy en da diversas i
nstituciones
requieren conocer el comportamiento futuro de ciertos fenmenos con el f
in de
planificar, prever o prevenir.
Debido a que las condiciones econmicas y comerciales varan en el tiempo, los
lderes de los negocios deben encontrar formas de mantenerse al da respe
cto a los
efectos que esos cambios tendrn en sus operaciones. Una tcnica que pued
en usar los
lderes de negocios como ayuda en la planeacin de las necesidades operat
ivas en lo
futuro
es el pronstico. Aunque se han desarrollado numerosos mtodos pa
ra
pronosticar, todos tienen un objetivo comn, predecir los eventos futuros de maner
a que
las proyecciones se puedan incorporar en el proceso de toma de decisiones.
Suponga que necesitamos hacer pronsticos trimestrales para el volumen
de
ventas de determinado producto durante el prximo ao. Los programas de produccin,
las compras de materias primas, las polticas de inventarios y las cuotas de
venta sern
afectados, todos, por esos pronsticos. Entonces, los malos pronsticos darn
como
resultado una mala planeacin y, en consecuencia, aumentarn los costos de la empres
a.
Cmo se hace para elaborar los pronsticos trimestrales del volumen de ventas?

Desde luego que se deben considerar los datos reales de ventas del producto
en
periodos pasados. Con tales datos histricos podemos identificar el nivel
general de
ventas y cualquier tendencia, como aumento o disminucin en el volumen a
travs del
tiempo. Por ejemplo, un examen ms detallado de los datos puede revelar
un
comportamiento estacional, como el de los picos que se presentan en el tercer tr
imestre
de cada ao y los mnimos durante el primer trimestre. Al repasar los datos histricos
se
puede, con frecuencia, adquirir una mejor comprensin de la tendencia de las venta
s en
el pasado para poder pronosticar las ventas del producto en el futuro
de una mejor
manera.
Las ventas histricas forman una serie de tiempo que es un conjunto
de
observaciones de una variable medida en puntos o periodos sucesivos en el tiempo
.
En esencia, existen dos enfoques de pronsticos: cualitativo y cuantitativo.
Los mtodos de pronstico cualitativos son importantes en especial cuando no
se dispone de datos histricos, como sera el caso de un departamento de
finanzas que
desea pronosticar los ingresos de una compaa nueva. Los mtodos de pronsti
co
cualitativos se consideran altamente subjetivos o basados en la opinin.
Incluyen el
mtodo de elaboracin de escenarios, la opinin de expertos y la tcnica Delphi.
Mtodo Delphi. El mtodo dlfico, desarrollado en principio por un grupo de
investigacin de la Rand Corporation. Trata de determinar pronsticos media
nte
consenso de grupo. En forma normal, a los miembros de un equipo de expertos, todos
ellos separados fsicamente y desconocidos entre s, se les pide contestar
una serie de
cuestionarios. Se tabulan las respuestas del primer cuestionario y stas
se usan para
preparar un segundo cuestionario que contiene la informacin y las opiniones de to
do el
grupo. A continuacin se pide a cada encuestado reconsiderar y, posiblemente, corr
egir
sus respuestas anteriores a la vista de la informacin obtenida con el grupo.
T
140
CAPTULO 5 Series de tiempo
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
Este proceso continua hasta que el coordinador siente que ha alcanza
do
cierto nivel de consenso. El objetivo del mtodo dlfico no es llegar al resultado d
e una
sola respuesta, sino producir un conjunto compacto de opiniones dentro del cual
est la
mayora de los expertos.

Opinin de expertos. Con frecuencia, los pronsticos se basan en el juicio de un


solo experto, o representan el consenso de un grupo de expertos. Por ejemplo, ca
da ao
se rene un grupo de expertos en Merrill Lynch con el fin de pronosti
car el nivel del
promedio industrial Dow Jones y la tasa prima para el siguiente ao. A
l hacerlo, los
expertos se basan, de manera individual en informacin que cree que inf
luye en el
mercado accionario y las tasas de inters, a continuacin combinan sus conclusiones
en
forma de un pronstico. No se usa modelo formal alguno, y es improbabl
e que dos
expertos cualesquiera visualicen de la misma forma la misma observacin.
La opinin de
expertos es un mtodo de pronstico que se recomienda
normalmente cuando es probable que las condiciones en el pasado no rijan en el f
uturo.
Aunque no se usa modelo cuantitativo formal, el juicio experto ha pro
ducido buenos
pronsticos en muchos casos.
Elaboracin de escenarios. Este mtodo consiste en desarrollar un escenario
conceptual del futuro, basado en un conjunto bien definido de supuesto
s. Los distintos
conjuntos de supuestos producen diferentes escenarios. La tarea de quie
n toma
decisiones es decidir lo probable que es cada escenario y, a continua
cin, tomar las
decisiones pertinentes.
Por otro lado, los mtodos de pronstico cuantitativo utilizan los datos
histricos. La meta es estudiar lo que ocurri en el pasado para entende
r mejor la
estructura fundamental de los datos y proporcionar los medios necesarios para
predecir
los sucesos futuros.
Los mtodos de pronstico cuantitativos se dividen en dos tipos: series
de
tiempo y causales.
Los mtodos de pronstico de series de tiempo implican la proyeccin de los
valores futuros de una variable basada por completo en las observacion
es pasadas y
presentes de esa variable.
Series de tiempo. Una serie de tiempo es un conjunto de valores numri
cos
obtenidos en periodos iguales en el tiempo
Los mtodos de pronstico causales comprenden la determinacin de factores
relacionados con la variable que se predice, e incluyen anlisis con variables ret
rasadas,
modelado economtrico, anlisis de indicador lder, ndice de difusin y otros
medidores econmicos ms all del alcance de este libro. La figura 5.1 rep
resenta una

perspectiva de los mtodos de pronstico.

Series de tiempo

141

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Figura 5.1 Clasificacin de los mtodos de pronsticos
5.1. Modelo clsico de series de tiempo
La suposicin fundamental del anlisis de series de tiempo es que los factores q
ue han
influido en los patrones de actividad en el pasado y el presente tendrn ms o menos
la
misma influencia en lo futuro. Entonces
la meta principal del anlisis
de series de
tiempo es: identificar y aislar estos factores de influencia con el f
in de realizar
predicciones (pronosticar), as como fines administrativos de planeacin y control.
Para conseguir estas metas, se han desarrollado muchos modelos matemti
cos
que exploran las fluctuaciones entre los factores que componen una serie de tiem
po. Tal
vez el ms esencial sea el modelo multiplicativo clsico para datos regis
trados cada
ao, trimestre o mes. En principio, el modelo multiplicativo clsico se u
sar para
pronosticar. Otras aplicaciones incluyen un anlisis detallado de los com
ponentes
particulares mediante la descomposicin de las series de tiempo. Por eje
mplo, con
frecuencia los economistas estudian una serie de tiempo anual, trimestr
al o mensual
para filtrar el componente cclico y evaluar su movimiento respecto a l
a actividad
econmica general. No obstante, las aplicaciones de la descomposicin de una serie
de
tiempo estn fuera de los objetivos de este libro.
Para exponer el modelo multiplicativo clsico de series de tiempo, en
la figura
5.2 se presentan los ingresos brutos reales de Eastman Kodak Company de 1975 a 1
998.
Si se intenta observar las caractersticas de esta serie de tiempo, es
evidente que los
ingresos reales muestran una propensin a aumentar en este periodo de 2
4 aos. Esta
inclinacin global a largo plazo o impresin de un movimiento hacia arrib
a o hacia
abajo se conoce como tendencia

Mtodo de pronostico
Cuantitativos
Causales
Serie temporal
Suavizamiento
Proyeccin de tendencia
Proyeccin de tendencia ajustada por
influencia estacional
Cualitativos
142
CAPTULO 5 Series de tiempo
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
Figura 5.2 Grfica de ingresos netos reales (en miles de millones de dlares) de Eas
tman Kodak Company
(1975-1998)

Sin embargo, la tendencia no es el nico factor componente que influye en estos


datos en particular o en otra serie de tiempo anual. Otros dos facto
res, el componente
cclico y el componente irregular, estn presentes en los datos.
El componente cclico describe la oscilacin o movimiento hacia arriba o hacia
abajo en una serie de tiempo. Los movimientos cclicos varan en longitud, en gener
al,
duran de 2 a 10 aos; difieren en intensidad o amplitud, y a menudo se relacio
nan con
los ciclos de los negocios. En algunos aos los valores sern ms altos q
ue los
pronosticados por una sencilla recta de tendencia lineal (es decir, se
encuentran en o
cerca de un pico) de un ciclo); en otros aos los valores sern menores que el pronst
ico
de una recta de tendencia (esto es, estn en o cerca del fondo o depresin de un ci
clo).
Cualquier dato observado que no siga la tendencia curva modificada por el compon
ente
cclico es un indicio del componente aleatorio o irregular. Cuando los
datos se
registran por mes o trimestre, se considera un componente adicional ll
amado factor
estacional junto con los componentes de tendencia, cclico e irregular.
Los tres o cuatro componentes que influyen en una serie de tiempo econmica o
de negocios se resumen en la tabla 5.1. El modelo multiplicativo clsic
o de series de
tiempo establece que todo valor observado en una serie de tiempo es
el producto de
estos factores de influencia; es decir, cuando los datos se obtienen
cada ao, una
observacin
registrada en el ao
se puede expresar por la ecuacin (5.1)
Modelo multiplicativo clsico de series de tiempo para datos anuales

(5.1)
donde, en el ao i

= valor del componente de tendencia


= valor del componente cclico
= valor del componente irregular
Modelo clsico

143

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Cuando los datos se obtienen por trimestre o por mes, una observacin
registrada en el periodo puede estar dada por la ecuacin (5.2)

Tabla 5.1 Factores que influyen en datos de series de tiempo.


Componentes Clasificacin
del
componente
Definicin Razn de la
influencia
Duracin
Tendencias

Estacional

Cclico

Irregular
Sistemtico

Sistemtico

Sistemtico

No
sistemtico
Patrn de movimiento
global o persistente, a
largo plazo hacia
arriba o hacia abajo.
Fluctuacin ms o menos
regular que ocurre en
cada periodo de 12 meses
cada ao.
Oscilacin o movimiento
repetitivo arriba o abajo
en cuatro 4 etapas;
pico(prosperidad),
contraccin (recesin),
fondo (depresin) y
expansin (recuperacin)
Fluctuacin errtica o
residual en una serie que
est presente despus de
tomar en cuenta los
efectos sistemticos (de
tendencia, estacional y
cclica)
Cambios en tecnologa,
poblacin, riqueza,
Valores.
Condiciones de clima,
costumbres sociales y
religiosas.
Interaccin de
numerosas
combinaciones de
factores que influyen en
la economa
Variaciones aleatorias
en los datos o debidas a
eventos no previstos
como huelgas,
huracanes,
inundaciones,
asesinatos polticos, tec.
Varios aos

Dentro de 12
meses (o datos
menstruales o
trimestrales).
De 2 a 10 aos
con diferente
intensidad en el
ciclo completo

Corta duracin y
sin repeticin.
5.2. Anlisis de fluctuaciones
El primer paso en un anlisis de series de tiempo, consiste en grafica
r los datos y
observar sus tendencias en el tiempo. Primero debe determinarse si par
ece haber un
movimiento hacia arriba o hacia abajo a largo plazo en la serie (una
tendencia) o si la
serie parece oscilar alrededor de una recta horizontal en el tiempo.
En este caso (es
decir, no hay tendencia positiva o negativa a largo plazo), puede emplearse el mt
odo de
promedios mviles o el de suavizacin exponencial para emparejar la serie y
Modelo multiplicativo clsico de series de tiempo para datos con
Componente estacional

(5.2)
donde

= valores respectivos del componente de tendencia, cclico e


irregular en el periodo
= valor del componente estacional en el periodo

144

CAPTULO 5

Series de tiempo

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
proporcionar un panorama global a largo plazo. Por otro lado, si de
hecho existe una
tendencia, se pueden
aplicar varios mtodos de pronstico de series de
tiempo al
manejar datos anuales, y otro mtodo para los datos de series de tiemp
o mensual o
trimestral.
El patrn o comportamiento de los datos en una serie de tiempo tiene
diversos
componentes. El supuesto usual es que se combinan cuatro componentes s
eparados: la
tendencia, el cclico, el estacional y el irregular para definir valores
especficos de la
serie de tiempo. Examinaremos cada uno de estos componentes.
El grfico de la serie permitir:
a) Detectar Outlier: se refiere a puntos de la serie que se escapan
de lo normal.
Un
outliers es una observacin de la serie que corresponde a un comportami
ento anormal
del fenmeno (sin incidencias futuras) o a un error de medicin. Se debe
determinar
desde fuera si un punto dado es outlier o no. Si se concluye que lo es, se debe
omitir o
reemplazar por otro valor antes de analizar la serie.
Por ejemplo, en un estudio de la produccin diaria en una fbrica se present la
siguiente situacin ver figura 5.3:
Figura 5.3 Produccin diaria

Los dos puntos enmarcados en una flecha parecen corresponder a un


comportamiento anormal de la serie. Al investigar estos dos puntos se
vio que
correspondan a dos das de paro, lo que naturalmente afect la produccin en esos das.
El problema fue solucionado eliminando las observaciones e interpolando.
b) Permite detectar tendencia: la tendencia representa el comportamiento
predominante de la serie. Esta puede ser definida vagamente como el cambio
de la media a lo largo de un periodo.
c) Variacin estacional: la variacin estacional representa un movimiento peridico d
e
la serie de tiempo. La duracin de la unidad del periodo es generalmente menor qu
e un
Anlisis de fluctuaciones
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez

145

ao. Puede ser un trimestre, un mes o un da, etc.


Matemticamente, podemos decir que la serie representa variacin
estacional si existe un nmero s tal que x(t) = x(t + ks).
Las principales fuerzas que causan una variacin estacional son las
condiciones del tiempo, como por ejemplo:
1) en invierno las ventas de helado
2) en verano la venta de lana
3) exportacin de fruta en marzo.
Todos estos fenmenos presentan un comportamiento estacional (anual,
semanal, etc.)
d) Variaciones irregulares (componente aleatoria): los movimientos irregu
lares (al
azar) representan todos los tipos de movimientos de una serie de tiem
po que no sea
tendencia, variaciones estacionales y fluctuaciones cclicas.
Un modelo clsico para una serie de tiempo, supone que una serie x(1), ..., x(n
)
puede ser expresada como suma o producto de tres componentes: tendenci
a,
estacionalidad y un trmino de error aleatorio.
Existen tres modelos de series de tiempos, que generalmente se
aceptan como buenas aproximaciones a las verdaderas relaciones, entre l
os
componentes de los datos observados. Estos son:
1. Aditivo: X(t) = T(t) + E(t) + A(t)
2. Multiplicativo: X(t) = T(t) E(t) A(t)
3. Mixto: X(t) = T(t) E(t) + A(t)
donde:
X(t) serie observada en instante t
T(t) componente de tendencia
E(t) componente estacional
A(t) componente aleatoria (accidental)
Una suposicin usual es que A(t) sea una componente aleatoria o ruido
blanco
con media cero y varianza constante.
Un modelo aditivo (1), es adecuado, por ejemplo, cuando E(t) no depen
de de
otras componentes, como T(t), s por el contrario la estacionalidad vara
con la
tendencia, el modelo ms adecuado es un modelo multiplicativo (2).
Es
claro que el
modelo 2 puede ser transformado en aditivo, tomando logaritmos. El problema qu
e se
presenta, es modelar adecuadamente las componentes de la serie.
146
CAPTULO 5 Series de tiempo
Instituto Tecnolgico de Ensenada

Biol. Ral Jimnez Gonzlez


5.3. Anlisis de tendencia
En el anlisis de serie de tiempo, las mediciones pueden efectuarse cad
a hora, da,
semana, mes o ao o en cualquier otro intervalo regular peridico. Aunque los datos
de
serie de tiempo presentan, por lo general, fluctuaciones aleatorias, es
ta serie puede
mostrar tambin desplazamientos o movimientos graduales hacia valores relativame
nte
mayores o menores a lo largo de un lapso importante de tiempo. El d
esplazamiento
gradual de la serie de tiempo se llama tendencia de esa serie; este
desplazamiento o
tendencia es, por lo comn, el resultado de factores a largo plazo, co
mo cambios en la
poblacin, caractersticas demogrficas de la misma, la tecnologa y/o las pre
ferencias
del consumidor.
Por ejemplo, un fabricante de bicicletas podra detectar cierta variabi
lidad, de
ao a ao, en la cantidad de bicicletas vendidas. Sin embargo, al revisa
r las ventas
durante los ltimos 10 aos, puede encontrar que hay un aumento gradual en el volume
n
anual de ventas. Suponga que sus ventas fueron:
Ao 1
2
0
Ventas (miles) 21,6
1,4

22,9

25,5

5
21,9

6
23,9

7
27,5

8
31,5

29,7

9
28,6

1
3

Este crecimiento anual de las ventas a travs del tiempo muestra una t
endencia
creciente de la serie de tiempo. La figura 5.4 presenta una recta que puede ser
una buena
aproximacin a la tendencia de las ventas de bicicletas. Aunque esa tendencia pare
ce ser
lineal y aumentar con el tiempo a veces, en una serie de tiempo, la tendencia s
e puede
describir mejor mediante otros patrones.
Figura 5.4 Tendencia lineal de las ventas de bicicletas

Si al graficar nuestros datos observamos de manera clara la tendencia


lineal a
largo plazo (no importando si es positiva o negativa), entonces estaremos en la
posicin
de pronosticar con un buen nivel de confianza, con alguno de los mtod
os que se
indicaran ms adelante.
La figura 5.5
muestra otros patrones posibles de tendencia. La seccin
A
representa una tendencia no lineal; en este caso, la serie de tiempo
crece poco al
principio; luego tiene un crecimiento rpido y, finalmente, se nivela.

0
5
10
15
20
25
30
35
0 2 4 6 8 10 12
V
e
n
t
a
(
m
i
l
e
s
)
Ao
Anlisis de tendencia

147

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Esa tendencia podra ser una buena aproximacin de las ventas de un producto,
desde su introduccin, pasando por un periodo de crecimiento y llegando a una etap
a de
saturacin del mercado. La tendencia lineal decreciente en la seccin B se aplica
a una
serie de tiempo que tenga una disminucin continua a travs del tiempo.
La recta
horizontal de la seccin C
representa una serie de tiempo que no tie
ne aumento o
disminucin consistentes a travs del tiempo y que, en consecuencia, no tiene tenden
cia.
Figura 5.5 Ejemplos de algunos posibles patrones de tendencia en series de tiem
po

B
C

5.4. Anlisis de variaciones cclicas


Aunque una serie de tiempo puede presentar una tendencia a travs de periodos gran
des,
sus valores no caern con exactitud sobre la lnea de tendencia. De hech
o, con
frecuencia estas series temporales presentan secuencias alternas de puntos abajo

y arriba
de la lnea de tendencia. Toda secuencia
a lnea
de tendencia, que dura ms de un ao, se
a
serie. La figura 5.6 es la grfica
ponente cclico
obvio. Las observaciones se hicieron con

recurrente de puntos arriba y debajo de l


puede atribuir a un componente cclico de l
de una serie de tiempo con un com
intervalos de un ao.

Figura 5.6 Componente de tendencia y cclico de una serie de tiempo con datos anua
les

Los ciclos aparecen como series de


Observaciones sobre y debajo
de la lnea de tendencia

o
l
u
m
e
n
Lne
a de tendencia
Ti
empo
Muchas series se tiempo presentan comportamiento cclico con tramos regulares
de observaciones abajo y arriba de la lnea de tendencia. En general,
este
comportamiento de la serie se debe a movimientos cclicos de la economa
a travs de
varios aos. Por ejemplo, los periodos de inflacin moderada seguidos de
periodos de
148
CAPTULO 5 Series de tiempo
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
inflacin rpida pueden determinar series de tiempo que se alternan abajo
y arriba de
una lnea de tendencia ascendente en general (como la serie de tiempo de los cos
tos de
vivienda). Diversas series de tiempo de principios de la dcada de los
ochenta
presentaron este comportamiento
5.5. Medicin de variaciones estacionales e irregulares
Mientras que la tendencia y los componentes cclicos de una serie de t
iempo se
identifican analizando los movimientos de datos histricos a travs de varios aos,
hay
muchas series de tiempo que muestran un patrn regular dentro de un pe
riodo de un
ao. Por ejemplo, un fabricante de albercas inflables espera poca activi
dad de ventas
durante los meses de otoo e invierno, y ventas mximas en los de primavera y verano

.
Los fabricantes de equipo para la nieve y de ropa de abrigo esperan un comportam
iento
anual opuesto al del fabricante de albercas. No es de sorprender que el componen
te de la
serie de tiempo que representa la variabilidad en los datos, debida a
influencias de las
estaciones, se llama componente estacional. Aunque uno suele imaginarse
que un
movimiento estacional de una serie de tiempo sucede dentro de un ao,
tambin se
puede usar para representar cualquier patrn regularmente repetitivo cuya duracin
sea
menor de un ao. Por ejemplo, los datos diarios de intensidad de trfico
muestran un
comportamiento estacional dentro del mismo da, as se tiene que el flujo mximo se
presenta durante las horas de aglomeracin, el moderado durante el resto
del da y al
caer la noche, y el mnimo a partir de la medianoche hasta temprano por la maana.
El componente irregular de la serie de tiempo es el factor residual, mil usos,
que explica las desviaciones de la serie de tiempo real respecto a l
os factores
determinados por los efectos de la tendencia y los componentes cclicos y estac
ionales.
Se debe a factores a corto plazo, imprevisibles y no recurrentes que afecta a
la serie de
tiempo. Como este componente explica la variabilidad aleatoria de la s
erie, es
impredecible; de esta manera, no se puede esperar predecir su impacto sobre la s
erie de
tiempo
5.6. Aplicacin de ajustes estacionales
Una aplicacin frecuente de ndices estacionales es la de ajustar datos de serie de
tiempo
observados para eliminar la influencia del componente estacional en ell
os; se llaman datos con
ajuste estacional. Los ajustes estacionales son particularmente pertinente
s cuando se desea
comparar datos de diferentes meses para determinar si ha tenido lugar
un incremento
(o decremento) en relacin con las expectativas estacionales. Los valores de serie
de tiempo
mensuales (o trimestrales) observados se ajustan respecto de la influen
cia estacional dividiendo
cada valor entre el ndice mensual (o trimestral) de ese mes. El resultado se mult
iplica luego
por 100 para mantener la posicin decimal de los datos originales. La serie que re
sultante se
llama ventas desestacionalizadas o ventas ajustadas estacionalmente.
Suavizacin

149

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
La razn para desestacionalizar las series de ventas es similar las flu
ctuaciones
estacinales a fin de estudiar la tendencia y el ciclo. Para ilustrar el proce

dimiento, los
totales trimestrales de ventas de la empresa
Tabla 5.2 Ajuste para datos trimestrales
Ao Trimestre Ventas ndice
estacional
Ventas
desestacionalizadas
1996 Invierno
Primavera
Verano
Otoo
6,7
4,6
10,0
12,7
0,765
0,575
1,141
1,519
8,76
8,00
8,76
8,36
1997 Invierno
Primavera
Verano
Otoo
6,5
4,6
9,8
13,6
0,765
0,575
1,141
1,519
8,50
8,00
8,59
8,95
1998 Invierno
Primavera
Verano
Otoo
6,9
5,0
10,4
14.1
0,765
0,575
1,141
1,519
9,02
8,70
9,11
9,28
1999 Invierno
Primavera
Verano
Otoo
7,0

5,5
10,8
15,0
0,765
0,575
1,141
1,519
9,15
9,57
9,46
9,88
2000 Invierno
Primavera
Verano
Otoo
7,1
5,7
11,1
14,5
0,765
0,575
1,141
1,519
9,28
9,92
9,72
9,55
2001 Invierno
Primavera
Verano
Otoo
8,0
6,2
11,4
14,9
0,765
0,575
1,141
1,519
10,46
10,79
9,99
9,81
A fin de eliminar el efecto de la variacin estacional, la cantidad es
tacional, la
cantidad de ventas para cada trimestre (que contiene efectos de tenden
cia, cclicos,
irregulares y estacinales) se divide entre el ndice estacional de ese t
rimestre; esto es,
TSCI/S.
Por ejemplo, las ventas reales para el primer trimestre de 1996 fuero
n 6.7
millones de dlares, el ndice estacional par el trimestre de invierno es
76.5 el ndice
76.5 indica que las ventas en el primer trimestre normalmente se encu
entran 23.5%
abajo del promedio de un trimestre normal. Dividiendo las ventas reale
s $6.7 millones

entre 76.5 y multiplicando el resultado por 100 se encuentra el valor


de las ventas
desestacionalizadas del primer trimestre de 1996. El valor es $8758170
que se obtuvo
de ($6700000/76.5)100.
Este proceso se repite con los dems trimestres en la columna 3 de la tabla 5.2 y
los resultados se dan en millones de dlares. Puesto que la componente estacionali
zadas
contiene solo las componentes de tendencia (T), ciclo e irregular (I)
. Al revisar las
ventas desestacionalizadas. Es claro que la eliminacin del factor estaci
onal permite
considerar la tendencia general a largo plazo de las ventas. Tambin se podr determ
inar
la ecuacin de regresin de los datos de tendencia y usarla para pronost
icar ventas
futuras.
150

CAPTULO 5

Series de tiempo

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
5.7. Pronsticos basados en factores de tendencia y estacionales.
Como lo indicamos anteriormente el primer pas en un anlisis de series
de tiempo,
consiste en graficar los datos y observar sus tendencias en el tiempo
. Primero debe
determinarse si parece haber un movimiento hacia arriba o hacia abajo a largo pl
azo en
la serie (una tendencia) o si la serie parece oscilar alrededor de una recta hor
izontal en el
tiempo. En este caso (es decir, no hay tendencia positiva o negativa
a largo plazo), se
recomienda antes de aplicar alguno de los mtodos de pronostico suavizar
nuestros
datos a fin de que la tendencia se observe de manera clara.
Los mtodos que pueden emplearse para suavizar nuestros datos usualmente son:
a) El mtodo de promedios mviles
b) El mtodo de suavizacin exponencial
El objetivo de ambos mtodos es el de
emparejar la serie y proporciona
r un
panorama global a largo plazo. Por otro lado, si de hecho existe una
tendencia, se
pueden
aplicar varios mtodos de pronstico de series de tiempo al mane
jar datos
anuales, y otro mtodo para los datos de series de tiempo mensual o t
rimestral, los
cuales se vern posteriormente.
Suavizacin de una serie de tiempo anual
La tabla 5.3 presenta las ventas mundiales de una fbrica (en millones de unida
des) de
automviles, camiones y autobuses hechos por General Motors Corporation (GM). Para
un periodo de 24 aos, de 1975 a 1998, y la figura 5.7 es una grfica de serie de t
iempo
de estos datos. Al examinar este tipo de datos anuales, la impresin v

isual de las
tendencias globales a largo plazo o movimientos de tendencia en la serie quedan
veladas
por la cantidad de variacin de un ao a otro. Entonces se vuelve difcil juzgar si en
esta
serie en realidad existe un efecto de tendencia positivo o negativo a largo plaz
o.
Tabla 5.3 Ventas de fbrica (en millones de unidades) Para la General Motors Co
rporation (1975-1998)
Ao

Ventas de fbrica

Ao

Ventas de fbrica

Ao

Ventas de fbr

ica
1975
1991
1976
1992

1983

7.8

8.6

1984

8.3

9.1

1985

9.3

9.5

1986

8.6

9.0

1987

7.8

7.1

1988

8.1

6.8

1989

7.9

6.2

1990

7.5

7.7
1977

1993

7.8
1978

1994

8.4
1979

1995

8.3
1980

1996

8.4
1981

1997

8.8
1982

1998

6.6
7.4

8.1

En situaciones como stas, se pueden usar el mtodo de promedios mviles o la


suavizacin exponencial para suavizar o emparejar la serie de tiempo y
proporcionar
un panorama global del patrn de movimiento de los datos en el tiempo.
Suavizacin

151

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Figura 5.7 Grfica de las ventas de fbrica (en millones
de unidades)
Para la General Motors Corporation
(1975-1998)

Promedios mviles
El mtodo de promedios mviles para suavizar una serie de tiempo es muy subjetivo
y
dependiente de L, la longitud del periodo seleccionado para calcular los promedi
os. Para
eliminar las fluctuaciones cclicas, el periodo elegido debe ser un valo
r entero que
corresponda a (o sea mltiplo de) la longitud promedio estimada de un
ciclo en una

serie. Los promedios mviles para un promedio determinado de longitud L consiste


en
una serie de promedios aritmticos en el tiempo tales que cada uno se calcula a pa
rtir de
una secuencia de L valores observados. Estos promedios mviles se repres
entan por el
smbolo PM (L)
A manera de ejemplo, suponga que se desea calcular promedios mviles de
5 aos de
una serie que contiene n = 11 aos. Como L = 5, los promedios mviles
de 5 aos
consisten en una serie de medidas obtenidas en el tiempo al promediar
secuencias
consecutivas de cinco valores observados. El primer promedio mvil de 5
aos se
calcula con la suma de los valores para los primeros 5 aos en la serie, dividida
entre 5.
PM (5) =
5
5 4 3 2 1
Y Y Y Y Y

+ + + +

El segundo promedio mvil de 5 aos se calcula con la suma de los valores de los aos
2 a 6 en la serie, dividida entre 5
PM (5) =
5
6 5 4 3 2
Y Y Y Y Y + + + +
Este proceso contina hasta calcular el ltimo promedio mvil de 5 aos con la suma de
los valores de los ltimos 5 aos en la serie (aos del 7 al 11), dividida entre 5.
PM (5) =
5
11 10 9 8 7
Y Y Y Y Y + + + +
Cuando se trata de una serie de tiempo anual, L, la longitud del periodo elegi
do
para construir los promedios mviles, debe ser un nmero de aos impar. Al seguir esta
regla se observa que no se pueden obtener promedios mviles para los p
rimeros (L
Ventas de fabrica para General Motors
0
2
4
6
8
10
1970 1980 1990 2000
Ao
U
n
i
d
a
d

e
s
(
m
i
l
l
o
n
e
s
)
152

CAPTULO 5

Series de tiempo

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
1)/2 aos o los ltimos (L -1)/2 aos en la serie. Entonces, para un promedio mvil de 5
aos, no es posible hacer clculos para los primeros 2 aos o los ltimos 2
aos de la
serie.
Al graficar los promedios mviles, cada valor calculado se coloca en el ao a la
mitad de la secuencia de aos usada para calcularlos. Si
n = 11
y
L = 5, el primer
promedio mvil se centra en el tercer ao, el segundo promedio mvil se c
entra en el
cuarto ao y el ltimo en el noveno ao. Esto se ilustra en el siguiente ejemplo:
Suponga que los siguientes datos representan los ingresos totales (en
millones de
dlares constantes de 1995) de una agencia donde se rentan automviles, en un interv
alo
de 11 aos de 1987 a 1997:
4.0

5.0

7.0

6.0

8.0

9.0

5.0

2.0

3.5

5.5

6.5

Calcule los promedios mviles de 5 aos para esta serie de tiempo anual.
Solucin
El primer promedio mvil de 5 aos es
PM (5) = 0 . 6
5
0 . 30
5
0 . 8 0 . 6 0 . 7 0 . 5 0 . 4
= =
+ + + +
Es decir, para calcular un promedio mvil de 5 aos, primero se obtiene la suma de l
os
cinco aos y se divide entre 5. Despus el promedio se centra en el va
lor medio, el
tercer ao de esta serie de tiempo. Los siguientes valores quedan de la siguiente
manera:
PM (5) = 0 . 7
5
0 . 35

5
0 . 9 0 . 8 0 . 6 0 . 7 0 . 5
= =
+ + + +
PM (5) = 0 . 7
5
0 . 35
5
0 . 5 0 . 9 0 . 8 0 . 6 0 . 7
= =
+ + + +
PM (5) = 0 . 6
5
0 . 30
5
0 . 2 0 . 5 0 . 9 0 . 8 0 . 6
= =
+ + + +
PM (5) = 5 . 5
5
5 . 27
5
5 . 3 0 . 2 0 . 5 0 . 9 0 . 8
= =
+ + + +
PM (5) = 0 . 5
5
0 . 25
5
5 . 5 5 . 3 0 . 2 0 . 5 0 . 9
= =
+ + + +
PM (5) = 5 . 4
5
5 . 22
5
5 . 6 5 . 5 5 . 3 0 . 2 0 . 5
= =
+ + + +
Estos promedios mviles se centran en sus respectivos valores medios, el quinto,
sexto
y sptimo aos de la serie de tiempo. Se observa que al obtener promedios mviles de 5
aos, no se pueden calcular los valores para los primeros dos y los ltimos dos v
alores
de la serie de tiempo.
Suavizacin

153

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
En la prctica, al obtener promedios mviles se debe usar un programa de computadora

como Microsoft Excel o Minitab para evitar los clculos tediosos. La ta


bla 5.4 y 5.5
presenta las ventas anuales de la fbrica (General Motors) que ampara el periodo
de 24
aos de 1975 a 1998 junto con los clculos para los promedios mviles de 3 y 7 aos.
La grfica de las dos series construidas se presenta en la figura 5.8 y 5.9 con l
os datos
originales.
Se observa en la tabla 5.4 que al obtener los promedios mviles de 3 aos, no se pue
den
calcular valores para el primero o el ltimo valor en la serie de tiempo.
Tabla 5.4 promedios mviles de 3 y 7 aos obtenida con Microsof
t Excel
Figura 5.8 Grfica de promedios mviles de 3 y 7 ao
Ao
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998

0
2
4
6
8
10
1
9
7
5

Ventas PM 3 aos PM 7 aos


6,6 #N/A #N/A
8,6 8,1 #N/A
9,1 9,06666667 #N/A
9,5 9,2 8,1
9 8,53333333 8,04285714
7,1 7,63333333 7,92857143
6,8 6,7 7,81428571
6,2 6,93333333 7,78571429
7,8 7,43333333 7,72857143
8,3 8,46666667 7,82857143
9,3 8,73333333 8,01428571
8,6 8,56666667 8,25714286
7,8 8,16666667 8,21428571
8,1 7,93333333 8,08571429
7,9 7,83333333 7,85714286
7,5 7,6 7,74285714
7,4 7,53333333 7,82857143
7,7 7,63333333 7,85714286
7,8 7,96666667 7,92857143
8,4 8,16666667 8,11428571
8,3 8,36666667 8,21428571
8,4 8,5 #N/A
8,8 8,43333333 #N/A
8,1 #N/A #N/A

1
9
7
8
1
9
8
1
1
9
8
4
1
9
8
7
1
9
9
0
1
9
9
3
1
9
9
6
VENTAS
PM 3 aos
PM 7 aos
154

CAPTULO 5

Series de tiempo

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Tabla 5.5 promedios mviles de 3 y 7 aos obtenida con Minitab
Tiempo Ventas MA 3 aos MA 7 aos
1975
6,6
*
*
1976
8,6 8,10000
*
1977
9,1 9,06667
*
1978
9,5 9,20000 8,10000
1979
9,0 8,53333 8,04286
1980
7,1 7,63333 7,92857
1981
6,8 6,70000 7,81429
1982
6,2 6,93333 7,78571
1983
7,8 7,43333 7,72857
1984
8,3 8,46667 7,82857
1985
9,3 8,73333 8,01429
1986
8,6 8,56667 8,25714
1987
7,8 8,16667 8,21429
1988
8,1 7,93333 8,08571
1989
7,9 7,83333 7,85714
1990
7,5 7,60000 7,74286
1991
7,4 7,53333 7,82857
1992
7,7 7,63333 7,85714
1993
7,8 7,96667 7,92857
1994
8,4 8,16667 8,11429
1995
8,3 8,36667 8,21429
1996
8,4 8,50000
*
1997
8,8 8,43333
*

1998

8,1

Figura 5.9 Grfica de promedios mviles de 3 y 7 aos en Minitab


2000 1995 1990 1985 1980 1975
9,5
9,0
8,5
8,0
7,5
7,0
6,5
6,0
Ao
D
a
t
o
s
Y
Ventas
PM 3 Aos
PM 7 Aos
Variable
Grfica de dispersin de Ventas; PM 3 Aos; PM 7 Aos vs. Ao
Suavizacin exponencial
La suavizacin exponencial es otra tcnica que se usa para alisar una serie de tiemp
o y
proporcionar una visualizacin global de los movimientos a largo plazo d
e los datos.
Adems, se puede usar el mtodo de suavizacin exponencial para obtener pronsticos a
corto plazo (un periodo futuro) para series de tiempo.
El mtodo de suavizacin exponencial obtiene su nombre del hecho de que
proporciona un promedio mvil con ponderacin exponencial a travs de la se
rie de
tiempo. En toda la serie, cada clculo de suavizacin o pronstico depende de todos lo
s
valores observados anteriores. sta es otra ventaja respecto al mtodo de
pronsticos
mviles, que no toma en cuenta todos los valores observados de esta ma
nera. Con la
Suavizacin

155

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
suavizacin exponencial, los pesos asignados a los valores observados dec
recen en el
tiempo, de manera que al hacer un clculo, el valor observado ms recien
te recibe el
peso ms alto, el valor observado anterior tiene el siguiente peso
ms
alto, y as
sucesivamente, por lo que el valor observado inicial tiene la menor p
onderacin.
Aunque la magnitud de los clculos involucrados puede parecer enorme, la suavizac
in

exponencial al igual que los mtodos de promedios mviles est disponible e


ntre los
procedimientos de Microsoft Excel y Minitab.
Si se centra la atencin en los aspectos de suavizacin de la tcnica (ms que en
el aspecto del pronstico), las frmulas desarrolladas para suavizar expone
ncialmente
una serie en un periodo dado i se basa en slo tres trminos: el valor
observado actual
en la serie de tiempo
, valor con suavizacin exponencial calculado anterior
1 i
E y un
peso subjetivo asignado o coeficiente de suavizacin W. As, para alisar
una serie en
cualquier periodo , se tiene la siguiente expresin.
Obtencin de un valor que tiene suavizacin exponencial en el periodo

donde
E
I
= valor de la serie suavizada exponencialmente que se calcula en el periodo
E
I 1
= valor de la serie suavizada exponencialmente que se calcula en el periodo 1
Y
i
= valor observado de la serie de tiempo en el periodo
W = peso subjetivo asignado o coeficiente de suavizacin (donde 0 < W < 1)
E
1
= Y
1
La eleccin del coeficiente de suavizacin o peso que se asigna a la
serie de
tiempo es crtica porque afectar en forma directa los resultados. Es desafortunad
o que
esta seleccin sea subjetiva. Si se desea slo suavizar una serie con la eliminacin d
e la
variacin cclica y la irregular, debe elegirse un valor pequeo para W (c
ercano a 0).
Por otro lado, si la meta es pronosticar, debe elegirse un valor gra
nde para W (ms
cercano a 1). En el primer caso, se podrn observar las tendencias globales a larg
o plazo
de la serie; en el ltimo caso, es posible predecir direcciones futuras
a corto plazo de
manera ms adecuada.
Los clculos de la suavizacin exponencial se ilustra para un coeficiente
de

suavizacin de W = 0.25. Como punto de partida, se utiliza el valor o


bservado inicial
(tabla 5.3), Y
1975
= 6.6 como el primer valor de suavizacin (E
1975
= 6.6) Despus, con
el valor observado de la serie de tiempo para el ao 1976 (Y
1976
= 8.6), se suaviza la
serie para el ao de 1976 con el clculo
1
) 1 (

+ =
i i i
E W Y W E
E
1976
= WY
1976
+ (1 W)E
1975
= (0.25)(8.6) + (0.75)(6.6) = 7.10 millones
E
1977
= WY
1977
+ (1 W)E
1976
= (0.25)(9.1) + (0.75)(7.1) = 7.6
E
1978
= WY
1978
+ (1 W)E
1977
= (0.25)(9.5) + (0.75)(7.6) = 8.08
156

CAPTULO 5

Series de tiempo

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Este proceso contina hasta obtener los valores de la suavizacin exponencial
para los 24 aos en la serie de las ventas anuales de la fbrica (General Motors),
como
se muestra en la tabla 5.6 y 5.7, y las figuras 5.10 y 5.11
Tabla 5.6 Serie suavizada exponencialmente de
las ventas de GM
obtenida con Microsoft Excel
Ao
Ventas
SE
(W=0.25)

1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998

SE
(W=0.50)
6,6 6,6 6,6
8,6 7,1 7,6
9,1 7,6 8,35
9,5 8,075 8,925
9 8,30625 8,9625
7,1 8,0046875 8,03125
6,8 7,70351563 7,415625
6,2 7,32763672 6,8078125
7,8 7,44572754 7,30390625
8,3 7,65929565 7,80195313
9,3 8,06947174 8,55097656
8,6 8,20210381 8,57548828
7,8 8,10157785 8,18774414
8,1 8,10118339 8,14387207
7,9 8,05088754 8,02193604
7,5 7,91316566 7,76096802
7,4 7,78487424 7,58048401
7,7 7,76365568 7,640242
7,8 7,77274176 7,720121
8,4 7,92955632 8,0600605
8,3 8,02216724 8,18003025
8,4 8,11662543 8,29001513
8,8 8,28746907 8,54500756
8,1
Figura 5.10 Grfica de una serie suavizada exponencial

mente
(W = 0.50 y W = 0.25) para las ventas
de GM

Suavizacin

157

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Tabla 5.7 Serie suavizada exponencialmente de
las ventas de GM
obtenida con Minitab
Ao
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989

6,6
8,6
9,1
9,5
9,0
7,1
6,8
6,2
7,8
8,3
9,3
8,6
7,8
8,1
7,9

Ventas
6,60000
7,10000
7,60000
8,07500
8,30625
8,00469
7,70352
7,32764
7,44573
7,65930
8,06947
8,20210
8,10158
8,10118
8,05089

Suavizar 0,25
6,60000
7,60000
8,35000
8,92500
8,96250
8,03125
7,41563
6,80781
7,30391
7,80195
8,55098
8,57549
8,18774
8,14387
8,02194

Suavizar 0,50

1990
1991
1992
1993
1994
1995
1996
1997
1998

7,5
7,4
7,7
7,8
8,4
8,3
8,4
8,8
8,1

7,91317
7,78487
7,76366
7,77274
7,92956
8,02217
8,11663
8,28747
8,24060

7,76097
7,58048
7,64024
7,72012
8,06006
8,18003
8,29002
8,54501
8,32250

Figura 5.11 Grfica de una serie suavizada exponencialmente


5) para las ventas de
GM en Minitab

(W = 0.50 y W = 0.2

2000 1995 1990 1985 1980 1975


9,5
9,0
8,5
8,0
7,5
7,0
6,5
6,0
Ao
D
a
t
o
s
Y
Ventas
Suavizar 0,25
Suavizar 0,50
Variable
Grfica de dispersin de Ventas; Suavizar 0,25; Suavizar 0,50 vs. Ao
Proyeccin de tendencias
Para pronosticar una serie de tiempo que tiene una tendencia lineal a largo plaz
o. El tipo
de serie de tiempo para el cual se aplica el mtodo de proyeccin de tendencias pres
enta
un aumento o disminucin consistentes a travs del tiempo; y no es establ
e como para
aplicar los mtodos de suavizamiento analizados en la seccin anterior.
158

CAPTULO 5

Series de tiempo

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Veamos la serie de tiempo de ventas de bicicletas de determinado fa
bricante
durante los ltimos 10 aos, que se muestran en la tabla 5.8 y en la figura 5.12. Ob
serve
que en el primer ao se vendieron 21 600 bicicletas, en el segundo, 2
2 900, y as

sucesivamente. En el dcimo ao, el ms reciente, se vendieron 31 400 bici


cletas.
Aunque la figura 5.12 muestra algo de movimiento hacia arriba y hacia
abajo durante
los 10 aos, parece que la serie de tiempo tiene una tendencia general
de aumento o
crecimiento
Tabla 5.8 Serie de tiempo de venta de bi
cicletas
Ao
(t)
Ventas
(miles)
1
2
3
4
5
6
7
8
9
10
21,6
22,9
25,5
21,9
23,9
27,5
31,5
29,7
28,6
31,4

Figura 5.12 Serie de tiempo de venta de bicicletas

En este caso no se trata de que el componente de tendencia de una


serie de
tiempo siga cada aumento y disminucin; ms bien ese componente debe refl
ejar el
desplazamiento gradual, que para este caso es el crecimiento, de los valores de
la serie
de tiempo.
10 9 8 7 6 5 4 3 2 1

32
30
28
26
24
22
Ao
v
e
n
t
a
s
Grfica de series de tiempo de ventas
Proyeccin de tendencias

159

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
Despus de examinar los datos de la serie de tiempo en la tabla 5.8
y en la
grfica de la figura 5.12 concordamos que con una tendencia lneas, como
la que
muestra la figura 5.13, se obtiene una descripcin razonable del movimiento en la
serie
a largo plazo.
Vamos a emplear los datos de ventas de bicicletas para ilustrar los
clculos del
anlisis de regresin, a fin de identificar una tendencia lineal. Recuerde
que en la
descripcin de la regresin lineal simple, describimos cmo se aplica el mto
do de
mnimos cuadrados para determinar la mejor relacin lineal entre dos varia
bles; tal
metodologa es la que usaremos para definir la lnea de tendencia para la serie de t
iempo
de ventas de bicicletas. En forma especfica, aplicaremos el anlisis de
regresin para
estimar la relacin entre el tiempo y el volumen de ventas.
Figura 5.13 Tendencias de las ventas de bicicletas, representada por
una funcin lineal
10 9 8 7 6 5 4 3 2 1
32
30
28
26
24
22
20
Ao
v
e
n
t
a
s
MAPE 5,06814

MAD 1,32000
MSD 3,07000
Medidas de exactitud
Actual
Ajustes
Variable
Grfica de anlisis de tendencia de ventas
Modelo de tendencia lineal
Yt = 20,40 + 1,10*t
La ecuacin de regresin que describe una relacin lineal entre una varia
ble
independiente, , y una variable dependiente, , es

Para enfatizar que el tiempo es la variable independiente en los prons


ticos,
usaremos en la ecuacin en lugar de ; adems, usaremos
en lugar de . As para
una tendencia lineal, el volumen estimado de ventas, expresado en funcin del t
iempo,
se puede escribir como sigue:

donde
= valor de la tendencia de la serie de tiempo en el periodo
= ordenada al origen e la lnea de tendencia
= pendiente de la lnea de tendencia
= tiempo
En esta ecuacin igualaremos = 1 para el tiempo en que se obtiene e
l primer
dato de la serie de tiempo, = 2 para el tiempo del segundo dato y as sucesivamen
te.
160
CAPTULO 5 Series de tiempo
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
Observe que, para la serie de tiempo de ventas de bicicletas, = 1 cor
respondiente
al valor ms antiguo de esa serie y = 10 al ms reciente.

Las frmulas para calcular los coeficientes estimados de regresin,


y
, en
la ecuacin que se muestra a continuacin.

donde
= valor de la serie de tiempo en el periodo
= nmero de periodos
= valor promedio de la serie de tiempo,

= valor promedio de
Con las ecuaciones anteriores y los datos de las ventas de bicicletas de la ta
bla
5.8 podemos calcular

como sigue:
t

1
2
3
4
5
6
7
8
9
10
21,6
22,9
25,5
21,9
23,9
27,5
31,5
29,7
28,6
31,4
21,6
45,8
76,5
87,6
119,5
165,0
220,5
237,6
257,4
314,0
1
4
9
16
25
36
49
64
81
100
55 264,5 1545,5 385

Por consiguiente,

Proyeccin de tendencias

161

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez

Es la ecuacin del componente de tendencia lineal para la serie de tie


mpo de
ventas de bicicletas.
La pendiente 1,1 indica que, durante los ltimos 10 aos, la empresa ha
tenido
un crecimiento promedio de ventas igual a 1100 unidades anuales, aproximadamente
. Si
suponemos que la tendencia en los 10 aos pasados es un buen indicador
del futuro,
aplicamos la ecuacin para proyectar el componente de tendencia de la serie de tie
mpo.
Por ejemplo, al sustituir = 11 en esa ecuacin, se obtiene la proyeccin
de tenencia
para el ao prximo,

As slo con el componente de tendencia pronosticaramos ventas de 32 500


bicicletas para el prximo ao.
Utilice Microsoft Excel o Minitab para resolver los siguientes problemas
Ejercicios
1.- En la compaa Prez, los porcentajes mensuales de los embarques recibidos durante
los ltimos 12 meses fueron
80, 82, 84, 83, 83, 84, 85, 84, 82, 83, 84 y 83
a) Compare el pronstico con promedios mviles de tres meses con
e
suavizamiento exponencial con
Con cul se obtienen mejores
pronsticos?

uno d

2.- La siguiente serie de tiempo representa las ventas de un producto durante lo


s ltimos
12 meses.
Mes
1
2
3
4
5
6
7
8
9
10
Ventas 10535 120 105 90 120 145 140 100 80 100 110

11

12

a) Use con
para calcular los valores de suavizamiento exponencial de
la
serie de tiempo
b) Use una constante de suavizamiento igual a 0,5 para calcular los
valores de
suavizamiento exponencial. Cul de las constantes 0,3 o 0,5, parece produ
cir
los mejores pronsticos
Resumen de Excel donde observamos los coeficientes
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,874526167
Coeficiente de determinacin R^2 0,764796016
R^2 ajustado 0,735395518
Error tpico 1,958953802
Observaciones 10
ANLISIS DE VARIANZA
Grados de libertad Suma de cuadrados Promedio de los cuadrados F Valor crtico de
F
Regresin 1 99,825 99,825 26,0130293 0,000929509
Residuos 8 30,7 3,8375
Total 9 130,525
Coeficientes Error tpico Estadstico t Probabilidad Inferior 95%
Intercepcin 20,4 1,338220211 15,24412786 3,3999E-07 17,31405866
Ao 1,1 0,215673715 5,100296983 0,00092951 0,602655521
162
CAPTULO 5 Series de tiempo
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
3.- Los datos que siguen representan el nmero anual de empleados (en
miles) de una
compaa petrolera para los aos 1978 a 1997.
Nmero de empleados (en miles)
Ao
Nmero
1978
1.65
1979
1.73
1980
1.88
1981
2.00
1982
2.08
1983
1.88

Nmero

Ao

Nmero

Ao

1.45

1985

2.04

1992

1.55

1986

2.06

1993

1.61

1987

1.80

1994

1.60

1988

1.73

1995

1.74

1989

1.77

1996

1.92

1990

1.90

1997

1984

1.95

a) Grafique los datos en un diagrama

1991

1.82

b) Ajuste un promedio mvil de 3 aos a los datos y grafique los resultados en el


diagrama
c) Utilice un coeficiente de suavizacin W = 0.50, aplique la suavizacin exponencia
l a
la serie y grafique los resultados en el diagrama
4.- Los siguientes datos representan las ventas anuales (en millones de dlares) d
e una
compaa que procesa alimentos para los aos 1972 a 1997
Ventas anuales (millones de dlares)
Ao

Ventas

Ao

Ventas

Ao

Ventas
1990
1991
1992
1993
1994
1995
1996
1997

1972
36.4
1973
38.4
1974
42.6
1975
34.8
1976
28.4
1977
23.9
1978
27.8
1979
42.1
1980

41.6

1981

53.2

48.0

1982

53.3

51.7

1983

51.6

55.9

1984

49.0

51.8

1985

38.6

57.0

1986

37.3

64.4

1987

43.8

60.8

1988

41.7

56.3

1989

38.3

a) Grafique los datos en un diagrama


b) Ajuste un promedio mvil de 7 aos a los datos y grafique los resul
tados en el
diagrama
c) Utilice un coeficiente de suavizacin W = 0.25, aplique la suavizacin exponencia
l a
la serie y grafique los resultados en el diagrama
Ejercicios

163

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
5.- Los datos de inscripciones, en miles, en una universidad estatal durante lo
s ltimos
seis aos son los siguientes:
Ao
1
2
Inscripcin 20,5

3
20,2

4
19,5

19,0

5
19,1

6
18,8

Deduzca una ecuacin del componente de tendencia lineal en esta serie d


e
tiempo. Haga comentarios acerca de lo que sucede con la inscripcin en esta instit
ucin.

6.- Al final de la dcada de los noventa, muchas empresas trataron de reducir su t


amao
para disminuir sus costos. Uno de los resultados de esas medidas de
recorte de costos
fue una disminucin en el porcentaje de empleos gerenciales en la industria privad
a. Los
siguientes datos corresponden al porcentaje de mujeres gerentes, de 1990 1 1995
Ao 1990 1991 1992 1993 1994 1995
Porcentaje 7,45 7,53
7,52 7,65
7,62

7,73

a) Deduzca una ecuacin de tendencia lineal para esta serie de tiempo.


b) Use la ecuacin de la tendencia para estimar el porcentaje de mujer
es gerentes
para 1996 y 1997
7.- ACT Networks. Inc., desarrolla, fabrica y vende productos para acc
eso a redes de
banda ancha. Los siguientes datos son las ventas anuales de 1992 a 1997
Ao 1992 1993 1994 1995
Ventas
(millones)
5,4
6,2
12,7
20,6

1996

1997

28,4

44,9

a) Deduzca una ecuacin de tendencia lineal para esta serie de tiempo


b) Cul es el aumento promedio de ventas anuales en esta empresa
c) Use la ecuacin de tendencia para pronosticar las ventas en 1998

Caso a resolver 1 Pronstico de ventas de alimentos y bebidas


El restaurante Vintage est en la isla Captiva, lugar de descanso cerca
de Fort Myers,
Florida. El restaurante, cuya duea y operadora es Karen Payne, acaba de completa
r su
tercer ao de funcionamiento. Karen, durante ese lapso, ha tratado de g
anarse una
reputacin como establecimiento de alta calidad que se especializa en ma
riscos. Sus
esfuerzos han tenido xito y su restaurante ha llegado a ser uno de l
os mejores y de
mayor crecimiento en la isla.
Karen ve que, para planear el crecimiento futuro del restaurante, ne
cesita
desarrollar un sistema que le permita pronosticar las ventas de alimentos y bebi
das cada
mes, hasta con un ao de anticipacin. Cuenta con los siguientes datos sobre las ven
tas
totales de alimentos y bebidas (en miles de dlares) durante los tres
aos de
funcionamiento.
164

CAPTULO 5

Series de tiempo

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez

Mes Primer ao Segundo ao Tercer ao


Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Noviembre
Diciembre
242
235
232
178
184
140
145
152
110
130
152
206
263
238
247
193
193
149
157
161
122
130
167
230
282
255
265
205
210
160
166
174
126
148
173
235
Analice los datos de ventas del restaurant. Prepare un informe a Karen que conte
nga
lo que encontr, sus pronsticos y recomendaciones. Dicho informe debe incluir:
a) Una grfica de la serie de tiempo
b) Un anlisis de influencias estacionales sobre los datos. Indique los
ndices
estacionales para cada mes y haga comentarios acerca de los meses con
ventas
altas y bajas. Tiene sentido intuitivo esos ndices estacionales? Describa

por
qu.
c) Un pronstico de ventas desde enero hasta diciembre del cuarto ao.
d) Recomendaciones sobre cundo se debe actualizar el sistema que ha preparado,
para tomar en cuenta nuevos datos de ventas
e) Todos los clculos detallados de su anlisis aparecen en el apndice de
su
informe.
Suponga que las ventas en enero del cuarto ao fueron de 295 000 dlare
s. Cul
fue su error de pronstico? Si es grande, Karen se quedar confundida por la difere
ncia
entre su pronstico y el valor real de las ventas. Qu puede hacer para
resolver la
incertidumbre en el procedimiento de pronstico?
Caso a resolver 2 Pronstico de ventas perdidas
La tienda de departamentos Carlson sufri graves daos cuando pas un huracn
el 31
de agosto de 2000. Estuvo cerrada durante cuatro meses (de septiembre a diciembr
e de
2000), y ahora tiene una dificultad con su aseguradora acerca de la
cantidad de ventas
perdidas, mientras estuvo cerrada. Se deben resolver dos asuntos clave: 1) la ca
ntidad de
ventas de Carlson si no la hubiera daado el huracn, y 2) si Carlson tiene derecho
a una
compensacin por ventas adicionales a causa de mayor actividad despus de
la
tormenta. A su condado llegaron ms de 8000 millones de dlares en fondo
s federales
para desastres y seguros, lo cual ocasion un aumento en las ventas de
las tiendas de
departamento y de muchos otros negocios.
La siguiente tabla muestra los datos del departamento de comercio de
Estados
Unidos sobre las ventas totales durante los 48 meses anteriores a la
tormenta, en todas
las tiendas de departamentos en el condado, y tambin las ventas totale
s durante los
cuatro meses en que Carlson estuvo cerrada. Los administradores de Carlson le pi
dieron
Ejercicios

165

Instituto Tecnolgico de Ensenada


Biol. Ral Jimnez Gonzlez
analizar estos datos y preparar estimados de las ventas perdidas en s
us almacenes
durante los meses de septiembre a diciembre de 2000. Tambin le pidieron determina
r si
es posible alegar exceso de ventas relacionado con el huracn, durante
el mismo
periodo. Si se puede presentar ese argumento. Carlson tiene derecho a compensaci

ones
por exceso sobre las ventas ordinarias.
Mes 1996 1997 1998 1999 2000
Enero
Febrero
Marzo
Abril
Mayo
Junio
Julio
Agosto
Septiembre
Octubre
Noviembre
Diciembre

1,71
1,90
2,74
4,20
1,45
1,80
2,03
1,99
2,32
2,20
1,13
2,43
1,90
2,13
2,56
4,16
2,31
1,89
2,02
2,23
2,39
2,14
2,27
2,21
1,89
2,29
2,83
4,04
2,31
1,99
2,42
2,45
2,57
2,42
2,40
2,50

2,09
2,54
2,97
4,35
2,56
2,28
2,69
2,48
2,73
2,37
2,31
2,23
Prepare un informe a los gerentes de Carlson que resuma lo que encon
tr, sus
pronsticos y recomendaciones. ste debe incluir:
a) Un estimado de ventas si no hubiera habido huracn.
b) Un estimado de ventas en tiendas de departamentos de todo el condado, si no
c)

hubiera habido huracn


Un estimado de ventas perdidas de Carlson, de septiembre a diciembre de 200

166
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
Apndice
Tablas

167
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
Distribucin T de Student

Grados de
libertad
0,25
0,01
1
2
3
4
5
6
7
8
9
10
11
12

0,2
0,005

0,15

0,1

0,05

0,025

13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
1,000
63,656
0,816
9,925
0,765
5,841
0,741
4,604
0,727
4,032
0,718
3,707
0,711
3,499
0,706
3,355
0,703
3,250
0,700
3,169
0,697
3,106
0,695
3,055
0,694
3,012
0,692
2,977
0,691
2,947
0,690
2,921
0,689
2,898
0,688
2,878
0,688
2,861
0,687
2,845
0,686
2,831

1,376
1,061

1,963
1,386

3,078
1,886

6,314
2,920

12,706
4,303

31,821
6,965

0,978

1,250

1,638

2,353

3,182

4,541

0,941

1,190

1,533

2,132

2,776

3,747

0,920

1,156

1,476

2,015

2,571

3,365

0,906

1,134

1,440

1,943

2,447

3,143

0,896

1,119

1,415

1,895

2,365

2,998

0,889

1,108

1,397

1,860

2,306

2,896

0,883

1,100

1,383

1,833

2,262

2,821

0,879

1,093

1,372

1,812

2,228

2,764

0,876

1,088

1,363

1,796

2,201

2,718

0,873

1,083

1,356

1,782

2,179

2,681

0,870

1,079

1,350

1,771

2,160

2,650

0,868

1,076

1,345

1,761

2,145

2,624

0,866

1,074

1,341

1,753

2,131

2,602

0,865

1,071

1,337

1,746

2,120

2,583

0,863

1,069

1,333

1,740

2,110

2,567

0,862

1,067

1,330

1,734

2,101

2,552

0,861

1,066

1,328

1,729

2,093

2,539

0,860

1,064

1,325

1,725

2,086

2,528

0,859

1,063

1,323

1,721

2,080

2,518

0,686
2,819
0,685
2,807
0,685
2,797
0,684
2,787
0,684
2,779
0,684
2,771
0,683
2,763
0,683
2,756
0,683
2,750

0,858

1,061

1,321

1,717

2,074

2,508

0,858

1,060

1,319

1,714

2,069

2,500

0,857

1,059

1,318

1,711

2,064

2,492

0,856

1,058

1,316

1,708

2,060

2,485

0,856

1,058

1,315

1,706

2,056

2,479

0,855

1,057

1,314

1,703

2,052

2,473

0,855

1,056

1,313

1,701

2,048

2,467

0,854

1,055

1,311

1,699

2,045

2,462

0,854

1,055

1,310

1,697

2,042

2,457

168
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
Distribucin normal estndar

0 Z
Z
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4

0.00
0.07

0.01
0.08

0.02
0.09

0.03

0.04

0.05

0.06

2.5
2.6
2.7
2.8
2.9
3.0
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
0.0000
0.0319
0.0398
0.0714
0.0793
0.1103
0.1179
0.1480
0.1915
0.2190
0.1915
0.2190
0.2257
0.2518
0.2580
0.2823
0.2881
0.3106
0.3159
0.3365

0.0040
0.0359
0.0438
0.0753
0.0832
0.1141
0.1217
0.1517
0.1850
0.2224
0.1950
0.2224
0.2291
0.2549
0.2612
0.2852
0.2910
0.3133
0.3186
0.3389

0.0080

0.0120

0.0160

0.0199

0.0239

0.0279

0.0478

0.0517

0.0557

0.0596

0.0636

0.0675

0.0871

0.0910

0.0948

0.0987

0.1026

0.1064

0.3413
0.3599
0.3643
0.3810
0.3849
0.3997
0.4032
0.4162
0.4192
0.4306
0.4332
0.4429
0.4452
0.4535
0.4554
0.4625
0.4641
0.4699
0.4713
0.4761
0.4772
0.4812

0.1255

0.1293

0.1331

0.1368

0.1406

0.1443

0.1985

0.2019

0.2054

0.2088

0.2123

0.2157

0.1985

0.2019

0.2054

0.2088

0.2123

0.2157

0.2324

0.2357

0.2389

0.2422

0.2454

0.2486

0.2642

0.2673

0.2704

0.2734

0.2764

0.2794

0.2939

0.2967

0.2995

0.3023

0.3051

0.3078

0.3212

0.3238

0.3264

0.3289

0.3315

0.3340

0.3438
0.3621
0.3665
0.3830
0.3869
0.4015
0.4049
0.4177
0.4207
0.4319
0.4345
0.4441
0.4463
0.4545
0.4564
0.4633
0.4649
0.4706
0.4719
0.4767

0.3461

0.3485

0.3508

0.3531

0.3554

0.3577

0.3686

0.3708

0.3729

0.3749

0.3770

0.3790

0.3888

0.3907

0.3925

0.3944

0.3962

3.3980

0.4066

0.4082

0.4099

0.4115

0.4131

0.4147

0.4222

0.4236

0.4251

0.4265

0.4279

0.4292

0.4357

0.4370

0.4382

0.4394

0.4406

0.4418

0.4474

0.4484

0.4495

0.4505

0.4515

0.4525

0.4573

0.4582

0.4591

0.4599

0.4608

0.4616

0.4656

0.4664

0.4671

0.4678

0.4686

0.4693

0.4726

0.4732

0.4738

0.4744

0.4750

0.4756

0.4778
0.4817

0.4783

0.4788

0.4793

0.4798

0.4803

0.4808

0.4821
0.4854
0.4861
0.4887
0.4893
0.4913
0.4918
0.4934
0.4938
0.4951
0.4953
0.4963
0.4956
0.4973
0.4974
0.4980
0.4981
0.4986

0.4826
0.4857
0.4864
0.4890
0.4896
0.4916
0.4920
0.4936
0.4940
0.4952
0.4955
0.4964
0.4966
0.4974
0.4975
0.4981
0.4982
0.4986

0.4830

0.4834

0.4838

0.4842

0.4846

0.4850

0.4868

0.4871

0.4875

0.4878

0.4881

0.4884

0.4898

0.4901

0.4904

0.4906

0.4909

0.4911

0.4922

0.4925

0.4927

0.4929

0.4931

0.4932

0.4941

0.4943

0.4945

0.4946

0.4948

0.4949

0.4956

0.4957

0.4959

0.4960

0.4961

0.4962

0.4967

0.4968

0.4969

0.4970

0.4971

0.4972

0.4976

0.4977

0.4977

0.4978

0.4979

0.4979

0.4982

0.4983

0.4984

0.4984

0.4985

0.4985

0.4986
0.4989
0.4990
0.4992
0.4993
0.4994
0.4995
0.4996
0.4996
0.4997
0.4997
0.4998
0.4998
0.4998
0.4998
0.4999
0.4999
0.4999
0.4999
0.4999

0.4986
0.4990
0.4990
0.4992
0.4993
0.4995
0.4995
0.4996
0.4996
0.4997
0.4997
0.4998
0.4998
0.4998
0.4999
0.4999
0.4999
0.4999
0.4999
0.4999

0.4987

0.4987

0.4988

0.4988

0.4988

0.4989

0.4991

0.4991

0.4991

0.4991

0.4992

0.4992

0.4993

0.4993

0.4994

0.4994

0.4994

0.4994

0.4995

0.4995

0.4995

0.4996

0.4996

0.4996

0.4996

0.4997

0.4997

0.4997

0.4997

0.4997

0.4997

0.4997

0.4998

0.4998

0.4998

0.4998

0.4998

0.4998

0.4998

0.4998

0.4998

0.4998

0.4999

0.4999

0.4999

0.4999

0.4999

0.4999

0.4999

0.4999

0.4999

0.4999

0.4999

0.4999

0.4999

0.4999

0.4999

0.4999

0.4999

0.4999

169
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
Distribucin normal para una cola

Z
0.0
0.1
0.2
0.3
0.4

0.00
0.07

0.01
0.08

0.02
0.09

0.03

0.04

0.05

0.06

0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
0.5000
.5318
0.5398
.5714
0.5792
.6102
0.6179
.6480
0.6554
.6843
0.6914
.7190
0.7257
.7517
0.7580
.7823
0.7881
.8105
0.8159
.8364
0.8413
.8599
0.8643
.8810
0.8849
.8997
0.9032
.9162
0.9192
.9305
0.9331
.9429
0.9452
.9535

0.5039
0.5358
0.5437
0.5753
0.5831
0.6140
0.6217
0.6517
0.6590
0.6879
0.6949
0.7224
0.7290
0.7549
0.7611
0.7852
0.7910
0.8132
0.8185
0.8389
0.8437
0.8621
0.8665
0.8829
0.8868
0.9014
0.9049
0.9177
0.9207
0.9318
0.9344
0.9440
0.9463
0.9544

0.5079

0.5119

0.5159

0.5199

0.5239

0.5279

0.5477

0.5517

0.5556

0.5596

0.5635

0.5674

0.5870

0.5909

0.5948

0.5987

0.6025

0.6064

0.6255

0.6293

0.6330

0.6368

0.6405

0.6443

0.6627

0.6664

0.6700

0.6736

0.6772

0.6808

0.6984

0.7019

0.7054

0.7088

0.7122

0.7156

0.7323

0.7356

0.7389

0.7421

0.7453

0.7485

0.7642

0.7673

0.7703

0.7733

0.7763

0.7793

0.7938

0.7967

0.7995

0.8023

0.8051

0.8078

0.8212

0.8238

0.8263

0.8289

0.8314

0.8339

0.8461

0.8484

0.8508

0.8531

0.8554

0.8576

0.8686

0.8707

0.8728

0.8749

0.8769

0.8790

0.8887

0.8906

0.8925

0.8943

0.8961

0.8979

0.9065

0.9082

0.9098

0.9114

0.9130

0.9146

0.9221

0.9236

0.9250

0.9264

0.9278

0.9292

0.9357

0.9369

0.9382

0.9394

0.9406

0.9417

0.9473

0.9484

0.9494

0.9505

0.9515

0.9525

0.9554
.9624
0.9640
.9699
0.9712
.9761
0.9772
.9812
0.9821
.9853
0.9860
.9886
0.9892
.9913
0.9918
.9934
0.9937
.9950
0.9953
.9963
0.9965
.9972
0.9974
.9980
0.9981
.9985
0.9986
.9989

0.9563
0.9632
0.9648
0.9706
0.9719
0.9767
0.9777
0.9816
0.9825
0.9857
0.9864
0.9889
0.9895
0.9915
0.9920
0.9936
0.9939
0.9952
0.9954
0.9964
0.9966
0.9973
0.9975
0.9980
0.9981
0.9986
0.9986
0.9990

0.9572

0.9581

0.9590

0.9599

0.9607

0.9616

0.9656

0.9663

0.9671

0.9678

0.9685

0.9692

0.9725

0.9731

0.9738

0.9744

0.9750

0.9755

0.9783

0.9788

0.9793

0.9798

0.9803

0.9807

0.9829

0.9834

0.9838

0.9842

0.9846

0.9849

0.9867

0.9871

0.9874

0.9877

0.9880

0.9883

0.9898

0.9900

0.9903

0.9906

0.9908

0.9911

0.9922

0.9924

0.9926

0.9928

0.9930

0.9932

0.9941

0.9942

0.9944

0.9946

0.9947

0.9949

0.9956

0.9957

0.9958

0.9959

0.9960

0.9962

0.9967

0.9968

0.9969

0.9970

0.9971

0.9971

0.9975

0.9976

0.9977

0.9978

0.9978

0.9979

0.9982

0.9983

0.9983

0.9984

0.9984

0.9985

0.9987

0.9987

0.9988

0.9988

0.9988

0.9989

170
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
Valores Crticos de la Distribucin Chi-Cuadrado.
FUNCION DE DISTRIBUCION
0.005
0.990
G
R
A
D
O
S

0.010
0.995

0.025

0.050

0.100

0.900

0.950

0.975

L
I
B
E
R
T
A
D

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
0.000039 0.000157 0.000982 0.003932 0.0158
6.63
7.88

2.71

3.84

5.02

0.0100
0.0201
0.0506
9.21
10.60
0.0717 0.11
0.22
11.34
12.84
0.21
0.30
0.48
13.28
14.86
0.41
0.55
0.83
15.09
16.75

0.10
0.35

0.21
0.58

4.61
6.25

0.71

1.06

7.78

1.15

1.61

9.24

5.99

7.38

7.81

9.35

9.49
11.07

11.14
12.83

0.68
16.81
0.99
18.48
1.34
20.09
1.73
21.67
2.16
23.21

0.87
18.55
1.24
20.28
1.65
21.95
2.09
23.59
2.56
25.19

1.24

1.64

2.20

10.64

12.59

14.45

1.69

2.17

2.83

12.02

14.07

16.01

2.18

2.73

3.49

13.36

15.51

17.53

2.70

3.33

4.17

14.68

16.92

19.02

3.25

3.94

4.87

15.99

18.31

20.48

2.60
24.72
3.07
26.22
3.57
27.69
4.07
29.14
4.60
30.58

3.05
26.76
3.57
28.30
4.11
29.82
4.66
31.32
5.23
32.80

3.82

4.57

5.58

17.28

19.68

4.40

5.23

6.30

18.55

21.03

23.34

5.01

5.89

7.04

19.81

22.36

24.74

5.63

6.57

7.79

21.06

23.68

26.12

6.26

7.26

8.55

22.31

25.00

27.49

5.14
5.81
32.00
34.27
5.70
6.41
33.41
35.72
6.26
7.01
34.81
37.16
6.84
7.63
36.19
38.58
7.43
8.26
37.57
40.00

6.91

7.96

7.56

8.67

10.09

24.77

27.59

30.19

8.23

9.39

10.86

25.99

28.87

31.53

8.91

10.12

11.65

27.20

30.14

32.85

9.59

10.85

12.44

28.41

31.41

34.17

8.03
8.90
8.93
41.40
8.64
9.54
0.29
42.80
9.26
10.20
.64
44.18
9.89
10.86
.98
45.56
10.52 11.52
31
46.93
11.16 12.20
64
48.29
11.81 12.88
96
49.64
12.46 13.56
28
50.99
13.12 14.26

9.31

23.54

21.92

26.30

28.85

10.28

11.59

13.24

29.62

32.67

35.48

10.98

12.34

14.04

30.81

33.92

36.78

11.69

13.09

14.85

32.01

35.17

38.08

41

12.40

13.85

15.66

33.20

36.42

39.36

42

13.12

14.61

16.47

34.38

37.65

40.65

44.

13.84

15.38

17.29

35.56

38.89

41.92

45.

14.57

16.15

18.11

36.74

40.11

43.19

46.

15.31

16.93

18.94

37.92

41.34

44.46

48.

16.05

17.71

19.77

39.09

42.56

45.72

49.

59
52.34
13.79 14.95
89
53.67

16.79

18.49

20.60

40.26

43.77

46.98

50.

171
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
Valores

Crticos de la Distribucin F - Funcin de Distribucin = 0.90.

GRADOS DE LIBERTAD DEL NUMERADOR


1
2
3
4
9
10
1
G
2
R
3
A
4
D
5
O
S
6
7
D
8
E
9
10
L
I
11
B
12
E
13
R
14
T
15
A
D
16
17
D
18
E
19
L
20
D
E
N
O
M
I

21
22
23
24
25

A
D
O
R

26
27
28
29
30

40
60
90
120
39.86 49.50
8.53
9.00
9.39
5.54
5.46
5.23
4.54
4.32
3.92
4.06
3.78
3.30

53.59 55.83 57.24 58.20 58.91 59.44 59.86


9.16
9.24
9.29
9.33
9.35
9.37

60.19
9.38

5.39

5.34

5.31

5.28

5.27

5.25

5.24

4.19

4.11

4.05

4.01

3.98

3.95

3.94

3.62

3.52

3.45

3.40

3.37

3.34

3.32

3.78
2.94
3.59
2.70
3.46
2.54
3.36
2.42
3.29
2.32

3.46

3.29

3.18

3.11

3.05

3.01

2.98

2.96

3.26

3.07

2.96

2.88

2.83

2.78

2.75

2.72

3.11

2.92

2.81

2.73

2.67

2.62

2.59

2.56

3.01

2.81

2.69

2.61

2.55

2.51

2.47

2.44

2.92

2.73

2.61

2.52

2.46

2.41

2.38

2.35

3.23
2.25
3.18
2.19
3.14
2.14
3.10
2.10
3.07
2.06

2.86

2.66

2.54

2.45

2.39

2.34

2.30

2.27

2.81

2.61

2.48

2.39

2.33

2.28

2.24

2.21

2.76

2.56

2.43

2.35

2.28

2.23

2.20

2.16

2.73

2.52

2.39

2.31

2.24

2.19

2.15

2.12

2.70

2.49

2.36

2.27

2.21

2.16

2.12

2.09

3.05
2.03
3.03
2.00
3.01
1.98
2.99
1.96
2.97
1.94

2.67

2.46

2.33

2.24

2.18

2.13

2.09

2.64

2.44

2.31

2.22

2.15

2.10

2.06

2.03

2.62

2.42

2.29

2.20

2.13

2.08

2.04

2.00

2.61

2.40

2.27

2.18

2.11

2.06

2.02

1.98

2.59

2.38

2.25

2.16

2.09

2.04

2.00

1.96

2.96
1.92
2.95
1.90
2.94
1.89
2.93

2.57

2.36

2.23

2.14

2.08

2.02

1.98

1.95

2.56

2.35

2.22

2.13

2.06

2.01

1.97

1.93

2.55

2.34

2.21

2.11

2.05

1.99

1.95

1.92

1.98

1.94

1.91

2.54

2.33

2.19

2.10

2.04

2.06

1.88
2.92
1.87
2.91
1.86
2.90
1.85
2.89
1.84
2.89
1.83
2.88
1.82
2.84
1.76
2.79
1.71
2.76
1.67
2.75
1.65

2.53

2.32

2.18

2.09

2.02

1.97

1.93

1.89

2.52

2.31

2.17

2.08

2.01

1.96

1.92

1.88

2.51

2.30

2.17

2.07

2.00

1.95

1.91

1.87

2.50

2.29

2.16

2.06

2.00

1.94

1.90

1.87

2.50

2.28

2.15

2.06

1.99

1.93

1.89

1.86

2.49

2.28

2.14

2.05

1.98

1.93

1.88

1.85

2.44

2.23

2.09

2.00

1.93

1.87

1.83

1.79

2.39

2.18

2.04

1.95

1.87

1.82

1.77

1.74

2.36

2.15

2.01

1.91

1.84

1.78

1.74

1.70

2.35

2.13

1.99

1.90

1.82

1.77

1.72

1.68

172
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
Valores Crticos de la Distribucin F - Funcin de Distribucin = 0.95.
GRADOS DE LIBERTAD DEL NUMERADOR
1
2
3
8
9
10
1
G
2
R
3
A
4
D
5
O
S
6
7
D
8
E
9
10
L
I
11
B
12
E
13
R
14
T
15
A
D
16
17
D
18
E
19

20

D
E
N
O
M
I
A
D
O
R

21
22
23
24
25
26
27
28
29
30

40
60
90
120
161.45 199.50 215.71 224.58 230.16 233.99 236.77 238.88
88
18.51
19.00
19.16
19.25
19.30
19.33
19.35
19.40
10.13
9.55
9.28
9.12
9.01
8.94
8.89
8.79
7.71
6.94
6.59
6.39
6.26
6.16
6.09
0
5.96
6.61
5.79
5.41
5.19
5.05
4.95
4.88
7
4.74
5.99
0
5.59
8
5.32
39
5.12
18
4.96
02

5.14
4.06
4.74
3.64
4.46
3.35
4.26
3.14
4.10
2.98

4.84
0
4.75
0
4.67
1
4.60
5
4.54
9

3.98
2.85
3.89
2.75
3.81
2.67
3.74
2.60
3.68
2.54

4.49

3.63

4.21

240.54

241.

19.37

19.38

8.85

8.81

6.04

6.0

4.82

4.7

4.15

4.1

4.76

4.53

4.39

4.28

4.35

4.12

3.97

3.87

3.79

3.73

3.6

4.07

3.84

3.69

3.58

3.50

3.44

3.

3.86

3.63

3.48

3.37

3.29

3.23

3.

3.71

3.48

3.33

3.22

3.14

3.07

3.

3.59

3.36

3.20

3.09

3.01

2.95

2.9

3.49

3.26

3.11

3.00

2.91

2.85

2.8

3.41

3.18

3.03

2.92

2.83

2.77

2.7

3.34

3.11

2.96

2.85

2.76

2.70

2.6

3.29

3.06

2.90

2.79

2.71

2.64

2.5

3.24

3.01

2.85

2.74

2.66

2.59

2.54

3.20

2.96

2.81

2.70

2.61

2.55

2.49

3.16

2.93

2.77

2.66

2.58

2.51

2.46

3.13

2.90

2.74

2.63

2.48

2.42

3.10

2.87

2.71

2.60

2.45

2.39

2.49
4.45

3.59
2.45

4.41

3.55
2.41

4.38

3.52

2.54

2.38
4.35

3.49

2.51

2.35
4.32

3.47

3.07

2.84

2.68

2.57

2.49

2.42

2.37

3.05

2.82

2.66

2.55

2.46

2.40

2.34

3.03

2.80

2.64

2.53

2.44

2.37

2.32

3.01

2.78

2.62

2.51

2.42

2.36

2.30

2.99

2.76

2.60

2.40

2.34

2.28

2.98

2.74

2.59

2.47

2.39

2.32

2.27

2.96

2.73

2.57

2.46

2.37

2.31

2.25

2.95

2.71

2.56

2.45

2.36

2.29

2.24

2.93

2.70

2.55

2.43

2.35

2.28

2.22

2.92

2.69

2.53

2.42

2.33

2.27

2.21

2.84

2.61

2.45

2.34

2.25

2.18

2.12

2.76

2.53

2.37

2.25

2.17

2.10

2.04

2.71

2.47

2.32

2.20

2.11

2.04

1.99

2.68

2.45

2.29

2.18

2.09

2.02

1.96

2.32
4.30

3.44
2.30

4.28

3.42
2.27

4.26

3.40
2.25

4.24

3.39

2.49

2.24
4.23

3.37
2.22

4.21

3.35
2.20

4.20

3.34
2.19

4.18

3.33
2.18

4.17

3.32
2.16

4.08

3.23
2.08

4.00

3.15
1.99

3.95

3.10
1.94

3.92

3.07
1.91

173
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
Valores

Crticos de la Distribucin F - Funcin de Distribucin = 0.99.

GRADOS DE LIBERTAD DEL NUMERADOR


1
2
3
8
9
10
G
R
A
D
O
S
D
E

L
I
B
E
R
T
A
D
D
E
L
D
E
N
O
M
I
A
D
O
R
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

40
60
90
120
4052
98.50

5000 5403
5625
5764
5859
99.00 99.17 99.25 99.30 99.33

5928
99.36

5981
99.37

6022
99.39

6056
99.40

34.12

30.82

29.46

28.71

27.67

27.49

27.35

27.23

21.20

18.00

16.69

15.98 15.52

14.98

14.80

14.66

14.55

16.26

13.27

12.06

11.39

10.46

10.29

10.16

10.05

13.75

10.92

28.24

27.91
15.21

10.97

10.67

9.78

9.15

8.75

8.47

8.26

8.10

7.98

8.45

7.85

7.46

7.19

6.99

6.84

6.72

7.59

7.01

6.63

6.37

6.18

6.03

5.91

6.06

5.80

5.61

5.47

5.35

5.64

5.39

5.20

5.06

4.94

7.87
12.25

9.55
6.62

11.26

8.65
5.81

10.56

8.02

6.99

6.42

5.26
10.04

7.56

6.55

5.99

4.85
9.65

7.21

6.22

5.67

5.32

5.07

4.89

4.74

4.63

5.95

5.41

5.06

4.82

4.64

4.50

4.39

5.74

5.21

4.86

4.62

4.44

4.30

4.19

5.56

5.04

4.69

4.46

4.28

4.14

4.03

5.42

4.89

4.56

4.32

4.14

4.00

3.89

5.29

4.77

4.44

4.20

4.03

3.89

3.78

5.18

4.67

4.34

4.10

3.93

3.79

3.68

5.09

4.58

4.25

4.01

3.84

3.71

3.60

5.01

4.50

4.17

3.94

3.63

3.52

4.94

4.43

4.10

3.87

3.70

3.56

3.46

4.87

4.37

4.04

3.81

3.64

3.51

3.40

4.82

4.31

3.99

3.76

3.59

3.45

3.35

4.76

4.26

3.94

3.71

3.54

3.41

3.30

4.72

4.22

3.90

3.67

3.50

3.36

3.26

4.68

4.18

3.85

4.64

4.14

3.82

4.54
9.33

6.93
4.30

9.07

6.70
4.10

8.86

6.51
3.94

8.68

6.36
3.80

8.53

6.23
3.69

8.40

6.11
3.59

8.29

6.01
3.51

8.18

5.93

3.77

3.43
8.10

5.85
3.37

8.02

5.78
3.31

7.95

5.72
3.26

7.88

5.66
3.21

7.82

5.61
3.17

7.77

5.57

3.63

3.46

3.32

3.22

3.13
7.72

5.53

3.59

3.42

3.29

3.18

3.09
7.68

5.49

4.60

4.11

3.78

3.56

3.39

3.26

3.15

4.57

4.07

3.75

3.53

3.36

3.23

3.12

4.54

4.04

3.73

3.50

3.33

3.20

3.09

4.51

4.02

3.70

3.47

3.30

3.17

3.07

4.31

3.83

3.51

3.29

3.12

2.99

2.89

4.98

4.13

3.65

3.34

3.12

2.95

2.82

2.72

4.85

4.01

3.53

3.23

3.01

2.84

2.72

2.61

4.79

3.95

3.48

3.17

2.96

2.79

2.66

2.56

3.06
7.64

5.45
3.03

7.60

5.42
3.00

7.56

5.39
2.98

7.31

5.18
2.80

7.08
2.63
6.93
2.52
6.85
2.47

174
Instituto Tecnolgico de Ensenada
Biol. Ral Jimnez Gonzlez
Bibliografa
GUTIERREZ, P. H y DE LA VARA, S. R. 2008. Segunda edicin. Anlisis y Diseo
de Experimentos. Mc Graw Hill.
MONTGOMERY, C.D.; G.C, RUNGER. 2010. Segunda edicin. Probabilidad y
Estadstica. LIMUSA WILEY
MONTGOMERY, C.D. Diseo y Anlisis de Experimentos. Segunda edicin.
LIMUSA WILEY
WALPOLE, R.; MAYERS, R.H.; MAYERS, S.L. 1998. Sexta edicin. Probabilidad y
Estadstica Para Ingenieros. Pearson Education
ANDERSON, D.R.; SWEENEY, D.J.; WILLIAMS, T.A.2005. Octava edicin.
Estadstica para Administracin y Economa. MATH LEARNING
BERENSON, M.L.; LEVINE, D.M.; KREHBIEL, T.C. 2001. Segunda edicin.
Estadstica para Administracin. Prentice Hall.

Ensenada Baja California agosto de 2012

Você também pode gostar