Escolar Documentos
Profissional Documentos
Cultura Documentos
Anlisis de varianza
Anlisis de varianza
(ANOVA) de un factor
El anlisis de varianza (ANOVA) permite determinar si las medias de varias
muestras son significativamente distintas una de otra. Se supone que las
muestras son independientes, tienen una distribucin Gaussiana, de misma
varianza, pero posiblemente de diferentes medias debido a que las muestras
estn afectadas por un factor de variacin A.
Ejemplos
Ensayos de leyes de cobre por varios laboratorios, para calibrar una muestra
estndar
Mediciones en cada turno de los tiempos de viaje de los camiones o de los
metros barrenados por una perforadora.
Anlisis de varianza
(ANOVA) de un factor
Se busca testear:
Hiptesis nula H0: 1 = 2 = = k (todas las medias son iguales)
contra
Hiptesis alternativa H1: i j para al menos un par (i,j) (existe una
media distinta de las otras, por lo tanto se pone en evidencia la influencia
del factor de variacin)
Anlisis de varianza
(ANOVA) de un factor
Supongamos que, en un experimento donde se comparan k grupos o tratamientos
(realizando una muestra por tratamiento), existen dos fuentes de variaciones: el
tratamiento mismo y el error de medicin. La variacin debida al tratamiento
(variacin explicada o inter-muestra) se puede medir por:
k
SS1 = ni ( X i X ) 2
i =1
con
X : media global de todos los datos
X i : media de los datos asociados al tratamiento ni
Anlisis de varianza
(ANOVA) de un factor
La variacin debida al error (variacin residual o intra-muestra) se mide por
k
ni
i =1 j =1
i =1
ni
SS = ( X ij X ) 2 = SS0 + SS1
i =1 j =1
Anlisis de varianza
(ANOVA) de un factor
Bajo la hiptesis de que las muestras tienen distribuciones Gaussianas de varianza
2, se tiene
(ni 1) Si2
2
~
ni 1
2
n
k
2
2
i =1
Anlisis de varianza
(ANOVA) de un factor
Por otro lado, si la hiptesis nula es correcta (todas las medias son iguales), se
puede considerar que todos los datos provienen de una misma poblacin, luego
(n 1) S 2 SS
2
=
~
n 1
2
2
Tambin se obtiene
SS1
2
~
k 1
2
Anlisis de varianza
(ANOVA) de un factor
Se puede convertir las sumas de cuadrados en medias (que tienen sentido de
varianza), al dividir por el nmero de grados de libertad correspondiente:
SS
MS1 = 1
k 1
SS
MS0 = 0
nk
MS =
SS0 + SS1
n 1
Anlisis de varianza
(ANOVA) de un factor
Finalmente, se construye una variable de Fisher con k 1 y n k grados de libertad
al plantear:
F=
MS1 SS1 /( k 1)
=
MS0 SS 0 /( n k )
Anlisis de varianza
(ANOVA) de un factor
Tabla de anlisis de varianza
Fuente de
variacin
Explicada
(factor de
variacin A)
Residual
(error)
Grados de
libertad
Media de
cuadrados
k1
SS1
MS1 =
k 1
MS1
MS0
nk
SS 0
MS0 =
nk
SS = ( X ij X ) 2
n1
Suma de cuadrados
k
SS1 = ni ( X i X ) 2
i =1
k
SS0 = ( X ij X i )
i =1 j =1
Total
ni
ni
i =1 j =1
Anlisis de varianza
(ANOVA) de un factor
Ejemplo: se tiene los siguientes datos (k = 6)
grupo
nmero
12
13
12
13
13
12
promedio
7.25
6.62
6.33
4.08
4.23
8.17
Anlisis de varianza
(ANOVA) de un factor
Se calcula SS = (n 1) S 2 = 788, SS1 = 170 , de lo cual se deduce SS 0 = 618
Se llena la tabla de anlisis de varianza:
Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Media de
cuadrados
Explicada
(factor A)
170
170/5 = 34
Residual
(error)
618
69
618/69 = 8.96
Total
788
74
Anlisis de varianza
(ANOVA) de un factor
Ejercicio 1. Se realiza ensayos de work index sobre tres tipos de roca:
Roca tipo A (kWh/t): 12.9
Roca tipo B (kWh/t): 12.5
Roca tipo C (kWh/t): 11.9
11.0
14.2
13.2
13.1
13.5
14.0
13.8
12.8
14.5
Suma de
cuadrados
Grados de
libertad
Media de
cuadrados
Anlisis de varianza
(ANOVA) de un factor
Ejercicio 2. Se desea saber si existe una diferencia significativa en las leyes
medias analizadas por los diferentes laboratorios del round Robin.
Grados de
libertad
B = ni ( Xi X)( Xi X)t
k1
i =1
k
ni
W = ( Xij Xi )( Xij Xi ) t
i =1 j =1
k
nk
ni
n1
* =
|W|
=
|B+W|
(X
Xi )( X ij Xi )t
i =1 j =1
k
ni
(X
i =1 j =1
ij
ij
X)( X ij X)t
Nmero de grupos /
nmero de datos
p=1
k 2, n cualquiera
p=2
k 2, n cualquiera
p1
k = 2, n cualquiera
p1
k = 3, n cualquiera
p1
k cualquiera, n grande
Distribucin
n k 1 *
k 1 *
n k 1 1 *
k 1
*
~ Fk 1,n k
~ F2 ( k 1), 2 ( n k 1)
n p 1 1 *
p
*
n p 2 1 *
p
*
(n 1
~ Fp ,n p 1
~ F2 p , 2 ( n p 2 )
p+k
2
) ln * ~ 2p ( k 1)
nmero
12
13
12
13
13
12
promedio
variable 1
7.25
6.62
6.33
4.08
4.23
8.17
promedio
variable 2
10.3
8.78
8.91
6.54
7.10
12.5
4.73 5.00
350
370
214
293
136
77
Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Determinante
Explicada
(factor A)
4 014
Residual
(error)
69
29 090
Total
B+W
74
169 060
n k 1 1 *
k 1
*
= 19.19
Anlisis de varianza
(ANOVA) de dos factores
Supongamos que existen dos fuentes de variacin A y B susceptibles de influir en
el valor esperado de una variable X, y que se tiene f valores de A, c valores de B y
una sola medicin de X para cada combinacin (A,B) (o sea, n = f c datos en total).
Tratamiento
B1
B2
Bc
Media
A1
X11
X12
X1c
X 1
A2
X21
X22
X2c
X 2
Af
Xf1
Xf2
Xfc
X f
Media
X 1
X 2
X c
...
Anlisis de varianza
(ANOVA) de dos factores
Se define la siguiente tabla de anlisis de varianza
Fuente de
variacin
Suma de cuadrados
Grados de
libertad
Media de
cuadrados
SS f = c ( X i X ) 2
f1
MS f =
c1
MSc =
i =1
c
SSc = f ( X j X ) 2
j =1
f
Error residual
SSe = ( X ij X i )( X ij X j ) (f 1) (c 1) MSe =
i =1 j =1
Total
SS = SS f + SS c + SS e
n1
SS f
f 1
SSc
c 1
SSe
( f 1)(c 1)
Anlisis de varianza
(ANOVA) de dos factores
De la tabla de anlisis de varianza, se puede testear si la influencia de cada fuente
de variacin es significativa.
Influencia de A
Hiptesis nula H0: no hay influencia de A en el valor esperado de X
Hiptesis alternativa H1: hay una influencia de A en el valor esperado de X
Bajo la hiptesis nula, el cociente MSf/MSe sigue una distribucin de Fisher de
f1 y (f1)(c1) grados de libertad. Se rechazar la hiptesis nula y se
concluir a la influencia de A si el valor de este cociente supera el valor crtico
de la distribucin de Fisher para el riesgo asumido (test unilateral).
Anlisis de varianza
(ANOVA) de dos factores
Influencia de B
Hiptesis nula H0: no hay influencia de B en el valor esperado de X
Hiptesis alternativa H1: hay una influencia de B en el valor esperado de X
Similarmente, bajo la hiptesis nula, el cociente MSc/MSe sigue una
distribucin de Fisher de c1 y (f1)(c1) grados de libertad. Se rechazar la
hiptesis nula y se concluir a la influencia de B si el valor de este cociente
supera el valor crtico de la distribucin de Fisher para el riesgo asumido
(test unilateral).
Anlisis de varianza
(ANOVA) de dos factores
Anlisis de varianza de dos factores con rplicas
En caso de tener r mediciones de X para cada combinacin (A,B) (n = f c r
datos en total), se puede extraer una fuente adicional de variacin debida a la
interaccin entre los dos factores A y B.
Denotemos:
Xijk el dato correspondiente a la k-sima rplica del par (i,j) de tratamientos
para A y B, con i = 1 f, j = 1 c y k = 1 r.
X ij la media de los datos de ndices (i,j), con k cualquiera
X i la media de los datos de ndice i, con j, k cualquiera
X j la media de los datos de ndice j, con i, k cualquiera
X la media de todos los datos
Anlisis de varianza
(ANOVA) de dos factores
Se define la siguiente tabla de anlisis de varianza
Fuente de
variacin
Suma de cuadrados
Grados de
libertad
Media de
cuadrados
SS f = r c ( X i X ) 2
f1
c1
SSc
MSc =
c 1
i =1
c
SSc = r f ( X j X ) 2
SS f
MS f =
j =1
f 1
f
c
SS fc
Interaccin
2
SS fc = r ( X ij X i X j + X ) (f 1) (c 1) MS fc =
A/B
( f 1)(c 1)
i =1 j =1
Error
residual
Total
SSe = ( X ijk X ij ) 2
fc (r 1)
i =1 j =1 k =1
SS = SS f + SS c + SS fc + SS e
n1
MSe =
SSe
fc( r 1)
Anlisis de varianza
(ANOVA) de dos factores
Para la interpretacin de los resultados, es conveniente empezar con analizar la
posible interaccin entre los dos factores de variacin.
Interaccin A/B
Hiptesis nula H0: no hay interaccin entre los factores A y B
Hiptesis alternativa H1: existe una interaccin entre los factores A y B
Se rechaza la hiptesis nula si el cociente MSfc/MSe supera el valor crtico de la
distribucin de Fisher de (f1)(c1) y fc(r1) grados de libertad para el riesgo
asumido.
Anlisis de varianza
(ANOVA) de dos factores
Ilustracin del concepto de interaccin entre factores
Valor promedio de X
Valor promedio de X
B=2
B=1
B=2
B=1
B=2
B=2
B=1
B=1
1
Factor A
Factor A
Anlisis de varianza
(ANOVA) de dos factores
Despus de determinar si existe interaccin entre los factores de variacin, se
puede testear si la influencia de estos factores es significativa.
Caso 1: A y B tienen una interaccin significativa
Influencia de A
Se rechaza la hiptesis nula de que A no tiene influencia en el valor esperado
de X, si el cociente MSf/MSe supera el valor crtico de la distribucin de Fisher
de f1 y fc(r1) grados de libertad para el riesgo asumido.
Influencia de B
Se rechaza la hiptesis nula de que B no tiene influencia en el valor esperado
de X, si el cociente MSc/MSe supera el valor crtico de la distribucin de Fisher
de c1 y fc(r1) grados de libertad para el riesgo asumido
Anlisis de varianza
(ANOVA) de dos factores
Caso 2: A y B no tienen una interaccin significativa
En este caso, se puede considerar la fuente de interaccin como parte del error
experimental. Se puede entonces combinar con la variabilidad de interaccin
con la variabilidad residual al plantear:
Suma de cuadrados combinada: SS combinado = SS fc + SS e
Grados de libertad combinados: GLcombinado = ( f 1)(c 1) + fc(r 1)
Media de cuadrados combinada:
MS combinado
SS fc + SS e
SS fc + SS e
SS combinado
=
=
=
GLcombinado ( f 1)(c 1) + fc( r 1) fcr f c + 1
Anlisis de varianza
(ANOVA) de dos factores
Una vez recalculada la media de cuadrados del error residual (MScombinado), se
puede concluir sobre la influencia de los factores A y B:
Influencia de A
Se rechaza la hiptesis nula de que A no tiene influencia en el valor esperado
de X, si el cociente MSf/MScombinado supera el valor crtico de la distribucin de
Fisher de f1 y fcrfc+1 grados de libertad para el riesgo asumido.
Influencia de B
Se rechaza la hiptesis nula de que B no tiene influencia en el valor esperado
de X, si el cociente MSc/MScombinado supera el valor crtico de la distribucin de
Fisher de c1 y fcrfc+1 grados de libertad para el riesgo asumido
Anlisis de varianza
(ANOVA) de dos factores
Extensin: anlisis de varianza multivariable (MANOVA) de dos factores
En el caso multivariable, se reemplaza la variable escalar X por un vectorcolumna X de p componentes. En la tabla de anlisis de varianza, las sumas de
cuadrados se definen a partir de productos de vectores por sus transpuestas,
obteniendo matrices en lugar de escalares. Para aceptar o rechazar la hiptesis
nula (no influencia de un factor, o no interaccin entre factores), se puede
utilizar la estadstica de Wilks en lugar de la estadstica de Fisher.
Anlisis de varianza
para diseos anidados
Sitio 1
Sitio 2
Sitio 3
Sitio 4
Sitio 5
Sitio 6
Sitio 7
Sitio 8
X111
X121
X131
X141
X251
X261
X271
X281
X112
X122
X132
X142
X252
X262
X272
X282
X113
X123
X133
X143
X253
X263
X273
X283
Suma de cuadrados
Grados de libertad
SS A = bcdn ( X i X ) 2
a1
i =1
a b
SS B = cdn ( X ij X i ) 2
i =1 j =1
a b c
SSC = dn ( X ijk X ij ) 2
i =1 j =1 k =1
a
i =1 j =1 k =1 l =1
b
ab (c 1)
MSC =
abc (d 1)
MS D =
abcd (n 1)
MS E =
SS E = ( X ijklm X ijkl ) 2
i =1 j =1 k =1 l =1 m=1
Total
SS A
a 1
SS B
MS B =
a (b 1)
MS A =
SS D = n ( X ijkl X ijk ) 2
a
Error
a (b 1)
Media de
cuadrados
N1
SSC
ab(c 1)
SS D
abc(d 1)
SS E
abcd (n 1)
MS = SS
N 1
Lote 1
Lote 2
Media
6.711
5.922
Suma de
cuadrados
Grados de
libertad
Media de
cuadrados
Lote
2.8006
2.8006
1.120
Muestra
9.9978
2.4994
4.848
Anlisis
6.1867
12
0.5156
Total
18.9850
17
x
( x) =
log( x)
con = 1
si 0
si = 0
Lecturas recomendadas
Box, G.E.P., Hunter, W.G., Hunter, J.S., 1978. Statistics for Experimenters. John
Wiley and Sons, New York, 653 p.
Davis, J.C., 2002. Statistics and Data Analysis in Geology. John Wiley & Sons,
Inc., New York.
Johnson, R., Wichern, D.W., 2002. Applied Multivariate Statistical Analysis.
Prentice-Hall, Upper Saddle River.
Miller, R.G., 1997. Beyond ANOVA: Basics of Applied Statistics. Chapman &
Hall, Boca Raton.