Você está na página 1de 48

Leccin 6:

Anlisis de varianza

Anlisis de varianza de un factor

Anlisis de varianza
(ANOVA) de un factor
El anlisis de varianza (ANOVA) permite determinar si las medias de varias
muestras son significativamente distintas una de otra. Se supone que las
muestras son independientes, tienen una distribucin Gaussiana, de misma
varianza, pero posiblemente de diferentes medias debido a que las muestras
estn afectadas por un factor de variacin A.
Ejemplos
Ensayos de leyes de cobre por varios laboratorios, para calibrar una muestra
estndar
Mediciones en cada turno de los tiempos de viaje de los camiones o de los
metros barrenados por una perforadora.

Anlisis de varianza
(ANOVA) de un factor
Se busca testear:
Hiptesis nula H0: 1 = 2 = = k (todas las medias son iguales)
contra
Hiptesis alternativa H1: i j para al menos un par (i,j) (existe una
media distinta de las otras, por lo tanto se pone en evidencia la influencia
del factor de variacin)

El mtodo que se implementa consiste en descomponer el total de la varianza de


los datos entre varios componentes (inter-muestra e intra-muestra) y comparar
estos componentes utilizando un test de Fisher. Lleva el nombre de anlisis de
varianza.

Anlisis de varianza
(ANOVA) de un factor
Supongamos que, en un experimento donde se comparan k grupos o tratamientos
(realizando una muestra por tratamiento), existen dos fuentes de variaciones: el
tratamiento mismo y el error de medicin. La variacin debida al tratamiento
(variacin explicada o inter-muestra) se puede medir por:
k

SS1 = ni ( X i X ) 2
i =1

con
X : media global de todos los datos
X i : media de los datos asociados al tratamiento ni

ni : nmero de datos asociados al tratamiento ni

Anlisis de varianza
(ANOVA) de un factor
La variacin debida al error (variacin residual o intra-muestra) se mide por
k

ni

SS0 = ( X ij X i ) = (ni 1) Si2


2

i =1 j =1

i =1

donde Xij es el j-simo dato asociado al tratamiento ni.


Las sumas de cuadrados son aditivas:
k

ni

SS = ( X ij X ) 2 = SS0 + SS1
i =1 j =1

Anlisis de varianza
(ANOVA) de un factor
Bajo la hiptesis de que las muestras tienen distribuciones Gaussianas de varianza
2, se tiene
(ni 1) Si2
2
~

ni 1
2

Al sumar sobre todos los ndices i = 1,... k, se obtiene:


k
SS0
(ni 1) Si2
2
=
~

n
k
2
2

i =1

donde n = n1 + + nk es el nmero total de datos.

Anlisis de varianza
(ANOVA) de un factor
Por otro lado, si la hiptesis nula es correcta (todas las medias son iguales), se
puede considerar que todos los datos provienen de una misma poblacin, luego
(n 1) S 2 SS
2
=
~

n 1
2
2

Tambin se obtiene
SS1
2
~

k 1
2

De la frmula de descomposicin de varianza y del teorema de Cochran, se deduce


que SS0 y SS1 son independientes.

Anlisis de varianza
(ANOVA) de un factor
Se puede convertir las sumas de cuadrados en medias (que tienen sentido de
varianza), al dividir por el nmero de grados de libertad correspondiente:

SS
MS1 = 1
k 1

SS
MS0 = 0
nk

con n = n1 + + nk el nmero total de datos.

MS =

SS0 + SS1
n 1

Anlisis de varianza
(ANOVA) de un factor
Finalmente, se construye una variable de Fisher con k 1 y n k grados de libertad
al plantear:
F=

MS1 SS1 /( k 1)
=
MS0 SS 0 /( n k )

Si el valor observado de F es mayor que el valor crtico para el riesgo asumido


(valor del test unilateral), se rechazar la hiptesis nula. En este caso, SS1 tiene
mucho ms influencia que SS0 en la varianza total, luego se concluye a la
influencia del factor de variacin A.
En general, los resultados se presentan bajo la forma de una tabla, denominada
tabla de anlisis de varianza.

Anlisis de varianza
(ANOVA) de un factor
Tabla de anlisis de varianza
Fuente de
variacin
Explicada
(factor de
variacin A)
Residual
(error)

Grados de
libertad

Media de
cuadrados

k1

SS1
MS1 =
k 1

MS1
MS0

nk

SS 0
MS0 =
nk

SS = ( X ij X ) 2

n1

Suma de cuadrados
k

SS1 = ni ( X i X ) 2
i =1
k

SS0 = ( X ij X i )
i =1 j =1

Total

ni

ni

i =1 j =1

Anlisis de varianza
(ANOVA) de un factor
Ejemplo: se tiene los siguientes datos (k = 6)

grupo

nmero

12

13

12

13

13

12

promedio

7.25

6.62

6.33

4.08

4.23

8.17

En el total de los 6 grupos, se ha observado:

n = 75, X = 6.07 y S 2 = 10.65

Anlisis de varianza
(ANOVA) de un factor
Se calcula SS = (n 1) S 2 = 788, SS1 = 170 , de lo cual se deduce SS 0 = 618
Se llena la tabla de anlisis de varianza:
Fuente de
variacin

Suma de
cuadrados

Grados de
libertad

Media de
cuadrados

Explicada
(factor A)

170

170/5 = 34

Residual
(error)

618

69

618/69 = 8.96

Total

788

74

Luego, se tiene: F = 34/8.96 = 3.79


Se rechaza la hiptesis nula, dado que F(5,69) = 2.35 para = 5%

Anlisis de varianza
(ANOVA) de un factor
Ejercicio 1. Se realiza ensayos de work index sobre tres tipos de roca:
Roca tipo A (kWh/t): 12.9
Roca tipo B (kWh/t): 12.5
Roca tipo C (kWh/t): 11.9

11.0
14.2
13.2

13.1
13.5
14.0

13.8
12.8

14.5

Son las diferencias segn tipos de roca significativas?


Fuente de
variacin
Tipo de
roca
Error
residual
Total

Suma de
cuadrados

Grados de
libertad

Media de
cuadrados

Anlisis de varianza
(ANOVA) de un factor
Ejercicio 2. Se desea saber si existe una diferencia significativa en las leyes
medias analizadas por los diferentes laboratorios del round Robin.

Ejercicio 3. Se desea saber si existe una diferencia significativa en el trabajo


de cada turno. Para ello, se pide analizar los metros barrenados por una
perforadora segn el turno.

Anlisis de varianza multivariable


(MANOVA) de un factor
Se puede extender el anlisis de varianza al caso multivariable, al reemplazar la
variable escalar X por un vector-columna X de p componentes. Se supone que las
muestras tienen una distribucin multinormal (multi-Gaussiana), de misma matriz
de varianza-covarianza, pero posiblemente de diferentes medias 1, 2, k
debido a que las muestras estn afectadas por un factor de variacin A.
Se busca testear:
Hiptesis nula H0: 1 = 2 = = k (todas las medias son iguales)
contra
Hiptesis alternativa H1: i j para al menos un par (i,j) (existe un
vector de medias distinto de los otros, por lo tanto se pone en evidencia la
influencia del factor de variacin)

Anlisis de varianza multivariable


(MANOVA) de un factor
Tabla de anlisis de varianza multivariable
Fuente de
variacin
Explicada
(factor A)
Error
residual
Total

Matrices de sumas de cuadrados y productos

Grados de
libertad

B = ni ( Xi X)( Xi X)t

k1

i =1
k

ni

W = ( Xij Xi )( Xij Xi ) t
i =1 j =1
k

nk

ni

B + W = ( X ij X)( Xij X)t


i =1 j =1

n1

Anlisis de varianza multivariable


(MANOVA) de un factor
La dificultad radica en que, ahora, uno no trata con sumas o medias de cuadrados,
sino que con matrices. Para aceptar o rechazar la hiptesis nula, Wilks propone la
siguiente estadstica:
ni

* =

|W|
=
|B+W|

(X

Xi )( X ij Xi )t

i =1 j =1
k

ni

(X
i =1 j =1

donde | . | indica el determinante.

ij

ij

X)( X ij X)t

Anlisis de varianza multivariable


(MANOVA) de un factor
Bajo la hiptesis nula, se tiene
Nmero de
variables

Nmero de grupos /
nmero de datos

p=1

k 2, n cualquiera

p=2

k 2, n cualquiera

p1

k = 2, n cualquiera

p1

k = 3, n cualquiera

p1

k cualquiera, n grande

Distribucin
n k 1 *
k 1 *
n k 1 1 *
k 1
*

~ Fk 1,n k

~ F2 ( k 1), 2 ( n k 1)

n p 1 1 *
p
*
n p 2 1 *
p
*

(n 1

~ Fp ,n p 1

~ F2 p , 2 ( n p 2 )

p+k
2

) ln * ~ 2p ( k 1)

Anlisis de varianza multivariable


(MANOVA) de un factor
Otras estadsticas propuestas en la literatura:
traza de Lawley-Hotelling: tr (BW 1 )
traza de Pillai: tr (B(B + W ) 1 )
mxima raz de Roy: mximo valor propio de W(B + W ) 1

El anlisis de varianza multivariable es preferible a una serie de anlisis de


varianza aplicadas a cada variable, cuando existen correlaciones (redundancias
parciales) entre las variables.

Anlisis de varianza multivariable


(MANOVA) de un factor
Ejemplo: se tiene los siguientes datos (k = 6 y p = 2 variables)
grupo

nmero

12

13

12

13

13

12

promedio
variable 1

7.25

6.62

6.33

4.08

4.23

8.17

promedio
variable 2

10.3

8.78

8.91

6.54

7.10

12.5

En el total de los 6 grupos, se ha observado:


10.65 4.73
n = 75, X 1 = 6.07, X 2 = 8.96 y V =

4.73 5.00

Anlisis de varianza multivariable


(MANOVA) de un factor
788 350
170 214
618 136
B + W = (n 1) V =
, B =
, por lo que W =

350
370
214
293
136
77

Fuente de
variacin

Suma de
cuadrados

Grados de
libertad

Determinante

Explicada
(factor A)

4 014

Residual
(error)

69

29 090

Total

B+W

74

169 060

Luego, se tiene: * = 29 090/169 060 = 0.172 y

n k 1 1 *
k 1
*

= 19.19

Se rechaza la hiptesis nula, dado que F(10,136) = 1.90 para = 5%

Anlisis de varianza de dos factores

Anlisis de varianza
(ANOVA) de dos factores
Supongamos que existen dos fuentes de variacin A y B susceptibles de influir en
el valor esperado de una variable X, y que se tiene f valores de A, c valores de B y
una sola medicin de X para cada combinacin (A,B) (o sea, n = f c datos en total).
Tratamiento

B1

B2

Bc

Media

A1

X11

X12

X1c

X 1

A2

X21

X22

X2c

X 2

Af

Xf1

Xf2

Xfc

X f

Media

X 1

X 2

X c

...

Anlisis de varianza
(ANOVA) de dos factores
Se define la siguiente tabla de anlisis de varianza
Fuente de
variacin

Suma de cuadrados

Grados de
libertad

Media de
cuadrados

SS f = c ( X i X ) 2

f1

MS f =

c1

MSc =

i =1
c

SSc = f ( X j X ) 2
j =1
f

Error residual

SSe = ( X ij X i )( X ij X j ) (f 1) (c 1) MSe =
i =1 j =1

Total

SS = SS f + SS c + SS e

n1

SS f
f 1

SSc
c 1

SSe
( f 1)(c 1)

Anlisis de varianza
(ANOVA) de dos factores
De la tabla de anlisis de varianza, se puede testear si la influencia de cada fuente
de variacin es significativa.
Influencia de A
Hiptesis nula H0: no hay influencia de A en el valor esperado de X
Hiptesis alternativa H1: hay una influencia de A en el valor esperado de X
Bajo la hiptesis nula, el cociente MSf/MSe sigue una distribucin de Fisher de
f1 y (f1)(c1) grados de libertad. Se rechazar la hiptesis nula y se
concluir a la influencia de A si el valor de este cociente supera el valor crtico
de la distribucin de Fisher para el riesgo asumido (test unilateral).

Anlisis de varianza
(ANOVA) de dos factores
Influencia de B
Hiptesis nula H0: no hay influencia de B en el valor esperado de X
Hiptesis alternativa H1: hay una influencia de B en el valor esperado de X
Similarmente, bajo la hiptesis nula, el cociente MSc/MSe sigue una
distribucin de Fisher de c1 y (f1)(c1) grados de libertad. Se rechazar la
hiptesis nula y se concluir a la influencia de B si el valor de este cociente
supera el valor crtico de la distribucin de Fisher para el riesgo asumido
(test unilateral).

Anlisis de varianza
(ANOVA) de dos factores
Anlisis de varianza de dos factores con rplicas
En caso de tener r mediciones de X para cada combinacin (A,B) (n = f c r
datos en total), se puede extraer una fuente adicional de variacin debida a la
interaccin entre los dos factores A y B.
Denotemos:
Xijk el dato correspondiente a la k-sima rplica del par (i,j) de tratamientos
para A y B, con i = 1 f, j = 1 c y k = 1 r.
X ij la media de los datos de ndices (i,j), con k cualquiera
X i la media de los datos de ndice i, con j, k cualquiera
X j la media de los datos de ndice j, con i, k cualquiera
X la media de todos los datos

Anlisis de varianza
(ANOVA) de dos factores
Se define la siguiente tabla de anlisis de varianza
Fuente de
variacin

Suma de cuadrados

Grados de
libertad

Media de
cuadrados

SS f = r c ( X i X ) 2

f1
c1

SSc
MSc =
c 1

i =1
c

SSc = r f ( X j X ) 2

SS f

MS f =

j =1

f 1

f
c
SS fc
Interaccin
2
SS fc = r ( X ij X i X j + X ) (f 1) (c 1) MS fc =
A/B
( f 1)(c 1)
i =1 j =1

Error
residual
Total

SSe = ( X ijk X ij ) 2

fc (r 1)

i =1 j =1 k =1

SS = SS f + SS c + SS fc + SS e

n1

MSe =

SSe
fc( r 1)

Anlisis de varianza
(ANOVA) de dos factores
Para la interpretacin de los resultados, es conveniente empezar con analizar la
posible interaccin entre los dos factores de variacin.
Interaccin A/B
Hiptesis nula H0: no hay interaccin entre los factores A y B
Hiptesis alternativa H1: existe una interaccin entre los factores A y B
Se rechaza la hiptesis nula si el cociente MSfc/MSe supera el valor crtico de la
distribucin de Fisher de (f1)(c1) y fc(r1) grados de libertad para el riesgo
asumido.

Anlisis de varianza
(ANOVA) de dos factores
Ilustracin del concepto de interaccin entre factores
Valor promedio de X

Valor promedio de X
B=2
B=1

B=2

B=1

B=2

B=2
B=1

B=1
1

Factor A

Factor A

No hay interaccin entre A y B

Hay interaccin entre A y B

Anlisis de varianza
(ANOVA) de dos factores
Despus de determinar si existe interaccin entre los factores de variacin, se
puede testear si la influencia de estos factores es significativa.
Caso 1: A y B tienen una interaccin significativa
Influencia de A
Se rechaza la hiptesis nula de que A no tiene influencia en el valor esperado
de X, si el cociente MSf/MSe supera el valor crtico de la distribucin de Fisher
de f1 y fc(r1) grados de libertad para el riesgo asumido.
Influencia de B
Se rechaza la hiptesis nula de que B no tiene influencia en el valor esperado
de X, si el cociente MSc/MSe supera el valor crtico de la distribucin de Fisher
de c1 y fc(r1) grados de libertad para el riesgo asumido

Anlisis de varianza
(ANOVA) de dos factores
Caso 2: A y B no tienen una interaccin significativa
En este caso, se puede considerar la fuente de interaccin como parte del error
experimental. Se puede entonces combinar con la variabilidad de interaccin
con la variabilidad residual al plantear:
Suma de cuadrados combinada: SS combinado = SS fc + SS e
Grados de libertad combinados: GLcombinado = ( f 1)(c 1) + fc(r 1)
Media de cuadrados combinada:
MS combinado

SS fc + SS e
SS fc + SS e
SS combinado
=
=
=
GLcombinado ( f 1)(c 1) + fc( r 1) fcr f c + 1

Anlisis de varianza
(ANOVA) de dos factores
Una vez recalculada la media de cuadrados del error residual (MScombinado), se
puede concluir sobre la influencia de los factores A y B:
Influencia de A
Se rechaza la hiptesis nula de que A no tiene influencia en el valor esperado
de X, si el cociente MSf/MScombinado supera el valor crtico de la distribucin de
Fisher de f1 y fcrfc+1 grados de libertad para el riesgo asumido.
Influencia de B
Se rechaza la hiptesis nula de que B no tiene influencia en el valor esperado
de X, si el cociente MSc/MScombinado supera el valor crtico de la distribucin de
Fisher de c1 y fcrfc+1 grados de libertad para el riesgo asumido

Anlisis de varianza
(ANOVA) de dos factores
Extensin: anlisis de varianza multivariable (MANOVA) de dos factores
En el caso multivariable, se reemplaza la variable escalar X por un vectorcolumna X de p componentes. En la tabla de anlisis de varianza, las sumas de
cuadrados se definen a partir de productos de vectores por sus transpuestas,
obteniendo matrices en lugar de escalares. Para aceptar o rechazar la hiptesis
nula (no influencia de un factor, o no interaccin entre factores), se puede
utilizar la estadstica de Wilks en lugar de la estadstica de Fisher.

Anlisis de varianza
para diseos anidados

Anlisis de varianza para


diseos anidados
En algunos casos, los valores (niveles) del factor B dependen de los valores del
factor A. Se tiene entonces un diseo anidado o diseo jerrquico, en el cual las
fuentes de variaciones son independientes.
Por ejemplo :
considerar 2 reas de ensayos, 4 sitios en cada rea y realizar 3 mediciones en
cada sitio. No hay vnculo entre los sitios de un rea con los sitios de la otra rea,
es decir, se tiene 8 sitios en total y no 4 (diseo anidado: rea > sitio > medicin)
tomar 2 detritos de pozos de tronadura (lotes), muestrear 3 veces cada lote y
analizar 3 veces la ley de cobre en cada muestra (diseo anidado: lote >
muestra > anlisis)

Anlisis de varianza para


diseos anidados
Diseo anidado
rea 1 (rea de prueba)

rea 2 (rea de control)

Sitio 1

Sitio 2

Sitio 3

Sitio 4

Sitio 5

Sitio 6

Sitio 7

Sitio 8

X111

X121

X131

X141

X251

X261

X271

X281

X112

X122

X132

X142

X252

X262

X272

X282

X113

X123

X133

X143

X253

X263

X273

X283

Para determinar la significancia de cada fuente de variacin (A = rea y B = sitio)


no se puede utilizar el anlisis de varianza de dos factores clsico, sino que se
recurre a un anlisis de varianza para diseos anidados.

Anlisis de varianza para


diseos anidados
Tabla de anlisis de varianza para diseos anidados
Supongamos un diseo anidado can a clases asociadas a una fuente de variacin
A. En cada una de estas clases, se tiene b sub-clases asociadas a una fuente de
variacin B, y as sucesivamente (c sub-clases de una fuente C, d sub-clases de
una fuente D). Finalmente, cada sub-clase de D tiene n mediciones (rplicas) (se
puede extender el mtodo presentado a nmeros variables de tems en cada clase).
El nmero total de datos es N = abcdn.
Se busca asignar una varianza a cada fuente y compararla con la varianza de la
fuente siguiente en el diseo anidado, de modo de determinar si una fuente tiene
un efecto significativo con respecto a otra.

Anlisis de varianza para


diseos anidados
Fuente

Suma de cuadrados

Grados de libertad

SS A = bcdn ( X i X ) 2

a1

i =1
a b

SS B = cdn ( X ij X i ) 2
i =1 j =1
a b c

SSC = dn ( X ijk X ij ) 2
i =1 j =1 k =1
a

i =1 j =1 k =1 l =1
b

ab (c 1)

MSC =

abc (d 1)

MS D =

abcd (n 1)

MS E =

SS E = ( X ijklm X ijkl ) 2
i =1 j =1 k =1 l =1 m=1

Total

SS A
a 1
SS B
MS B =
a (b 1)
MS A =

SS D = n ( X ijkl X ijk ) 2
a

Error

a (b 1)

Media de
cuadrados

SS = SSA + SSB + SSC + SSD + SSE

N1

SSC
ab(c 1)

SS D
abc(d 1)

SS E
abcd (n 1)

MS = SS
N 1

Anlisis de varianza para


diseos anidados
La significancia de cada media de cuadrados se pone a prueba al formar una
variable de Fisher F definida como la razn entre esta media de cuadrados y la
media siguiente en la tabla, la cual posee los grados de libertad correspondientes
de la tabla:
significancia de A vs. B: calcular MSA/MSB y comparar con el valor crtico de
una variable de Fisher de (a1) y a(b1) grados de libertad
significancia de B vs. C: calcular MSB/MSC y comparar con el valor crtico de
una variable de Fisher de a(b1) y ab(c1) grados de libertad

significancia de D: calcular MSD/MSE y comparar con el valor crtico de una


variable de Fisher de abc(d1) y abcd(n1) grados de libertad.

Anlisis de varianza para


diseos anidados
Ejercicio (ensayos de laboratorio). Se considera 2 lotes (detritos de pozos de
tronadura), en cada uno de los cuales se selecciona 3 muestras y se realizan 3
anlisis por muestra. Los resultados se muestran en la siguiente tabla:
Muestra

Lote 1

Lote 2

8.0, 7.4, 7.8

6.2, 7.4, 6.9

7.7, 7.3, 5.1

5.7, 5.8, 5.2

5.8, 5.6, 5.7

5.4, 6.1, 4.6

Media

6.711

5.922

Anlisis de varianza para


diseos anidados
Tabla de anlisis de varianza
Fuente de
variacin

Suma de
cuadrados

Grados de
libertad

Media de
cuadrados

Lote

2.8006

2.8006

1.120

Muestra

9.9978

2.4994

4.848

Anlisis

6.1867

12

0.5156

Total

18.9850

17

La media de cuadrados de las muestras es significativamente mayor que la media


de cuadrados de los anlisis (F = 4.848 es significativo). Luego, para optimizar
el diseo y tener la mayor precisin al menor costo, sera preferible tomar ms
muestras y hacer menos anlisis.

Limitantes del anlisis


de varianza
Hiptesis de independencia
La descomposicin de las varianzas en varias componentes es vlida siempre y
cuando los datos son independientes. Para comprobar este supuesto, se puede
considerar los llamados tests de Levene o el test de Barlett. El primero tiene la
ventaja de que no se ve afectada por falta de normalidad de los datos y se puede
aplicar a tamaos muestrales desiguales.

Limitantes del anlisis


de varianza
Hiptesis de normalidad
El anlisis de varianza se basa en el uso de tests de Fisher, los cuales
presuponen que los datos tienen distribuciones normales. El anlisis de varianza
es robusto frente a leves desviaciones a la hiptesis de normalidad; par
desviaciones importantes, se recomienda transformar las variables, o usar
mtodos no paramtricos como el test de Kruskal-Wallis.

Limitantes del anlisis


de varianza
Homoscedasticidad
El anlisis de varianza supone tambin que las varianzas de los diferentes
grupos son iguales (homoscedasticidad). En caso de heteroscedasticidad, la
varianza suele cambiar cuando lo hace la media. Si i es la media del grupo
i-simo y i su desviacin estndar, entonces i = f(i) para alguna funcin f.
En particular, se suele considerar una funcin f de la forma
f ( i ) = ki

Equivalentemente, log( ) = log(k ) + log( )


El coeficiente se estima por la pendiente de la recta de regresin entre log()
y log() (experimentalmente conocidos para los diferentes grupos).

Limitantes del anlisis


de varianza
Una vez determinado el coeficiente , se puede conseguir homocedasticidad al
considerar la siguiente transformacin de la variable X:

x
( x) =
log( x)

con = 1

si 0
si = 0

Lecturas recomendadas
Box, G.E.P., Hunter, W.G., Hunter, J.S., 1978. Statistics for Experimenters. John
Wiley and Sons, New York, 653 p.
Davis, J.C., 2002. Statistics and Data Analysis in Geology. John Wiley & Sons,
Inc., New York.
Johnson, R., Wichern, D.W., 2002. Applied Multivariate Statistical Analysis.
Prentice-Hall, Upper Saddle River.
Miller, R.G., 1997. Beyond ANOVA: Basics of Applied Statistics. Chapman &
Hall, Boca Raton.

Você também pode gostar