Escolar Documentos
Profissional Documentos
Cultura Documentos
14.1 INTRODUCCIN
El anlisis de la varianza de un factor es una extensin del test de t para dos muestras
independientes, para comparar K muestras.
Hemos visto mtodos para decidir si la diferencia entre dos medias muestrales es ( no
es ) significativa. Muchas veces interesa comparar ms de dos medias. Podramos pensar
en usar mltiples tests de t si se satisfacen los supuestos de Normalidad o las
correspondientes alternativas no paramtricas. Pero esta forma no es la ms eficiente.
Muchas veces interesa estudiar el efecto de una o ms condiciones sobre una variable.
En el contexto del anlisis de la varianza es habitual llamar factor al tipo de condicin
que interesa estudiar. Esta puede ser cuantitativa: puede tomar valores en la recta real
(por ejemplo: presin, temperatura), o cualitativa (operador).
El anlisis de la varianza (ANOVA) es una tcnica que se utiliza para separar y evaluar
diferentes causas de variacin. En los ejemplos anteriores se lo podra utilizar para
separar la variacin debida al error aleatorio de la debida a cambios en los niveles del
factor.
Realizaremos:
El Anlisis de la Varianza si queremos saber si las medias muestrales de los grupos
difieren significativamente o no.
Comparaciones Mltiples si deseamos identificar los grupos para los cuales las medias
difieren.
Anova Dra. Diana Kelmansky 182
ESTADSTICA (Q)
Son las diferencias observadas entre las medias muestrales atribuibles a variabilidad
aleatoria o son significativas y explicadas por el factor en estudio?
Hiptesis a testear
El anlisis de la varianza reemplaza a los tests de t mltiples por un slo test de F que se
realiza bajo los supuestos de igualdad de varianzas y de normalidad de las
observaciones.
Anova Dra. Diana Kelmansky 183
ESTADSTICA (Q)
Supuestos
21 = 22 = 23 = ....... = 2K= 2
Los datos correspondientes a los K niveles del factor son independientes y
tienen distribucin Normal
media
muestral
nivel 1 : Y11 , L , Y1 J1 i.i.d N ( 1 , 2 ) Y 1.
nivel 2 : Y21 , L , Y2 J 2 i.i.d N ( 2 , 2 ) Y 2.
independientes
nivel K : YK1 , L , YK J K i.i.d N ( K , 2 ) Y K.
media general Y ..
SS B / ( K 1)
Estadstico del test F= ~ FK 1,n K bajo H0
SSW / (n K )
Curvas de Densidad F
4
3
f1,20
f1,5
2
2
1
1
0
0
0 1 2 3 4 5 0 1 2 3 4 5
x x
0.0 0.1 0.2 0.3 0.4 0.5 0.6
0.6
f5,5 f5,20
0.4
0.2
0.0
0 1 2 3 4 5 0 1 2 3 4 5
x x
Anova Dra. Diana Kelmansky 184
ESTADSTICA (Q)
donde
K K Jk K
SS B = J k ( Y k . Y .. ) 2 , SSW = ( Ykj Y k . ) 2 = ( J k 1) S k2
k =1 k =1 j =1 k =1
Llamemos fK-1, n-K, al valor que deja a la derecha un rea bajo la curva de densidad de
la distribucin FK-1, n-K
De donde surgen los grados de libertad? Se puede demostrar, que si se satisfacen los
supuestos del anlisis de la varianza resulta:
SSW SS B
i) ~ 2n-K ii) ~ 2K-1 Bajo H0 y adems SS B y SSW son independientes
2 2
Comentarios
Bajo H0, todas las observaciones provienen de una misma poblacin Normal con igual
media e igual varianza.
Bajo este supuesto, podramos medir la variabilidad de todas las observaciones juntas
mediante la varianza muestral. Llamamos media general (o gran media) a la media
muestral de todas las observaciones
Y ..
La varianza muestral usando todas las observaciones es
2 2 2 2
SST (Y11 Y ) + ....+ (Y1J1 Y ) + ....+ (YK1 Y ) + ....+ (YKJK Y )
=
n 1 n 1
Bajo H0 y normalidad, el cociente F sigue una distribucin F con K-1 y n-K grados de
libertad.
Para determinar si los datos son o no significativos o para calcular el p-valor
comparamos con la distribucin FK-1,n-K.
si K=2 el estadstico F = T2 ( cuadrado del estadstico T del test de t para dos
(Y1. Y 2. )
muestras independientes ) T =
1 1
Sp +
J1 J 2
Source SS Df MS F p-valor
(fuente de (suma de (grados de (cuadrados medios)
variacin) cuadrados) libertad)
Between SSB K-1 SSB / (K-1)
(entre grupos) SSB / (K - 1)
Within SSW n-K SSW / (n-K) SSW / (n - K)
(dentro de
grupos)
Total SST n-1
SOURCE DF SS MS F P
------- ---- --------- --------- ------ ------
BETWEEN 3 142.400 47.4667 21.76 0.0001
WITHIN 11 24.0000 2.18182
TOTAL 14 166.400
Anova Dra. Diana Kelmansky 186
ESTADSTICA (Q)
SAMPLE GROUP
VARIABLE MEAN SIZE STD DEV
--------- ---------- ------ ----------
XA 101.00 4 0.8165
XB 102.00 4 1.4142
XC 97.000 4 1.6330
XD 94.000 3 2.0000
TOTAL 98.800 15 1.4771
Existen varias alternativas para identificar grupos con distintas medias poblacionales.
En general, lo que hace cada una de ellas es realizar tests de a pares. Veremos algunos
de los ms usados y difundidos.
En nuestro ejemplo como K=4 tenemos que calcular m = 4.3/2=6 intervalos de confianza.
HOMOGENEOUS
VARIABLE MEAN GROUPS
--------- ---------- -----------
XB 102.00 I
XA 101.00 I
XC 97.000 .. I
XD 94.000 .. I
El Statistix construye los intervalos de confianza y realiza el test basado en cada uno de
los intervalos de a pares. Vemos que las medias de los grupos A y B no difieren
Anova Dra. Diana Kelmansky 187
ESTADSTICA (Q)
Consideraciones generales
2 1 1
Yi Y j t n K , * / 2 SW ( + )
Ji J j
Los grados de libertad n-K del intervalo de confianza anterior provienen del estimador
de la varianza S2W que se obtiene como parte del anlisis de la varianza y utiliza todos
los datos, no nicamente los de los grupos sobre los que se est realizando la
comparacin.
Tiene nivel exacto 1- cuando el tamao de las muestras es el mismo (Jk = J para
todas los grupos). Cuando los tamaos muestrales por grupo no son todos iguales el
coeficiente de confianza es mayor que 1-. Es decir, el procedimiento de Tukey es
conservativo cuando los Jk no son iguales.
2
Yi Y j Q K ,n K , SW /J
Cuando los Jk son diferentes el intervalo para i -j es de la forma:
2 1 1
Yi Y j 1 QK , n K , SW ( + )
2 Ji J j
Cada intervalo que no contiene el 0 da como conclusin que los correspondientes i y
j difieren significativamente a nivel .
Anova Dra. Diana Kelmansky 188
ESTADSTICA (Q)
La salida de ANOVA del Statistix incluye tres mtodos para validar el supuesto de
igualdad de varianzas:
Test de Barlett
Test de Q de Cochran
Test de Hartley.
Test de Barlett. Compara a S2w y las S2i correspondientes a cada grupo, pero en escala
q
logartmica. El test se basa en el estadstico ln 10
c
K
2
con q = (n K ) log10 SW ( J k 1) log10 S k2
k =1
1 K 1 1
y c = 1+ ( ).
3( K 1) k =1 J k 1 n K
Test Q de Cochran. Para el caso en que los Jk son todos iguales Cochran propuso el
siguiente estadstico:
max(S12 , S 2 2 ,...., S K 2 )
Q=
S12 + S 2 2 + ....S K 2
Anova Dra. Diana Kelmansky 189
ESTADSTICA (Q)
Este test tiene nivel exacto para igual nmero de observaciones por muestra y si los
tamaos muestrales difieren tiene nivel aproximado.
CHI-SQ DF P
BARTLETT'S TEST OF ------ ------ ------
EQUAL VARIANCES 1.73 3 0.6298
COCHRAN'S Q 0.4286
LARGEST VAR / SMALLEST VAR 6.0000
Entre las propuestas para testear homogeneidad de varianzas, este test figura entre los
ms potentes y resistentes a la violacin del supuesto de normalidad.
Anova Dra. Diana Kelmansky 190
ESTADSTICA (Q)
14.4.2 Normalidad
SOURCE DF SS MS F P
------- ---- --------- --------- ------ ------
BETWEEN 2 1.55502 0.77751 2.81 0.0685 mayor a 0.05
CHI-SQ DF P
BARTLETT'S TEST OF ------ ------ ------
EQUAL VARIANCES 2.32 2 0.3138
COCHRAN'S Q 0.4341
LARGEST VAR / SMALLEST VAR 2.1366
SAMPLE GROUP
VARIABLE MEAN SIZE STD DEV
--------- ---------- ------ ----------
FEV1 2.6278 23 0.5386
FEV2 2.9829 21 0.5892
FEV3 2.9181 16 0.4031
TOTAL 2.8295 60 0.5259
Supuestos
Igual que en el anova, de cada una de las K poblaciones obtenemos una muestra
aleatoria de tamao Jk, y observamos la variable de inters en dicha muestra es decir:
Hiptesis alternativa Ha: por lo menos en una poblacin, la variable observada tiende a
dar valores mayores que en alguna otra poblacin.
Bajo H0 , todas las observaciones (Ykj ) tienen la misma distribucin, si las tomamos todas
juntas en una nica muestra de tamao n y las ordenamos de menor a mayor, obteniendo
los rangos Rkj todas las asignaciones de los rangos a las K muestras tienen la misma
chance de ocurrir.
SSB
Estadstico del test: G KW =
SST
n 1
2
K 1
Esta aproximacin es vlida cuando:
Para el caso en que K=3 y los Jk 5 adjuntamos una tabla con los percentiles de la
distribucin exacta.
MEAN SAMPLE
VARIABLE RANK SIZE
--------- ------ ------
FEV1 23.2 23
FEV2 35.9 21
FEV3 33.9 16
TOTAL 30.5 60
SOURCE DF SS MS F P
------- ---- --------- --------- ------ ------
BETWEEN 2 2002.86 1001.43 3.57 0.0346
WITHIN 57 15984.6 280.432
TOTAL 59 17987.5
Se rechaza la hiptesis nula a favor de la alternativa en algn centro la FEV tiende a dar
valores ms altos que en algn otro.
La salida de SX incluye tambin la tabla de ANOVA para los rangos de las observaciones.
Esto se basa en que los dos estadsticos estn relacionados. Si llamamos FR al
estadstico del test de F aplicado a los rangos tenemos que:
(n K )G KW
FR =
( K 1)(n 1 G KW )
Anova Dra. Diana Kelmansky 195
ESTADSTICA (Q)
Comparaciones Mltiples
1/ 2
n(n + 1) 1 1
Ri. R j. z / 2m +
12 J i J j
MEAN HOMOGENEOUS
VARIABLE RANK GROUPS
--------- ---------- -----------
FEV2 35.881 I
FEV3 33.875 I I
FEV1 23.239 .. I
Concluimos al 5%, que los valores de FEV de los pacientes del centro 2 tienden a ser ms
altos que los de los pacientes del centro 1.