Escolar Documentos
Profissional Documentos
Cultura Documentos
VIII.1. INTRODUCCION
Una forma simple de abordar el Análisis de la Varianza (ANOVA o ANDEVA) sería, como
un procedimiento para comprobar si dos o más medias muestrales pueden haberse obtenido
de poblaciones con una misma media paramétrica respecto de una variable dada.
Toda vez que se demuestra que dos o más medias son diferentes, debemos suponer que
proceden de poblaciones diferentes.
Para comprobar si existen diferencias significativas entre las medias para el caso de dos
muestras se utiliza para la comparación tradicionalmente la distribución t de Student o en el
caso de conocerse las varianzas de las poblaciones que se comparan, la distribución
normal,. Sin embargo la importancia del ANOVA, es que es un método más general que
permite comparar las medias de dos o más muestras.
El ANOVA se podría definir también como una técnica en la que la varianza total de un
conjunto de datos se divide en componentes asociados a una fuente específica de variación,
estimando la magnitud con la que contribuye cada una de esas fuentes a la variación total.
Dicho en otros términos, consiste esencialmente en descomponer la "varianza total" de un
conjunto de observaciones de una variable X, en "varianzas parciales" correspondientes a
fuentes de variación distintas y determinadas, las que luego se comparan entre sí por medio
de una prueba estadística llamada prueba F de Fisher.
En función de lo anterior diremos que el ANOVA se utiliza para dos propósitos: 1) estimar
y probar hipótesis respecto a varianzas poblacionales y 2) estimar y probar hipótesis
respecto a las medias poblacionales.
Para comprender la esencia del ANOVA es necesario realizar algunas precisiones respecto
de algunos términos y conceptos.
Sea el caso de una variable X (variable dependiente), que deseamos estudiar y sobre la que
presumiblemente influyen una serie de causas definidas o identificables y otras que son
imposibles de precisar o debidas al azar. La variable X, será nuestra variable respuesta o
variable dependiente, y denominaremos factor a cada una de las causas asignables que
pueden incidir sobre ella, constituyendo estas las variables independientes cuya influencia
se pretende evaluar. Consideremos también que cada una de las causas identificables o
98
factores que influyen sobre la variable X, no lo hacen de manera constante, sino que pueden
asumir distintas alternativas o categorías que constituyen los niveles del factor.
Si sobre la variable X incide un solo factor, al análisis de varianza que estudia la variación
de X, se llama ANOVA de un factor o unifactorial y a sus diferentes alternativas, niveles o
tratamientos; si inciden dos factores lo llamaremos ANOVA con dos factores y así
sucesivamente.
A modo de resumen diremos que dadas una variable dependiente cuantitativa y una variable
independiente o factor, el análisis de varianza de un factor, consiste en analizar el
comportamiento de la variable dependiente en las K subpoblaciones o grupos establecidos
en función de los valores de la variable independiente.
En esta primera parte consideraremos el caso particular del ANOVA de clasificación única,
de una vía o ANOVA de un factor.
VIII.2. DISTRIBUCIÓN F
Consideremos el caso de una variable X N( , 2 ) .De esta población extraemos dos
muestras de tamaño n1 y n2 y calculamos las respectivas varianzas muestrales s21 y s22 y el
cociente
Este cociente será cercano a 1, porque s21 y s22 son estimaciones de una misma varianza
paramétrica 2.
Ho) , 2 1 = 2 2
Es decir, si dos varianzas muestrales s21 y s22 han sido obtenidas de la misma población con
varianza paramétrica 2 .
Ha) 2 1 2 2 o Ha) 2 1 2 2 o 2 1 2 2
Algunas veces, es necesario obtener valores de F para 0,5.dado que estos valores raras
veces están tabulados, deben ser obtenidas mediante la relación:
Esto es, muchas veces, estamos interesados en conocer de dos sistemas experimentales en
cual de ellos la lectura de una cierta magnitud es más variable, o cual de dos procesos o
métodos introduce mayor variabilidad en la magnitud medida.
Supongamos que se dispone de muestras de I subpoblaciones, establecidas por los I valores de una
variable independiente o factor Y, y que, sobre cada individuo o elemento de la muestra, se mide
una variable en escala de intervalo o de razón X, tal que su distribución en cada una de las
subpoblaciones es normal y con la misma varianza en todas ellas.
El análisis de la varianza con un factor, se utiliza para contrastar la hipótesis nula de que las medias
de las muestras que proceden de las I subpoblaciones para la variable respuesta X, es la misma:
El análisis de la varianza se basa en que la variabilidad total existente en los datos puede
descomponerse en una parte debida al efecto del factor investigado (variabilidad debida a
las diferencias entre las medias de los grupos) y otra parte residual que recoge el efecto de
todos los factores no controlados (variabilidad debida a las diferencias dentro de los
grupos).
Es decir, la variación total queda expresada como la suma de dos fuentes de variación : 1)
la variación dentro de los grupos expresado como las diferencias de cada observación y
la media de su grupo y 2) la variación entre grupos, representada por la diferencia entre
cada una de las medias de los grupos y la media general .
Si las medias de los grupos son muy diferentes entre sí, habrá una variación considerable
entre estas y la media general comparada con la variación dentro de cada uno los grupos.
En cambio, si las medias de los grupos no difieren entre sí, la variación entre estas y la
media general no será mucho mayor que la variación de cada observación respecto a la
media de su grupo.
101
Como las varianzas no son aditivas, para descomponer la variación total, en cada una de
las fuentes de variación antes mencionadas, se procede a descomponer la "suma de
cuadrados" y "los grados de libertad" total en las "sumas de cuadrados" y los "grados de
libertad" entre los grupos y dentro de los grupos respectivamente.
1
Piris da Motta M- Hierro y Manganeso en Aguas Superficiales y Subterránea en la Provincia de
Misiones- Taller Internacional sobre Hierro y Manganeso- Buenos Aires 6 y 7 de Noviembre de 1997
102
La comparación entre estas cuatro series de mediciones se hace ensayando la hipótesis nula,
de que las mismas fueron obtenidas de una población única.
Variabilidad Total:
SS total = X2 - TC (79)
Siendo
Este valor se calcula sumando los resultados que se presentan en la tercera fila del Cuadro
2-TC = suma de las observaciones o "Gran Total" al cuadrado dividido por el número total
de observaciones
Para aislar al estado puro la variación entre los grupos necesitamos suprimir la variación
dentro de los grupos, es decir entre los valores de las observaciones que constituyen un
mismo grupo. Podemos obtener este resultado simplemente, haciendo a todas las
observaciones de un mismo grupo iguales entre sí e iguales a la media del grupo. Mediante
esta operación, la variación entre los grupos no se modifica, puesto que los totales y las
medias de grupos permanecen invariables, mientras que la variación dentro del grupo queda
anulada.
Esto es
El número de grados de libertad para el caso de a grupos será = a-1 , es decir igual a 3 para
el ejemplo que estamos considerando.
La variación dentro de cada grupo se debe a las desviaciones que presentan los valores de
las observaciones respecto a la media del grupo. La suma de cuadrados dentro de cada
grupo es la suma del cuadrado de las desviaciones mencionadas anteriormente, y en número
de grados de libertad para cada grupo es igual al número de observaciones menos uno (ng-
1). La varianza dentro de cada grupo se calcula dividiendo la suma de cuadrados por el
número de grados de libertad correspondiente. Mediante este procedimiento se obtienen
tantas estimaciones de la varianza dentro de los grupos como grupos haya. Como
plateamos la hipótesis de que las muestras provienen de la misma población, las cuatro
estimaciones de la varianza que podríamos calcular para nuestro ejemplo, son en realidad
cuatro estimaciones de una misma varianza, y pueden combinarse para obtener una
estimación basada en el conjunto de las observaciones. Esta combinación se hace
basándose en las propiedades aditivas de las sumas de cuadrados y de los grados de
libertad.
104
La suma de cuadrados dentro de los grupos se calcula por diferencia entre la SS total y la
SS entre grupos. Esto es, como la diferencia entre la suma de los cuadrados de las
observaciones y los totales de grupos al cuadrado dividido por el número de observaciones
en el grupo.
Cuadro VIII.2.
Total 40 36.20
En el análisis que hemos efectuado, las fuentes de variación que influyen en los valores de
las concentraciones de Fe las hemos separado en dos partes. Una de ella constituida por un
factor que fue controlado por el investigador y que se identifica con de denominación
"Localidades", la otra que constituye el resto, es decir, el conjunto de todos los factores no
controlados, y es lo que se ha denominado error.
105
La cuarta columna indica los cuadrados medios MS (o varianzas) 2, para las diferentes
fuentes de variación. Se calculan dividiendo las sumas de cuadrados (columna 3) por los
grados de libertad correspondientes (columna 2) .
VIII.3.2.Prueba de Significación
El mismo nos permite aceptar o rechazar la hipótesis nula, y de este modo comprobar si
existe efecto del factor analizado, esto es, si las cuatro media puede considerarse
muestreados aleatoriamente de la misma población o si los tratamientos a los que han sido
sometidos cada grupo han dado como resultado cambios en las medias, de modo tal que las
muestras no pueden considerarse proveniente de una misma población.
Si esto es así, habrá un componente añadido debido al efecto del factor o y podrá ser
detectado por la prueba de F en el test de significación del ANOVA.
Cuando el ANOVA, se ocupa de efectos de tratamientos como el del ejemplo que acabamos
de analizar, en el que las localidades fueron seleccionadas por el investigador, estamos en
presencia de un Modelo I de ANOVA o modelo de efecto fijo, para diferenciarlo del
Modelo II en el cual los efectos añadidos para cada grupo no son tratamientos fijos, sino
efectos aleatorios. Este sería el modelo en el caso en que las cuatro localidades hubieran
sido obtenidas aleatoriamente entre varias localidades posibles.
La principal diferencia entre ambos modelos, es que en el Modelo II, se consideran efectos
aleatorios en cada grupo, y que estos no están bajo el control de investigador, y por lo tanto
son irrepetibles. Dado que los efectos son aleatorios, no es preciso calcular la magnitud de
los mismos para cualquiera de los grupos o la diferencia entre un grupo y otro. En este caso
el propósito del análisis es calcular la componente añadida de la varianza entre grupos,
comprobar su presencia y calcular su magnitud, así como su % de contribución a la
variación de los valores de las observaciones y respecto a los otros niveles de réplicas.
Volviendo a la prueba de significación, si la hipótesis nula fuera verdadera, es decir que las
cuatro muestras provienen de la misma población, el cuadrado medio "entre grupos" y el
cuadrado medio "dentro de los grupos" serían dos estimaciones de la misma varianza
paramétrica, de modo que al calcular el cociente
2
En realidad son "cuadrado medio" y no varianzas, los valores obtenidos, atendiendo al hecho que el
"cuadrado medio" de un rubro del ANOVA esta compuesto y contiene, además de la varianza correspondiente
a ese rubro, elementos de las varianzas de otros rubros.
106
Para nuestro ejemplo, el valor de Fs calculado es menor que la unidad y menor que el
valor critico F 0.05(3,37) = 2.8588, y por lo tanto no existen evidencias para rechazar la Ho y la
conclusión es que las cuatro localidades no presentan diferencias estadísticamente
significativas en los valores medios de las concentraciones de Fe total en las aguas de los
pozos excavados utilizados como fuente de suministro.
Cuadro VIII.3.
Lugar | Mean Std. Dev. Freq.
+
Candelaria | .67375001 .92614579 12
Corpus | .33485714 .58339107 7
San Ignacio | .42736364 .4838362 11
Santa Ana | .99254544 1.409148 11
+
Total | .63531707 .95137159 41
Analysis of Variance
Source SS df MS F Prob > F
Between groups 2.52908239 3 .843027464 0.93 0.4377
Within groups 33.675234 37 .91014146
Total 36.2043164 40 .905107911
107
Bartlett's test for equal variances: chi2(3) =11.7684 Prob>chi2 = 0.008
Esto puede conseguirse por medio de diseños mas elaborados, que permitan el control
de algunos de los múltiples factores que influyen en el término de error.
En el apartado anterior consideramos el caso en que los grupos que son objeto de
comparación se establecen según un único criterio de clasificación –en este caso atendiendo
a la localización- y en el que la característica o variable respuesta continua observada o
medida en cada uno de los elementos (pozos) que conforman las muestras corresponden a
la concentración de Fe total en cada uno de los pozos.
Estamos interesados en determinar, si el valor medio de la concentración de Fe es
significativamente diferente entre una localidad y otra o si las medias de los distintos
grupos son idénticos , es decir el factor de clasificación –localización- no influye y se
verifica que
De un modo general, el modelo I (efecto fijo) para un anova de un factor establece que el
valor de la observación j-esima , perteneciente al i-esimo grupo puede ser expresado como:
Xij = + i + ij = i + ij (82)
Estas perturbaciones ij para que el modelo sea valido deben cumplir con las siguientes
hipótesis:
1- E ( ij) = 0 i ,j
4- ij ( 0, 2 )
Estas cuatro condiciones pueden ser resumidas expresando de que las ji deben cumplir
con la hipótesis DIIN (( 0, 2 ), esto es que las perturbaciones se distribuyen idéntica e
independientemente como variables normales de media cero y varianza constante pero
desconocida 2 .
La primera condición exige que la totalidad de las ij tengan media 0.Para que esto ocurra
las distintas mediciones de la variable X, tienen que haberse tomado en condiciones
homogéneas.
La condición 2, exige que la perturbaciones tengan la misma variabilidad en todos los
grupos o tratamientos,- y además que esta variabilidad sea estable- y no tienda a crecer o
disminuir durante el experimento.
La condición 3 impone que las perturbaciones ij , se produzcan de manera independiente
de una observación a otra. Esto es, que las observaciones Xij sean independientes, es decir
que el valor de una observación no este condicionada por el valor anterior y no condicione
el valor siguiente.
Esta hipótesis es difícil de probar en la práctica y uno de los objetivos del diseño
experimental es garantizar esta independencia.
La hipótesis de normalidad se justifica en virtud del Téorema Central del Límite (TCL),
en virtud que las perturbaciones no pueden preverse o asignarse a causas concretas, sino
que resultan del efecto agregado de muchos factores distintos, ninguno de los cuales es
predominante.
109
Se pueden descubrir discrepancias de muchas clases estudiando los residuos por medio de
gráficos adecuados.
Si las hipótesis del modelo son ciertas, se debería comprobar que los residuos varían
aleatoriamente, es decir que no existe ningún patrón sistemático, debiéndose sospechar del
modelo propuesto en caso contrario.
La importancia práctica de las técnicas gráficas de análisis de los residuos para detectar
anomalías en los datos que pueden comprometer seriamente la validez del modelo, y que
constituye un requisito imprescindible previo a cualquier análisis estadístico se ejemplifica
sobre unos datos concretos.
Algunos de los gráficos utilizados para el análisis de los residuos son los que se indican a
continuación.
Este tipo de gráficos, permite identificar posibles cambios con el tiempo de las condiciones
experimentales.
111
Este gráfico en el que se representa , Xij - Xi vs Xi, puede revelar si la variabilidad es
constante o no en todos los grupos.
Si el modelo matemático propuesto es adecuado, los residuos no deben estar relacionados
con el valor de la respuesta (valor medio de la variable medida), esto es, la variabilidad de
los mismos no deberá depender del nivel medio de la respuesta.
Puede suceder que la varianza de las observaciones crezca con el nivel de la respuesta, lo
cual nos estaría indicando que las muestras no son homocedásticas (no tienen igual
varianza) . En este caso los valores absolutos de los residuos tenderían a crecer a medida
que aumenta el nivel de las observaciones y el gráfico tendría forma de embudo.
Cuando se sospecha que un determinado factor (Ej. la temperatura) tiene influencia sobre la
variable respuesta y se dispone de los valores de la misma para cada una de las mediciones,
es posible representar los residuos en función de dicha variable y a partir de este gráfico
tomar la decisión si su influencia fuera importante, de ejercer un mejor control de dicha
variable en la fase siguiente del experimento o incluir dicha variable como un factor a
estudiar en un trabajo posterior.
Cuadro VIII.4
Dieta 1 ji Dieta 2 ji Dieta 3 ji Dieta 4 ji
62(20) 1 63(12) 68(16) 56(23)
60(2) -1 67(9) 66(7) 62(3)
63(11) 2 71(15) 71(1) 60(6)
59(10) -2 64(14) 67(17) 61(18)
65(4) 68(13) 63(22)
66(8) 68(21) 64(19)
63(5)
59(24)
1.1. Histograma
0
-6 -4 -2 0 2 4 6
RESIDUALS
-5 -3 -1 1 3 5
RESIDUALS
114
99.9
99
95
80
50
20
5
1
0.1
-5 -3 -1 1 3 5
RESIDUALS
3
residual
-1
-3
-5
0 4 8 12 16 20 24
row number
115
3
residual
-1
-3
-5
61 63 65 67 69
predicted TC
4. Gráfico de residuos en función de los tratamientos
3
residual
-1
-3
-5
1 2 3 4
Dieta
El modelo básico propuesto en la ecuación (82) establece que las observaciones en los
grupos siguen una distribución que solo difiere de un grupo a otro en el valor de la media.
En la práctica aparece con frecuencia la situación que los grupos difieren, no solamente en
la media, sino también en la varianza, es decir en la variabilidad de las observaciones.
Este modelo producirá heterocedasticidad, ya que los grupos con í mas alta, tendrán
mayor variabilidad.
Sin embargo tomando logaritmos
La nueva variable perturbación ij´, tendrá media 0 y varianza 2= cte. por lo que las
muestras con los valores transformados (ln Xij )serán homocedásticas.
VIII.6. Modelo I y II
En el caso de ANOVA de un factor, se asume de manera formal que existen dos modelos
para los que se utiliza el análisis de varianza, el llamado modelo de efecto fijo de
tratamiento (modelo I) y el modelo de efecto aleatorio o modelo de componente de la
varianza (modelo II).
Si bien el sistema básico de datos, así como el cálculo y la prueba de significación, en la
mayor parte de los casos son los mismos para ambos modelos, los propósitos del análisis de
la varianza difieren para los dos modelos, así como varían algunos de los tests
suplementarios y los cálculos siguientes al test de significación inicial.
En el modelo I, se supone que las diferencias entre las medias de grupo, si existen, se
deben, se deben a efectos de tratamientos fijos determinados por el experimentador. Esto es,
siempre que los tratamiento sean fijos y repetibles, aun cuando el experimentador no
entienda y controle por completo el mismo, estaremos en presencia de un diseño que
corresponde a un modelo I.
Cualquier valor aislado puede descomponerse de la forma siguiente:
( x1 x 2 ) ( 1 2 )
ts t / 2, a ( n 1)
1 1 (88)
MS error ( )
n1 n2
118
La aplicación reiterada de esta prueba para diferentes pares de medias presenta un inconveniente.
Si el nº total de tratamientos que se comparan es 4, se podría aplicar el test anterior a 4C 2= 6 = c
pares de medias.
Si el nivel de significación o error de tipo I de cada prueba es = 0.05, para cualquier par de
medias (X1 -X2) se verifica que
Luego, la probabilidad que, conjuntamente se verifiquen las 6 condiciones posibles, para todas las
comparaciones entre medias, es si fueran independientes (0.95) 6 = 0.73 y no 0.95 como podría
suponerse.
La conclusión que se desprende de lo anterior, es que al aplicar reiteradamente el test, es muy
probable que, aun cuando no existan diferencia entre los grupos, estas aparezcan como
consecuencia del azar.
Es por esta razón, que si se propone garantizar un error de tipo I total igual a T para el conjunto
de c contrastes o comparaciones, se deba tomar para cada uno de ellos, un nivel = T / C .
Este es el método de Bonferroni que conduce a un procedimiento aproximado útil en la
práctica.
Las comparaciones planificadas se realizan utilizando una serie de pruebas entre las que se
incluyen las siguientes:
Cuadro VIII.6
Grupo 1 Grupo 2
Media 0.826 0.391
Total (TG) 19.01 7.04
N 23 18
119
Valor que se compara con un F 0.05 (1, 37) = 4.1055, concluyéndose que no existen diferencias
estadísticamente significativa entre las concentraciones de Fe total de los dos grupos de
localidades.
LSD = t [(,)] x ( 2 MS error/n)1/2 = t /2 , = a(n-1) [( Ms error (1 /n1+ 1 /n2 )] (89)
Donde t es el valor critico que se calcula utilizando la distribución de Student para un nivel
de significación de 0.05 o 0,01, y un valor de igual al número de grados de libertad de
error.
El LSD, es como se señalara la mínima diferencia significativa, esto es , cualquier pareja de
medias que difieran en una cantidad mayor a este valor serán significativamente diferente
una de otra.
Variance Check
3
Informe Final- Piris da Motta, M.( Análisis Estadístico y redacción de Informe Final)- Convenio Entidad
Binacional Yacyreta (EBY)-Universidad Nacional de Misiones (UNaM)- Convenio Específico-Calidad de
Aguas
121
30
frequency
20
10
0
0 40 80 120 160 200
DBO
16
12
8
4
0
2.5 3 3.5 4 4.5 5 5.5
LNDBO
Comprobado los supuestos básicos, la aplicación del ANOVA que resultó muy significativo
(p-valor = 0.0007), indica que existen diferencias en el nivel de contaminación orgánica de
los tres cursos de aguas considerados , procediéndose a continuación a efectuar la
comparación de medias .
122
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Between groups 4.40112 2 2.20056 8.25 0.0007
Within groups 15.9996 60 0.266661
-----------------------------------------------------------------------------
Total (Corr.) 20.4008 62
Los resultados de los tests de comparaciones múltiples son equivalentes tanto si se trabajan
con los datos transformados o sin transformar.
--------------------------------------------------------------------------------
Method: 95.0 percent LSD
Arroyo Count Mean Homogeneous Groups
--------------------------------------------------------------------------------
3 21 3.50859 X
2 21 4.02177 X
1 21 4.10701 X
--------------------------------------------------------------------------------
Contrast Difference +/- Limits
--------------------------------------------------------------------------------
1 - 2 0.0852372 0.318772
1 - 3 *0.598421 0.318772
2 - 3 *0.513184 0.318772
--------------------------------------------------------------------------------
* denotes a statistically significant difference.
El valor de LSD es de 0.3187 y cualquier pareja de medias que difieran en más de esta
cantidad se consideraran significativamente diferentes al nivel de 0.05.
Los resultados obtenidos indican que no existen diferencias significativas entre los valores
medios de DBO de los Arroyos Antonica y Divisa , pero que estos difieren
significativamente del valor correspondiente al Aº Itá.
La conclusión correspondiente es que el Aº Ita presenta un nivel de contaminación orgánica
medida en términos de DBO, muy inferior a del los Arroyos Antonica y Divisa , los cuales
no difieren significativamente entre si.
Para las comparaciones de medias que se decidan efectuar una vez analizados los resultados
obtenidos se utilizan algunos de los tests que se presentan a continuación
123
Se basa en el cálculo de una suma de cuadrados crítico para un test significativo, de modo
que cualquier numero de medias que se comparen y que tengan una suma de cuadrados
mayor que el crítico resultará significativo.
Este test se puede aplicar como un test "a priori" considerando en cada caso, en la
expresión anterior k como el nº de medias que se comparan.
Cuando se utiliza como un test "a posteriori" se toma para el cálculo k=a= al número total
de tratamientos , en la formula, independiente de número de medias que se comparan.
Como el resultado obtenido para la SS igual a 4.32 supera el valor crítico de 1.679, se
concluye que el Aº Itá presenta un nivel de contaminación orgánica muy inferior a los de
los arroyos Antonica y Divisa.
Este test desarrollado por Tukey, utiliza el rango , es decir la diferencia entre la media
máxima y mínima del grupo en consideración como estadístico y lo compara con una valor
critico calculado por medio de la expresión
124
n = 2 n1x n2 / (n1+n2)
En algunos libros aparece una expresión alternativa para el caso de 2 media es el siguiente
En los test "a posteriori", se emplea k=a para todos los test de cualquier nº de medias.
Utilizando este procedimiento vamos a comparar las medias de los arroyos Divisa y
Antonica, que aparentemente no difieren entre si.
Para el cálculo del LSR, utilizaremos un valor de Q 0.05 (3,60) = 3.399 en la expresión (91)
juntos con los valores MS error y n dados anteriormente.
El valor de LSR3 obtenido de 0.3830 resulta mayor al rango de las medias de los arroyos
Divisa y Antonia de 0.08524, razón por la cual se puede considerar que estos cursos de
agua no difieren significativamente en cuanto a la contaminación orgánica que presentan.
Este es un método paso a paso que también utiliza el rango lo estadístico para medir la
diferencia entre medias
Es paso a paso porque se verifica primero la significación de los grupos mas grandes de
medias. Si se tienen a medias, se las ordena de mayor a menor, se calcula la diferencia
entre la mas grande y la mas pequeña y se compara con un valor critico que se obtiene
utilizando la siguiente expresión
tratamiento control
En este modelo se consideran 2 factores que influyen sobre la variable y cuyos efectos se
suponen a priori que tienen igual rango, es decir, la misma importancia .
Su formulación matemática para un modelo I es:
Para explicar los cálculos requeridos para la obtención del cuadro de Anova en un diseño
de dos factores, consideremos el siguiente experimento que corresponde a un estudio sobre
la inactivación de la vitamina A , cuyo resultados se muestran en el cuadro VIII.5.
Cuadro VIII.5.
c (grasas) c = 2
F Sexos f= 2 Fresca Rancia
Machos 709 592
679 538
699 476
2087 1606 3693
Hembras 657 508
594 505
677 539
1928 1552 3480
4015 3158 7173
Este ejemplo, en el que se evalúa el efecto de los factores (fijos): a)tipo de grasa (fresca o
rancia) y b) sexo (macho y hembra), tiene como propósito determinar si el sexo o la
frescura del tocino afectan significativamente la dieta de los ratones que conforman los
distintos subgrupos.
Para el cálculo de los componentes de la varianza, se descompone inicialmente la SS total y
los grados de libertad asociados en una SS entre subgrupos y dentro de subgrupos o error
respectivamente. La SS entre subgrupos , se descompone posteriormente en 1) SS de filas
(factor sexo) , 2) SS de columna (factor tipo de grasa) y 3) SS de la interacción, cada uno
con sus grados de libertad correspondientes.
127
Cálculos preliminares
(3693) 2 (3480) 2
4291441,5
6
9- Suma del cuadrado de los totales de columnas dividido por el nº de observaciones en
cada columna = = (Tc)2 / nc
( 4015) 2 (3158) 2 4348864,83
6
SS filas (sexo) = 8-4 =4348864,83 -4287660,75= 3780,75 GL = f-1=2-1=1
siendo f= nº de filas =2
Fuente de var. SS GL MS Fs
Cuadro VIII.7
Fuente de var. MS Fs MS esperado
Modelo II Modelo Mixto
Entre filas (fijo) 10/(f-1) 2 + n 2 +cn2 f 2
cn j
2 2 i 1
n
f 1
Total
VIII.8.2.Significado de la interacción
Se dice que existe interacción cuando el efecto de un factor sobre la variable respuesta
depende del nivel del otro factor, esto es, cuando el efecto de dos factores aplicados juntos,
no puede predecirse a partir de las respuestas promedio de los factores separados.
Esto indica que los efectos de los dos factores no son simplemente aditivos, sino la
combinación de los niveles de los dos factores contribuye de manera positiva o negativa.
Cuando hay un gran incremento positivo de los efectos se habla de sinergia, mientras que
si hay un efecto antagónico se habla de interferencia.
- Modelo I
Ambos factores, corresponden a efectos de tratamientos fijos. En este caso, el cuadrado
medio de cada nivel de variación, lleva solamente el efecto añadido asociado a aquel
nivel de tratamiento (Ver Cuadro VIII.6.)
El test de significación es simple y directo. Cualquier fuente de variación se comprueba
mediante el cociente del MS correspondiente sobre el MS error.
En muchos experimentos se tiene una única observación para cada combinación de los
factores. En este caso, no se puede hablar de "subgrupos", dado que cada combinación de
los niveles de los factores contiene una única observación.
La existencia de una única observación se explica, atendiendo a que con frecuencia resulta
difícil o demasiado caro, obtener mas de una lectura o las medidas son tan semejantes que
no es necesario repetirlas.
Para presentar los calculos requeridos para el cuadro de Anova consideremos el siguiente
ejemplo real.
Cuadro VIII.8.
Profundidades Puntos de Muestreos
1 2 3 4 5 6 7 8 9
0.15 m (s) 4.0 3.4 4.1 4.0 3.6 3.9 4.1 4.0 4.0
1.00 m (m) 3.7 3.2 3.8 3.8 3.4 3.9 4.0 3.9 3.9
2.00. m (p) 3.7 3.2 3.8 3.7 3.3 3.8 3.8 3.8 3.8
Cuadro VIII.9.
4
Piris da Motta M. ; Kruzolek y col. C. 2000. "Evaluación del funcionamiento de la Planta de Líquidos
Cloacales de la Ciudad de Posadas" Informe Final.
131
Analysis of Variance
-----------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
-----------------------------------------------------------------------------
Between groups 1.43333 8 0.179167 9.87 0.0000
Within groups 0.326667 18 0.0181481
-----------------------------------------------------------------------------
Total (Corr.) 1.76 26
Variance Check
Para explicar los pasos de cálculo requeridos para la obtención del cuadro de Anova en un
diseño de anova encajado a dos niveles o etapas, consideremos el siguiente experimento,
que corresponde a un estudio real sobre "Optimización de la red de monitoreo para
evaluar el desempeño de aireadores orbitales en lagunas aireadas de mezcla completa"
Los valores que se detallan en el Cuadro VIII.9.corresponden a las concentraciones de
Oxígeno Disuelto en mg/l, medidas en diferentes puntos de tres transectas de una de las
133
Cuadro VIII.10.
Líneas
A B C
Puntos de muestreos 1 2 3 4 5 6 7 8 9
4.0 3.4 4.1 4.0 3.6 3.9 4.1 4.0 4.0
3.7 3.2 3.8 3.8 3.4 3.9 4.0 3.9 3.9
3.7 3.2 3.8 3.7 3.3 3.8 3.8 3.8 3.8
Totales subgrupos 11,4 9,8 11,7 11,5 10,3 11,6 11,9 11,7 11,7
Totales grupos 32,9 33,4 35,3
Cálculos Preliminares
GL = a-1=3-1=2
9- Suma del cuadrado error = 5-7= 0,333 GL = a b (n-1)= 3x3x(2)=18
Como puede observarse en los cálculos para un Anova encajado de 2 niveles (grupos y
subgrupos dentro de grupos) las sumas de cuadrados que intervienen son: 1) SS entre
grupos, 2) SS de subgrupos dentro de grupos y 3) SS dentro de subgrupos o SS error, cada
uno con sus grados de libertad correspondientes.
El Cuadro de ANOVA para las concentraciones de OD se presentan a continuación :
Analysis of Variance for OD
--------------------------------------------------------------------------------
Source Sum of Squares Df Mean Square Var. Comp. Percent
--------------------------------------------------------------------------------
TOTAL (CORRECTED) 1.76 26
--------------------------------------------------------------------------------
Lineas 0.346667 2 0.173333 0.0 0.00
Puntos 1.08667 6 0.181111 0.054321 74.96
ERROR 0.326667 18 0.0181481 0.0181481 25.04
--------------------------------------------------------------------------------
Para el cálculo manual de estas componentes se deberán tener en cuenta las siguientes
relaciones:
El primero sirve para controlar la magnitud del error en los diversos estadios (etapas) de un
experimento o de un proceso industrial y un segundo uso mas importante aparece en los
casos en que se trata de un modelo II puro y que provienen frecuentemente del campo de la
genética cuantitativa, donde se desea conocer la magnitud de la varianza atribuible a los
diversos niveles de variación del estudio.
El anova encajado no está limitado a 2 niveles, a los que se hizo referencia anteriormente,
dado que podríamos dividir los grupos en subgrupos, y estos vueltos a dividir y así
sucesivamente como puede verse en el siguiente ejemplo.
Se diseña un experimento para comprobar los efectos de 5 drogas sobre la cantidad de
pigmentación en la piel de un animal. Las 5 drogas y un control (6 grupos) son el nivel
superior, y claramente son efectos de tratamientos fijos (modelo I).Para cada droga se
seleccionan 5 ratas aleatoriamente; dichas ratas proporcionarían una varianza de "ratas
dentro de drogas". De cada rata se podrían tomar 3 muestras de piel aleatoriamente. Esto
daría lugar a un nuevo nivel de variación subordinado (muestras de piel dentro de ratas).
Cada muestra de piel se divide en dos lotes, que se hidrolizan por separado. Este nuevo
nivel está formado por partes hidrolizadas dentro de muestras de piel. Finalmente la
cantidad de pigmentación podría ser leída como una densidad óptica, pudiendo efectuarse
dos lecturas repetidas de cada parte hidrolizada.
El error básico de la varianza seria la varianza de las lecturas repetidas para cada parte
hidrolizada, pero también tendríamos valores de varianza entre las partes hidrolizadas
dentro de una muestra de piel, entre muestras de piel dentro de una rata y entre ratas dentro
de una droga.
Estos valores de la varianza son importantes en el diseño de experimentos análogos porque
nos indican a que nivel del experimento deberíamos concentrar la mayor parte de nuestros
esfuerzos. El aspecto mas variable de nuestro experimento necesita mayor repetición o un
mejor control experimental. De esta manera si encontramos que las dos partes hidrolizadas
poseen la mayor proporción de varianza, nuestro método de hidrólisis claramente no está
muy perfeccionado y debería por lo tanto ser mejorado; si esto no es posible, debería
dividirse cada muestra de piel en mas lotes para disponer de mas partes hidrolizadas.
Con el fin de determinar las estadísticas apropiadas para efectuar las pruebas de
significación se deberían considerar los valores esperados de los cuadrados medios, que en
cada nivel por encima del error de la varianza contiene dentro de él, la variación de todos
los niveles que están por debajo, además de la correspondiente a su propio nivel.
De esta forma la varianza esperada de los subgrupos (puntos) dentro de grupos (líneas) en
el ejemplo anterior, es 2 + n 2 BA, donde 2 BA indica que se trata de la varianza de B
dentro del nivel A.
El cuadrado medio esperado entre grupos contiene los términos por debajo de él, mas nb
2 A .
A partir de estos cuadrados medios esperados, los tests de significación son inmediatos
como se muestra en el Cuadro VIII.11, comprobándose los niveles mas bajos antes que los
superiores. Así para nuestro ejemplo, se comprueba en primer lugar MSsgdg/MSerror
para la significación de 2 BA y después Mseg/MSsgdg para 2 A .
Este modelo II encajado de ANOVA, con efectos aleatorios entre grupos (líneas) y entre
subgrupos dentro de grupos se completa con el cálculo de las componentes de la varianza,
como se indica en el Cuadro VIII.12. En el caso de un modelo mixto en el que el nivel mas
alto de clasificación es un modelo I (efecto fijo), no se calcula ninguna componente de la
varianza, sino que simplemente se comprueba la significación de los efectos de tratamiento
añadidos completándose el análisis con comparaciones múltiples.