Você está na página 1de 18

ESTADÍSTICA II

ANÁLISIS DE VARIANZA (ANOVA)

El análisis de varianza (ANOVA), se refiere en general a un conjunto de


situaciones experimentales y procedimientos estadísticos para el análisis de
respuestas cuantitativas de unidades experimentales. El problema más sencillo
de ANOVA se conoce como el análisis de varianza de un solo factor o diseño
completamente al azar, éste se utiliza para comparar dos o más tratamientos,
dado que sólo consideran dos fuentes de variabilidad, los tratamientos y el error
aleatorio.
En este todas las corridas experimentales se deben de realizar en un orden
aleatorio. De esta manera, si durante el estudio se hacen 𝑁 pruebas, éstas se
corren al azar, de manera que los posibles efectos ambientales y temporales se
vayan repartiendo equitativamente entre los tratamientos.
Vamos a suponer que se tienen 𝑘 poblaciones o tratamientos, independientes y
con medias desconocidas 𝜇1 , 𝜇2 , . . ., 𝜇𝑘 , así como varianzas también
desconocidas, pero que se supone que son iguales 𝜎12 = 𝜎22 = . . . = 𝜎𝑘2 = 𝜎 2 . Las
poblaciones pueden ser 𝑘 métodos de producción, 𝑘 tratamientos, 𝑘 grupos, etc.,
y sus medias se refieren o son medidas en términos de la variable de respuesta.
Si se decide hacer un experimento completamente al azar para comparar las
poblaciones, que cumpla las condiciones antes mencionadas, entonces se tiene
que hacer mediante la hipótesis de igualdad de medias:
𝐻0 ∶ 𝜇1 = 𝜇2 = 𝜇𝑘 = 𝜇
𝐻1 ∶ 𝜇1 ≠ 𝜇𝑗 𝑝𝑎𝑟𝑎 𝑎𝑙𝑔𝑢𝑛 𝑖 ≠ 𝑗

Los datos generados para un diseño completamente al azar para comparar


dichas poblaciones se pueden escribir tal y como se muestra en la tabla 2

El número de tratamientos 𝑘 es determinado por el investigador y depende del


problema en particular de que se trata. El número de observaciones en cada
tratamiento debe escogerse con base a la variabilidad que se espera observar
en los datos, así como en la diferencia mínima que el experimentador considera
que es importante detectar. Por lo general se recomiendan entre 5 y 30
mediciones en cada tratamiento. En caso de que los tratamientos tengan
efecto, las observaciones 𝑦𝑖𝑗 de la tabla 1 se puede escribir como el modelo
estadístico lineal dado por:

𝑌𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝜀𝑖𝑗 (1)

ING. CESAR WILFREDO ROSAS ECHEVARRÍA


ESTADÍSTICA II

donde:

𝜇 – Es el parámetro de escala común a todos los tratamientos, llamado media


global
𝜏i – Es un parámetro que mide el efecto del tratamiento 𝑖
𝜀ij – es el error atribuido a la medición yij

Este modelo implica que actuarían a lo más dos fuentes de variabilidad: los
tratamientos y el error aleatorio. La media global de la variable de respuesta no
se considera una fuente de variabilidad por ser una constante en todos los
tratamientos, que es un punto de referencia con el cual se comparan las
respuestas medias de los tratamientos, tal como lo muestra la figura 1.

Entonces las hipótesis también se pueden escribir como:


𝐻0 ∶ τ1 = τ2 = τ𝑘 = 0
𝐻1 ∶ τ1 ≠ 0𝑗 𝑝𝑎𝑟𝑎 𝑎𝑙𝑔𝑢𝑛 𝑖

ING. CESAR WILFREDO ROSAS ECHEVARRÍA


ESTADÍSTICA II

Si la respuesta media de un tratamiento particular 𝜇i, es muy diferente de la


media global 𝜇, es un síntoma de que existe un efecto de dicho tratamiento, ya
que 𝜏i = 𝜇i − 𝜇. La diferencia que deben tener las medias entre sí para concluir
que hay un efecto, es decir que los tratamientos sean diferentes, no lo dice el
análisis de la varianza.
El modelo estadístico de la ecuación (1) describe dos situaciones diferentes con
respecto a los efectos de los tratamientos. La primera, los 𝑘 tratamientos pueden
ser elegidos explícitamente por el investigador; en este caso se quieren probar
las hipótesis acerca de las medias de los tratamientos y las conclusiones se
aplican únicamente a los niveles del factor considerados en el análisis. Las
conclusiones no pueden extenderse a tratamientos similares que no fueron
considerados expresamente. También si se quisiera estimar los parámetros del
modelo (𝜇, 𝜏i, 𝜎2). A éste se le llama modelo con efectos fijos. De manera
alternativa, los 𝑘 tratamientos podrían ser una muestra aleatoria de una
población más grande de tratamientos. En esta situación se desearía poder
extender las conclusiones (las cuales se basan en la muestra de los
tratamientos) a la totalidad de los tratamientos de la población, que se haya
considerado en el análisis o no. Aquí las 𝜏i son variables aleatorias, y el
conocimiento de las 𝜏i particulares que se investigaron es relativamente inútil.
Más bien, se prueban las hipótesis acerca de la variabilidad de las 𝜏i y se intenta
estimar su variabilidad. A éste se le llama modelo con efectos aleatorios o
modelo de los componentes de la varianza.

Análisis del estadístico del modelo con efectos fijos


El análisis de varianza es la técnica central en el análisis de datos
experimentales, la idea es separar la variación total en partes con las que
contribuye cada fuente de variación en el experimento, en el diseño
completamente al azar se separa la variabilidad debida a los tratamientos y
debida al error.
Cuando la primera predomina claramente sobre la segunda, es cuando se
concluye que los tratamientos tienen efecto también se puede decir que las
medias son diferentes. Cuando los tratamientos no dominan y contribuyen igual
o menor que el error, por los que se concluye que las medias son iguales y que
no hay diferencias significativas entre los tratamientos, esto lo podemos ver en
la figura 2.

ING. CESAR WILFREDO ROSAS ECHEVARRÍA


ESTADÍSTICA II

De la figura 1 se puede observar claramente que:

𝜏𝑖 = 𝜇 𝑖 – 𝜇 (2)
En la figura 3 podemos observar el error residual de cada una de las
observaciones y este se puede escribir de la forma:

𝜀𝑖𝑗 = 𝑦𝑖𝑗− 𝜇𝑖 (3)


Pero la ecuación (2) y (3) se pueden escribir como
𝜇 𝑖 = 𝜏𝑖 + 𝜇 (4)
𝜇𝑖 = 𝜀𝑖𝑗 + 𝑦𝑖𝑗 (5)

Igualando la ecuación (4) y (5) se tiene:


𝜏𝑖 + 𝜇 = 𝜀𝑖𝑗 + 𝑦𝑖𝑗 (6)

Despejando a 𝑦𝑖𝑗 tenemos:

𝑦𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝜀𝑖𝑗 (7)

Sabe que la media de 𝑦𝑖𝑗 difiere de la media de la población, entonces la ecuación


(7) se transforma en:

𝑦𝑖𝑗 − 𝜇 = 𝜏𝑖 + 𝜀𝑖𝑗 (8)

Sustituyendo las ecuaciones (2) y (3) en la ecuación (8) obtendremos:

(𝑦𝑖𝑗 − 𝜇) = (𝜇𝑖 − 𝜇) + (𝑦𝑖𝑗 − 𝜇𝑖) (9)

En la ecuación (9) podemos ver que la desviación de una observación con


relación a la gran media (desviación total) se descompone en el efecto de los
tratamientos (desviación entre tratamientos) o desviación de cada tratamiento en
relación a la gran media y en el error residual (desviación dentro de cada
tratamiento) o desviación de cada observación con relación a su propio
tratamiento.

ING. CESAR WILFREDO ROSAS ECHEVARRÍA


ESTADÍSTICA II

Si tomamos los datos de la tabla 1 observamos que la identidad correspondiente


a nuestro modelo para muestras es:
(𝑦𝑖𝑗 − 𝑌̅∗∗ ) = (𝑦̅𝑖∗ − 𝑌̅∗∗ ) + (𝑦𝑖𝑗 − 𝑦̅𝑖∗ ) (10)

Si elevamos al cuadrado los términos de ambos miembros de la igualdad de la


ecuación (10), obtenemos las distintas sumas de cuadrados:
2 2
(𝑦𝑖𝑗 − 𝑌̅∗∗ ) = [(𝑦̅𝑖∗ − 𝑌̅∗∗ ) + (𝑦𝑖𝑗 − 𝑦̅𝑖∗ )]
2 2
(𝑦𝑖𝑗 − 𝑌̅∗∗ ) = (𝑦̅𝑖∗ − 𝑌̅∗∗ )2 + (𝑦𝑖𝑗 − 𝑦̅𝑖∗ ) + 2(𝑦̅𝑖∗ − 𝑌̅∗∗ )(𝑦𝑖𝑗 − 𝑦̅𝑖∗ ) (11)

Obteniendo las sumatorias la ecuación (11) se puede escribir como:

𝑘 𝑛
2
∑ ∑(𝑦𝑖𝑗 − 𝑌̅∗∗ ) =
𝑖=1 𝑗=1

𝑘 𝑛 𝑘 𝑛 𝑘 𝑛
2
∑ ∑(𝑦̅𝑖∗ − 𝑌̅∗∗ )2 + ∑ ∑(𝑦𝑖𝑗 − 𝑦̅𝑖∗ ) + 2 ∑ ∑(𝑦̅𝑖∗ − 𝑌̅∗∗ )(𝑦𝑖𝑗 − 𝑦̅𝑖∗ ) (12)
𝑖=1 𝑗=1 𝑖=1 𝑗=1 𝑖=1 𝑗=1

El último término de la ecuación (12) se puede escribir como:

Tomando el último término tenemos que:

Se sabe que:
𝑦𝑖∗
𝑦̅𝑖∗ =
𝑛
Entonces:
𝑛
𝑦𝑖∗
∑(𝑦𝑖𝑗 − 𝑦̅𝑖∗ ) = 𝑦𝑖∗ − 𝑛 ( ) = 𝑦𝑖∗ − 𝑦𝑖∗ = 0
𝑛
𝑗=1

Por lo tanto:
𝑘 𝑛

2 ∑ ∑(𝑦̅𝑖∗ − 𝑌̅∗∗ ) (𝑦̅𝑖𝑗 − 𝑦̅𝑖∗ ) = 0


𝑖=1 𝑗=1

ING. CESAR WILFREDO ROSAS ECHEVARRÍA


ESTADÍSTICA II

La suma de cuadrados de la ecuación (12) nos queda como.

Donde:

Es posible obtener eficientes fórmulas para las sumas de cuadrados,


expandiendo y simplificando las expresiones anteriores. Esto produce

La suma de cuadrados del error se obtiene mediante sustracción como

En las ecuaciones anteriores se puede ver que las sumas de cuadrado son los
numeradores de las varianzas respectivas, que el ANOVA se llama cuadrados
medios. A partir de las sumatorias de cuadrados, es posible obtener dos

ING. CESAR WILFREDO ROSAS ECHEVARRÍA


ESTADÍSTICA II

estimadores insesgados de la varianza poblacional 𝜎2. Se puede demostrar que


cuando las medias de los tratamientos son iguales (𝐻0: 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑟𝑎) tanto la suma
de cuadrados de los tratamientos como la suma de cuadrados del error divididas
entre sus respectivos grados de libertad proporcionan estimadores insesgados
e independientes de 𝜎2.
Dentro de los tratamientos, se tiene que:

proporciona un estimador insesgado de la varianza de su grupo y bajo el


supuesto de que las varianzas de los tratamientos son todas iguales, se pueden
ponderar las varianzas de los 𝑘 tratamientos para obtener:

que es la varianza dentro de los tratamientos o varianzas del error o cuadrados


medios del error.

El segundo estimador de 𝜎2 se obtiene de la varianza de medias conocida


(Teorema del Limite Central) 𝜎𝑥̅2 = 𝜎2⁄𝑛, que al despejar 𝜎2 se tiene 𝜎2 = 𝑛𝜎𝑥̅2 . Pero,
un estimador insesgado de 𝜎𝑥̅2 . calculado a partir de las 𝑘 muestras:

En dónde.

Se puede ver que el numerador de esta expresión es la suma de cuadrados entre


tratamientos. Esta suma de cuadrados dividida entre los correspondientes
grados de libertad, es llamada la varianza entre tratamientos o cuadrados medios
entre tratamientos.
Si la hipótesis nula es cierta, se esperará que estos dos estimadores de 𝜎2 sean
aproximadamente iguales y el cociente:

ING. CESAR WILFREDO ROSAS ECHEVARRÍA


ESTADÍSTICA II

Que es una variable de F de Fisher y será la unidad o casi la unidad. Por el


contrario si (𝐻0: 𝑓𝑎𝑙𝑠𝑎); es decir, si los efectos de los tratamientos no son nulos,
esto tenderá a ser significativamente menor que la unidad. Así se rechazará (𝐻0)
si

es mayor que la F de tablas (F teórica) F1−𝛼,𝑔𝑙 𝑇𝑟𝑡,𝑔𝑙 𝑒𝑟𝑟𝑜𝑟 donde 𝑔𝑙𝑇𝑟𝑡 = 𝑘 − 1 y 𝑔𝑙𝑒𝑟𝑟𝑜𝑟
= 𝑁 − 𝑘. Todo esto se puede sintetizar en una tabla llamada tabla de ANOVA
(tabla3).

Intervalos de Confianza
Como vimos anteriormente la media del tratamiento i-ésimo se define como:

Un estimador puntual de 𝜇𝑖 es μ̂𝑖 = Ŷ𝑖∗ . Entonces, si se supone que los errores


tienen una distribución normal, el promedio de cada tratamiento tiene una
distribución normal con media 𝜇𝑖 y varianza 𝜎2⁄𝑛. Por lo tanto, si se conociera 𝜎2,
podría usarse la distribución normal para construir un intervalo de confianza.
Usando los cuadrados medios del error como un estimador de 𝜎2, el intervalo de
confianza se basaría en la distribución t, ya que:

ING. CESAR WILFREDO ROSAS ECHEVARRÍA


ESTADÍSTICA II

Tiene una distribución t con 𝑁 − 𝑘 grados de libertad. En base a lo anterior, se


puede calcular un intervalo de confianza del 100(1 − 𝛼) porciento pala media del
tratamiento i-ésimo 𝜇𝑖, es:

Verificación de los supuestos del modelo


Las suposiciones en el análisis de varianza son fundamentalmente:
• Normalidad de las distribuciones
• Igualdad de Varianzas
• Independencia
Debido a estos supuestos la validez de los resultados obtenidos en cualquier
análisis de la varianza quedará sujeta a que se cumplan dichos supuestos. Esto
es, la respuesta (𝑦) se debe de distribuir normalmente, con la misma varianza en
cada tratamiento y las mediciones deben ser independientes.
Es una práctica común utilizar la muestra de residuos para comprobar los
supuestos del modelo, ya que, si los supuestos se cumplen, los residuos o
también conocidos como residuales se pueden ver como una muestra aleatoria
de una distribución normal con media cero y varianza constante. Los residuos,
𝑒𝑖𝑗, se definen como la diferencia entre la respuesta observada 𝑦𝑖𝑗, y la respuesta
predicha por el modelo (𝑦̂𝑖𝑗 ), lo cual permite hacer un diagnóstico más directo de
la calidad del modelo, ya que su magnitud señala qué tan bien describe a los
datos el modelo. Para comprobar cada supuesto existen pruebas analíticas y
gráficas. Por sencillez, muchas veces se prefieren las pruebas gráficas. Éstas
tienen el inconveniente de que son exactas, pero aun así, en la mayoría de las
situaciones prácticas proporcionan le evidencia suficiente contra o a favor de los
supuestos.
El uso de las pruebas gráficas requiere una fuerte evidencia visual para concluir
que el supuesto en cuestión no se cumple, ya que se requiere que la evidencia
en contra de un supuesto esté soportada por más de dos puntos.
Cuando son uno o dos los puntos que se salen del comportamiento esperado de
las gráficas se pueden tratar de un problema de puntos aberrantes, no de una
violación del supuesto en cuestión. En este caso debe de investigarse la
obtención de dichas mediciones atípicas ya que ese tipo de puntos pueden
afectar sensiblemente los resultados del análisis.
Normalidad
Un procedimiento gráfico para verificar el cumplimiento del supuesto de
normalidad de los residuos consiste en graficar los residuos en la gráfica de
probabilidad normal. Esta gráfica tiene las escalas de tal manera que, si los

ING. CESAR WILFREDO ROSAS ECHEVARRÍA


ESTADÍSTICA II

residuos siguen una distribución normal, al graficarlos tienden a quedar


alineados en una línea recta; por lo tanto, si claramente no se alinean se
concluye que el supuesto de normalidad no es correcto.
Para realizar esta gráfica se considera 𝑁 residuos 𝑒𝑖 que resultan del análisis de
varianza de los cuales se quiere verificar su procedencia de una distribución
normal. Los pasos en la construcción de la gráfica de probabilidad normal para
los residuos son los siguientes:
1. Ordenar los 𝑁 valores en forma ascendente y asignarle rangos de 1 a 𝑁.
2. Calcular una posición de graficación para cada dato en función de su
rango y del total de observaciones como (𝑖 − 0.5)⁄𝑁, 𝑖 = 1, 2, … , 𝑁.
3. Obtener el valor norma estándar de 𝑍𝑖 que cumple con la relación (𝑖 −
0.5)⁄𝑁 = 𝑃(𝑍 < 𝑍𝑖) = Φ(𝑍𝑖)
Donde Φ(𝑍𝑖) es la distribución normal estándar acumulada evaluad en 𝑍𝑖. Las
parejas a dibujar en el papel son (𝑟𝑖, 𝑍𝑖). Vamos a calcular los residuos del
ejemplo anterior, para comprobar este supuesto. Realizaremos los cálculos
como se muestra en la tabla 5.
Varianza constante
Una forma de verificar el supuesto de varianza constante o que los tratamientos
tengan la misma varianza, es graficando los valores predichos contra los
residuos (𝑦𝑖𝑗 𝑣𝑠 𝑒𝑖) por lo general 𝑦𝑖𝑗 va en el eje horizontal y los residuos en el
eje vertical. Si los puntos en esta gráfica se distribuyen de manera aleatoria en
una banda horizontal, sin ningún patrón claro o contundente), entonces es señal
de que se cumple el supuesto de que los tratamientos tienen igual varianza. Por
el contrario, si se distribuyen con algún patrón claro, como por ejemplo en forma
de corneta o embudo, entonces es señal de no se está cumpliendo dicho
supuesto. Un claro embudo en los residuales indicará que el error de pronóstico
del modelo tiene una relación directa con la magnitud del pronóstico. En la tabla
6 se presenta el valor predicho 𝑦𝑖𝑗 y el valor residual 𝑒𝑖𝑗; ya que con estos valores
se construya la gráfica para comprobar el supuesto de igualdad de varianzas,
esta se muestra en la figura 6.

ING. CESAR WILFREDO ROSAS ECHEVARRÍA


ESTADÍSTICA II

La gráfica se muestra en la figura 5, como podemos observar en esta gráfica, se


cumple el supuesto de normalidad, ya que la mayoría de los puntos están sobre
la línea recta.

Independencia
La suposición de independencia en los residuos se puede verificar si se grafica
el orden en que se colectó un dato contra el residuo correspondiente, de esta
manera, si al graficar en el eje horizontal el tiempo y en el vertical los residuos,
se detecta una tendencia o patrón no aleatorio claramente definido, esto es
evidencia de que existe una correlación entre los errores y, por lo tanto, el
supuesto de independencia no se cumple. Si el comportamiento de los puntos
es aleatorio dentro de una banda horizontal, se puede decir que el supuesto se
está cumpliendo. Si este supuesto no se cumple, generalmente indica que hay
deficiencias en la planeación y ejecución del experimento; asimismo, puede ser
un indicador de que no se aplicó en forma correcta el principio de aleatorización,
o de que conforme se fueron realizando las pruebas experimentales aparecieron

ING. CESAR WILFREDO ROSAS ECHEVARRÍA


ESTADÍSTICA II

factores que afectaron la respuesta observada. Por ello, en caso de tener


problemas con este supuesto, las conclusiones que se obtienen del análisis son
endebles y por ello es mejor revisar lo hecho y tratar de investigar por qué no se
cumplió con ese supuesto de independencia, a fin de reconsiderar la situación.

EJERCICIOS
1.- Los miembros de un equipo ciclista se dividen al azar en tres grupos
que entrenan con métodos diferentes. El primer grupo realiza largos
recorridos a ritmo pausado, el segundo grupo realiza series cortas de alta
intensidad y el tercero trabaja en el gimnasio con pesas y se ejercita en el
pedaleo de alta frecuencia. Después de un mes de entrenamiento se realiza
un test de rendimiento consistente en un recorrido cronometrado de 9 Km.
Los tiempos empleados fueron los siguientes:

A un nivel de confianza del 95% ¿Puede considerarse que los tres métodos
producen resultados equivalentes? O por el contrario ¿Hay algún método
superior a los demás?
Solución:
Comenzamos calculando los totales y los cuadrados de los totales divididos por
el número de observaciones:

A continuación, calculamos los cuadrados de las observaciones y su total:

A partir de estas cantidades básicas calculamos las Sumas de Cuadrados:


SC(total) = 2984 – 2940 = 44
SC(intra) = 2984 – 2966.8 = 17.2
SC(entre) = 2966.8 – 2940 = 26.8

ING. CESAR WILFREDO ROSAS ECHEVARRÍA


ESTADÍSTICA II

Los cuadrados medios serán:


SM(entre) = 26.8/2 = 13.4
SM(intra) = 17.2/12 = 1.43

Por consiguiente, el estadístico de contraste vale:


F = 13,4/ 1,43 = 9,37

El valor de la F teórica con 2 y 12 grados de libertad, a un nivel de confianza del


95% es 3,89. Por consiguiente se rechaza la hipótesis nula y se concluye que
los tres métodos de entrenamiento producen diferencias significativas.
2.- Una lista de palabras sin sentido se presenta en la pantalla del
ordenador con cuatro procedimientos diferentes, asignados al azar a un
grupo de sujetos. Posteriormente se les realiza una prueba de recuerdo de
dichas palabras, obteniéndose los siguientes resultados:

¿Qué conclusiones pueden sacarse acerca de las cuatro formas de


presentación, con un nivel de significación del 5%?
Solución:
Comenzamos calculando los totales y los cuadrados de los totales divididos por
el número de observaciones:

A continuación, calculamos los cuadrados de las observaciones y su total:

ING. CESAR WILFREDO ROSAS ECHEVARRÍA


ESTADÍSTICA II

A partir de estas cantidades básicas calculamos las Sumas de Cuadrados:


SC(total) = 988 – 819,8 = 168,2
SC(intra) = 988 – 902 = 86
SC(entre) = 902 – 819,8 = 82,2

Los cuadrados medios serán:


CM(entre) = 82,2/3 = 27,4
CM(intra) = 86/22 = 3,9

Por consiguiente, el estadístico de contraste vale:


F = 27,4/3,9 = 7,03
El valor de la F teórica con 3 y 22 grados de libertad, a un nivel de confianza del
95% es 3,05. Por consiguiente, se rechaza la hipótesis nula y se concluye que
los cuatro procedimientos de presentación producen diferencias significativas.
3.- Se diseña un experimento con el fin de comprobar si el uso de tres
métodos de enseñanza produce resultados diferentes que son
estadísticamente significativos en el rendimiento de una cierta asignatura.
Sean tres grupos de estudiantes seleccionados al azar, con las
puntuaciones obtenidas después de que cada uno de ellos fue enseñado
por el método que se índica (Tabla 1):

Para iniciar el procedimiento es necesario elevar al cuadrado cada uno de los


valores que conforman los grupos, así como las sumatorias de cada columna
(Tabla 2).

ING. CESAR WILFREDO ROSAS ECHEVARRÍA


ESTADÍSTICA II

Pasos para la prueba de significación:


1. Hipótesis nula. H0: No hay diferencia en los tres métodos de enseñanza.
Hipótesis alternativa: Existe diferencia estadísticamente significativa entre las
medias de los tres grupos de enseñanza.
2. Nivel de significación. Se utiliza un nivel de significación de 0,05, con prueba
de una cola.
3. Distribución de muestreo. Se emplea la distribución F.
4. Cálculo del estadístico F.

El procedimiento es el siguiente:
a) Suma total de cuadrados (STC). Se calcula, en primer lugar, la suma de
cuadrados de las puntuaciones de los tres grupos, con la siguiente
fórmula:
(∑ 𝑋)2
∑(𝑋 + 𝑋̅)2 = ∑ 𝑋 2 −
𝑛
(∑ 𝑋)2
𝑆𝑇𝐶 = ∑ 𝑋 2 −
𝑛
Sustituyendo los valores, la fórmula quedaría de la siguiente manera:
(36 + 30 + 17)2
= 348 + 230 + 81 −
12
= 649 − 547
= 75
b) Suma de cuadrados dentro de los grupos (SCD). Utilizamos la misma
fórmula anterior, pero ahora referida a cada uno de los tres grupos:

Grupo 1:

(∑ 𝑋)2
𝑆𝑇𝐶 = ∑ 𝑋 2 −
𝑛
(36)2
𝑆𝑇𝐶 = 338 −
4
= 338 − 324
= 14

ING. CESAR WILFREDO ROSAS ECHEVARRÍA


ESTADÍSTICA II

Grupo 2:

(∑ 𝑋)2
2
𝑆𝑇𝐶 = ∑ 𝑋 −
𝑛
(30)2
𝑆𝑇𝐶 = 230 −
4
= 230 − 225 = 5
Grupo 3:

(∑ 𝑋)2
𝑆𝑇𝐶 = ∑ 𝑋 2 −
𝑛
(17)2
𝑆𝑇𝐶 = −
4
= 81 − 72 = 9
La suma de cuadrados entre los grupos es así:
SCD1+SCD2+SCD3+SCDn
14 + 5 + 9 = 28
c) Suma de cuadrados entre los grupos (SCE).
Suma “entre” = Suma “Total” – Suma “Dentro”
= 𝑆𝑇𝐶 − 𝑆𝐶𝐷
= 75 − 28
= 47
d) Grados de libertad.
Los grados de libertad para las diferentes sumas de cuadrados son: Suma
total = n -1; (n = total de medidas)
= 12 − 1 = 11
Suma dentro = k (n1 – 1);
Donde:
k = número de grupos
n1= tamaño de los grupos
= (3)(4 − 1) = 9
Suma entre = k – 1
3−1 =2

ING. CESAR WILFREDO ROSAS ECHEVARRÍA


ESTADÍSTICA II

e) Estimaciones de la varianza:
Al dividir la suma de cuadrados dentro de los grupos entre sus
correspondientes grados de libertad, se tiene una estimación de la varianza
(mean square) común de la población o universo que es independiente de la
variación de los medios de los grupos.
𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 "𝑒𝑛𝑡𝑟𝑒" 𝑔𝑟𝑢𝑝𝑜𝑠
𝐸𝑠𝑡𝑖𝑚𝑎𝑐𝑖𝑜𝑛 "𝑒𝑛𝑡𝑟𝑒" =
𝐺𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑 𝑒𝑛𝑡𝑟𝑒 𝑔𝑟𝑢𝑝𝑜
47
= 23.5
2
Además, si se divide la suma de cuadrados entre los grupos entre sus
correspondientes grados de libertad, se tiene una segunda estimación de la
varianza que, a su vez, es independiente de la variación dentro de los grupos.

𝑆𝑢𝑚𝑎 𝑑𝑒 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 "𝑑𝑒𝑛𝑡𝑟𝑜" 𝑑𝑒 𝑙𝑜𝑠 𝑔𝑟𝑢𝑝𝑜𝑠


𝐸𝑠𝑡𝑖𝑚𝑎𝑐𝑖𝑜𝑛 "𝑑𝑒𝑛𝑡𝑟𝑜" =
𝐺𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑 𝑒𝑛𝑡𝑟𝑒 𝑔𝑟𝑢𝑝𝑜
28
= 3.1
9
Estas estimaciones de la varianza poblacional reciben el nombre de
“cuadrados medios”.
𝐸𝑠𝑡𝑖𝑚𝑎𝑐𝑖𝑜𝑛 "𝑒𝑛𝑡𝑟𝑒"
𝐹=
𝐸𝑠𝑡𝑖𝑚𝑎𝑐𝑖𝑜𝑛 "𝑑𝑒𝑛𝑡𝑟𝑜"
23.5
= 7.58
3.1
Los valores y cálculos se presentan en el siguiente cuadro comparativo del
análisis de varianza:

ING. CESAR WILFREDO ROSAS ECHEVARRÍA


ESTADÍSTICA II

5. Decisión. Si las varianzas correspondientes a una misma población fueran


sensiblemente iguales, varían dentro de los límites del error de muestreo y, por
tanto, F tendría un valor cercano a 1. Para tomar la decisión de rechazar la H0
se realiza el siguiente procedimiento. En la tabla de F se localizan los valores de
grados de libertad “entre grupos” y “dentro de los grupos” para el nivel de
significación de 0.05 (5%).
gl entre = 2
F critica = 4.26
gl dentro = 9
Se contrasta con la F calculada, esta última debe ser mayor o igual a la F critica:

6. Interpretación. “Existen diferencias significativas entre los medios aritméticos


de los tres grupos experimentales y podemos atribuirlas a las distintas eficacias
de los métodos de enseñanza empleados”.
La notación científica del resultado es la siguiente:
“F (2,9) = 7.58, <0.05”.

ING. CESAR WILFREDO ROSAS ECHEVARRÍA

Você também pode gostar