Você está na página 1de 50

CAPACITACIN

Anlisis estadstico con


SPSS
Sesin 4

ANOVA DE UNO Y DOS FACTORES


www.socialis.cl
@_socialis
contacto@socialis.cl

Martes 23 de Junio de 2015


Relator: Osvaldo Blanco

1.- ANOVA DE UN FACTOR

La prueba Anova de un factor tiene como


objetivo comparar medias entre 3 o ms grupos.
Se trata de concluir si el factor (la variable
cualitativa con la cual conformamos los grupos)
es determinante o no en la diferencia de medias.
En otras palabras, se busca analizar el
comportamiento de la variable dependiente
(cuantitativa) en los distintos grupos establecidos
por las categoras de la variable cualitativa
independiente (factor).

De esta forma, contamos con dos


variables:
Una variable independiente cualitativa
nominal u ordinal (lamada factor) que
determina la conformacin de los grupos.
Una variable dependiente cuantitativa
(intervalo o razn) gracias a la cual
obtenemos las medias que comparamos
entre los distintos grupos

Las hiptesis en la prueba Anova de un


factor son las siguientes:
H0 = No existen diferencias significativas entre
las medias de los distintos grupos, lo cual se
explica por el hecho de que el factor no influye
en la distribucin de los valores de la variable
dependiente.
H1 = Las medias de los grupos son distintas
entre s, lo que se explica por el hecho de que
las puntuaciones o valores de cada grupo estn
determinadas por el factor.
Esto implica que al menos existira una
de las medias que difiere de las dems.

Condiciones para aplicar una


prueba Anova
La prueba ANOVA es una prueba paramtrica, es decir, se
deben cumplir estrictas condiciones.
Los supuestos son esencialmente 3:

1) Muestreo aleatorio independiente, es decir, se supone que los sujetos


pertenecientes a todos los grupos conforman una muestra representativa
del grupo al cual pertenecen.
2) Normalidad, es decir, que las poblaciones de las cuales se obtuvieron las
muestras (grupos) estn normalmente distribuidas. Si ello no es as,
veremos que nuestros resultados de la prueba de Levene (para la
homogeneidad de la varianza) nos indicarn una violacin a este
supuesto y con ello no podremos seguir nuestro anlisis.
3) Homogeneidad de la varianza u Homocedasticidad, el cual tiene relacin
con la normalidad. Se supone que las poblaciones desde las cuales se
extrajeron los grupos tienen la misma varianza. Este supuesto tiene
directa implicancia pues en el procedimiento se calcula una varianza
comn descomponindola en 2 componentes.

PROPORCIN EXPLICADA DE LA
VARIANZA

La variacin total se descompone en variacin intra grupo y


variacin inter grupo.
1) La variacin inter-grupo es la que nos demuestra que el
factor explica en un importante proporcin la
variabilidad total (aceptando H1)
2) La variacin intra-grupo es la variacin inexplicada y
tiene que ver con variables propias de los sujetos que no
se corresponden con el factor analizado. Adems, son
variables que nunca podemos controlar (muchas veces
ni siquiera conocer).

La variacin inexplicada se calcula a partir de un


procedimiento que comprende el clculo de la varianza de los
puntajes individuales respecto de la media de su grupo.
La variacin explicada est basada en el clculo de la varianza
de las medias grupales respecto de la media global.

Midiendo el efecto del factor: Proporcin


explicada de la varianza
Eta al cuadrado (2) es una razn entre la suma de
cuadrados intergrupo y la suma de cuadrados total.
Por tanto, sirve para determinar si el efecto del factor
es grande en trminos de la proporcin de la
varianza.
La variacin inter-grupo es la variacin explicada por
la manera como se han distribuidos los valores en
funcin del factor.

POST - HOC

En general, a las tcnicas Post Hoc


disminuyen la posibilidad de errores de
tipo I, (aunque a costa de aumentar el
error de tipo II).
Dicho de otro modo, es probable que en
situaciones donde realmente existan
diferencias entre grupos, las pruebas
Post Hoc no lo detecten.
Las diferencias entre grupos tienen que
ser realmente grandes para poder ser
reconocidas por estas pruebas.

Las pruebas post hoc existentes se


clasifican segn los siguientes criterios:
1.

2.

TEST DE RANGOS: son aquellas que buscan


identificar grupos homogneos o medias
perecidas.
COMPARACIONES MLTIPLES: son las que
buscan establecer diferencias entre grupos
basndose en diferencias dos a dos.

Sin embargo la clasificacin recin


dada no es estricta, pues pueden
haber tcnicas Post Hoc que incluyen
las dos categoras al mismo tempo.

Grupos equilibrados y varianzas


similares
Todos los grupos tienen el mismo nmero
de individuos. Podemos asumir que estn
igualmente dispersos.

Diferencia Honestamente significativa de Tukey


(HSD de Tukey): Se puede considerar como una
tcnica de comparaciones mltiples y a la vez de
rangos. Se suele usar cuando se quiere comparar
cada grupo con todos los dems y el nmero de
grupos es alto (6 o ms).
Test de Scheff: Hace todas las comparaciones
posibles. Por ejemplo, el primer grupo con
respecto a c/u de los restantes, pero tambin el
primero con respecto al grupo formado por la
unin de dos de los restantes, etc.

Grupos desequilibrados
Es cuando tenemos un nmero diferente
de individuos en cada grupo. Podemos
elegir las siguientes pruebas:
LSD de Fisher (slo si hay 3 grupos).
T3 de Dunnett.
C de Dunnet.
Scheff
Games-Howell

Varianzas desiguales
Cuando la prueba de igualdad de varianzas
(Levene) nos hace sospechar que las varianzas
no son similares en todos los grupos. Podemos
considerar las siguientes pruebas:
T2 de Tamhane
T3 de Dunnet
C de Dunnet
Games-Howell.
Scheff *

ANOVA DE 1 FACTOR EN SPSS

Analizar Comparar
medias Anova de un
factor

Colocar aqu la
variable
cuantitativa
(dependiente)

Colocar aqu la
variable
cualitativa
(factor)

Clic en
Opciones

Clic en:
Descriptivos.
Prueba de
homogeneidad de las
varianzas.
Grficos de las
medias.

Clic aqu para


elegir el
contraste Post
hoc

Elegir el tipo de prueba


Post Hoc segn los
criterios especificados
anteriormente

EJEMPLO DE RECHAZO DE H0

Variable dependiente
Descriptives
cantidad de licencias

N
obreros de planta 22
administrativos
22
gerencia
22
Total
66

95% Confidence Interval for


Mean
Mean Std. Deviation
Std. ErrorLower Bound
Upper Bound
MinimumMaximum
17.7576
2.5659 .5471
16.6199 18.8952 14.00 22.67
20.9091
2.8715 .6122
19.6360 22.1822 14.00 24.33
20.1364
2.8687 .6116
18.8645 21.4083 15.00 25.33
19.6010

3.0456

.3749

18.8523

20.3497

14.00

25.33

Grupos (niveles del factor)

La tabla nos muestra estadsticos descriptivos tales como


medias, desviacin estndar y erros estndar.
Todo ello para cada nivel de factor (grupo) y para el total.

Test of Homogeneity of Variances


Promedio de repitentes por curso
Levene
Statistic
1.603

df1

df2
4

23

Sig.
.207

Esta tabla nos permite evaluar si violamos o no el supuesto


de la homogeneidad de las varianzas (homocedasticidad).
Si el valor de Sig. fuese menor que un nivel de 0,05 las
varianzas de los grupos difieren significativamente. Por
tanto, todo el anlisis posterior sera en vano.

ANOVA
cantidad de licencias
Sum of
Squares
Between Groups 118.710
Within Groups
484.227
602.938
Dentro de Total
grupos

Entre grupos

df

Mean Square
2
59.355
63
7.686
65

F
7.722

Sig.
.001

El contraste resulta significativo, vale decir, hay


diferencias entre medias (rechazamos H0).

Sig. = 0,001 < 0,05

ANOVA
cantidad de licencias

Between Groups
Within Groups
Total

Sum of
Squares
118.710
484.227
602.938

df
2
63

Mean Square
59.355
7.686

F
7.722

Sig.
.001

65

Para poder establecer la proporcin explicada de la varianza


(esto es, la proporcin de la variacin total explicada por el
factor) recurrimos al clculo del estadstico 2 (eta al
cuadrado) dividiendo la suma de cuadrados inter-grupo por
la suma de cuadrados total.
Para este ejemplo, el valor 2 se calcula de la siguiente manera:

118.710 / 602.938 = 0.19


Lo que nos indica que un 19% de la varianza total se explica
por la variacin entre grupos.

Post-Hoc con Tukey y Scheff


Multiple Comparisons
Dependent Variable: cantidad de licencias
Mean
Difference
(I) tipo de empleado (J) tipo de empleado
(I-J)
Std. Error
Tukey HSD obreros de planta
administrativos
-3.1515*
.8359
gerencia
-2.3788*
.8359
administrativos
obreros de planta
3.1515*
.8359
gerencia
.7727
.8359
gerencia
obreros de planta
2.3788*
.8359
administrativos
-.7727
.8359
Scheffe
obreros de planta
administrativos
-3.1515*
.8359
gerencia
-2.3788*
.8359
administrativos
obreros de planta
3.1515*
.8359
gerencia
.7727
.8359
gerencia
obreros de planta
2.3788*
.8359
administrativos
-.7727
.8359

Sig.
.001
.016
.001
.627
.016
.627
.002
.022
.002
.654
.022
.654

95% Confidence Interval


Lower Bound Upper Bound
-5.1580
-1.1451
-4.3852
-.3723
1.1451
5.1580
-1.2337
2.7792
.3723
4.3852
-2.7792
1.2337
-5.2472
-1.0558
-4.4745
-.2831
1.0558
5.2472
-1.3230
2.8684
.2831
4.4745
-2.8684
1.3230

*. The mean difference is significant at the .05 level.

Las diferencias que son significativas son marcadas con asterisco *


Desde aqu podemos empezar a especificar cul es la media grupal que se distancia
de las otras.

Post-Hoc con Tukey y Scheff


cantidad de licencias
Subset for alpha = .05
tipo de empleado
N
1
2
a
Tukey HSD
obreros de planta
22
17.7576
gerencia
22
20.1364
administrativos
22
20.9091
Sig.
1.000
.627
a
Scheffe
obreros de planta
22
17.7576
gerencia
22
20.1364
administrativos
22
20.9091
Sig.
1.000
.654
Means for groups in homogeneous subsets are displayed.
a. Uses Harmonic Mean Sample Size = 22.000.

Los obreros de
planta conforman
un grupo aparte.
Gerencia y
Administrativos
tienden a conformar
ambos un grupo
distinto de los
Obreros.

2.- ANOVA DE 2 O MS
FACTORES

Tcnica que mide los efectos


de dos o ms variables
independientes cualitativas
sobre una variable
dependiente cuantitativa.

Ejemplo
Imaginemos que queremos determinar si existe
diferencia significativa entre dos metodologas de
preparacin para la PSU.
El mtodo A consiste en preparar a los alumnos
mediante tres grados de intensidad de estudio (8 hrs.
al da 4 hrs. al da 2 hrs. al da), mientras que el
mtodo B tiene en cuenta el uso de medios
tecnolgicos (facsmiles va email educacin a
distancia asistencia presencial con soporte
computacional).
Ambas metodologas son dos factores o variables
independientes que hipotticamente influiran en los
puntajes del rendimiento en la PSU de distinta
manera.

En el ejemplo recin dado, el investigador podra considerar


los puntajes de la PSU y analizarlos en funcin de un factor
por separado.
Por ejemplo, el mtodo 1 y los puntajes PSU obtenidos con
esta metodologa y hacer un anlisis Anova de un factor;
luego tomar el otro factor y los puntajes PSU y analizarlos
mediante otro anlisis Anova de un factor por separado.
Pese a que puede ser una buena estrategia, cabe preguntarse
si acaso no sera ms interesante estudiar la combinacin de
ambos factores y su efecto en los puntajes de la PSU en vez
de analizarlos separadamente.
Es decir, podra ser mucho ms interesante investigar los
factores de manera conjunta y as combinar los dos estudios
Anova de un factor en uno solo, el cual ser este del anlisis
de la varianza con dos factores (Anova de dos vas o dos
factores).

Se trata entonces de explorar los efectos de 2 o


ms factores para as evaluar las distintas
interacciones entre ambos.
Mediante este tipo de anlisis podemos
estudiar los efectos de los dos factores por
separado en la variable dependiente (Y) ms la
interaccin entre ambos y los efectos de esta
interaccin en Y.
Vale decir:
Efectos de A sobre Y (efecto principal).
Efectos de B sobre Y (efecto principal).
Efectos de AB sobre Y (efecto de interaccin).

El objeto de este tipo de anlisis


es permitir decidir al investigador
si los dos o ms factores
interactan para producir efectos
que no podran ver si tomramos
a los factores por separado.

Cuando se realiza un ANOVA de


dos factores, se tienen 3 H0.
H0: El factor A no ejerce ningn
efecto en la variabilidad de las
puntuaciones.
H0: El factor B no ejerce ningn
efecto en la variabilidad de las
puntuaciones.
H0: Los efectos de interaccin de
AxB no ejercen ningn efecto en la
variabilidad de las puntuaciones.

ANOVA DE 2 FACTORES
EN SPSS

Analizar Modelo
lineal general
Univariado

Colocar aqu la
cuantitativa
(dependiente)

Colocar aqu
las variables
cualitativas
(factor)

Clic en Post-Hoc
y elegir contraste
adecuado segn
los criterios
descritos
anteriormente.

Una vez elegido


el anlisis Post
Hoc, volver al
cuadro principal
y hacer Clic en
Opciones

Pasar todos los factores


y la interaccin al
campo (mostrar las
medias para)

Clic en:
Estadsticos
descriptivos.
Estimaciones
del tamao del
efecto.
Potencia
observada.
Prueba de
homogeneidad .

EJEMPLO ANOVA DOS FACTORES

Descriptive Statistics
Dependent Variable: Mortalidad infantil (muertes por 1000 nacimientos vivos)
Regin econmica
OCDE

Between-Subjects Factors
Regin
econmica

1
2
3
4
5
6

Clima
predominante

1
2
3
5
6
7
8
9

Value Label
OCDE
Europa
Oriental
Asia /
Pacfico
frica
Oriente
Medio
Amrica
Latina
desierto
rido /
desierto
rido
tropical
mediterrn
eo
martimo
templado
rtico /
temp.

N
21
14
16
16
16
19
7
5
6
32
10
4
34
4

Las primeras dos tablas del output son de


estadsticas descriptivas: hay un conteo
general de los casos para cada grupo de
los 2 factores; se calculan medias,
desviaciones tpicas.

Clima predominante
rido
mediterrneo
martimo
templado
rtico / temp.
Total
Europa Oriental
mediterrneo
martimo
templado
rtico / temp.
Total
Asia / Pacfico
rido
tropical
mediterrneo
templado
Total
frica
desierto
rido / desierto
tropical
mediterrneo
templado
Total
Oriente Medio
desierto
rido / desierto
rido
mediterrneo
templado
Total
Amrica Latina
rido
tropical
mediterrneo
templado
Total
Total
desierto
rido / desierto
rido
tropical
mediterrneo
martimo
templado
Osvaldo Blanco
rtico / temp.
Socilogo Total

Mean

Std. Deviation

7,300
7,600

N
.
.

1
1

9,200
6,881
5,933
6,910

1,1189
,7767
1,1722

1
15
3
21

15,850
19,167

10,1116
2,2546

2
3

15,038

4,3266

27,000
16,893
168,000
50,789

38,7232

1
14
1
9

41,700
50,600

52,7502
36,0636

2
4

56,931

46,1738

5,4830
.

16

126,000
47,100
104,400
80,000
111,000
99,944

.
.
20,9507
42,4264
8,4853
26,4983

1
1
10
2
2
16

49,517

19,9922

39,875
30,000

21,3009
7,0711

4
2

51,250
28,800
42,294
44,500

16,6170
28,5671
19,4339
13,4350

2
2
16
2

40,769
25,200

27,3346
.

13
1

19,067

5,7839

36,916
60,443
41,320
54,050
63,472
41,040

24,2839
34,1869
18,7280
57,8617
40,0852
34,7120

19
7
5
6
32
10

16,675

5,3125

22,433
11,200

29,1536
10,5524

34
4

41,860

38,7517

102

a
Levene's Test of Equality of Error Variances

Dependent Variable: Mortalidad infantil (muertes


por 1000 nacimientos vivos)
F
df1
df2
Sig.
3,209
26
75
,000
Tests the null hypothesis that the error variance of the
dependent variable is equal across groups.
a. Design: Intercept+regin+clima+regin * clima

Este es el contraste de Levene para determinar la homogeneidad de varianzas.


Si es significativa (p < ) entonces se ha violado el supuesto de la homogeneidad de la
varianza.
En este caso la prueba de Levene fue significativa, por lo tanto las varianzas son heterogneas.
Sin embargo, se ha demostrado que en tanto los tamaos grupales sean uniformes, las
violaciones del supuesto de homogeneidad de varianza no afectarn mucho los resultados y no
pondrn en entre dicho la interpretacin.
En cambio, si los tamaos de los grupos son desiguales, las consecuencias podran ser graves e
impredecibles (Gardner: 2003: 95).
Si vamos a la tabla de estadsticos descriptivos que recin vimos, podemos notar que los grupos
tienen tamaos desiguales.
No obstante, como este es un ejercicio, simplemente vamos a obviar esta violacin al supuesto
de la homogeneidad de varianza y vamos a seguir revisando los siguientes resultados.

Tests of Between-Subjects Effects


Dependent Variable: Mortalidad infantil (muertes por 1000 nacimientos vivos)
Source
Corrected Model
Intercept
regin
clima
regin * clima
Error
Total
Corrected Total

Type III Sum


of Squares
113190,500b
89600,884

26
1

Mean Square
4353,481
89600,884

F
8,485
174,637

Sig.
,000
,000

Partial Eta
Squared
,746
,700

Noncent.
Parameter
220,614
174,637

Observed
a
Power
1,000
1,000

42358,902
7890,072
16363,821
38480,230

5
7
14
75

8471,780
1127,153
1168,844
513,070

16,512
2,197
2,278

,000
,044
,012

,524
,170
,298

82,560
15,378
31,894

1,000
,789
,952

330400,372
151670,730

102
101

df

a. Computed using alpha = ,05


b. R Squared = ,746 (Adjusted R Squared = ,658)

Esta tabla contiene la mayor parte de la informacin de


inters.
Para nosotros, sern de inters las columnas Sig, Partial Eta
Squared (eta cuadrada parcial, similar a la eta cuadrada 2), y
Observed Power (potencia observada).
Adems, slo nos interesan los valores para las filas de los dos
factores (regin y clima), as como para la interaccin entre
ambos (regin * clima).

Tests of Between-Subjects Effects


Dependent Variable: Mortalidad infantil (muertes por 1000 nacimientos vivos)
Source
Corrected Model
Intercept
regin
clima
regin * clima
Error
Total
Corrected Total

Type III Sum


of Squares
113190,500b
89600,884
42358,902
7890,072
16363,821
38480,230
330400,372
151670,730

df
26
1
5
7

Mean Square
4353,481
89600,884
8471,780
1127,153

F
8,485
174,637
16,512
2,197

Sig.
,000
,000
,000
,044

Partial Eta
Squared
,746
,700
,524
,170

Noncent.
Parameter
220,614
174,637
82,560
15,378

Observed
a
Power
1,000
1,000
1,000
,789

1168,844
513,070

2,278

,012

,298

31,894

,952

14
75
102
101

a. Computed using alpha = ,05


b. R Squared = ,746 (Adjusted R Squared = ,658)

Significacin para c/u de los efectos


(principales y de interaccin)

Los valores de la columna Sig son los que usamos para ver la significacin de los
efectos.
El efecto principal de A (regin econmica) es significativo (Sig = 0,000), por tanto,
el factor de la regin es un indicador importante como variable independiente a la
hora de explicar la variabilidad de la variable dependiente (mortalidad infantil).
El clima igual alcanza a ser significativo, aunque con mayor margen de
probabilidad de cometer el error tipo I al rechazar H0.
Por ltimo, la interaccin regin * clima es tambin significativa.

Tests of Between-Subjects Effects


Dependent Variable: Mortalidad infantil (muertes por 1000 nacimientos vivos)
Source
Corrected Model
Intercept
regin
clima
regin * clima
Error
Total
Corrected Total

Type III Sum


of Squares
113190,500b
89600,884
42358,902
7890,072
16363,821
38480,230
330400,372
151670,730

df
26
1
5
7
14
75
102
101

Mean Square
4353,481
89600,884
8471,780
1127,153
1168,844
513,070

a. Computed using alpha = ,05


b. R Squared = ,746 (Adjusted R Squared = ,658)

F
8,485
174,637
16,512
2,197
2,278

Sig.
,000
,000
,000
,044
,012

Partial Eta
Squared
,746
,700
,524
,170
,298

Noncent.
Parameter
220,614
174,637
82,560
15,378
31,894

Observed
a
Power
1,000
1,000
1,000
,789
,952

Porcentaje de la varianza explicada para cada efecto


principal y para el de interaccin. Es decir, la proporcin de
la variacin total explicada por el factor por separado o por
la interaccin de ambos factores.

Debemos fijarnos fundamentalmente en los valores de eta cuadrada (2) para el factor
A (regin econmica), el factor B (clima) y la interaccin entre ambos (A*B).
La lectura de 2 tiene directa relacin con determinar primero cul de los factores
tienen efectos significativos (es decir, p < )
En este ejemplo, los tres efectos (los dos efectos principales y el efecto de interaccin)
son significativos, por tanto, debemos interpretar los tres valores de 2
correspondientes.
El efecto de la regin tiene un 52,4% de varianza explicada.
El clima, apenas un 17%.
La interaccin entre clima y regin econmica alcanza a 29,8%
El modelo de dos factores (Modelo corregido o Corrected Model) en su conjunto tiene
un porcentaje de varianza explicada de la mortalidad infantil que llega a 74,6%.

Tests of Between-Subjects Effects


Dependent Variable: Mortalidad infantil (muertes por 1000 nacimientos vivos)
Source
Corrected Model
Intercept
regin
clima
regin * clima
Error
Total
Corrected Total

Type III Sum


of Squares
113190,500b

26

Mean Square
4353,481

F
8,485

Sig.
,000

Partial Eta
Squared
,746

Noncent.
Parameter
220,614

Observed
a
Power
1,000

89600,884
42358,902
7890,072
16363,821

1
5
7
14

89600,884
8471,780
1127,153
1168,844

174,637
16,512
2,197
2,278

,000
,000
,044
,012

,700
,524
,170
,298

174,637
82,560
15,378
31,894

1,000
1,000
,789
,952

38480,230
330400,372
151670,730

75
102
101

513,070

df

a. Computed using alpha = ,05


b. R Squared = ,746 (Adjusted R Squared = ,658)

Potencia de la prueba. Es til para determinar


la validez externa de cada factor.

Los valores de la columna de potencia observada son las probabilidades


de obtener valores significativos, si estos valores de 2 fueran de hecho
valores poblacionales.
Es decir, si repitiramos el estudio, esperaramos obtener resultados
significativos con el factor A (regin econmica) en el 100% de las veces
(potencia observada de A = 1,000).
Si repitiramos el estudio, el clima tendra un 78,9% de probabilidad de
mostrar resultados significativos.
Si repitiramos el estudio la interaccin entre ambos factores sera
significativa en el 95,2% de las veces.

Você também pode gostar