Você está na página 1de 168

Anlisis

Multivariado
Marcelino Cuesta, 235 y Decanato
M Dolores Paz Caballero, 306

PRCTICAS 45%
3 Ejercicios de evaluacin de 1,5ptos.
Al menos necesitas 2 puntos de Prcticas.
1-5: Evaluacin
6-7:
8-10:

TG 1%
Trabajo Grupal

EXAMEN 45%
Al menos 2 puntos de Examen.
Terico: 45 preguntas V-F. 1 error descuenta 1, no descuentan omisiones.

EXTRAORDINARIOS
Si >2ptos no tienes que examinarte
Se conserva nota TG
Examen terico-prctico si suspendes prcticas

EJEMPLOS PREGUNTAS EXAMEN

- Si en un modelo de regresin lineal mltiple se cumple el supuesto de homogeneidad de varianza


o Falso, porque este grfico evala normalidad, no homogeneidad tampoco cumple normalidad-:

Residuos tipificados

- Si para un modelo log-lineal de 3 variables el estadstico de ajuste de razn de verosimilitud de 74 y una


p<0,01, El modelo ajusta?
o Falso, no ajusta. Es de AJUSTE, tienes que aceptar H0.

1
- Si la ODDS ratio de tener un infarto = 0,8 entre los que practican deporte y los que no, esto quiere decir
que hacer deporte es un factor de riesgo.
o Falso, porque la ODDS = 1 quiere decir que hay menos probabilidad.

- Si los coeficientes B (Beta) de un modelo de regresin lineal mltiple son:


o X1 = 0,5
o X2 = 0,8
o X3 = 0,7
o Podemos estimar que la variable con ms importancia es X2?
Verdadero

Lo importante para garantizar que sobre unos datos puedo realizar un anlisis factorial (o de componentes
principales) es que las variables observadas sean asimtricas negativas.
Falso, como mnimo tienen que ser simtricas, busco normalidad.

El tamao de muestra mnimo para sentirse tranquilo haciendo un anlisis factorial es de 200 sujetos.
Verdadero.

Antes de rotar una solucin factorial, la correlacin entre los factores siempre se mantiene fija en 0,5.
Falsa, la solucin inicial es de factores ortogonales, la correlacin entre ellos es 0, por definicin son
independientes. Cuando rotamos cambiamos esa correlacin.

Los mtodos de extraccin de factores denominados descriptivos, siempre van acompaados de un ndice de
ajuste del modelo.
Falso, los que llevan ndices de ajuste son los inferenciales, en mxima verosimilitud, que dan valores
como chi2. Los descriptivos slo describen.

En el anlisis discriminante, cuanto ms correlacionadas estn las variables discriminantes mejor.


Falso

Cuando la lambda de wilks aplicada sobre todas las funciones discriminantes no resulta estadsticamente
significativa indica que solo la primera funcin discriminativa es significativa.
Falso

La nica diferencia entre la regresin logstica binaria y un anlisis discriminante es que en la primera solo
puede haber dos grupos y en el anlisis discriminativo dos o ms.
Falso

Modelo presentado en el diagrama de senderos es un modelo identificado.


o Un modelo est identificado cuando los parmetros se estiman con una solucin nica
o Menos parmetros a estimar que datos observados, entonces el modelo est identificado.
o Resta negativa: El modelo no est identificado.
o Debemos estimar tantos parmetros como flechas (coeficientes de regresin) + flechas errores +
flecha covarianza + varianza de los errores + varianza de las variables exgenas (esttus y
autoestima). 12 estimaciones.
o Si tenemos variables latentes no cuentan en datos observados, no entran en la matriz var-covar.
o Datos observados: lo que hay en la matriz de var-covar. 10 datos observados.
- La diagonal principal son las varianzas, el resto son covarianzas. Los datos observados son la
diagonal principal + la mitad de la matriz, el resto es redundante.
o Las 4 variables son los rectngulos.
o FALSO. El modelo NO est identificado.

2
TEMA 1: INTRODUCCIN
Es posible predecir el rendimiento en Anlisis Multivariado en funcin de las notas obtenidas en las
asignaturas previas del rea de metodologa?
o Regresin lineal mltiple: Predecir una tcnica a partir de otras.
Es posible asignar a los conductores al grupo de infractores o al de no infractores en base a sus
puntuaciones en una serie de pruebas de personalidad, del sexo y del nivel socio-econmico?
o Regresin logstica: Algunas variables cualitativas.
Elaborada una prueba con 51 tems para evaluar la Esquizotipia Constituyen esos tems una nica
dimensin o hay varias sub-escalas o dimensiones subyaciendo al constructo general?
o Anlisis factorial: Estructura interna de un test.
Influye el mtodo de enseanza en las calificaciones obtenidas en las diferentes asignaturas de 2 de
bachiller?
o MANOVA: Diferencias entre grupos en varias variables.

Anlisis Multivariado: Mltiples Variables. Situaciones complejas que podran descomponerse tambin en
anlisis univariado o bivariado, pero con multivariado obtenemos ms informacin.

El Anlisis multivariante es la parte de la estadstica y del anlisis de datos que estudia, analiza, representa e
interpreta los datos que resultan de observar ms de una variable estadstica sobre una muestra de individuos

Simultaneidad (Martnez Arias, 1999)

Presencia de variantes o valores tericos (Hair et al., 1999

Variables Tericas: Variables (V) artificiales construidas como combinaciones de variables observadas. El AM trata
de predecir resultados utilizando variables tericas.

Martnez-Arias establece 4 campos de Aplicacin del A.Multivariado:


Tcnicas de Reduccin de Datos: Buscar estructuras subyacentes basndose en la relacin de las V que
nos permiten simplificar la informacin.
o Ej.: Teoras de la personalidad, Rasgos. A travs de un anlisis factorial con tcnicas multivariadas.
Clasificacin y Agrupacin: De variables o individuos. Clasificar sujetos en grupos previamente definidos.
o Agrupar es crear grupos, clasificacin es meter a los sujetos en un grupo ya hecho.
o Segmentar mercados, agrupar patologas
Anlisis de relaciones de dependencia: Predecir a partir de la dependencia de otras variables.
o Los sujetos diferentes de otros en funcin de cmo puntan en otras reas.
Construccin de modelos y prueba de hiptesis: Anlisis factorial, MANOVA.

Las anteriores son tcnicas de anlisis, no diseos de investigacin.

HISTORIA

Comienzo Principios S.XX


o Pearson 1901
o Spearman 1904
o Feaser principios XX

3
Desarrollo en los aos 30
o Cuestiones tericas, anlisis que requieren un clculo complejo
o Kendal
BOOM con la aparicin de Ordenadores
o 80s SPSS, Software comercial

CLASIFICACIN

Mtodos de Dependencia (Predictivos): Distinguen entre variables dependientes e independientes.


o Ver la relacin entre dos conjuntos. Explicar VD a partir de VI.
Mtodos de Interdependencia (Reductivos): No hay distincin entre VD y VI, tienen el mismo esttus.
o Estudia estructuras subyacentes para simplificar. Reduccin de datos perdiendo la menor
informacin.

MTODOS DE DEPENDENCIA

Variable independiente Variable dependiente

nmero tipo nmero tipo

Regresin lineal
varias cuantitativas una cuantitativa
mltiple

Anlisis discriminante varias cuantitativas una cualitativa

cuantitativas y/o
Regresin logstica varias una cualitativa
cualitativas

Anlisis de cuantitativas
varias una cuantitativa
supervivencia y/o dicotmicas

ANOVA FACTORIAL varias cualitativas una cuantitativa

MANOVA una o varias cualitativas varias cuantitativas

- Regresin Lineal Mltiple: VI 2 o ms y 1 VD. Cuantitativas. Predecir algo a partir de X e Y.


- Anlisis Discriminante: Clasificar sujetos en grupos en funcin de la puntacin de las variables
independientes, clasificar en variables dependientes (fumadores o no).
- Regresin Logstica: Definir factores de riesgo, qu variables tienen ms importancia para una enfermedad.
- Anlisis de Supervivencia: Regresin mltiple con una VD tiempo. Tiempo de adhesin a una terapia segn
caractersticas del sujeto.
- ANOVA factorial: En qu medida ms de un factor determinan el comportamiento de un sujeto X, por
ejemplo en funcin del sexo y del bachiller.

4
- MANOVA: Anlisis multivariado de las varianzas. Varias VD. Influencia de 1 o ms factores en una
combinacin de variables que funcionan como una (Todas las VD tomadas conjuntamente). Diferencias en
una prueba X en funcin de si hay pista o no TR, latencia, velocidad VD cuantitativas agrupadas-.
El anlisis de medidas repetidas podra considerarse como MANOVA, variable medida en distintos
momentos.

MTODOS DE INTERDEPENDENCIA
Tipo

Anlisis factorial / Componentes principales cuantitativas

Anlisis de cluster (conglomerados) todo tipo

Escalamiento multidimensional todo tipo

Anlisis de correspondencias cualitativas

Modelos log-lineal cualitativas

- Anlisis Factorial/Componentes Principales: Ambos trminos no son exactamente iguales. Buscar


dimensiones o factores subyacentes al conjunto de tems.
- Anlisis de Cluster (Conglomerados): Agrupar sujetos en cules son ms parecidos a unas clasificaciones
previas, tipologas. Es difcil encontrar un cluster de variables (son de sujetos).
- Escalamiento Multidimensional: Dimensiones de los sujetos para establecer parecidos entre objetos.
Percepcin, Marketing.
- Anlisis de Correspondencias: Tablas de contingencia. Relacin entre los niveles de las variables que
estamos cruzando. Qu hace el producto atractivo precio, brillo, duracin-, grfico en 2D caractersticas y
producto-, anotar las frecuencias.
- Modelos log-lineal: Trabajan sobre tablas de contingencia con ms de dos variables cualitativas. Ver
relaciones entre ellas y la probabilidad de las diferentes casillas (Variables) y la influencia de cada una.

TIPOS DE DATOS
Matrices de Datos: Brutos, bsico. V en columnas y sujetos (S) en filas.
Matrices de Varianza-Covarianza
Matrices de Correlaciones: Diagonal principal 1
Matrices de Proximidades: Similitud (Grado de Asociacin) entre V, S o V-S. Las similitudes se miden en
cercana entre dos puntos (ndices de correlacin).
o Medidas de distancia: Disimilaridad. Distancia entre objeto en fila i y j.

COMBINACIN LINEAL DE VARIABLES


Una combinacin lineal de variables es la suma ponderada de variables:

V w1 X 1 w2 X 2 ... w p X p

5
V= Variante (Nueva variable construda)
W= Pesos, ponderaciones
X = Variables Observadas.

Combinacin til de variables. Buscan un conjunto de pesos ptimo para nuestro objetivo.

17/09/13

Supuestos Paramtricos:

Normalidad: Variable sigue Campana de Gauss. No se pide la normalidad univariada, sino multivariada;
que cada una de las variables se distribuya de acuerdo a la campana de Gauss, al igual que las
combinaciones lineales entre ellas. Difcil de comprobar a priori.
o Para comprobar a posteriori: Ver qu ocurre con los residuos, la diferencia que dan los datos
reales (empricos) y los datos del modelo terico (matemtico) que estamos utilizando. Si se
cumple una normalidad multivariada, estos residuos cumplen la distribucin normal.
o Cuando la prueba es de carcter descriptivo (anlisis factorial exploratorio) no es muy
importante, no as si la prueba tiene carcter inferencial.
o Cuando no cumplimos el supuesto tiende a aumentarse el Error Tipo I. Rechazar Ho cuando
haba que aceptarla. Estaremos trabajando con un nivel de significacin real mayor al 5%. No
podra hacer inferencia estadstica, cada coeficiente me dar resultados diferentes.

Linealidad: Importante en todas aquellas tcnicas que se basen en correlaciones.

Homoscedasticidad: O igualdad de varianzas. Es importante en aquellas tcnicas que haya variable


dependiente, que tiene que tener igual varianza en todos los grupos (niveles) de la variable
independiente; y en todos los grupos que surjan de la combinacin de los niveles de esas variables.
o MANOVA: ms de una variable dependiente. Aqu este supuesto se establece no en las varianzas
sino en las matrices de varianza-covarianza.

6
TEMA 2.A: ASOCIACIN ENTRE DOS O MS VARIABLES
CATEGRICAS
2 DE INDEPENDENCIA DE VARIABLES

Tabla de Contingencia: Tabla en que consideramos dos variables de tipo categrico (en este caso). En cada una de
las celdillas aparece la frecuencia de cada una de esas variables. F1,2; frecuencia de la aparicin conjunta de esas
variables en la condicin respectiva-

Marginales de columna: N de sujetos que estn en la categora 1 de Y, independientemente de su


aparicin en X.
Marginales de fila: Total de sujetos que estn en la categora de X; independientemente de Y.
N: Tamao total

Podemos ver si hay relacin entre esas dos variables. Prueba de Chi2 de independencia de variables. Prueba de
tipo inferencial. Establece 2 hiptesis:

Ho: X e Y son independientes. No hay relacin entre ellas.


H1: X e Y no son independientes.

Necesita unos supuestos para la utilizacin de Chi2:

Una muestra aleatoria de n observaciones es clasificada en las k x r combinaciones de las categoras de las
dos variables.
La probabilidad de que una observacin pertenezca a cada una de las categoras de la variable se
mantiene constante en la n observaciones
Todas las frecuencias observadas son mayores de cero ( es decir, no hay celdas vacas) y no ms del 20%
de las frecuencias esperadas son menores de 5
o Si hay de 0, tenemos que colapsar. No podra unir chicos y chicas, pero s unir por resultado
acadmico, por ejemplo unir notables-sobresalientes. Si colapso pierdo informacin.
Se denominan 0s de tipo coyuntural, puede darse por ejemplo por muestras pequeas o
por exceso de categoras.
0s estructurales, caso de 0 por narices. Cruzar servicios de atencin de hospital por sexo de
pacientes. Ginecologa x Varones 0. No se puede colapsar, podemos quitar esa categora.

7
Estadstico de Contraste: Para cada una de las celdas tmese la frecuencia observada y comprese con la
frecuencia esperada.

La frecuencia esperada es la que tendra que haber en esa celda si las dos variables fueran independientes -
Marginal de filax Marginal de columna /N-.
Si fueran realmente independientes tendran que coincidir, chi2=0, modelo terico y emprico cuadran. En la
medida en que difiere de 0 hay alguna desviacin. Por puro azar nunca dar 0, aunque sean independientes.
La pregunta es si la diferencia es suficientemente grande para pensar que no se debe al azar.
N de filas-1 x n de columnas-1 /Gl. Si rechazamos H0 hay relacin entre variables, la diferencia es
suficientemente grande para considerar que no se debe al azar.

k r
f fe
2


2 o

i 1 i 1 fe

Correccin de Yates (2x2): Caso particular para las tablas 2x2. El SPSS la da por defecto en estas tablas. Muy
conservadora, puede reducir Ho.

f
2
k r f e 0.5
2
o

i 1 i 1 fe

Ejemplo:

Descriptivos. Comprobar que no hay 0 para aplicar chi2.

Tabla de contingencia ESTCIV * OPINION

OPINION
a favor en contra Total
ESTCIV + 10 aos casado Recuento 20 80 100
Frecuencia esperada 68,0 32,0 100,0
% de ESTCIV 20,0% 80,0% 100,0%
% de OPINION 5,9% 50,0% 20,0%
% del total 4,0% 16,0% 20,0%
- 10 aos casado Recuento 200 50 250
Frecuencia esperada 170,0 80,0 250,0
% de ESTCIV 80,0% 20,0% 100,0%
% de OPINION 58,8% 31,3% 50,0%
% del total 40,0% 10,0% 50,0%
solteros Recuento 120 30 150
Frecuencia esperada 102,0 48,0 150,0
% de ESTCIV 80,0% 20,0% 100,0%
% de OPINION 35,3% 18,8% 30,0%
% del total 24,0% 6,0% 30,0%
Total Recuento 340 160 500
Frecuencia esperada 340,0 160,0 500,0
% de ESTCIV 68,0% 32,0% 100,0%
% de OPINION 100,0% 100,0% 100,0%
% del total 68,0% 32,0% 100,0%

Si pides al SPSS tabla de contingencia y chi2:


Pruebas de chi-cuadrado

Sig. asinttica
Valor gl (bilateral)
Chi-cuadrado de Pearson 132,353a 2 ,000
Razn de verosimilitud 126,467 2 ,000
Asociacin lineal por
81,544 1 ,000
lineal
N de casos vlidos 500
a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. 8
La frecuencia mnima esperada es 32,00.
Chi2 = 132,353. El valor depende de ms cosas que las variables, como n de sujetos y tamao de la tabla. Hay
que mirar la significacin; si es menor a 0,05 hay diferencia estadsticamente significativa. S hay relacin
estadsticamente significativa.

Chi2 no nos dice la intensidad de la relacin (no tiene que ver con la significacin). Una manera posible de ver
cmo se da esa relacin es utilizar los residuales. No podemos utilizarlos en bruto, hay que dividirlos de su error
tpico y dan lugar a una variable con media 0 y error tpico 1, variable normalizada Gauss-. En la tabla el valor de
Z= +-1,96 se considera significativo al 5%; si el residuo estandarizado cumple esos valores se considera que esa
celda es la que est causando relacin.

- 20-68. Negativo. Entre esas variables a priori parece haber relacin, saldra Z<1,96.

Otra posibilidad: Buscar algn ndice numrico. Estas pruebas ambas se basan en chi2, tratan de corregir la
influencia de la tabla y de los sujetos. Tericamente van entre 0-1, pueden interpretarse como una correlacin:

ndices de Asociacin derivados de Chi2:


Coeficiente de Contingencia, C: Corrige el tamao de muestra. Tericamente slo entre 0-1. En tablas
cuadradas puede calcularse el tamao de contingencia mximo.

2
C
2 n

Cmx = -Raz- (K-1/K)

V de Craner: Corrige tamao de muestra y tamao de la tabla. S va entre 0-1. S lo interpretamos como
una correlacin. En principio preferible; ndice de tamao del efecto.
- K: Menor de filas o columnas. Dara igual en caso de tablas cuadradas
- Phi: Caso particular de V de Craner en tablas 2x2.

2
V
n k 1

Pruebas de chi-cuadrado

Sig. asinttica
Valor gl (bilateral)
Chi-cuadrado de Pearson 132,353a 2 ,000
Razn de verosimilitud 126,467 2 ,000
Asociacin lineal por
81,544 1 ,000
lineal
N de casos vlidos 500
a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5.
La frecuencia mnima esperada es 32,00.

Medidas simtricas

Sig.
Valor aproximada
Nominal por Phi ,514 ,000
nominal V de Cramer ,514 ,000
Coeficiente de
,457 ,000
contingencia
N de casos vlidos 500
a. Asumiendo la hiptesis alternativa.
b. Empleando el error tpico asinttico basado en la hiptesis
nula. 9
TEMA 2.B: ASOCIACIN ENTRE DOS O MS VARIABLES
CATEGRICAS

Otros ndices de asociacin para tablas de contingencia

Datos nominales. Medidas basadas en la reduccin proporcional del error

Son medidas de asociacin que expresan la proporcin en que conseguiramos reducir la probabilidad de
cometer un error de prediccin cuando, al intentar clasificar un caso o grupo de casos como pertenecientes a una
u otra categora de una variable, en lugar de utilizar nicamente las probabilidades asociadas a cada categora de
esa variable, efectuamos la clasificacin teniendo en cuenta las probabilidades de esa variable en cada categora
de una segunda variable.

Variables en escala nominal (categoras) vs ordinal (los n indican orden) vs cuantitativas (los n funcionan como
tales).

- Escalas de categoras: 0 arbitriario.


- Escalas de razn: 0 ausencia de atributo. Medida constante entre los distintos ns.

ndices de reduccin proporcional del error: Cmo hacen la asignacin de sujetos, basndose en una sola
variable o utilizando las dos.

Coeficiente de incertidumbre: Basado en las tablas de contingencia.


Lambda: Con dos variables nominales las cruzo. Si yo tengo que clasificar a un sujeto en una celda
conociendo solo X, a todos los sujetos los voy a clasificar en la categora de mayor probabilidad. Siempre
tendr una proporcin de error, porque no todos irn ah.
o Esta prueba propone que tenemos X y una cierta informacin de Y. De los sujetos que estn en una
condicin (x ejemplo a favor), los clasifico en la categora de X (estado civil) ms probable.
Igualmente tendr error. La diferencia entre la % de errores cuando solo utilizaba X con la % cuando
utilizo X e Y nos da Lambda. Reduccin proporcional del error. Si cometo el mismo error es que no
hay relacin entre estado civil y voto x ej.
Tau: No asigna a la mayor probabilidad, sino ve la probabilidad de X y asignar a los sujetos aleatoriamente en
el mismo % a cada uno de los niveles de X. Mantengo la proporcin. La % de error que tenga hacindolo as
es la lnea base. Cuando introduzco Y hago lo mismo. La diferencia entre la % de errores de la primera
condicin y la segunda es Tau.

Ambos ndices van 0-1 (Tau y Lambda). 0 indica que no hay relacin entre las dos variables, no hay diferencia
entre el error.

Si las dos variables son estadsticamente independientes dan 0; pero que los ndices den 0 no significa que
necesariamente las variables sean independientes. Similar a la correlacin de Pearson, 0 es no relacin lineal
entre variables, pero puede haber relacin de otro tipo.

Con tamaos de muestra grande generalmente siempre va a dar estadsticamente significativo. Son ms
interesantes los valores en s que dan los ndices que la significacin.

10
Ejemplo Diapo 4.

DATOS ORDINALES

Con tablas de contingencia las ordinales se analizan con pocas categoras. En nominal puedo hablar de
intensidad y decir si hay relacin o no, pero no puedo decir nada sobre la direccin de la relacin, porque las
etiquetas son arbitrarias. En ordinal ya puedo hablar de intensidad y de direccin de la relacin.

Gamma
d de Somers
Tau-b y Tau-c de Kendall

Estas pruebas se basan en el concepto de inversin y no-inversin:

- No-inversin: El caso X punta ms alto en las dos variables.


- Inversin: X punta ms alto en A pero ms bajo en B.
- Empate: Si X e Y puntan igual en las dos variables.

Cuando predominan las no inversiones tendremos una relacin directa o positiva entre variables. Cuando
predominen las inversiones tendremos relaciones inversas o negativas. Si predominan empates no hay relacin.

Los siguientes ndices van entre +-1, como una correlacin. El n da la intensidad de la relacin y el smbolo la
direccin.

Tau-B: Slo va entre +-1 si las tablas son cuadradas.

Conclusin ejemplo: No existe relacin entre nivel socieconmico y percepcin de felicidad.

11
17/09/13

ndices de Acuerdo

Kappa: Entre 0 y 1. Para probar el acuerdo entre dos fuentes. Como entre dos evaluadores, grado de
acuerdo entre los jueces interjueces-, tiene en cuenta que el acuerdo sea por azar lo resta-.
o Se emplea para evaluar el acuerdo entre dos jueces. Toma valores entre 0 (sin acuerdo) a 1
(acuerdo absoluto). Tiene en cuenta en su clculo las clasificaciones correctas que se pueden dar
simplemente por azar.

ndices de Riesgo

Diseos transversales: Los datos se recogen en un mismo momento.


Diseos longitudinales: Los datos se recogen en momentos temporales distintos. (ndices de Riesgo).
o Prospectivos o de cohortes Riesgo Relativo. Hacia adelante
o Retrospectivos o caso-control Odds Ratio.

Diseos Prospectivos o de Cohortes:

Desenlace

(Tiempo 2)

SI NO

Factor desencadenante SI f11 f12 f1.

(Tiempo 1)
NO f21 f22 f2.

f.1 f.2

Miramos si presentan un factor desencadenante para un determinado tipo de conducta.

- T1: Cuntas horas ven los nios la TV?


- T2: En adolescencia posterior, conducta excesivamente sedentaria?

12
Lo cruzo dando lugar a una tabla de contingencia 2x2.

Riesgo relativo (ndice): Comprobar si la % de desenlaces es ms alta en un grupo que en otro.

Ejemplo:

Conducta Sedentaria

SI NO

Consumo + 3 horas f11 = 23 f12 =81 f1. = 104


televisivo
- 3horas f21 = 9 f22 = 127 f2. = 136

f.1 = 32 f.2 = 208 240

Estimacin de riesgo

Intervalo de confianza al 95%

Valor Inferior Superior

Razn de las ventajas para 4,007 1,766 9,093


tv (+ de 3 horas / - de 3
horas)
Para la cohorte 3,342 1,615 6,915
sedentarismo = s
Para la cohorte ,834 ,746 ,933
sedentarismo = no
N de casos vlidos 240

Interpretacin

La proporcin de desenlace entre los sujetos expuestos al factor desencadenante es Rr veces ms alta que entre
los sujetos no expuestos. De otra manera, por cada desenlace observado entre los sujetos no expuestos cabe
esperar que aparezcan Rr desenlaces entre los sujetos expuestos. Un Rr=1 indica que la probabilidad de desenlace
es igual en ambos grupos.

La % de que en aquellos sujetos que se presenta un factor desencadenante se de el desenlace, casi 3,5
veces mayor que los que no tenan factor de riesgo. Muy utilizado en epidemiologa

13
Diseo Retrospectivo o Caso-Control
Desenlace

(Tiempo 1)

SI NO

Factor desencadenante SI f11 f12 f1.

(Tiempo 2)
NO f21 f22 f2.

f.1 f.2

Tabla de contingencia aparentemente igual que la anterior, pero el matiz de por qu no se puede aplicar el riesgo
relativo es porque el nmero de sujetos en cada uno no depende de la proporcin de desenlaces que se dan, sino
del muestreo que yo haya hecho. Depende del n de casos control las proporciones irn cambiando, no reflejan la
verdadera proporcin desenlaces.

Se utiliza el estadstico Odds Ventajas. % de que se de un suceso/ % de que no se de. El resultado es la % de X es


tantas veces mayor que la % de que no se de X (1-X).

Ejemplo: Fobia a Estadstica despus de dar datos con Marcelino.

Fobia (casos) No Fobia (control)

AD conmigo 51 374 425

No AD conmigo 15 205 220

66 579 645

- Odds de tener fobia entre los que hicieron AD conmigo


(51/425) / (374/425) = 51/374 = 0.136
- Odds de tener fobia entre los que no hicieron AD conmigo
(15/220) / (205/220) = 15/205= 0.073
- Odds de haber hecho AD conmigo entre los fbicos
(51/66) / (15/66) = 51/15 = 3.4
- Odds de haber hecho AD conmigo entre los no fbicos
(374/579) / (205/579) = 374/579 = 1.82

14
Valor inferior a 1 Es ms probable no tener fobia que tenerla.

Output de SPSS:
Estimacin de riesgo

Intervalo de confianza al 95%


Valor Inferior Superior

Razn de las ventajas para 1,864 1,022 3,397


AD (AD conmigo / AD sin
mi)
Para la cohorte Fobia = s 1,760 1,013 3,057
Para la cohorte Fobia = no ,944 ,898 ,993
N de casos vlidos 645

Casi 2 veces mayor la % de que un alumno desarrolle fobia a la estadstica despus de AD con Marcelino. Factor
de riesgo claro, desencadenante.

RIESGO =/ CAUSALIDAD

Que algo sea factor de riesgo no significa que sea causalidad. Puede ser una relacin indirecta.

La Odds relativa se utiliza tambin para otro tipo de anlisis como tamao del efecto.

Comparacin de proporciones relacionadas: Prueba de McNemar

Caso longitudinal, se compara la proporcin de una determinada situacin antes y despus, se utiliza para evaluar
el cambio.

Diferencia de medias en muestras relacionadas; mido, intervengo, pasa tiempo, mido, hay cambio? Proporciones
relacionadas. Este caso es similar pero con proporciones, no medias.

H0: No ha habido cambio entre antes y despus.

Ejemplo: Variables dependientes, mirar si ha habido cambio con el debate.

15
Tabla de contingencia Intencin de voto antes * Intencin de voto despus
Recuento

Intencin de voto despus

Candidato A Candidato B Total


Intencin de voto antes Candidato A 51 45 96

Candidato B 80 64 144
Total 131 109 240

Pruebas de chi-cuadrado

Sig. exacta
Valor (bilateral)
a
Prueba de McNemar ,002
N de casos vlidos 240

a. Utilizada la distribucin binomial

P= 0,002. Menor 0,05. Conclusin: Las diferencias entre las proporciones de antes y despus son estadsticamente
significativas, debate efectivo.

McNemar presentada para variables dicotmicas, si hay ms de 3 niveles se necesita una modificacin de la
prueba McNemar-Bower

Ejemplo: Ahora hay tres candidatos.


Tabla de contingencia Intencin de voto antes * Intencin de voto despus
Recuento

Intencin de voto despus


Candidato A Candidato B Candidato C Total

Intencin de voto antes Candidato A 54 18 16 88

Candidato B 12 42 31 85
Candidato C 14 9 63 86
Total 80 69 110 259

Pruebas de chi-cuadrado

Sig. asinttica
Valor gl (bilateral)

Prueba de McNemar- 13,433 3 ,004


Bowker
N de casos vlidos 259

Si queremos ver por dnde ha ido el cambio tenemos que descomponer la tabla 3x3 en otras de 2x2 para saber
dnde.

Correcciones del nivel de alfa para no trabajar con nivel de alfa mayor (Error Tipo I).

16
Combinacin de tablas 2x2 (Mantel-Haenzel)

Existe relacin entre dos variables dicotmicas controlando el efecto de una tercera variable que se descompone
en grupos o estratos. Por ejemplo controlar la influencia de la variable edad sobre otras dos.

Muchas veces se utiliza para mirar el funcionamiento diferencial de los tems. Sospechamos que un tem es
injusto (Hay un grupo de personas que puntan distinto respecto al grupo mayoritario).

Ejemplo: Comparar grupo de referencia frente al grupo focal de emigrantes. Tener en cuenta nivel de los sujetos.
Que realmente se vea la diferencia por el origen, no por el nivel.

Realmente son dos tablas de contingencia juntas:

Nativos (R) Emigrantes (F)


Nivel de Aciertan el tem Fallan el tem Aciertan el tem Fallan el tem
rendimiento en
el test
1 (0-3) 40 40 30 45
2 (4-7) 60 40 45 50
3 (8-11) 60 30 55 35
4 (12-15) 55 5 50 5
Suma 215 115 180 135

En niveles (SPSS) meteremos los que hemos hecho, y en columnas los datos.

Ho: No hay relacin entre los grupos de inters. No hay funcionamiento diferencial del tem DIF.

Tabla de contingencia grupo * item * Test


Recuento

Test item
aciertan fallan Total
nivel 1 grupo Nativos 40 40 80
Emigrantes 30 45 75
Total 70 85 155
nivel 2 grupo Nativos 60 40 100
Emigrantes 45 50 95
Total 105 90 195
nivel 3 grupo Nativos 60 30 90
Emigrantes 55 35 90
Total 115 65 180
nivel 4 grupo Nativos 55 5 60
Emigrantes 50 5 55
Total 105 10 115

Pruebas de homogeneidad de la razn de las ventajas

Sig. asinttica
Chi-cuadrado gl (bilateral)
Breslow-Day ,593 3 ,898
De Tarone ,593 3 ,898

17
Pruebas de independencia condicional

Sig. asinttica
Chi-cuadrado gl (bilateral)
De Cochran 4,726 1 ,030
Mantel-Haenszel 4,337 1 ,037

Estimacin de la razn de las ventajas comn de Mantel-Haenszel

Estimacin 1,450
ln(estimacin) ,372
Error tp. de ln(estimacin) ,171
Sig. asinttica (bilateral) ,030
Intervalo de confianza Razn de ventajas comn Lmite inferior 1,037
asinttico al 95% Lmite superior 2,028
ln(Razn de ventajas Lmite inferior ,036
comn) Lmite superior ,707
La estimacin de la razn de las ventajas comn de Mantel-Haenszel se distribuye de manera asintticamente
normal bajo el supuesto de razn de las ventajas comn igual a 1,000. Lo mismo ocurre con el log natural de la
estimacin.

- S hay relacin entre acertar o fallar y ser inmigrante habiendo controlado el nivel.

- ltima tabla, estimacin del tamao del efecto, realmente es grande la diferencia?

- Valor de referencia 1. Si es mayor hay diferencia. Estimacin.

- Mayor 1, hay una relacin real entre las variables del fallo del tem y el grupo focal.

- El logaritmo neperiano (ln) es igual pero la referencia es 0, si es mayor es que hay relacin.

- Intervalo de confianza al 95%: Odds ratio entre 1,03 y 1,28. Cuanto ms alejado est de 1 hay relacin. Si los
lmites del intervalo fueran menores a 1 o alrededor nos dara a entender que no hay diferencia.

18
TEMA 2.C: ASOCIACIN ENTRE DOS O MS VARIABLES
CATEGRICAS

Tablas de contingencia con ms de dos variables. Relacin entre 3 variables


categricas. Modelos log-lnea (logartmico-lineales)

Una posibilidad para ver la relacin entre esas variables sera chi2 dos a dos, pero estamos perdiendo algo de
informacin.

Estos modelos sirven para ver la relacin entre dos o ms variables, de tipo categrico.

Se emplean para analizar la relacin entre dos o ms variables en una tabla de contingencia

No distinguen entre variables dependientes e independientes. Todas se consideran como variables de


respuesta.

Slo estudian la asociacin entre variables. Tcnicas de Independencia o Reductivas. Estamos buscando
una reduccin de dimensionalidades.

Los modelos log-lineales resumen las relaciones existentes en una tabla de contingencia en una serie de
componentes lo ms reducida posible de tal forma que sean fcilmente interpretables. Estos componentes
reciben el nombre de parmetros lambda ()

Por ejemplo, en una tabla con dos variables se pueden presentar cuatro efectos:

- Efecto de las filas (A): Resultado de la variable A

- Efecto de las columnas (B): De la B

- Efecto de la interaccin entre las variables (AB): De la interaccin

- Efecto debido al promedio de la casilla () : Efecto comn de todos los sujetos, la media de la casilla.

El modelo log-linea tambin se puede aplicar para 2 variables, no es necesario ms de tres. Lo que ocurre en
una matriz puede depender de varios efectos. Cada casilla puede deberse al efecto de las filas, columnas El
modelo log-linea pretende ver cules de esos efectos son necesarios.

Modelo Log-lnea?

Para elaborar un modelo log-lineal se transforman las frecuencias observadas en logaritmos naturales. De
esta forma el modelo multiplicativo se transforma en un modelo aditivo, similar a los modelos lineales de
regresin mltiple y anlisis de varianza (Modelo Lineal General). Pasar de un modelo multiplicativo a otro
aditivo, lineal.

En una tabla de contingencia cuando las respuestas son independientes las probabilidades conjuntas de cada
casilla Pij se obtienen como el producto de los marginales de filas y columnas

Pij = Pi.P.j

19
Los modelos log-lineales usan frecuencias esperadas en lugar de probabilidades

fij = nPij.

Si asumimos la independencia de las variables tenemos

fij = nPi.P.j

Al tomar logaritmos queda

ln(fij) = ln(n) + ln(Pi.) + ln(P.j)

ln(fij) = + Ai + Bj + ABij

La probabilidad conjunta de una celda es el producto de sus marginales. Bajo el supuesto de variables
independientes. EL log-lnea trabaja sobre las frecuencias esperadas de las celdas, no bajo las probabilidades. Hay
que pasarlo a probabilidades.

El logaritmo de un producto es la suma de los logaritmos. Pasar de una expresin multiplicativa a una
aditiva, mejor anlisis. Es un modelo lineal en su logaritmo.

Para tres variables tendramos

ln(fijk) = + Ai + Bj + Ck + ABij + ACik + BCjk + ABCijk

El objetivo fundamental del log-lineal consiste en encontrar un modelo que represente ptimamente los
resultados empricos (de la tabla de contingencia) y que sea adems el ms simple de todos los posibles modelos
con ajuste ptimo. Una vez hallado ese modelo, se interpretan sus parmetros desde una perspectiva sustantiva.
La interpretacin de parmetros de modelos no ajustados no tiene sentido (se calculan cuando tenemos el
modelo definido).

Limitaciones-Precauciones en el uso del log-lineal

Aspectos tericos

El mayor peligro est en el uso de muchas variables que hace que su interpretacin sea muy
complicada

Aspectos prcticos

Independencia. Que las frecuencias de una celda no interfieran con las de otras, tener bien
definidas las variables para que un sujeto no pueda estar en varias. Comprobar que la N coincida
con el n de casos.

Un caso no puede contribuir a la frecuencia de ms de una celda.

Aspectos prcticos

Ratio casos/variables. Tendremos problema de convergencia cuando hay pocos casos en relacin
al nmero de variables. Esto puede dar lugar a celdas con frecuencia 0 (vacas), que s pueden
analizarse en log-lneal, pero cuando hay muchas hay problemas de convergencia, los parmetros
no son adecuados. Posibilidad de aadir en SPSS +0,5 a todas las frecuencias, evitas convergencia.

20
Adecuacin de las frecuencias esperadas. Frecuencias esperadas inadecuadamente pequeas
producen prdida de potencia estadstica. Problemas de potencia estadstica, muchas variables
para los sujetos.

Norma estndar: 5 veces ms casos que n de celdas.

Cruzar las variables dos a dos y comprobar que no hay problemas.

Fases en la elaboracin de un modelo log-lineal

Formulacin (Especificacin) del modelo o modelos que pudieran dar cuenta de las frecuencias
esperadas para poder obtener las frecuencias esperadas. Una vez definido el modelo:

Comprobacin del ajuste mediante la comparacin de las frecuencias esperadas obtenidas en cada
modelo con las frecuencias observadas. Estadsticos de ajuste, hay mucha diferencia entre las frecuencias
esperadas y observadas?

Seleccin del modelo ms adecuado de entre los que ajusten para la tabla de contingencia-.

Estimacin de los parmetros del modelo seleccionado para ver su importancia relativa.

Interpretacin del modelo.

En la realidad las fases se solapan.

Principales Modelos Log-Lineales


Desde la contingencia de 3 variables

Modelo Saturado
ln(fijk) = + Ai + Bj + Ck + ABij + ACik + BCjk + ABCijk

Modelo en el que aparecen todos los efectos, para dar cuenta del logaritmo de la frecuencia tengo que
tener en cuenta todos los efectos. Las tres variables estn relacionadas entre s, por ello hay un trmino de tercer
orden.

La relacin entre A y B vara por la relacin con la tercera variable C. La interaccin entre las tres es
significativa, aparece en el modelo. Contempla todos los posibles efectos de una tabla. Siempre ajustan de
manera perfecta a los datos. Los residuales en un modelo saturado siempre son 0, no hay diferencias entre la
frecuencia observada y la frecuencia esperada.

El log-lnea busca simplificar, no utilizar todos los efectos. El modelo saturado suele utilizarse como punto
de partida para ir rebajando.

Modelo de Independencia
ln(fijk) = + Ai + Bj + Ck

21
Modelos Jerrquicos

Los modelos jerrquicos son los que cumplen la siguiente condicin:

- Si hay un trmino para la interaccin de un grupo de variables, entonces tiene que haber trminos de
orden inferior para todas las combinaciones posibles de esas variables.
- Para describir un modelo jerrquico es suficiente enumerar los trminos de orden superior en los cuales
aparecen las variables. A esto se le llama clase generadora (generating class) de un modelo.

La frecuencia de la celda puede expresarse a travs de un modelo con solo los efectos principales. Las
variables son independientes y no tienen relacin con otras. Contrario al saturado.

Est presente una determinada interaccin y todos los trminos que estn por debajo de la misma. Estos
modelos pueden abreviarse indicando los trminos de orden ms altos presenten en el modelo.

Modelo (ABC), significa de interaccin de tercer orden.


Clase generadora (BC)(A). Interaccin BC, que incluye B y C, pero hay que tener en cuenta tb el
efecto principal de A.

22
TEMA 2.D: ASOCIACIN ENTRE DOS O MS VARIABLES
CATEGRICAS

Tablas de Contingencia con ms de dos variables: Modelos log-lineal

Ajuste del Modelo


- Chi2

- Razn de verosimilitud (Likelihood Ratio)[LR2, RV2, G2, L2]

Comparar lo terico con lo emprico. Si el modelo ajusta de manera perfecta el valor del estadstico es 0, a medida
que no aumenta. Hay que comprobar la significacin estadstica.

La H0 es que el modelo ajusta, que no hay diferencias entre lo observado y lo esperado. En este caso, al contrario
que en la generalidad, es aceptar la Ho, que P>0,05

Cuando la muestra es pequea suele diferir bastante. En log-lineal suele preferirse la razn de verosimilitud.

Seleccin del Modelo

Un solo modelo ajusta

Ningn modelo ajusta

Varios modelos ajustan!!!

Criterios para elegir:

Parsimonia: Mejor el ms simple

Significacin estadstica: Nos la da el ordenador

Interpretabilidad sustantiva: Podemos interpretarlo?

Qu estrategias podemos emplear para determinar con qu modelo nos quedamos?


Tengo varios modelos, con cul me quedo. Podemos plantearnos dos situaciones generales:

1. Tenemos un modelo terico en la cabeza y queremos ver si se ajusta.

2. Estamos bajo un enfoque ms exploratorio.

23
1- Tenemos un modelo terico. En este caso simplemente se pone a prueba el modelo y si se ajusta se da por
bueno y se interpreta. Ejemplo conductor nobel y velocidad sin tener en cuenta ms variables. Tambin podra
ser que hubiera relacin entre otras variables, entonces el modelo tendra que proponer ms interacciones.
Tendra que decidir entre uno y otro modelo.

2- Generalmente en psicologa es ms exploratorio, no tengo muy claro lo que ocurre y voy probando.

Herramientas (tcticas) para elegir entre diferentes modelos

Parmetros estandarizados

Comparacin de modelos

Prueba de los efectos de orden k y asociacin parcial

Residuales

Stepwise: Resume en parte todos los dems

Parmetros estandarizados

Comenzar ajustando el modelo saturado

Los residuos estandarizados menores a |1.96| indican que ese parmetro puede ser eliminado del
modelo

Se distribuyen de acuerdo a la curva normal. Comparar su valor con +-1,96, los que estn por abajo y por arriba se
consideran valores estadsticamente significativo.

A partir del modelo saturado pedirle al programa que nos de los parmetros para los efectos, los que no
podramos eliminarlos, no aportan informacin estadsticamente significativa. Teniendo en cuenta siempre que
estamos en modelos JERRQUICOS, lo que est en interaccin ms alta tiene que estar por abajo representado.

Comparacin de Modelos

Es posible comparar dos modelos restando sus respectivos valores de G2 y comprobando si la diferencia
es o no significativa. El nico requisito necesario es que todos los trminos de uno de ellos estn incluidos en el
otro, es decir, que uno de los modelos sea un subconjunto del otro.

24
El modelo que tiene ms efectos hay que tenerlo presente, sino perderamos informacin. Que el que tenga ms
trminos tenga incluidos a los ms pequeos (que estn anidados).

Propiedades:

1. Para hacer la comparacin de modelos nos basamos en el estadstico de Razn de Verosimilitud, que dice
que la misma del modelo ms simple siempre ser mayor o igual que la del modelo ms complejo. Esta
razn va decreciendo a medida que aumentamos trminos en el modelo. El extremo sera el modelo
saturado, donde G2 sera 0. Para que esta propiedad se cumpla tienen que ser modelos anidados.
2. El modelo ms simple puede descomponerse entre las razones de verosimilitud de los modelos sucesivos.
Se compara con chi2, y si da estadsticamente significativo es que ese trmino de ms que hemos incluido
s es importante (rechazar H0)
a. G2(c-d) = G2(c) G2(d)
b. Para saber si merece la pena quedarnos con el tercer trmino, si es que ajustasen varios modelos.

Prueba de los efectos de orden K y asociacin parcial

Prueba de los efectos de orden K

Probar que los efectos de un determinado orden o inferior son estadsticamente significativas o probar
exclusivamente que los efectos de un determinado orden son significativos.

Prueba global, Omnibus, nos dice si en conjunto x ej las interacciones son o no estadsticamente significativas,
pero no una por una, no sabemos cul. Para esto asociacin parcial que compara una por una, AB-AC-BC.

Prueba de asociacin parcial

Nos dan informacin sobre la significacin de los efectos individuales.

25/09/13

Residuales

Si se estandarizan aquellos con un valor mayor a |1.96| indican diferencias estadsticamente significativas
entre la frecuencia observada y esperada de esa celda, es decir que esa casilla no ajusta a los datos. Si
encontramos varias celdas con residuales significativos quizs podramos replantearnos el modelo y probar otro
alternativo.

Cuando un modelo ajusta muy bien los residuales son similares a 0. Si tenemos muchas celdas con residuales muy
altos, aunque el modelo general ajuste, habra que plantearse tomar otro modelo. No mirar solo el ajuste global
del modelo.

Stepwise

Se trata de tomar el modelo saturado como punto de partida, y a partir de l se van eliminando los
trminos que no satisfacen el criterio de permanencia en el modelo. El procedimiento se basa en la significacin
de la asociacin parcial al ir aadiendo o suprimiendo un parmetro, analizando el ajuste de los modelos
resultantes

Procedimientos estadsticos son aquellos que el programa va quitando por significacin estadstica. Utilizando las
pruebas de asociacin parcial, utilizando trmino a trmino, de una clase generadora ir quitando trminos. Si el

25
trmino es significativo el trmino no puede quitarse. Forma ms comn de trabajar. Enfoque ms exploratorio
de todos.

Estimacin de Parmetros
Solo tiene sentido cuando tenemos ya un modelo ajustado elegido. El SPSS no lo hace del modelo final, solo
del saturado.

Las estimaciones de los parmetros son funcin directa de los logaritmos de las frecuencias esperadas.

Se calculan a partir de los log. De las frecuencias esperadas, de las celdas de las tablas de
contingencia y de los marginales. En tablas de 2x2 procedimientos substractivos, en mayores
interactivos.

Para tablas de tres o ms dimensiones esta estimacin se realiza por procedimientos iterativos.

La suma de las estimaciones de los parmetros correspondientes a los diferentes niveles de una variable
debe valer 0.

La suma de las estimaciones para una determinada variable tiene que valer 0.

Interpretacin
No hay unas normas fijas. Ir analizando los diferentes trminos. Cuando hay un modelo con interacciones,
la que se interpreta es la interaccin ms alta, ya que las siguientes estn condicionadas por la superior. Con
interacciones de segundo orden podra hacer tablas de contingencia de 2x2 para entender mejor dnde se
produce ms incidencia. Con variables de tercer orden es ms complicado

Para realizar la interpretacin hay que tener ajustado el modelo e ir analizando lo que implican los
trminos que permanecen en l.

Hay que tener en cuenta que al igual que en el AVAR se interpreta siempre la interaccin de ms alto
orden.

Ejemplo Tomado de Field (2013)

Relacin entre asistencia o no a clase de prcticas, ver o no Facebook y aprobar o no la asignatura. Relacin entre
variables. Procedimiento log-lineal en SPSS, modelo razonado de 3 variables.

Cruzar todas las variables entre s en una tabla de contingencia.


- Filas/Columnas y Niveles para una tercera variable en tabla- Cruza los niveles con filas y
columnas.
Comprobar frecuencias esperadas y observadas y celdas vacas.
Las frecuencias esperadas no son muy bajas. No habr problemas de prdida de potencia estadstica.
El programa empieza a trabajar sobre un modelo saturado, y nos da la tabla 2, que nos da residuales 0
(modelo saturado). Se puede desmarcar la casilla de +0,5 si sabemos que no vamos a tener problemas de
contingencia; sale por defecto.
Comprobar ajuste del modelo, tabla 3. El valor es 0 ajusta de manera perfecta-. No hay diferencia entre
lo esperado y lo observado. Modelo saturado.

26
Tablas 4,5 y 6 empieza a dar parmetros para escoger otro modelo ms simplificado.
Pruebas de orden K y superior, tabla 4. Comprobar si los efectos de un determinado orden y superiores a
l son significativos. La segunda parte de esta tabla si los efectos de un determinado orden y solo ellos
son significativos, prueba mnibus. La conclusin ha de ser la misma.
- 1 (efectos principales). Significativo, merece la pena introducir el siguiente. Si este no da
significativo nos dice que todo lo que est por encima de mu no aporta nada.
- 2 o +. Estadsticamente significativo.
- 3 o +. Como no hay ms de tres aqu miraramos solo 3. No es estadsticamente significativo,
p<0.05. En principio parece descartable del modelo. Los estadsticos coinciden en la primera y
segunda parte respecto al 3, ya que es el mayor factor del modelo.
La tabla de asociaciones parciales mira elemento a elemento. Plantea la interaccin entre asistir o no a
clase y Facebook, y plantea si esa interaccin es significativa. Si lo es, no podemos eliminar este trmino
del modelo.
- Aqu sale que las tres interacciones de segundo orden son estadsticamente significativas. Y
adems lo son los efectos principales en s mismos.
Estimacin de parmetros del modelo saturado. El valor del parmetro para cada uno de los trminos,
esto se transforma en una z de acuerdo a la curva normal, y esto lo transforma en significacin.
- La de tercer orden no es sign. Y todas las de segundo s. Parece que el parmetro de mirar
Facebook no es sig. Aunque tiene que estar porque se incluye en un modelo superior.
Procedimiento Stepwise, tabla resumen de los pasos, informacin de los diferentes pasos hasta parar el
modelo.
- Paso 0: Clase generadora de tercer orden, que pasa si se quita. P>0,05, el modelo sigue ajustando,
podemos prescindir de ese trmino.
- Paso 1: Modelo interacciones segundo orden, si quito alguna de esas interacciones, la prdida es
estadsticamente significativa? Ninguno de estos trminos pueden ser eliminados
- Modelo ajustado y definido, los trminos de primer orden necesariamente van a tener que
entrar.
- El ajuste del modelo es de P=210. Con las tres interacciones de segundo orden.
Frecuencia y residuos de casillas. Que ajuste el modelo estadsticamente no significa que sea perfecto. Si
vemos los residuales, ya no son 0.
- Columnas de residuos tpicos, son z en la curva normal. Alarma cuando ms o menos 1,96.
Indicar que son residuos demasiado grandes para no tenerlos en cuenta. Tendramos que buscar
otro modelo que ajuste mejor. Si pasa en pocas celdas no pasa nada.
La chi2 es el estadstico de ajuste global del modelo. Pearson es lo que nosotros llamamos chi2.
Hay relacin entre ver Facebook y la nota, pero no tiene que ver con asistir a clase.
Dentro de la gente que va ms del 50% a clase, el 80% aprueban y el 20% suspende. Informacin
cualitativa de la relacin.
- Odds ratio, estimacin de riesgo, tabla 2x2. Relacin positiva entre ir a clase y la proporcin de
aprobar es de 7,20 a 1.
42% aprueba vs 57% suspende de los que miran Facebook. 80% aprueba de los que no miran Facebook.
- Odds ratio, 1/X, cunto es mayor la probabilidad de suspender para los que aprueban Facebook.
1/0,18 = 5,29 veces ms probable suspender si miras Facebook en las prcticas.

27
28
29
30
TEMA 3.A: EL MODELO DE REGRESIN LINEAL
Pensado para variables cuantitativas, escala de intervalo. Centrada en la relacin lineal entre variables.

Correlacin: +-1. Covarianza tipificada.

Covarianza: Sin relacin mximos ni mnimos. 0 no hay relacin.

Regresin: Se basa en la correlacin. Estos modelos sirven para hacer pronsticos de cosas. Basadas en relaciones
lineales, ya no hay variables simtricas.

Variable Dependiente o criterio. Y


Variables Predictoras o Independientes. X

Modelo de regresin lineal mltiple: predecimos una variable a partir de muchas. Un caso particular es la
regresin lineal simple, solo una X e Y.

Puedo representarlas como un diagrama de dispersin, cuanto ms inteligencia ms rendimiento, relacin directa
regresin simple-.

Con ms X tenemos dos dimensiones, bidimensional.

Covarianza Correlacin = relacin lineal no direccional rXY = rYX

Regresin = realizar predicciones sobre una variable a partir de otra(s). Relacin direccional.

Variable a predecir (Y) = Variable dependiente o criterio.

Variables que sirven para predecir (X) = Variables independientes o predictoras.

Modelo general = Regresin mltiple.

Modelo ms simple = Regresin simple.

Regresin Lineal Simple

6
5
Rendimiento

4
3
2
1
A 0
-1
-2

Inteligencia
Modelo de regresin: Y=A+BX

A. Coeficiente de regresin o peso, ligado a las variables independientes. Ordenada en el origen, en qu


punto la recta corta al eje que representa la variable dependiente.

31
B. Pendiente de la recta, inclinacin. Relacin directa. Adems las B se representan como tasa de cambio.
Cuando yo paso de una puntuacin a otra en Y, qu cambio se produce en la Y. Tasa de cambio por
unidad de Y. El cambio en horizontal cunto cambio produce en vertical.

Y La pronosticada

Error de prediccin/error de pronstico/residuales: la diferencia entre la realidad y lo que dice el modelo:

e = Y Y

Criterios de mnimos cuadrados para dibujar la recta en la nube de puntos, busco la recta que haga que esos
errores, sumados para todos los sujetos, sean los mnimos posibles. En cuadrado porque algunos son por exceso y
otros por defecto, por lo que la suma sera 0. Pero al cuadrado son todos positivos.

Regresin Lineal Mltiple

Y = A + B1X1 + B2X2++BKXK

Clculo de los Coeficientes: Algoritmo Matricial

Coeficientes en puntuaciones directas:

Y ' A B1 X 1 B2 X 2 ...... Bk X k

B X ' X X 'Y
1


B eselvector de pesosestimados
X eslamatrizde puntuacionesdirectasenlas variables predictoras
conuna primeracolumnadeunos

Y vector de puntuacionesenelcriterio

32
Coeficientes en puntuaciones diferenciales:

y ' a b1 x1 b2 x2 ...... bk x k

b Cxx1Cxy

b eselvector de pesosestimados
Cxx1 Inversadelamatrizde varianzas covarianzas entrelas variables predictoras

Cxy vector de covarianzasentre variables predictoras yelcriterio

Coeficientes en puntuaciones tpicas:

zy ' 1 zx1 2 zx2 ...... k zx k



Rxx1 Rxy

eselvector de pesosestimados
Rxx1 Inversadelamatrizdecorrelaciones entrelas variables predictoras

Rxy vector decorrelacinesentre variables predictoras yelcriterio

lgebra lineal y lgebra matricial. Algoritmos matriciales para ecuaciones de regresin.

La A va en la unidad de la Y, las B estn en la unidad de las X.

X: Puntuacin directa

x: Puntuacin diferencial X-mediaX

Z: Puntuacin tpica, Diferencial / desviacin tpica

Ver la importancia de las variables,

B: Mantenidas el resto de las variables constantes, el valor de B es el que determina el valor de Y.

Si los valores estn en escalas distintas no son comparables, nuestra escala de referencia son las puntuaciones
tpicas. Cuando queramos hacer la comparacin relativas de las variables se comparan los coeficientes Beta, no
las B.

Valoracin del Modelo

5
ERRORES (Y)

4
Y
3

2 Y
Y
1 Y Y

0
0 2 4 6 8 10 12 14
TIEMPO (X)
33
S2Y Varianza de la Variable criterio

S2Y Varianza de los Pronsticos o Varianza explicada

S2E o S2yx Varianza de los errores o varianza no explicada

Los errores pueden seguir siendo grandes aunque sean los ms pequeos posibles. Valoracin del modelo, la foto
es buena? Comparar un modelo base con nuestro modelo, y comparar si nuestro modelo es mejor o peor.

Variacin total de la variable, la media entre la puntuacin del sujeto y la media del grupo.

Variacin explicada: tras introducir el modelo de regresin

Variacin no explicada: el error que an queda tras introducir el modelo de regresin.

La varianza de la variable dependiente se descompone en la varianza de los pronsticos ms la varianza de los


errores (lo que el modelo de regresin no consigue explicar)

Si el modelo fuera perfecto la varianza explicada coincidira con la varianza total. Recta perfecta por todos los
puntos.

Coeficiente de determinacin: Para verlo hacemos una relacin de cocientes. Qu proporcin de varianza explica
el modelo de regresin de la varianza que quiero explicar. Viene dado por la correlacin mltiple al cuadrado.
Manera en la que empricamente se calcula el ajuste.

Coeficiente de Determinacin Ajustado

n 11 RYY
2
' p1 RYY
2
'
RYY ' 1
2
RYY '
2

n p 1 n p 1

p es el nmero de variables independientes


n es el tamao de la muestra

34
Correlacin mltiple: Extensin de Pearson. Una variable con un conjunto de variables tomadas todas a la vez.
Combinacin lineal de variables para poder tomarlas conjuntamente, eso es lo mismo que la ecuacin de
regresin, sera R2y,y = R2y,x1x2x3.

R2 -> Varianza explicada. Estimador sesgado positivo: Tiende a sobreestimar la proporcin de varianza explicada.

Coeficiente de determinacin insesgado: Corregirlo en funcin del tamao de muestra n de variables; valor igual
o ms bajo que el coeficiente de determinacin.

Comprobar si la varianza explicada por el modelo es significativamente mayor que la explicada por el error. SI es
significativa el modelo ajusta bien.

En qu medida ajusta el modelo. Cunto aade de nuevo esa variable al modelo. Cuadrado de la Correlacin
Semiparcial, proporcin de varianza con la que esa variable contribuye a explicar el modelo. Funciona parecido a
tipificar, tambin nos da qu variable es ms importante para ajustar el modelo.

Correlacin Semiparcial: Correlacin de x e y eliminando el efecto de z solo sobre una de ellas. Vx(y.z)
Correlacin parcial, cmo correlacionan x e y quitando el efecto de la variable z. Vxy.z

Otro procedimiento:

Ejemplo

Rendimiento en matemticas a partir del rendimiento en otras reas curriculares.

Partimos de un modelo lineal, tiene que haber relaciones, sino no podemos pronosticar.

Vemos que las correlaciones son al menos moderadas en un primer anlisis.

El SPSS primero nos mira la valoracin del modelo y luego nos da datos del mismo.

Tabla: Resumen del modelo. Informacin sobre el ajuste. Las puntuaciones, tomadas conjuntamente, es de 0,72,
que elevado al cuadrado es el coeficiente de determinacin, proporcin de varianza de las puntuaciones en
matemticas que consigue explicar, 56%.

R cuadrado corregida, insesgada, 0,55. Algo ms baja que la anterior.

Comprobar ajuste a partir de anlisis de varianza. Regresin suficientemente grande respecto al residual F

Est. Significativo. Hay ajuste del modelo.


En el conjunto del modelo, las variables consiguen explicar algo de la variable que queremos explicar. De
forma conjunta, no nos habla de las variables particulares. Prueba mnibus, global.

35
Estimaciones de los coeficientes. Primera parte de la tabla B ligadas a cada una de las variables, constante A. Error
tpico y B pasadas a Beta. EN puntuaciones tpicas B0 = 0. La constante desaparece del modelo, la casilla aparece
vaca.

Ms importante la puntuacin en lectura. En este caso podramos verlo tambin en puntuaciones de B.


Los pesos se valoran en puntuaciones absolutas, el signo nos dice solo hacia dnde se inclina la recta.
Las puntuaciones en sociales no son significativas
T. estadstico de contraste, H0 que el peso B=0, la variable no tiene importancia, nos interesa rechazar H0,
p<0,05.
Correlacin X e Y eliminando el efecto de las dems. Correlaciones.

36
Sesgos en el Modelo

Outliers: Problemas en regresin. Estimacin de los coeficientes sesgada. Aunque el modelo de forma general sea
ajustada.

- El 95% de los residuales estandarizados deberan estar entre 2.

- El 99% de los residuales estandarizados deberan estar entre 2.5.

- Cualquier caso con un valor superior a |3| es un serio candidato a ser un outlier.

Casos influyentes: Grupo de sujetos no representativos de lo que puede ocurrir, pero aparecen con ms
frecuencia de lo que tendra que ocurrir en una muestra estndar; sin ser extremos. Estn influyendo en exceso?

El estadstico ms clsico es la distancia de Cook. Beta con el caso dentro y sin l. Si distancia >1
problemas.

Norma general: Si tienes un outlier pero la distancia de Cook es menor a 1, no pasa nada desde el pto de vista
estadstico.

SPSS. Qu casos tienen un residual con valor absoluto >3. Diagnsticos por caso. Te da el outlier. Miras los
estadsticos sobre residuos, residuales tipificados +-3. Valor de Cook, no problemas de valores influyentes, lmite
en 1.

El SPSS cambia la base de datos, sujeto 21 el outlier, en amarillo.

Contraste: 2-raiz-(p+1/n)

Stevens (2002):

Si un punto es un outlier en Y, pero su distancia de Cook es menor a 1 no hay necesidad real de eliminar ese
punto ya que no tiene gran efecto sobre el anlisis de regresin. Sin embargo, a pesar de todo uno podra aun
estar interesado en estudiar ese valor para tratar de entender porque no ajusta al modelo.

37
Supuestos del Modelo
Linealidad
No colinealidad
Independencia
Normalidad: Ms importante cuanto ms pequea es la muestra, como homoscedascidiad. Al menos 10
casos por variable independiente. Importante para intervalos de confianza. El resto de supuestos es ms
para que los valores sean insesgados.
Homoscedasticidad

38
Linealidad
Grficos de dispersin y Grficos de dispersin parcial (regresin parcial).

Para intentar controlar el efecto de terceras variables se utilizan grficos de dispersin parcial.

Eje Y, residuos del modelo en que pronostico matemticas a partir de escritura, cc.sociales y cc.naturales.
Eje X, residuos modelo de regresin de lectura a partir de las variables independientes, escritura,
ccsociales y ccnaturales.
Miramos la correlacin de la lectura y escritura. Relacin entre lectura y matemticas eliminando el
efecto de escritura, ccsociales y ccnaturales. Si se cumple nube alargada y estrecha.

Sociales ms dbil que las dems. Aunque parecen cumplir todas el supuesto de linealidad.

Colinealidad
Un posible indicio de problema de colinealidad puede ser que la F que pone a prueba la hiptesis global
de no relacin (R2 = 0) sea estadsticamente significativa y sin embargo ninguno de los coeficientes de
regresin lo sea.

39
El nivel de tolerancia de una variable independiente Xj se obtiene restando a 1 el valor de la R2 de esa
variable con el resto de variables independientes del modelo (T = 1 R2XJ,X1,X2..,Xp). Flucta entre 0 y 1.
Suele asumirse que los problemas asociados a la presencia de colinealidad empiezan con tolerancias
inferiores a 0.10.

El FIV (Factor de Influencia de la Varianza) de una VI es el inverso de su nivel de tolerancia, (1/ 1


R2XJ,X1,X2..,Xp). Valores mayores de 10 suelen ir acompaados de los problemas de estimacin asociados a un
exceso de colinealidad.

Cuando una variable puede expresarse de manera perfecta en funcin de otra variable u otras variables. La
variable nota total es una combinacin perfecta de la ponderacin de las parciales. Cuando esto ocurre el modelo
no lo permite.

Cuando hay colinealidad perfecta el determinante = 0. Informacin redundante. Muy rara, se plantea si es tan alta
para que pueda dar problemas de estimacin de parmetros.

SI el modelo ajusta y ninguna variable significativa puede indicar problema de colinealidad.

Tolerancia y factor de inflacin de la varianza. Correlacin mltiple entre la variable de estudio y el resto de las VI
tomadas independientemente y restarlo de 1. Si la correlacin multiple es muy alta dice que esa variable depende
mucho de las otras, problema de colinealidad. Lmite aceptable 0-10.

Factor de influencia de la varianza. Inverso del nivel de tolerancia. Lmite 10.

Tolerancia 0,448, lejos del lmite. El valor ms alto de la inflacin 2,23, tambin lejos. No hay problema de
colinealidad. Sin embargo s hay colinealidad, s hay correlacin de las variables entre s, pero no son tan altas
como para dar problemas.

Independencia
Los errores que cometemos no siguen ningn tipo de tendencia, son idependientes unos de otros. Errores
autocorrelacionados, frecuentes en estudios longitudinales. Da coeficientes inestables.

Durbin-Watson: Trabaja con el error en un sujeto y en el sujeto anterior. Entre 0-4; ausencia de
correlacin 2. Si es menor a 2 es correlacin positiva y si es mayor es correlacin negativa. Ideal entre 1,5
y 2,5.

40
Este estadstico toma valores entre 0 y 4:

- los valores en torno a 2 indican que los residuos son independientes;


- los valores menores que 2 indican autocorrelacin positiva
- los mayores a 2 autocorrelacin negativa.
- Suele asumirse que los errores son independientes cuando el estadstico DW est entre 1.5 y 2.5

Valor 2,178

Normalidad
Se refiere a los residuos. Si las variables tienen distribucin normal multivariada los residuos se
distribuirn en la curva de la normal. Estamos comprobando la normalidad multivariada a posteriori.

La H0 es que el modelo ajusta, distribucin normal.


P=0,20. Aceptamos H0, normalidad.
Shapiro-Wilk para muestras pequeas, menos 50. Sino Kolmogrov-Smirnov

Homoscedasticidad
Los errores tienen la misma varianza para todos los valores de las variables X. Para cada valor de X
tendramos una curva normal.

X: Valor pronosticado en z
Y: Residuo tipificado

41
Si esto se cumple, todos los puntos entorno al valor 0, ms o mismo con la misma anchura, en un grfico de
dispersin.

Nube de puntos: se percibe un cierto aumento de la variabilidad a medida que aumentan las puntuaciones.
Homoscedasticidad en entredicho.

Mnimos cuadrados ponderados: Introduce un peso que hace referencia a la varianza.

Mtodos de Regresin
Las variables del modelo suelen elegirse por razones tericas.

Procedimiento Jerrquico o por bloques: Modelo basado en la teora


- Variables importante de inteligencia y rendimiento
- Introducir otras variables de manera ms exploratoria. Aqu puedes mezclar otros
procedimientos.

Mtodo directo (Enter):


- Modelo para pronosticar las notas de matemticas con las notas de otras asignaturas. Ms de
tipo confirmatorio. No te planteas quitar ninguna.

Paso a paso (Stepwise): Procedimientos ms estadsticos, el modelo final se construye slo por criterios
estadsticos. Va paso a paso introduciendo variables, no todas a la vez. Para que una variable entre en el
modelo utiliza una correlacin parcial ms alta con el modelo dependiente, siempre que sea
estadsticamente significativa. SPSS nivel sig. 5%. Si tengo que sacar una variable del modelo pero en este
caso p = 0,10; ms difcil que salga. Tiene que cumplirse adems que el nivel de la varianza est en unos
lmites razonables. 1. Correlacin 2. Supuesto de tolerancia
- Fordward: No hay ninguna variable, se introducen una a una.
- Stepwise: Mezcla de los otros dos, parte del Fordward, pero a diferencia del mismo cuando entra
una variable y luego entra la segunda, se comprueba si ahora podra quitar la primera y el modelo
sigue ajustando, hasta que no se pueden poner ni quitar ms.
- Backward: Se introducen todas las variables y de ah va quitando variables con el criterio de
significacin al 10%.

El Stepwise es el ms popular. Criterios puramente estadsticos, crtica. Variables muy importantes puede dejarlas
fuera. Puede no ser interpretable desde el punto de vista sustantivo.

42
-FALTA-

43
44
TEMA 3.B.: REGRESIN LOGSTICA BINARIA
La regresin logstica es un tipo de regresin en el que la variable dependiente es categrica y los
predictores pueden ser categricos (dicotmicos) o cuantitativos.

En su forma ms simple esto significa que podemos predecir a cul de dos categoras una persona es
probable que pertenezca conocida cierta informacin.

Si tratamos de predecir una variable con dos categoras tendremos una regresin logstica binaria (la que
aqu vamos a ver) y si la VD tiene ms de dos categoras tendremos una regresin logstica multinomial.

08/10/13 REVISAR TEMA-

Por qu no podemos usar la expresin Con datos categricos?

Variable categrica, solo dos valores S/No.

Pueden ser variables categricas (slo dicotmicas), cuantitativas o una mezcla de ambas.

No podemos usar la expresin bsica del modelo con datos categricos porque no se da linealidad. Puede
utilizarse haciendo la transformacin necesaria de los datos. Necesitamos un formato ms lineal, la regresin
logstica linealiza ese modelo.

Una manera de evitar este problema es sometiendo los datos a una transformacin logartmica

La regresin logstica se basa en el siguiente principio: Expresa la ecuacin de regresin en trminos de logaritmos
de probabilidades de Y (lo que llamamos Logit) y de este modo vence el problema de violar la asuncin de
linealidad.

Ecuacin de la Regresin Logstica:

45
Pasar la ecuacin a logaritmos de las probabilidades. Ecuacin de la regresin logstica, curva en forma de
S. Expresa las probabilidades de un determinado suceso en funcin de unas variables de tipo cuantitativo.
Probabilidad de xito considerada en trminos genricos.

Trmino de Odds, probabilidad de suceso/contrario. Expresin logartmica creciente. Odds de tener la


cardiopata.

El logaritmo de la Odds es la expresin lineal. Un log-it, xito frente a no xito, esto se puede representar de
acuerdo al modelo lineal que conocemos. Logaritmo neperiano de las ODDS. Para trabajar sobre el modelo lineal.

La regresin logstica binaria sirve para la probabilidad de una variable dicotmica en funcin de variables
categricas o cuantitativas.

Tantas variables nuevas como categoras que tenga la variable original menos 1. Si tenemos una variable con 3
niveles, tenemos que crear 2 variables nuevas.

Ej.: Nivel socioeconmico: Alto-Medio-Bajo


La primera variable que creamos, valor 1 a la primera categora de la variable original, y 0 a las dems.
Sera una nueva variable dicotmica.
La segunda variable 1 al segundo nivel de la variable original y 0 a los dems.
La caracterizacin del nivel alto ser 0-0

46
Dar valores a los coeficientes de regresin, nos quedaremos con los que ms probables hagan los valores
empricos de nuestro estudio. Proceso iterativo.

La probabilidad conjunta de unos sucesos independientes son el producto de sus probabilidades. Verosimilitud
para los coeficientes.

ndice de riesgo realmente. Pero slo de una variable dicotmica en la de riesgo, aqu puede haber varias.

Transformacin de las Variables Categricas en Dicotmicas

Estimacin de Parmetros

A diferencia de la regresin lineal los coeficientes B no se estiman por Mnimos Cuadrados sino por Mxima
Verosimilitud.

El mtodo de Mxima Verosimilitud consiste, en buscar estimaciones de los coeficientes de regresin que hacen
que los valores observados sean los ms probables, es decir, se buscan valores que maximicen la probabilidad
(verosimilitud) de los valores observados en nuestra muestra

Por ejemplo, supongamos que tres sujetos tienen en el criterio puntuaciones de 1, 1 y 0 y que, estimando unos
determinados valores para los pesos de las variables predictoras, las probabilidades pronosticadas a cada sujeto
de obtener 1 en el criterio son 0.9, 0.8 y 0.2. La verosimilitud (L) es la probabilidad que asigna el modelo a los
datos obtenidos. As pues :

L = P (Y1=1) * P (Y2=1) * P(Y3=0) = (0.9) (0.8) (1 - 0.2) = 0.576

Cuanto mayor sea la verosimilitud (L), ms se ajusta el modelo (parmetros estimados) a los datos observados,
as, el ordenador utiliza un procedimiento iterativo que finaliza cuando logra la mxima verosimilitud

Interpretacin de los Coeficientes


Estadstico de Wald

Puede producir aumento del error Tipo II.

Odds Ratio: eB

Incremento en las odds de xito cuando se aumenta una unidad en un VI.

Ejemplo:

47
Trato de pronosticar una variable dicotmica.

Similar al output de una regresin mltiple. Parece que el sexo tiene mayor capacidad predictiva. A partir del
valor tpico se calcula la Z.

Las dos variables que tenemos parece que son estadsticamente significativas.

Exp (B) ODDS. Para sujetos con un mismo nivel de escrupulosisdad la mejora de tener xito en la terapia segn
seas hombre o mujer se multiplican x 9,191. Ser mujer parece que tiene muchas ms probabildiades de xito,
para un mismo nivel de escrupulosidad!

Dentro de ser hombre o mujer, el hecho de aumentar un punto en escrupulosidad aumenta la probabilidad de
xito.

Factor sexo, diferencial claro respecto al funcionamiento de la terapia.

El punto neutro de las OODS es 1, NO 0. Igual probabilidad de tener xito como de no tenerlo. Si est por encima
de 1, mayor probabilidad de tenerlo al aumentar en esa variable, si es inferior a 1, menor probabilidad de tenerlo
cuanto ms aumenta esa variable, relacin inversa.

Significacin estadstica no a travs de una p sino a travs del intervalo de confianza. Valores distintos de 0.

Construir una tabla de clasificacin: Para criterio.

Funcionar bien el modelo cuando el porcentaje de bien clasificados sea alto, es un mtodo de ajuste.

Cuando buscamos ajuste buscamos aceptar la H0, contrario que normalmente.

48
Evaluacin del Modelo

09/10/13

ndices similares a R2, que nos dan la varianza explicada.

Para el ajuste nos fijamos en las tablas de clasificacin.

Respecto a la regresin mltiple, cambian los criterios que se utilizan para realizar los modelos.

Estadstico score: correlacin entre la VI y la VD, un chi2. Si es estadsticamente significativo esa variable
puede entrar
Para decidir si una variable puede salir o no, una vez dentro del modelo:
- Estadstico de Wald: Estadstico sesgado, valor alto de coeficiente B hace que se infle su error
tpico, podramos estar dando por significativo algo que en realidad no lo es.
- Bondad de ajuste: La compara entre dos modelos, con o sin la variable. Si la razn de
verosimilitud de la diferencia es estadsticamente significativa o no.

49
Procedimientos de ajuste del modelo:

Devianza: Logaritmo de la verosimilitud.


Tambin sirve para comparar modelos. Si la razn de verosimilitud entre dos modelos es significativa, la
variable aporta informacin, no podemos quitarla. Para poder quitarla ha de ser no significativa.

Construccin del Modelo

Introducir (Enter): Se incluyen todas las variables en la ecuacin de regresin.

Adelante (Forward-Stepwise) : Se van incluyendo una a una las variables siempre que cumplan un
determinado criterio. Cada vez que se incluye una nueva variable vuelve a cuestionarse la permanencia
de las anteriores.

Atrs (Backward-Stepwise) : Comienza con un modelo que contiene todas las variables y va eliminando
una a una todas las que no cumplan un determinado criterio. Cada vez que se elimina una variable se
vuelve a cuestionar la inclusin en la ecuacin de las eliminadas anteriormente.

Como criterio para incluir una variable en la ecuacin se utiliza la significacin estadstica de su correlacin con el
criterio, que viene dada por el estadstico score (puntuacin)

Como criterios de permanencia de una variable en la ecuacin pueden utilizarse dos :

La significacin estadstica de W (estadstico de Wald)


El cambio en la bondad de ajuste del modelo ( RV o Condicional)

Ejemplo Stepwise
1. xito en la terapia.
1. Mujer 0. Hombre

Modelo base: solo tiene la constante, no VI. 0.66 %

50
Peso para la constante significativo. No hace falta fijarse.

Variable sexo: Estadstico score de 100. Significativo


V. Escrupulosidad: Score 28,6. Significativo

La primera que entra es, dentro de las significativas, la variable con mayor puntuacin. En este caso sexo

Despus nos da una prueba mnibus de ajuste del modelo.

Paso 1
- Escaln: Comparacin del modelo base con el modelo con una variable independiente (sexo).
Ganancia que tenemos y si es significativo.
Paso 2
- El modelo sigue siendo la comparacin del modelo (ahora con dos variables) con el modelo base.
- Escaln/Paso: Diferencia entre este modelo y el del paso 1.
- Para que este pseudopaso se de, tiene que ser signigicativa la ganancia. Paso 2. Escaln.
Sig.

51
Cox y Snell. No llega a 1. Negelkerke variacin del anterior, llega a 1, mejor interpretacin.

Proporcin de varianza explicable con 1 variable de 0,305. Bastante buena. La otra aporta matizaciones.

Ajuste global del modelo con Hosmer. Buscamos p>0,05. H0 el modelo ajusta.

75,2% de los sujetos explicados slo con la variable sexo. Este es el global. Cuando metemos tambin la
escrupulosisdad tenemos un 75,7%, no conseguimos mucha mejora. 66,7% el modelo base.

Donde hay ms cambio al meter la segunda variable es en los porcentajes intermedios, no en los globales. Segn
lo que estemos buscando igual es ms interesante meter o no esa variable. Sujetos que la terapia no funciona
acertamos en el 77,3% cuando pronosticamos que no va a funcionar, si metemos la segunda variable acertamos
en un 59,6%.

Construccin del modelo en los dos pasos. Una vez visto que el modelo ajusta. Los coeficientes cambian cuando
metemos ms variables en un modelo. Cuando estamos en el modelo con solo el sexo, las ODDS son 9,746,
mientras que cuando aadimos la segunda son 9,191. Variable que desde el punto de vista estadstico se podra
eliminar del modelo.

Modelo si el trmino se ha eliminado. Si quito sexo nos da unos valores, que son estadsticamente significativos,
no puedo quitar la variable. En el segundo paso mira las dos variables; prdida estadsticamente significativa
tanto de sexo como de escrpulosidad.

52
Algunas situaciones problemticas en la regresin logstica

El procedimiento de clculos de coeficientes es integrativo, hasta estabilizar los valores. Pero hay veces que el
procedimiento no converge, no encuentra valores estables. A veces el SPSS nos da valores muy inestables, con un
error muy alto.

Informacin incompleta sobre los predictores: Cuando tenemos muy pocos casos en la VI o incluso
ningn caso.
- Considerar si un sujeto se siente feliz o no en cuanto a sexo, raza Si solo tengo un caso de una
raza y coincide que es feliz, va a hacer que diga que todos los de esa raza son felices. Problemas
de convergencia e inestabilidad.
- La solucin es aumentar tamao de muestra, reducir variables o reducir categoras dentro de las
variables.

Problema de separacin total


- Tiene que ver con la ratio de categoras.
- A partir de una sola variable o una combinacin de las mismas, podemos decir exactamente a qu
grupo pertenece el sujeto.
- Separacin completa entre unos y otros, si punta ms de dos pertenece al grupo 1 x ej.
Lo normal es que se solapen
- Problema de estimacin, tratamos de construir una curva logstica. Lo que nos dan los
coeficientes es la pendiente de la curva. Cuando no hay una graduacin, el SPSS no sabe qu
pendiente ponerle. Problemas para la estimacin de los parmetros. Hace una estimacin con un
error tpico muy alto, parmetros muy inestables.
- La solucin es coger ms sujetos.

Informacin sin Power

La prueba de la regresin logstica a veces se utiliza para clasificar sujetos. Peor ms flexible que la
discriminantes. Tambin nos sirve para trabajar con ndices de riesgo.

Punto de corte arbitrario de 0,50 para meter en grupos. Si cambiamos el punto de corte la clasificacin ser
distinta. Dependiendo de lo que busques en tu investigacin puede interesarte cambiar el punto de corte.

Procedimiento para intentar cambiar el umbral:

Curvas ROC: Para tratar de determinar cmo podramos modificar. Nos permite evaluar las decisiones
que toman los sujetos en base a una V categrica. Utilizada en percepcin para distincin de seales.
Dnde est el criterio adecuado para que las decisiones que tomemos sean lo menos errneas posibles.

53
Valores predichos

Valores reales

0 1
0 A. Verdaderos Negativos. B.Falsos Positivos.
No tienen el sndrome y
decimos que son
negativos

En epidemiologa:
Especificidad (Tasa de
verdaderos negativos)
A/(A+B)
1 C.Falsos negativos. D.Verdaderos Positivos.
Errores
Sensibilidad de una
prueba: Tasa o %
D/(C+D)

Curvas ROC: En el eje Y se representa la sensibilidad y en el X 1-Especificidad (falsos positivos). Se dibuja una
diagonal que representara un modelo con solo la constante, sin ninguna capacidad predictiva. Despus para las
diferentes tasas se van calculando las probabilidades y se dibuja una curva:

Para un determinado cruce de tasas cul es la probabilidad de asignar a un sujeto al grupo 1 o al 0; la


curva es la probabilidad, mirando la curva y haciendo un punto de corte puedo saber adems la especificidad y la
sensibilidad. La V cuantitativa a partir de las que construimos es el cruce de tasas.

Hay que ver las consecencias, qu modelo es mejor? Es preferible decirle a alguien que tiene cncer que no lo
tiene o viceversa? No te lo da la estadstica. Elegir un modelo equilibrado o no segn la significacin misma, el
punto de corte.

El SPSS me da el rea bajo curva. El modelo de referencia ocupa la mitad, el total 1. Se calcula por debajo de la
curva, si es estadsticamente significativo al 0,5 que es lo que queda por debajo de la curva.

Despus de cambiar el punto de corte tienes que ver la predectibilidad total del modelo, explicacin global, que
puede perder al cambiar las parciales.

54
TEMA 4.A.: ANOVA CON FACTORES ENTRE SUJETOS
-San Milln-

Veremos si hay diferencias entre los grupos entre las medidas de grupo en una o ms variables cuantitativas.

Lgica general del ANOVA:

Modelo lineal general (MLG): El Anlisis de Varianza (ANOVA) es una familia de tcnicas de anlisis que permiten
explicar el comportamiento de una variable dependiente cuantitativa a partir de una o ms variables
independientes categricas.

A partir de comprobar esta influencia tambin podremos introducir en estos modelos, un cierto control
estadstico sobre variables extraas, introducindolas en el modelo como co-variables. Esta familia de tcnicas se
basan en una ecuacin matemtica, el modelo lineal general. En esencia lo que hace este modelo es explicar una
variable en funcin de la suma ponderada de otras variables.Habr multitud de causas que sean las que den esas
puntuaciones en las variables dependientes de los sujetos. Nosotros no podemos tener en cuenta todos esos
factores que tienen efecto en la variable de inters.

El anova en el contexto del MLG:

55
Podemos controlar previamente una variable que parece que influye nuestro modelo. Si yo presupongo que en el
estudio que estoy haciendo la variable edad est influyendo a los datos, pues entonces podemos solucionarlos
buscando a sujetos de la misma edad, hacindola as constante.

En otras ocasiones no podemos controlar la variable, como la historia personal de los sujetos. La puntuacin del
sujeto en VD depender de aquellas variables que me interesan estudiar pero tambin habr otra parte explicada
por una parte comn para todos los sujetos y una parte de error, parte que no controlamos en la que varan los
sujetos.

Si queremos pronosticar el rendimiento de los sujetos en base al nivel cultural de los padres y al nivel de CI de los
nios. Aqu habra dos VI, CI y nivel cultural. Traduciendo eso, yo tendra que la puntuacin de un sujeto en la
variable rendimiento vendr explicada por:

- Una parte comn a todos los sujetos, la media general de los sujetos en rendimiento

- Efectos que tengan el nivel cultural de los padres + efectos del CI de los nios

- Efectos que no controlamos.

Este es un esquema similar al de la regresin mltiple. De este modelo, el primer trmino hace referencia a la
constante, y en el caso de la ANOVA, hara referencia a eso que es comn a todos los sujetos. A la X se le da
valor 1 y la B0 es la media.

(0 xi0): recoge el conjunto de efectos debidos a los factores mantenidos constantes, es decir, aquellos factores
que son comunes a todos los sujetos:

- xi0 suele tomar valor 1 para todos los sujetos indicando que todos los sujetos puntan igual en los
factores que se mantienen constantes)

- 0 es, generalmente, la media poblacional (que es justamente la parte de la variable dependiente que es
comn a todos los sujetos).

El ltimo trmino es el psilon que indica el error.

56
Los coeficientes de ponderacin (pesos) indican la diferencia entre la media del grupo y la media total (la gran
media)

Nuestro modelo base sera aquel que asignara a los sujetos la media general a la variable dependiente. As,
estaramos asumiendo que todos los grupos son iguales, las variables independientes no producen efectos. En el
segundo se pronostica la media del grupo al que pertenece, estamos diciendo que los grupos son distintos entre
s (su media no es igual a la media general.

- Modelo base: media similar para todos los grupos (media global)

- Modelo 3: medidas de grupos diferentes distinta a la media global.

En el caso de los anlisis del tipo ANOVA lo que tendramos es un modelo que pronosticara a todos los sujetos la
media general en la variable dependiente y por tanto implicara que no hay diferencias entre las medias de los
diferentes grupos, frente a un modelo que pronosticara a cada sujeto la media del grupo al que pertenece, lo que
implica que las medias difieren entre los diferentes grupos.

Comprobamos si la partre de la varianza de los factores que tenemso en el modelo es realmente mayor que la
parte que no explica (el error). Esto da lugar al estadstico F. Cuando este da 1, quiere decir que la parte explicada
no es realmente mayor que la parte no explicada. Cuando da mayor que uno, quiere decir que la parte explicada
es mayor que la parte no explicada. Esto deberemos de comprobarlo con el nivel de significacin, ya que si no hay

57
La lnea horizontal muestra la media general, mientras que las puntuaciones se muestras con las lneas verticales
de colores. Muestran cuanto dista cada puntuacin de la media. Los distintos colores muestran los distintos
niveles de la variable.

El primero es el modelo base. Lo siguiente que se hace es poner la puntuacin de cada sujeto en relacin con la
media. Con el ANOVA proponemos otro modelo que afirma que hay diferencias entre los grupos, y por tanto para
pronosticar las puntuaciones lo mejor sera usar la media del grupo al que pertenece en vez de la gran media. El
grafico de arriba a la derecha representa el error. Si la varianza explicada por el modelo de abajo es mayor que el
de la derecha (el del error) la hiptesis correcta ser que nuestro nuevo modelo (las medias de cada grupo). Si la
varianza explicada de la derecha es mayor que el de abajo, nos tenemos que quedar con el modelo de la
izquierda, es decir el de la media general para todos los grupos.

LGICA BSICA DEL ANOVA


Dos estimaciones de la varianza poblacional:

Estimacin intergrupal de la varianza poblacional, se basa en la variacin entre las medias de los
grupos.

Estimacin intragrupal de la varianza poblacional, se basa en la variacin de las puntuaciones


dentro de cada uno de los grupos.

Si la hiptesis nula es verdadera, las dos estimaciones de la varianza deberan ser aproximadamente iguales y, por
tanto, la razn entre la estimacin intergrupal y la estimacin intragrupal, es decir, la F debera ser
aproximadamente 1.

Esas dos estimaciones de la varianza tienen que dar valores muy parecidos, y para ello utilizamos el estadstico F.

CLASIFICACIN DE LOS MODELOS DE ANOVA

Segn el nmero de factores: en el contexto del anlisis de varianza, factor es sinnimo de variable
independiente. Siempre que tenga dos o mas factores hablamos de anova factorial.

- ANOVA de un factor

- ANOVA de dos Factores

- ANOVA multifactorial

Segn la asignacin de las unidades de anlisis a los niveles de estudio: llamamos unidades de anlisis a los
sujetos, aquello de lo que recojamos datos. Llamamos a las condiciones de estudio a los niveles que surgen de
cruzar nuestros niveles de las variables independientes. Deberamos utilizar siempre la asignacin aleatoria.
Dentro de esta tenemos dos grandes formas, grupos o bloques aleatorios.

- Diseos de grupos aleatorios ANOVA completamente aleatorizado. Consiste en seleccionar


aleatoriamente las unidades de anlisis y a su vez asignarlas aleatoriamente a las distintas condiciones de
tratamiento. Esta es la manera ideal, pero no siempre se puede hacer de manera tan estricta.

58
- Diseos de bloques aleatorios modelo aleatorizado en bloques. Se aplica cuando sospechamos que
hay una determinada variable extraa que puede estar influyendo en los resultados del estudio. Una
posibilidad de controlar esta variable es el bloqueo. Por ejemplo, frmaco para el insomnio que funciona
de manera diferencial dependiendo de la severidad del trastorno, esto habra que controlarlo. Esto se
puede controlar realizando grupos de gravedad del trastorno (leve, moderado y grave) y distribuirlos
aleatoriamente en las condiciones de frmaco.

- Diseo intrasujetos modelo de medidas repetidas. Es un diseo particular de bloques, y es donde cada
sujeto es un bloque, cada sujeto se controla a s mismo. Cada sujeto no se asigna a un nivel tratamiento
distinto de la variable independiente sino que el sujeto pasa por todos los niveles de la variable
independiente.

Segn la forma de establecer los niveles de un factor: niveles de un factor se refiere a los grupos. Hay dos
tcticas para elegir estos factores:

- Efectos fijos: dentro de una variable independiente, elegimos unos niveles concretos de esa variable y
estos son los niveles que nos interesan. Puede ser que no tengamos mas remedio que sean determinados
previamente, por ejemplo el sexo. Pero tambin puede ser que nos interesen por lo que sea, la cantidad
del frmaco (10g, 15g, etc.). Cuando generalizo los resultados solo lo puedo hacer para estos niveles de la
variable. Si repito el anlisis los sujetos variaran pero no los niveles de esta variable. Sera el modelo tipo
1.

- Efectos aleatorios: considerar que una variable independiente tienen infinitos niveles y yo de manera
aleatoria escojo 3 o 4 de esos niveles, que podran ser esos u otros cualquiera. No es que solo me
interesen esos 3 o 4 valores, sino que me interesa la inferencia. Si replicamos los estudios los niveles de la
variable independiente seguramente sean distintos. Sera el modelo tipo 2.

SUPUESTOS

Normalidad: la variable dependiente tiene que ser cuantitativa y debe de tener una distribucin normal en cada
uno de los niveles de tratamiento.

Homocedasticidad: la varianza de la VD sea equivalente en cada uno de los niveles de la variable independiente,
equivalente en cada uno de los grupos.

Con tamaos de muestra grandes el modelo resulta, en general, robusto a violaciones no extremas de los
supuestos, especialmente con grupos equilibrados. Este modelo soporta bastante bien ciertos incumplimientos
de supuestos. Sobre todo bajo las condiciones de un tamao de muestra grande (de 30 para arriba) y que los
grupos sean del mismo tamao). Por definicin en el ANOVA, no importa el tamao de los grupos, pero desde el
punto de vista estadstico, esto es importante.

59
COMPARAR VARIOS GRUPOS EN UNA VARIABLE CUANTITATIVA:

ANOVA CON UN FACTOR ENTRE SUJETOS


Comprar varios grupos (mas de dos) con una variable dependiente cuantitativa, la variable independiente que
define grupos aleatorios. Ejemplo/ el nivel socioeconmico de los sujetos influye en la nota matemticas.?

Dado este esquema de datos, la hiptesis nula es


que la media grupo 1 = media grupo 2 = media
grupo 3. La Hiptesis alternativa es que al menos
uno difiere de los dems.

Para comprobar la hiptesis hacemos una prueba F. Los grados de libertad cambiaran dependiendo del modelo.
Las medias cuadrticas son las varianza, que es la suma de los cuadrados partidos de los grados de libertad. La F
es la parte entre, entre la parte intra. La prueba F es una prueba mnibus, una prueba global. Si rechazamos la
Hipotesis nula la conclusin es que al menos dos de los grupos difieren con respecto a la VI que estamos
considerando. No podemos ir mas all.

Siguiendo el ejemplo anterior:

60
Encontramos que en el nivel mas bajo la VI se distribuye de una forma asimtrica. Si no fijamos en la caja, la
mediana no est centrada con respecto a la caja. Por tanto aqu hay asimetra. Por tanto este nivel nos puede dar
algn tipo de problema con respecto a la normalidad. La homogeneidad puede que no sea significativa.

Pruebas de normalidad
a
status socio- Kolmogorov-Smirnov Shapiro-Wilk
econmico Estadstico gl Sig. Estadstico gl Sig.
puntuacin en bajo ,150 47 ,010 ,883 47 ,000
matemticas *
dimension2
medio ,062 95 ,200 ,977 95 ,093
*
alto ,096 58 ,200 ,967 58 ,112
a. Correccin de la significacin de Lilliefors
*. Este es un lmite inferior de la significacin verdadera.

Para comprobar lo anterior, pedimos K-S. Encontramos entonces que el nivel medio y alto aceptamos la hiptesis
nula, el modelo ajusta, mientras que nuestro nivel bajo no cumple el supuesto de normalidad. De todas formas
seguiremos adelante.

El siguiente supuesto de homogeneidad de varianzas se comprueba con la prueba de Levene. La hiptesis nula es
que las varianzas son iguales, la alternativa que las varianzas son distincas. En este caso la significacin es 0,86. y
por tanto es significativa y se cumple el supuesto.

61
Origen

Suma de Eta al cuadrado


cuadrados tipo III gl Media cuadrtica F Sig. parcial

Modelo corregido 1307,091a 2 653,546 7,968 ,000 ,075

Interseccin 506134,263 1 506134,263 6170,572 ,000 ,969

ses 1307,091 2 653,546 7,968 ,000 ,075

Error 16158,704 197 82,024

Total 571765,000 200

Total corregida 17465,795 199

Pruebas de los efectos inter-sujetos : pedimos un box-plot para cada nivel

Variable dependiente:puntuacin en matemticas

a. R cuadrado = ,075 (R cuadrado corregida = ,065)

Fecha

Si Levene no cumple estadsticamente signativa, si no se cumple el supuesto de homogeneidad de varianzas, usar:

Brown-Forsythe
WDLCH

F (SES): significativa, rechazamos H0.

La diferencia no puede deberse al azar, las diferencias de medias, pero pueden deberse a que efectivamente los
grupos son diferentes u otros factores como tamao de muestra, no nos asegura que haya un efecto importante
de la variable independiente sobre la dependiente. Para comprobar esto utilizamos pruebas de Tamao del
efecto, la ms clsica con ANOVA es eta 2 (n2), que se interpreta en trminos de proporcin de varianza
explicada:

R cuadrado = 0,075. Que sale del modelo corregido entre la proporcin de varianza total. Nos dice cunto
explican nuestras variables del modelo

Cohen propone 3 valores para valorar tamao del efecto:

0,01 pequeo
0,09 mediano
0,25 grande

Tamao del efecto mediano. Ses error cuadrado parcial (n2) 0,075

62
Comparaciones Mltiples entre Medias
Entre cules de los grupos hay diferencias

Tenemos que fijar un error con el que trabajar, generalmente 0,05, admitimos un 5% de rechazar una H0 que en
realidad es verdadera (alfa). Pero si hacemos dos comparaciones, la % de cometer errores aumenta, y cuantos
ms metamos ms aumenta, por lo que no es cierto que alfa siga siendo 0,05, la % de error TIPO I crece.

Comparaciones a Posteriore o Post-Hoc y a Priori o Planeadas

Comparaciones Post-Hoc o a Posteriori

Las Post-Hoc sirve para cuando no tengo hiptesis previas y quiero mirar sobre qu grupos hay diferencias. 18
pruebas del SPSS para hacer comparaciones a posteriori corrigiendo la tasa de error por familia, intentando
mantener 5%.

DMS: No corrige ninguna tasa de error, T de Student

Tener en cuenta para escoger:

Si los grupos son iguales de tamao o no


Si se cumple o no el supuesto de homogeneidad de varianzas

La prueba ms popular es la de Tukey, pero solo sirve para grupos equilibrados.


Si no tenemos grupos equilibrados podemos usar Scheffe, pero es una prueba conservadora, pide diferencias
muy grandes para considerar diferencias significativas. Tambin se puede usar con equilibrados.

63
Bonferroni: 0,05 entre el n de comparaciones que haces. P no sera con 0,05 sino con el resultado de la
divisin. Una T de Student corrigiendo el nivel de alfa, puede hacerse a mano. Muy popular. Sirve para grupos
no equilibrados tambin.
Sin asumir varianzas iguales Games-Howel o C de Dunnet.
El SPSS te da la opcin de fijar la tasa de error que quieres.

Comparaciones mltiples
Variable dependiente: puntuacin en matemticas

Diferencia 95% de intervalo

de de confianza
(I) status socio- (J) status socio- medias (I- Error Lmite Lmite
econmico econmico J) estndar Sig. inferior superior
Scheffe bajo medio -3,04031 1,61512 ,173 -7,0240 ,9433

alto *
-
-7,00220 1,77747 ,001 -2,6181
11,3863

medio bajo 3,04031 1,61512 ,173 -,9433 7,0240


*
alto -3,96189 1,50918 ,034 -7,6842 -,2395
*
alto bajo 7,00220 1,77747 ,001 2,6181 11,3863
*
medio 3,96189 1,50918 ,034 ,2395 7,6842
Bonferroni bajo medio -3,04031 1,61512 ,184 -6,9402 ,8595

alto *
-
-7,00220 1,77747 ,000 -2,7103
11,2941

medio bajo 3,04031 1,61512 ,184 -,8595 6,9402


*
alto -3,96189 1,50918 ,028 -7,6059 -,3178
*
alto bajo 7,00220 1,77747 ,000 2,7103 11,2941
*
medio 3,96189 1,50918 ,028 ,3178 7,6059

*. La diferencia de medias es significativa en el nivel 0.05.

En nuestro ejemplo grupos desequilibrados, Scheffe y Bomferroni:

Diferencias estadsticamente significativas entre el medio y el alto y entre el bajo y el alto. Por lo tanto el grupo
alto es el ms diferenciado. En este caso la conclusin para ambas pruebas es la misma.

El estatus socioeconmico ejerce efecto con las notas de matemticas, efecto medio-bajo. Se da entre el
grupo social alto respecto a medio o bajo.

Comparaciones mltiples entre medias: Comparaciones Planificadas o a Priori

Si se tienen ciertas hiptesis previas sobre donde deben darse las diferencias entre los grupos, en estos
casos no es necesario comparar todos los grupos con todos sino que el nmero de comparaciones a
realizar es menor.
Para elaborar estos contrastes asignamos un coeficiente a cada uno de los grupos, con la nica restriccin
de que la suma de los coeficientes de cada contraste tiene que ser cero. Cada contraste compara los
grupos al los que se asigna un coeficiente positivo con los grupos a los que se asigna un coeficiente
negativo. A los grupos no considerados en cada comparacin se les asigna el coeficiente cero.

Cuando antes de hacer el ANOVA tienes hiptesis sobre qu grupo habr diferencias. Lo normal es que no
compares todos con todos.

64
La suma de los coeficientes para un determiando contraste tiene que sumar 0. Los grupos con coeficiente positivo
se comparan con los de negativo. Si un grupo no quieres que entre en la comparacin, le asignas el coeficiente 0.

Si en nuestro ejemplo supusiramos que el rendimiento aumenta a medida que aumenta la clase social
deberamos hacer las siguientes comparaciones: cada nivel con el inmediatamente posterior.

bajo medio
medio alto
bajo medio alto

1 -1 0

0 1 -1

Tiene que haber diferencias entre grupos significativos. Comparar bajo con medio:
- 1 bajo
- -1 medio
- 0 alto
- Suma por fila = 0.
Comparar que vaya in creccendo:
- 0 bajo
- 1 medio
- -1 alto

Comparaciones mltiples
Variable dependiente: puntuacin en matemticas

Diferencia 95% de intervalo


de de confianza
(I) status socio- (J) status socio- medias (I- Error Lmite Lmite
econmico econmico J) estndar Sig. inferior superior

Scheffe bajo medio -3,04031 1,61512 ,173 -7,0240 ,9433

alto *
-
-7,00220 1,77747 ,001 -2,6181
11,3863

medio bajo 3,04031 1,61512 ,173 -,9433 7,0240


*
alto -3,96189 1,50918 ,034 -7,6842 -,2395
*
alto bajo 7,00220 1,77747 ,001 2,6181 11,3863
*
medio 3,96189 1,50918 ,034 ,2395 7,6842
Bonferroni bajo medio -3,04031 1,61512 ,184 -6,9402 ,8595

alto *
-
-7,00220 1,77747 ,000 -2,7103
11,2941

medio bajo 3,04031 1,61512 ,184 -,8595 6,9402


*
alto -3,96189 1,50918 ,028 -7,6059 -,3178
*
alto bajo 7,00220 1,77747 ,000 2,7103 11,2941
*
medio 3,96189 1,50918 ,028 ,3178 7,6059

*. La diferencia de medias es significativa en el nivel 0.05.

Dentro de este tipo de contrastes, hay unos denominados contrastes ortogonales, que son independientes unos
de los otros. Tienen que cumplirse que los productos cruzados entre los coeficientes sumen 0.

65
Primer contraste, comparo el 1 con el resto de los grupos
Segundo, comparar 1 con 3.
La suma de productos cruzados tiene que dar 0. En este caso se cumple, contrastes ortogonales

En el segundo caso la suma de productos cruzados = -1, no son trminos independientes.

Los independientes no inflan la tasa de error tipo I, no habra que corregir.

Contrastes ortogonales:

Se diferencian del resto de contrastes planeados en que cada contraste (o comparacin) es independiente
de los otros.
Para comprobar la independencia de dos contrastes basta con sumar los productos cruzados de los
coeficientes de ambos.
En caso de independencia (ortogonalidad) la suma de los productos debe ser cero.

No

Anlisis de tendencias

Un tipo de contrastes ortogonales son los contrastes polinmicos, que se utilizan para analizar las tendencias de
las medias en aquellos casos en que los niveles del factor pueden ordenarse de menor a mayor.

Con dos grupos la tendencia slo puede ser lineal


Con tres grupos lineal o cuadrtica
Con cuatro grupos lineal, cuadrtica y cbica

Contrastes polinmicos: se utilizan cuando los niveles de la VI pueden seguir una tendencia, datos cuantitativos,
pueden ponderarse. Al menos ordinal, como la dosis de un medicamento. Comparar los grupos para ver si hay
diferencias y para ver si hay una determinada tendencia. Se pueden hacer tantos contrastes como n de grupos
menos 1.

Estamos contrastando qu tipo de tendencia siguen los grupos.

Tabla de varianza, no me da valor global, sino que me da para comparar los posibles trminos que podemos
tener, en este caso lineal y cuadrtico.

66
La que nos da estadsticamente significativa es la lineal. La manera de comparar si es esta es pedirle un
diagrama donde represente las medias. Con el grfico puedes ver la tendencia casi sin necesidad de la
tabla.

Anlisis de Tendencias

Lineal

Cuadrtica

Cbica

67
Comparar grupos definidos por ms de una variable categrica en una variable cuantitativa

ANOVA Factorial
Al menos dos variables cualitativas que definen grupos. Nos van a interesar sus combinaciones.
Tendremos ms efectos, el efecto individual de cada una de las variables que estamos contemplando ms la
combinacin de ambas, estudio del efecto de interaccin.

No es l mismo un anova factorial que dos de un factor por separado. Nos da la interaccin.

EJEMPLO:

Si sexo y zona donde se vive influye en el n de horas en redes sociales. Diseos de grupos independientes,
factores entre.

Generalizacin de un factor. Dos factores independientes como fuente de variacin e interaccin entre ellos,
pasamos de uno a 3 efectos de inters.

ANOVA Factorial: La Interaccin


Una interaccin estadsticamente significativa quiere decir que el efecto de cada una de las variables
independientes implicadas sobre la variable dependiente depender del nivel de la otra u otras variables
independientes implicadas en la interaccin.

Cuando la interaccin es estadsticamente significativa es lo que se interpreta y nos olvidamos de los


efectos principales presentes en ella aunque hayan resultado estadsticamente significativos.

Similar a log-lineal, que haya interaccin entre dos factores es que una de las VI se comporta de distinta manera
dependiendo de alguno de los niveles de la otra VI.

Si la interaccin es significativa, pasamos de los efectos principales.

68
Cuando no hay interaccin, las lneas son paralelas, pudiendo haber diferencias entre los efectos principales o no.

No hay cambio de comportamiento de una variable para otra. Tampoco habr efectos, no diferencias sig.
Para b1 y b2.
Hay una diferencia entre medias globales de b1, b2; pero no hay diferencia con a.

Cuando los grficos no son paralelos, podemos esperarnos (no seguro) una interaccin significativa:

Comportamiento de b contrario dependiendo del nivel de a (X).


Diferencias de los grupos primero muy grandes y luego muy pequeos.

S
Medias

a1
Medias

a2 a1
a2

b1 b2 b1 b2

NO
Medias

Medias

a1 a1
a2 a2

b1 b2 b1 b2

Supuestos:

Homogeneidad de varianzas. Levene. P = 0,25, aceptamos H0, varianzas iguales


Normalidad

Sexo, tamao de ciudad e interaccin significativas.

El efecto global de todos a la vez es el eta cuadrado. Suma de cuadrados del efecto entre suma total

Eta cuadrado parcial, 0, 186. Se interpreta en trminos de proporcin de varianza explicada. EL sexo explica el
20% de la diferencia de la variable dependiente.

22/10/13

69
Ejemplo
Estadsticos descriptivos
Variable dependiente:Uso de las redes sociales en horas semanales
sexo tamao_ciudad Desviacin
Media tpica N
mujer grande 17,71 1,604 7
pequea
dimension2

20,43 1,718 7
Total 19,07 2,129 14
hombre grande 29,57 2,637 7
pequea
dimension2

12,14 1,952 7
Total 20,86 9,314 14
Total grande 23,64 6,500 14
pequea
dimension2

16,29 4,648 14
Total 19,96 6,692 28

Contraste de Levene sobre la igualdad de las varianzas


a
error
Variable dependiente:Uso de las redes sociales en horas
semanales

F gl1 gl2 Sig.

1,434 3 24 ,257

Contrasta la hiptesis nula de que la varianza error de la variable


dependiente es igual a lo largo de todos los grupos.
a. Diseo: Interseccin + sexo + tamao_ciudad + sexo *
tamao_ciudad

Pruebas de los efectos inter-sujetos


Variable dependiente:Uso de las redes sociales en horas semanales

Origen Suma de Eta al


cuadrados Media cuadrado
tipo III gl cuadrtica F Sig. parcial
a
Modelo corregido 1111,250 3 370,417 90,980 ,000 ,919
Interseccin 11160,036 1 11160,036 2741,061 ,000 ,991
sexo 22,321 1 22,321 5,482 ,028 ,186
tamao_ciudad 378,893 1 378,893 93,061 ,000 ,795
sexo * 710,036 1 710,036 174,395 ,000 ,879
tamao_ciudad
Error 97,714 24 4,071
Total 12369,000 28
Total corregida 1208,964 27
a. R cuadrado = ,919 (R cuadrado corregida = ,909)

70
Los supuestos son los mismos, el SPSS nos da la prueba de Levene para comprobar homogeneidad, cuya
H0 es que las varianzas son iguales. Si p>0,05 cumplimos supuesto de homogeneidad de varianzas.

El factor principal sexo diferencias estadsticamente significativas, tambin tamao de ciudad y la interaccin. Nos
quedamos con la interaccin.

Nos da dos tamaos de efecto distintos.

R2 es lo que llambamos eta2 en el ANOVA de un factor, nos da el tamao de efecto para el modelo global. Toma
en cuenta todos los efectos del modelo y ve conjuntamente cul es el efecto. Dividiendo la suma de cuadrados
del modelo corregido / Total corregida = 0,92. El modelo globalmente explica el 92% de la varianza de la variable
dependiente.

Si quiero los efectos por separado utilizamos el eta cuadrado parcial.

Esa interaccin tiene un tamao de efecto muy alto, 0,88. My buen modelo.

Pedir grfico de perfiles: Grfica de medias, eje X niveles de una de las VI y mediante lneas distintas
representamos los niveles de la otra VI. Si hay un cruce claro, lneas no paralelas, es que hay interaccin, puede
que la interaccin no sea estadsticamente significativa, en este caso s.

- Los efectos son muy distintos segn el nivel en el que te muevas, hay gran diferencia del uso de las
redes sociales en ciudad grande y pequea.

Si la interaccin no sale significativa:

- Si alguno de los efectos principales es significativo y tiene ms de dos niveles, cmo es esa diferencia?
Hasta dos niveles bien.
- La prueba F es mnibus, todas son iguales excepto una que es distinta.
- Tengo 2 opciones:
- Comparaciones post-occ
- Comparaciones planeadas: Si tengo concepciones previas de cmo pueden ir,
concepcin del modelo
- Utilizamos condiciones arbitrarias, suma cero
- Ortogonales: Adems pide la suma de productos cruzados 0
- Contrastes polinmicos o de tendencias: En el caso de
que pudiramos ordenar los datos, sera de tipo cbico x
ej

Estamos trabajando con factores en teora independientes. La diferencia prctica es que en ANOVA de un
factor tienes que meter tu los contrastes si son planeados. En factorial necesitas el modelo lineal general, modelo
univariante, te da l los contrastes predefinidos.

- Repetido: Si mi hiptesis es que cada nivel debe ser distinto del inmediatamente anterior.
- Simple: Compara cada nivel con uno de referencia. En regresin logstica, cuando hay variables
categricas con ms de dos niveles. Lo hacemos respecto al ltimo.
- Desviacin: Compara cada nivel menos el primero, con la media del resto de niveles.

Si la interaccin da significativa y a m me interesa saber en la de 3 niveles cules son las diferencias, no


puedo utilizar una prueba post-oc porque tenemos que tener en cuenta todas las VI. Anlisis de los efectos
simples. Interaccin significativa. Comparar los niveles de una variable dentro de los niveles de la otra variable.

71
- En realidad es una T-student con correccin error tipo I. Hay que pedirlo a travs de sintaxis. SI le das a
PEGAR te pega la sintaxis.

(Tabla) Comparaciones por pares: Vemos que ambas diferencias (en ciudades grandes y pequeas) la
diferencia por sexo es significativa.
- En ciudades grandes los hombres tienden a consumir muchas ms horas que las mujeres en
ciudades grandes.
- Utilizan ms tiempo en las redes sociales las mujeres que los hombres en ciudades pequeas.

Si me limito a contar los efectos principales me quedo a medias.

Cuando el SPSS hace grficos de medias Los lmites de los ejes los coge en funcin de los datos empricos,
grficamente parece que hay grandes diferencias en sitios donde no las hay. Combiene modificarlo para que
empiece en el cero.

ANOVA Factorial: Comparacin de los Efectos Simples

Hablamos de analizar los efectos simples cuando habiendo sido una interaccin estadsticamente significativa
comparamos entre s los niveles de un factor dentro de cada nivel del otro factor

Comparaciones por pares


Variable dependiente:Uso de las redes sociales en horas semanales

tamao_ciudad (I)sexo (J)sexo Intervalo de confianza al 95 % para la


a
Diferencia de diferencia
a
medias (I-J) Error tp. Sig. Lmite inferior Lmite superior
*
grande mujer hombre -11,857 1,079 ,000 -14,083 -9,631
*
hombre mujer 11,857 1,079 ,000 9,631 14,083
dimension1

*
pequea mujer hombre 8,286 1,079 ,000 6,060 10,512
*
hombre mujer -8,286 1,079 ,000 -10,512 -6,060
Basadas en las medias marginales estimadas.
*. La diferencia de medias es significativa al nivel ,05.
a. Ajuste para comparaciones mltiples: Bonferroni.

Comparaciones por pares


Variable dependiente:Uso de las redes sociales en horas semanales

sexo (I)tamao_ciudad (J)tamao_ciudad Intervalo de confianza al 95 % para


a
Diferencia de la diferencia
a
medias (I-J) Error tp. Sig. Lmite inferior Lmite superior
*
mujer grande dimension3
pequea -2,714 1,079 ,019 -4,940 -,488
dimension2

*
pequea dimension3
grande 2,714 1,079 ,019 ,488 4,940
*
hombre grande dimension3
pequea 17,429 1,079 ,000 15,203 19,655
dimension2

*
pequea dimension3
grande -17,429 1,079 ,000 -19,655 -15,203

Basadas en las medias marginales estimadas.


*. La diferencia de medias es significativa al nivel ,05. 72
a. Ajuste para comparaciones mltiples: Bonferroni.
Controlar estadsticamente el efecto sobre la variable dependiente de una variable cuantitativa

ANCOVA
ANCOVA o Anlisis de la Covarianza. Cuando tenemos la creencia de que hay una tercera variable de tipo
cuantitativo que creemos puede estar influyendo en la VI y que tratamos de controlarla desde el punto de vista
estadstico ya que no lo hemos hecho en el experimental.

Esquema General del ANOCA

Ajustar las puntuaciones en la V.D. en funcin de la covariable


Efectuar un ANOVA sobre las puntuaciones ajustadas

La V que controlamos es la covariable, Cuantitativa.

- Ajustar las puntuaciones (en rendimiento) de la VD en funcin de la covariable, el CI


- Algn tipo de correlacin con la VD. Intentamos eliminar de la VD esa influencia que tiene la
covariable sobre ella.
- Aplicamos un modelo de regresin lineal, en el que la VD del modelo de ANOVA ser la
VD del modelo de regresin, y la covariable la VI del modelo de regresin.
- Puntuaciones ajustadas en la VD
- Hacer un ANOVA: Vamos a trabajar sobre las puntuaciones ajustadas, que son los residuales del modelo
de regresin.
- E =Y-Y
- Estas puntuaciones son limpias de la influencia de la covariable.
- Y es la pronosticada, la parte de Y que depende de la X del modelo, por lo que la Y
corresponden a la parte de la VI que es explicada por la VD. La parte del rendimiento que
es explicada por el CI. Si lo quitamos tenemos la parte del rendimiento que no est
influenciada por el CI. Y sobre estas ltimas hacemos un ANOVA.
- Si da significativo es que ese efecto es real independientemente del CI
- Si no da significativo ese efecto se deba en parte a la influencia del CI

Asunciones del ANCOVA

El ANCOVA requiere dos supuestos propios adems de todos los del ANOVA:

- Linealidad de la regresin: Ya que aplicamos un modelo de regresin, el supuesto bsico de la regresin


lineal es que entre las variables haya una relacin lineal.
- Tomar la muestra entera de sujetos (no dentro de cada grupo de las variables) y hacer un
diagrama de dispersin, en el eje Y las puntuaciones de la VI y en el x las de VD (CI).

73
- Supuesto de homogeneidad en la regresin: Se mira dentro de cada uno de los grupos definidos dentro
de la variable del modelo. Las pendientes de la recta de regresin son iguales en todos los grupos
definidos por la VI. Todas las B son iguales.
- Si no se cumple no podemos aplicar.
- Lneas de regresin paralelas, miramos la pendiente (B), pero no la ordenada en el origen
(A), no tienen que estar superpuestas.
- Se comprueba por un ANOVA en el que se comprueba si es significativa la relacin entre
la covariable (CI) y la VI (estatus socioeconmico). NO debe ser estadsticamente sig. Para
que se cumpla el supuesto.
- La interaccin que da en las pruebas de los efectos inter-sujetos. P=0,986. S se
cumple el supuesto
- ANOVA at OC para comprobar el supuesto.

NO HOMOGENEIDAD

HOMOGENEIDAD

Homogeneidad de la regresin:
Pruebas de los efectos inter-sujetos
Variable dependiente:puntuacin en matemticas

Origen Suma de
cuadrados tipo Media
III gl cuadrtica F Sig.
a
Modelo corregido 7779,018 5 1555,804 31,159 ,000
Interseccin 3117,139 1 3117,139 62,428 ,000
ses * CI 1,397 2 ,698 ,014 ,986
ses 9,407 2 4,703 ,094 ,910
CI 5892,607 1 5892,607 118,013 ,000
Error 9686,777 194 49,932
Total 571765,000 200
Total corregida 17465,795 199
a. R cuadrado = ,445 (R cuadrado corregida = ,431)

74
Interpretacin ANCOVA

Nuestro inters sigue siendo el mismo de un ANOVA normal, los efectos de las VI, pero controlando una tercera
variable.

Podemos mirar adems el efecto de las covariables. Si no son sig. No hay relacin lineal, las podemos eliminar del
modelo, no interesa controlarlas. El resultado con el ANOVA tiene que ser prcticamente el mismo.

Nos interesan los efectos principales y las interacciones.

Si el efecto no resulta estadsticamente significativa quiere decir que esa covariable no est linealmente
relacionada con la V.D. y podra ser eliminada del anlisis.

Si hay alguna covariable significativa:

El ANCOVA DA LO MISMO QUE EL ANOVA


El ANCOVA NO DA LO MISMO QUE EL ANOVA
o Lo significativo pasa a no significativo
o Lo no significativo pasa a significativo

Pardo y San Martn: Libro 2005, Anlisis de Datos con el SPSS.

- Cmo funcionar con anlisis de covarianza


- Para interpretar el ANCOVA siempre hay que hacer un ANOVA previo normal y comprararlo con el
que has controlado la covariable.
- Puede ocurrir que de lo mismo el ANCOVA que el ANOVA previo. Aunque las convariables
sean significativas su influencia no hace que cambie el efecto de la VI que estamos
considerando.

75
- Puede ocurrir que no den lo mismo:
- Lo que era significativo en el ANOVA pasa a no significativo: la relacin que
habamos visto era artificial, y poda deberse al efecto de la covariable que no
estbamos controlando.
- Viceversa: Puede deberse a que esa VI cuando consideras la VD globalmente no
estn relacionadas, pero s con aquella parte de la VD que no explica la
covariable. Relacin con la VD cuando quitamos la influencia de la covariable.
Estamos controlando un efecto de tercer orden.

Levene no significativo. Se cumple supuesto de homogeneidad

Relacin entre rendimiento y clase social esprea, desaparece en el momento en que controlamos otra variable
que est influyendo entre ellas.

SI lo hubiramos controlado experimentalmente tendramos que haber pasado una prueba de CI y haber
agrupado a los sujetos por un mismo nivel de CI para controlar la variable.

a
Contraste de Levene sobre la igualdad de las varianzas error
Variable dependiente:puntuacin en matemticas
F gl1 gl2 Sig.
1,845 2 197 ,161
Contrasta la hiptesis nula de que la varianza error de la variable
dependiente es igual a lo largo de todos los grupos.
a. Diseo: Interseccin + CI + ses

Pruebas de los efectos inter-sujetos


Variable dependiente:puntuacin en matemticas

Origen Suma de Eta al


cuadrados tipo Media cuadrado
III gl cuadrtica F Sig. parcial
a
Modelo corregido 7777,621 3 2592,540 52,449 ,000 ,445
Interseccin 3327,049 1 3327,049 67,309 ,000 ,256
CI 6470,529 1 6470,529 130,904 ,000 ,400
ses 116,862 2 58,431 1,182 ,309 ,012
Error 9688,174 196 49,429
Total 571765,000 200
Total corregida 17465,795 199
a. R cuadrado = ,445 (R cuadrado corregida = ,437)

76
TEMA 4.B: ANOVA CON FACTORES INTRA-SUJETOS

La Lgica General del ANOVA de Medidas Repetidas

Grupos dependientes, normalmente porque los sujetos pasan por distintos niveles. Modelos de medidas
repetidas.

- Grupos independientes: 10 sujetos pasan cada prueba


- Dependientes: los mismos 10 sujetos se miden 3 veces

Los modelos de medidas repetidas una de las grandes ventajas es que necesitas menos sujetos. Variabilidad
intragrupos meten ruido, cuando los sujetos son los mismos reducimos la fuente de error intra, los sujetos son los
mismos.

Inconveniente: Hay que poner ms supuestos, adems medir a los sujetos repetidas veces tiene diversos efectos,
como de memoria o cansancio, orden en que presentas los tratamientos. Problemas a nivel de diseo, no de
anlisis estadstico.

Pros y Contras
Ventajas
Necesitan menos sujetos

Eliminan la variabilidad debida a las diferencias entre sujetos

Inconvenientes
Nuevos supuestos

Efectos de emplear los mismos sujetos, por ejemplo

o Superposicin
o Latencia
o Aprendizaje

23/10/13

77
Los mismos sujetos medidos repetidas veces en una misma variable

ANOVA con un Factor de Medidas Repetidas


Todos los sujetos pasan por todas las situaciones

Ej: Conocer si la cantidad de ingesta de alcohol influye en la cantidad de interacciones violenta con otros
jugadores.

- Coger grupo de S, observarlos en diferentes findes consecutivos:


- En el 1 toman solo 1 copa, en el 2 dos
- Estaran interaccionando las dosis de tratamiento
- Mirar nmero de interacciones violentas

Con un modelo entre, tendramos una variable que define grupos, ahora no, tenemos la misma variable
medida en distintas ocasiones, por lo que en la base de datos entra como distintas variables (SPSS).

La estructura de la tabla resumen tambin vara un poco. No nos interesa la variabilidad de unos sujetos por
otros. El error se considera la interaccin de sujetos*tratamientos.

78
Comparaciones Mltiples

El supuesto de esfericidad: Las varianzas de las diferencias entre cada dos niveles de la VI son
homogneas, iguales.

Este supuesto implica que las varianzas de las diferencias entre cada dos niveles de la VI son iguales

Se evala con el estadstico W de Mauchly

Cuando la asuncin de esfericidad se viola el estadstico F se comporta de manera liberal

La forma ms popular de evaluarlo es la W de Mauchly, pero es muy sensible al tamao de muestra, en muestras
pequeas puede decirnos que hay esfericidad aunque no la haya; A tamaos de muestra grande es probable que
nos diga que no hay esfericidad por algn sujeto que se desve.

- Epsilon: Nos indica en qu medida nos alejamos de la esfericidad. Es un parmetro, por tanto hay
que estimarlo.
- 1. Esfericidad perfecta
- Cuando nos alejamos de la esfericidad va bajando de valor, hasta el valor mnimo de 1/(J-
1). J = N de niveles de la variable independiente.

Para estimar el valor de psilon; cambian los grados de libertad de A-B-C:

- E de Greenhose-Geisser: ms popular, ms conservador. Si por este procedimiento la E vale 0,75


o ms, es mejor utilizar Huynt-Feld.
- E de Huynt-Feld

Si no tenemos esfericidad la F se comporta de forma liberada, tiende a decir que hay diferencias significativas sin
que necesariamente las haya, aumenta el error. Por lo que la F no sirve de manera adecuada como contraste.

Dos posibles soluciones:

- Seguir utilizando la F pero modificarle los gl. Para hacerla ms conservadora. Con Greenhose o
Huynt.
- Tomar para E el valor mnimo que puede tomar, hacemos que los gl bajen ms.
Multiplicar el E por los gl de la F normal.
- Utilizar una aproximacin multivariada: Considerar cada uno de los niveles de la VI como VD, el
anlisis multivariado de la varianza no requiere supuestos de esfericidad.

79
- La desventaja es que pierde potencia de prueba cuando el tama de muestra es peque.
La capacidad de ver diferencias donde las hay realmente, puede que no seamos capaces
de captar esas diferencias.

Si se cumple el supuesto de esfericidad:

- Mejor procedimiento univariado, ms potencia de prueba

Si no se cumple:

- Mirar estadsticos multivariados, si no encontramos significacin pasar a segunda fase, si hay


significacin parar el anlisis, ya las hay.
- Si no hay significacin pasar al enfoque univariado con los gl modificados.

Utilizar la F con los grados de libertad modificados

de Greenhose-Geisser
de Huynt-Feld

Utilizar la aproximacin multivariada

SI encontramos diferencias estadsticamente significativas en la F con cualquier mtodo:

Podemos calcular tamaos de efecto


Tambin podemos calcular pruebas a posteriori. Con medidas repetidas no se puede, slo con medidas
entre. S podemos hacer contrastes polinmicos, como ortogonal.
Comprobar los efectos simples con las interacciones, a travs de la sintaxis en el anlisis de varianzas de
medidas repetidas Opciones.
o Realmente va a hacer T de Student, diferencia de medias entre los niveles. Pedir que ajuste por
Bonferroni para evitar error tipo I. Al hacerlo por Bonferroni no hace falta meter sintaxis.

Ejemplo:

1. Comprobar supuestos:
a. Normalidad: Para cada uno de los niveles de la VI comprobar si se cumple el supuesto. Pedir para
cada uno de los niveles, no conjuntamente.
i. Como estamos mirando ajuste del modelo, interesa por encima de 0,05.
b. Esfericidad: H0, varianzas homogneas, s esfericidad. Interesa p superior a 0,05.
i. Mauchly, si rechazamos H0 no hay esfericidad. No deberamos utilizar la F estndar.

80
Aceptamos H0, no hay efecto de tratamiento, no hay diferencias en el nmero de interacciones violentas
independientemente del nmero de copas. P=0,59

Pero multivariado poca potencia de prueba. Vamos al enfoque univariado con los grados de libertad multivariado.
Si hubiramos cumplido esfericidad nos iramos directamente al univariado.

81
Anlisis de varianza estndar:

- F normal o corregida de distintas maneras.


- S hay efecto de tratamiento.

H0: Ponemos lo que queremos rechazar.

Ahora tenemos que ver entre qu niveles hay diferencias. T de Student modificando alfa con Bonferroni, porque
SPSS no nos va a dar post Occ para medidas repetidas.

- Diferencia significativa entre la segunda y la tercera noche.

Cuando hay mucha variabilidad es ms difcil explicar diferencias. Error tpico variable.

82
Los mismos sujetos medidos repetidas veces en dos variables

ANOVA con Dos Factores de Medidas


Repetidas
Ejemplo:
Utilizar imgenes para cambiar la actitud de los sujetos, adolescentes en consumo de alcohol.

Diseo: 3 tipos de bebida y 3 tipos de imgenes junto con sloganes (negativas, positivas, neutras). 2 variables
independientes con 3 niveles cruzados, ambas de medidas repetidas (por cada cruce pasan todos los sujetos).
Diseo Factorial de Medidas Repetidas

3 sesiones. Se aleatorizan, despus de cada sesin se pregunta a los sujetos por su opinin respecto a la bebida,
de -100 a + 100.

Esquema del diseo:

Tendr que tener tantas columnas en el SPSS como nmero de combinaciones:

83
Ejemplo, resultados:

Comprobar supuesto de normalidad dentro de cada uno de los cruces:

- Cierta ausencia de normalidad en cerveza + imagen negativa.


- En descriptivos vemos actitudes positivas en todas excepto vino + cuerpo y agua + cuerpo.

- Prueba de anlisis de varianza. Tenemos el supuesto aadido de esfericidad, que tiene que
cumplirse para cada uno de los factores y para la interaccin entre ellas
- Slo cumple el supuesto la interaccin, los factores individuales no.
- En esfericidad mejor univariada que multivariada, ms potencia de prueba
- Si no cumple mirar multivariada, si no da estadsticamente significativa mirar
univariada corrigiendo grados de libertad.

- Miramos primero la interaccin, estadsticamente significativa, adems la interaccin cumple


esfericidad. La actitud hacia una determinada bebida depender de la imagen.
- Traza de Pillai es el que mejor funciona, aunque se suele dar Lambda de Wilks.
- Como solo miramos la interaccin as vale, para mirar los efectos principales tendramos que
corregir esfericidad.

84
- Miramos esfericidad asumida.
- La F, asumiendo grados de esfericidad, da F=17,155, tamao grande, grados de libertad y
significacin. Dar los datos de esta tabla.

Efectos Simples
Cuando tenemos interaccin significativa, miramos efectos simples. Bloqueando una variable que efectos
tiene la otra.

Pedir un grfico de perfiles para hacerlo ms visual.

85
- Entre las bebidas slo hay diferencia entre 2 y 3, vino y agua.
Comparaciones por pares
Medida:MEASURE_1
(I)bebida (J)bebida Intervalo de confianza al 95
a
% para la diferencia
Diferencia de Lmite Lmite
a
medias (I-J) Error tp. Sig. inferior superior
1 dimension2
2 3,500 2,849 ,703 -3,980 10,980
3 8,317 3,335 ,066 -,438 17,072
dimension1
2 dimension2
1 -3,500 2,849 ,703 -10,980 3,980
*
3 4,817 1,116 ,001 1,886 7,747
3 dimension2
1 -8,317 3,335 ,066 -17,072 ,438
*
2 -4,817 1,116 ,001 -7,747 -1,886

Comparaciones por pares


Medida:MEASURE_1
(I)imagen (J)imagen Intervalo de confianza al 95 %
a
Diferencia de para la diferencia
a
medias (I-J) Error tp. Sig. Lmite inferior Lmite superior
*
1 dimension2
2 26,850 1,915 ,000 21,824 31,876
*
3 13,267 1,113 ,000 10,346 16,187
*
dimension1
2 dimension2
1 -26,850 1,915 ,000 -31,876 -21,824
*
3 -13,583 1,980 ,000 -18,781 -8,386
*
3 dimension2
1 -13,267 1,113 ,000 -16,187 -10,346
*
2 13,583 1,980 ,000 8,386 18,781

- Esta tabla es la ms interesante: El que de alguna manera ejerce un efecto diferencial es la


cerveza

Comparaciones por pares


Medida:MEASURE_1
bebida (I)imagen (J)imagen Intervalo de confianza al 95 %
a
para la diferencia
Diferencia de Lmite
a
medias (I-J) Error tp. Sig. Lmite inferior superior
*
1 1 dimension3
2 16,600 3,239 ,000 8,097 25,103
*
3 11,050 2,666 ,002 4,051 18,049
*
dimension2
2 dimension3
1 -16,600 3,239 ,000 -25,103 -8,097
3 -5,550 2,604 ,139 -12,386 1,286
*
3 dimension3
1 -11,050 2,666 ,002 -18,049 -4,051
2 5,550 2,604 ,139 -1,286 12,386
*
2 1 dimension3
2 37,350 2,487 ,000 30,821 43,879
*
3 13,700 1,874 ,000 8,781 18,619
*
dimension1 dimension2
2 dimension3
1 -37,350 2,487 ,000 -43,879 -30,821
*
3 -23,650 2,392 ,000 -29,930 -17,370
*
3 dimension3
1 -13,700 1,874 ,000 -18,619 -8,781
*
2 23,650 2,392 ,000 17,370 29,930
*
3 1 dimension3
2 26,600 1,639 ,000 22,297 30,903
*
3 15,050 1,660 ,000 10,693 19,407
*
dimension2
2 dimension3
1 -26,600 1,639 ,000 -30,903 -22,297
*
3 -11,550 2,044 ,000 -16,915 -6,185
*
3 dimension3
1 -15,050 1,660 ,000 -19,407 -10,693
*
2 11,550 2,044 ,000 6,185 16,915

- En la grfica vemos los resultados anteriores de forma ms visual, la cerveza se mantiene con una
actitud positiva incluso con imgenes negativas:

86
87
Diseos mixtos o split-plot

ANOVA con Dos Factores, Uno de Ellos de


Mdidas Repetidas
Hay al menos una variable intra, pero tambin tenemos variables entre. Es una mezcla de los dos diseos.

Ventajas:
necesita menos sujetos que un diseo completamente aleatorizado

permite reducir la variabilidad error al utilizar los mismos sujetos

permite cubrir situaciones que no pueden abordarse con otros enfoques pues un diseo
completamente aleatorizados permite efectuar comparaciones entre tratamientos pero no un
seguimiento de los sujetos y por su parte un diseo de medidas repetidas permite hacer un
seguimiento de los sujetos pero no comparacin de tratamientos. El diseo que nos ocupa permite
realizar ambas cosas.

Permite comparar grupos y a la vez dar seguimiento a esos grupos en el tiempo. Comparar dos
tipos de terapias.

Ejemplo:
Ver los efectos en las notas segn e-learning o mtodo tradicional. VI, de forma aleatoria se asignan
sujetos a grupos. Variable que define grupos independientes. Se les va a hacer dos medidas a los sujetos, a
principio y a final de semestre.

Diseo 2x2

Medidas repetidas como sucesivas VD.

Diseo Factorial

Evaluacin
Pre-tratamiento Post-tratamiento
S1 S1
S2 S2
Web . .
. .
Mtodo

. .
S9 S9
S10 S10
Clase . .
. .
. .

88
Supuestos
Normalidad

Homogeneidad de varianzas entre los niveles del factor entre

Esfericidad multi-muestra

Esfericidad

Homogeneidad de las matrices de varianza-covarianza (Prueba de Box). Prueba muy sensible a


normalidad, si box significativa no se cumple esfericidad hacer ms conservadora la prueba
bajando el nivel de alfa.

Que se cumpla para cada uno de los niveles de la variable entre.

Ejemplo:
Nos interesa mayor a 0,05

Pruebas de normalidad

Kolmogorov-Smirnova Shapiro-Wilk

Estadstico gl Sig. Estadstico gl Sig.

pre_tratamiento ,112 16 ,200* ,972 16 ,876

post_tratamiento ,152 16 ,200* ,919 16 ,162

Estadsticos descriptivos

mtodo Desviacin
Media tpica N

pre_tratamiento web 51,13 5,842 8

dimension1 clase 50,63 7,482 8

Total 50,87 6,490 16

post_tratamiento web 66,75 7,517 8

dimension1 clase 84,75 8,844 8

Total 75,75 12,217 16

Prueba de Box sobre la


igualdad de las
matrices de
covarianzasa

89
M de Box 4,415

F 1,244

gl1 3

gl2 35280,000

Sig. ,292

El SPSS nos da por una parte la parte entre y por otro la intra (medidas repetidas)

Intra: Mauchly

No es que la esfericidad sea perfecta, sino que no hay varianzas que comparar, slo hay dos niveles.

Prueba de esfericidad de Mauchlyb

Medida:MEASURE_1

Efecto intra-sujetos Epsilona


Chi-
W de cuadrado Greenhouse- Huynh- Lmite-
Mauchly aprox. gl Sig. Geisser Feldt inferior

dimension1 evaluacin 1,000 ,000 0 . 1,000 1,000 1,000

Contrastes multivariadosb

- El tratamiento tiene algn tipo de efecto, pero es diferencial para el momento pre y
post.
- La esfericidad no tiene sentido, no hay ningn tipo de correccin, los gl son iguales en
todos los sitios y la F es estndar

Efecto Eta al
Gl de la Gl del cuadrado
Valor F hiptesis error Sig. parcial

evaluacin Traza de Pillai ,939 214,972a 1,000 14,000 ,000 ,939

Lambda de ,061 214,972a 1,000 14,000 ,000 ,939


Wilks

Traza de 15,355 214,972a 1,000 14,000 ,000 ,939


Hotelling

Raz mayor de 15,355 214,972a 1,000 14,000 ,000 ,939


Roy

90
evaluacin * Traza de Pillai ,680 29,726a 1,000 14,000 ,000 ,680
mtodo
Lambda de ,320 29,726a 1,000 14,000 ,000 ,680
Wilks

Traza de 2,123 29,726a 1,000 14,000 ,000 ,680


Hotelling

Raz mayor de 2,123 29,726a 1,000 14,000 ,000 ,680


Roy

- Sabiendo que la interaccin es significativa no habra que mirar nada ms. Pero vamos a ver como
sera si no. Mirar efectos entre.
- Levene: se cumple homogeneidad de varianzas.

Contraste de Levene sobre la igualdad de las varianzas errora

F gl1 gl2 Sig.

pre_tratamiento ,477 1 14 ,501

post_tratamiento ,160 1 14 ,695

Pruebas de los efectos inter-sujetos

Medida:MEASURE_1

Variable transformada:Promedio

Origen Suma de
cuadrados tipo Media Eta al cuadrado
III gl cuadrtica F Sig. parcial

Interseccin 128271,125 1 128271,125 1435,058 ,000 ,990

mtodo 612,500 1 612,500 6,852 ,020 ,329

Error 1251,375 14 89,384

- Mirar efectos simples. A travs de sintaxis.


- En el pre no existe diferencia entre tratamientos, los grupos son iguales al principio.
Aleatorizacin funciona, si no fuera as podramos encontrar luego diferencias que se
debieran a los grupos, no al mtodo de enseanza.
- A final de curso s hay diferencias, diferencia entre medias negativa, tienen peor
puntuacin los que han seguido la asignatura va e-learning.

91
Comparaciones por pares
Medida:MEASURE_1
evaluacin (I)mtodo (J)mtodo Intervalo de confianza al 95
a
% para la diferencia
Diferencia de Lmite
a
medias (I-J) Error tp. Sig. Lmite inferior superior
1 dimension2
web dimension3

clase ,500 3,356 ,884 -6,698 7,698


dimension1
clase dimension3

web -,500 3,356 ,884 -7,698 6,698


*
2 dimension2
web dimension3

clase -18,000 4,104 ,001 -26,801 -9,199


*
clase dimension3

web 18,000 4,104 ,001 9,199 26,801

- Interaccin significativa, hay cruce.

92
TEMA 4.C.: MANOVA
Trabajar simultneamente con varias VD en un solo anlisis. Anlisis de varianza multivariado.
Generalizacin del ANOVA.

VI

Grupo 1 Grupo 2 Grupo 3

VD1 VD1 VD1

VD2 VD2 VD2

VD3 VD3 VD3

Para cada uno de los grupos varias VD medidas. Estamos hablando de fenmenos difciles de medir con
una sola variable y que se miden mejor con varios indicadores, que nos interesa tomarlos de forma conjunta, no
como atajo del ANOVA para hacer menos. NO VARIABLES INCONEXAS, diferentes indicadores de la misma cosa,
que contribuyen a construir una nica variable. Ej.: satisfaccin laboral relacionada con muchas variables
distintas.

Mltiples variables dependientes nos quiere decir recolectar variables dependientes de forma
indiscriminada.

Suele ser relativamente comn que el fenmeno que tratamos de estudiar sea lo suficientemente
complejo como para que sea necesario medirlo empleando ms de un ndice o medida cuantitativa. Es en
esos caso cuando tiene sentido emplear el MANOVA y no con mltiples variables dependientes
inconexas.

Estas mltiples medidas pueden combinarse en lo que conocemos como variada (en ingls variate) o
variable latente de forma que podremos determinar si los sujetos difieren no en una nica dimensin
sino en una combinacin de ellas haciendo uso de la informacin sobre la relacin entre las propias
variables dependientes.

Escalares vs Vectores
La variada o variable latente puede pensarse como un vector formado por la suma ponderada de sus
componentes.
En el contexto del MANOVA, las variables en los vectores son combinadas de forma que maximicen las
diferencias entre los grupos definidos por la(s) variable(s) independiente(s).

Tamao de muestra
Una regla de mnimos planteada por diferentes autores es tener al menos 20 casos por cada grupo para
asegurarnos una mnima potencia de prueba, especialmente con muchas variables dependientes.

El MANOVA puede pensarse como un vector en el que se combinan las diferentes variables. En ANOVA
solo trabajbamos con un nico nmero, con un escalar. Busca la mejor combinacin para que los grupos sean lo
ms distintos posibles y podamos captar esas diferencias. Con mltiples variables no nos valen los escalares,
vamos a vectores de manera matricial.

93
Beneficios y Problemas del MANOVA

Beneficios
2. Abarcar mejor el fenmeno de estudio
3. Control de la Tasa de Error Tipo I
4. Puede tener mayor potencia de prueba

Problemas
1. Variables relativamente incorrelacionadas
2. Variables altamente correlacionadas

Mayor tamao de muestra necesario que en el ANOVA.

Con comparaciones mltiples de los mismos datos aumenta probabilidad de error tipo I, para ello
utilizamos pruebas post-hoc. Solucin posible: Corregir por Bonferroni.

Potencia de prueba: Capacidad para captar las diferencias.

No combiene que las variables correlacionen entre s ms de 0,70. Si tengo variables muy correlacionadas
son redundantes. Sumar variables o eliminar alguna.

30/10/13

Lgica General del MANOVA

El precursor: T2 de Hotelling

Extensin de la t de diferencia de medias al caso de dos o ms VD.

Crea un vector que es el que mejor separa los niveles o categoras de la variable independiente.

La hiptesis nula de esta prueba es que los vectores de medias en la poblacin para los dos grupos son
iguales. Por lo tanto la diferencia con la prueba univariada est en que ahora se comparan dos vectores
de medias no dos medias poblacionales.

La idea introducida por Hotelling puede extenderse al caso de tres o ms grupos. Entonces la hiptesis nula ser
los vectores de medias de los k grupos son iguales.

Como precursor del manova, Tcuadrado de Hotelling, extensin de la T de Student. Para ver diferencias
de medias entre dos grupos con varias VD. Crea un vector en el que combina las variables dependientes que
estamos manejando, de tal manera que maximiza las diferencias entre los grupos. No compara dos escalares, sino
dos vectores de medias. La H0 es que esos vectores son iguales.

ANOVA MANOVA
Sumas de Cuadrados Matrices de Sumas de Cuadrados y Productos Cruzados (SCPC)

SCPC Total (T) que reflejar la generalizacin multivariada de cmo los casos en cada nivel de la variable
independiente se desva respecto a la Media Total de cada variable dependiente

SCPC Entre (E) expresa los efectos diferenciales de un tratamiento sobre un conjunto de variables dependientes

94
SCPC Intra (I) representa como los casos de cada nivel de la variable independiente se desvan de las medias de su
grupo en las variables dependientes

T=E+I

Descomponer la varianza total en dos tipos de variables, entre e intra. La suma de ambas explican la
varianza de la VD, esto lo hacamos a travs de la suma de cuadrados. Distancias respecto a una media. Ahora ya
no trabajamos solo con sumas de cuadrados, sino sobre matrices, aunque es el mismo concepto. Matrices de
sumas de cuadrados y productos cruzados.

Matrices cuadradas, en la diagonal sumas de cuadrados y en el resto los productos cruzados. Matriz varianza-
covarianza al dividir por el nmero de variables. Aqu tiene en cuenta la varianza de las propias variables y la
relacin entre ellas, matiz del MANOVA respecto al ANOVA, puede tener ms potencia estadstica.

Puntuaciones desviacin: diferencia entre una puntuacin y su media.

Supuestos
- Normalidad multivariada: en todas las variables dependientes y correlacin entre ellas. Si las variables
se distribuyen de forma univariada ms o menos normal podemos dar por bueno al supuesto.
- Homogeneidad: de matrices de Var-Covar. Homogeneidad para cada una de las VD y para cada cruce
de VD, de correlaciones entre variables.
- Prueba de Box

No hay propuestas de tcnicas estadsticas no paramtricas fcilmente aplicables, si te alejas mucho de los dos
supuestos hay problema de aplicacin.

Estadsticos
- Lambda de Wilks
- Traza de Hotelling
- Traza de Pillai: Para ms de dos grupos, ms potente. Ms robusta, sobre todo cuando los grupos son
del mismo tamao.
- Raz mxima de Roy: Para el caso de 2 grupos, ms potente

Comparacin suma de cuadrados entre/suma de cuadrados intra ANOVA. El MANOVA intenta hacer lo mismo,
pero comparando matrices y no variables.

Potencia (capacidad explicativa) y Robustez (qu pasa cuando no se cumplen los supuestos)

Qu hacemos cuando el ANOVA sale significativo?


La estrategia ms popular (pero no la nica) es la de continuar realizando mltiples pruebas t o F
corrigiendo el nivel de significacin de acuerdo al ajuste de Bonferroni, seguidas de comparaciones mltiples a
posteriori cuando sea pertinente.

Variable variada: combinacin, ver si hay diferencias significativas en los dos grupos. Prueba Omnibus, F.

Post-hoc, hay que corregir la tasa de error, corregir por Bonferroni, alfa cambia.

95
Ejemplo
Queremos comprobar si la intensidad en la enseanza tiene efecto sobre el rendimiento en una tarea
de taquigrafa, en la que se miden velocidad y precisin. La VI tiene tres niveles: 2 horas al da durante 6
semanas; 3 horas da durante 4 semanas; 4 horas da durante 3 semanas. (Tomado de Bisquerra, 1989)

Diferentes intensidades de enseanza producen cambios en el rendimiento de los sujetos? El rendimiento a la


hora de escribir se operativiza por velocidad y precisin.

Estadsticos descriptivos

condicion Desviacin
Media tpica N

velocidad extensiva: 2 horas al 38,5500 7,03731 20


da 6 semanas

semi-intensiva: 3 horas 34,0000 5,24153 20


dia 4 semanas

intensiva: 4 horas dia 3 28,3000 4,04058 20


semanas

Total 33,6167 6,92353 60

precision extensiva: 2 horas al 23,7000 2,75490 20


da 6 semanas

semi-intensiva: 3 horas 18,3500 2,05900 20


dia 4 semanas

intensiva: 4 horas dia 3 12,8500 1,78517 20


semanas

Total 18,3000 4,97894 60

Prueba de Box sobre la igualdad de


las matrices de covarianzasa

M de Box 9,653 a
Prueba de esfericidad de Bartlett
F 1,527 Razn de ,000
verosimilitudes
gl1 6 Chi-cuadrado 65,003
aprox.
gl2 80975,077 gl 2
Sig. ,165 Sig. ,000

96
- Box: Aceptamos H0, se cumple homogeneidad, sig=0,165
- Las VD tienen que estar relacionadas entre s, distintos indicadores de lo mismo. La prueba de
esfericidad de Barlett comprueba la correlacin. H0 matriz identidad, interesa rechazar.

Cumplimos supuestos, ahora miramos contrastes multivariados. Si hay relacin entre variables.
c
Contrastes multivariados

Efecto Eta al
Gl de la cuadrado
Valor F hiptesis Gl del error Sig. parcial
a
Interseccin Traza de Pillai ,986 2039,913 2,000 56,000 ,000 ,986
a
Lambda de Wilks ,014 2039,913 2,000 56,000 ,000 ,986
a
Traza de Hotelling 72,854 2039,913 2,000 56,000 ,000 ,986
a
Raz mayor de Roy 72,854 2039,913 2,000 56,000 ,000 ,986
condicion Traza de Pillai ,817 19,701 4,000 114,000 ,000 ,409
a
Lambda de Wilks ,185 37,140 4,000 112,000 ,000 ,570

Traza de Hotelling 4,400 60,503 4,000 110,000 ,000 ,688


b
Raz mayor de Roy 4,397 125,328 2,000 57,000 ,000 ,815

- Hay diferencias entre grupos.

Ahora univariado. Por separado para cada una de las variables dependientes vemos si se cumple el supuesto.

Contraste de Levene sobre la igualdad de las varianzas


errora

F gl1 gl2 Sig.

velocidad 4,381 2 57 ,017

precision 2,357 2 57 ,104

Pruebas de los efectos inter-sujetos

Origen Variable Suma de Eta al


dependiente cuadrados Media cuadrado
tipo III gl cuadrtica F Sig. parcial
a
Modelo velocidad 1055,033 2 527,517 16,958 ,000 ,373
corregido
dimension1

b
precision 1177,300 2 588,650 117,606 ,000 ,805
Interseccin velocidad 67804,817 1 67804,817 2179,666 ,000 ,975
dimension1

precision 20093,400 1 20093,400 4014,454 ,000 ,986


condicion velocidad 1055,033 2 527,517 16,958 ,000 ,373
dimension1

precision 1177,300 2 588,650 117,606 ,000 ,805


Error velocidad 1773,150 57 31,108
dimension1

precision 285,300 57 5,005


Total velocidad 70633,000 60
dimension1

precision 21556,000 60
Total corregida velocidad 2828,183 59
dimension1

precision 1462,600 59
a. R cuadrado = ,373 (R cuadrado corregida = ,351)
b. R cuadrado = ,805 (R cuadrado corregida = ,798)
97
- El tipo de intensidad de programa establece diferencias estadsticamente significativas tanto para
la velocidad como para la precisin.

Pruebas post-hoc o contrastes planeados:

- Cuadro de dilogo de pruebas a posteriori

Si no se cumple el supuesto de homogeneidad de varianzas no puedo pedir Tukey. Para precisin s puedo pedir
Tukey, se cumple el sujeto y los grupos son homogneos.

Comparaciones mltiples

Variable dependiente (I)condicion (J)Condicion Intervalo de


confianza 95%

Diferencia de Lmite Lmite


medias (I-J) Error tp. Sig. inferior superior

velocidad Games- extensiva: 2 horas al semi-intensiva: 3 4,5500 1,96211 ,066 -,2511 9,3511
Howell da 6 semanas horas dia 4 semanas

intensiva: 4 horas 10,2500* 1,81452 ,000 5,7790 14,7210


dia 3 semanas

semi-intensiva: 3 extensiva: 2 horas al -4,5500 1,96211 ,066 -9,3511 ,2511


horas dia 4 semanas da 6 semanas

intensiva: 4 horas 5,7000* 1,47986 ,001 2,0814 9,3186


dia 3 semanas

intensiva: 4 horas extensiva: 2 horas al -10,2500* 1,81452 ,000 -14,7210 -5,7790


dia 3 semanas da 6 semanas

semi-intensiva: 3 -5,7000* 1,47986 ,001 -9,3186 -2,0814


horas dia 4 semanas

Comparaciones mltiples
Variable dependiente (I)condicion (J)condicion Intervalo de
Diferencia confianza 95%
de medias Lmite Lmite
(I-J) Error tp. Sig. inferior superior
*
precision DHS de extensiva: 2 horas semi-intensiva: 3 5,3500 ,70748 ,000 3,6475 7,0525
Tukey al da 6 semanas horas dia 4
semanas
*
intensiva: 4 horas 10,8500 ,70748 ,000 9,1475 12,5525
dia 3 semanas
*
semi-intensiva: 3 extensiva: 2 -5,3500 ,70748 ,000 -7,0525 -3,6475
horas dia 4 horas al da 6
semanas semanas
*
intensiva: 4 horas 5,5000 ,70748 ,000 3,7975 7,2025
dia 3 semanas
*
intensiva: 4 horas extensiva: 2 -10,8500 ,70748 ,000 -12,5525 -9,1475
dia 3 semanas horas al da 6
semanas
*
semi-intensiva: 3 -5,5000 ,70748 ,000 -7,2025 -3,7975
horas dia 4
semanas
98
- Velocidad. Games-Howell, prueba post-hoc sin homogeneidad. Diferencias entre modalidad
extensive e intensiva, y la semi-intensiva e intensiva. Respecto a la variable velocidad
- Precisin. Tukey, hay diferencias de todos con todos.

Pillai significativa, por la intensidad de la enseanza en interaccin con el mtodo. Interaccin significativa.

Sin embargo el mtodo por s mismo no es significativo.

- Como la interaccin es significativa, ahora miramos las interacciones para cada una de las VD.
- Dentro del ANOVA univariado interaccin condicin*mtodo. Tanto para una variable
como para la otra es significativa.
- Hacer por separado efectos simples de velocidad y depresin

Si no hay interaccin significativa nos hubiramos ido directamente a los efectos principales. Estudiar qu ocurre
para la condicin en la variable velocidad, ya que el mtodo por s mismo no era significativo.

Para analizar el factor principal tiene que dar significativo en la parte multivariada.

- Factores simples por separado para la variable velocidad y para variable precisin.
- No hay diferencias en funcin del tipo de enseanza, para el mtodo b hay diferencias
para todos los niveles.
- Para precisin para ambos mtodos hay diferencias significativas en todos los niveles.

Tabla dada la vuelta por velocidad y precisin para mtodo. Comparaciones por pares.

Diseos Factoriales
Meyers, Gamst y Guarino (2013)

A) Realizar el anlisis omnibus.

B) Examinar la interaccin.

1. Si la interaccin multivariada es estadsticamente significativa se examinan los efectos de interaccin


univariados.

2. Para cada interaccin univariada que es estadsticamente significativa aplicando la correccin de


Bonferroni, ejecutamos un anlisis de efectos simples y lo interpretamos para esa variable dependiente.

3. Para cada interaccin univariada que no de significativa pasamos a considerar los efectos principales.

4. Si la interaccin multivariada no es estadsticamente significativa pasamos a los efectos principales.

C) Examinar los efectos principales relevantes

Cuando alguna de las interacciones univariadas no es significativa puede ser interesante estudiar los efectos
principales multivariados, siguiendo el siguiente esquema.

1. Si un efecto principal multivariado es significativos examinamos los efectos principales univariados para
aquellas variables dependientes que no estn incluidas en una interaccin significativa.

2. Para cada efecto principal univariado que resulte significativo empleando la correccin de Bonferroni
realizamos comparaciones mltiples e interpretamos.

3. Si un efecto principal multivariado no es significativo no realizamos el anlisis univariado.

99
Estadsticos descriptivos

condicion metodo Desviacin Prueba de Box sobre la


Media tpica N
igualdad de las matrices
velocidad extensiva: 2 horas al da 6 mtodo A 34,3000 5,88878 10
a
semanas mtodo B 42,8000 5,45283 10 de covarianzas
Total 38,5500 7,03731 20 M de Box 22,089
semi-intensiva: 3 horas dia 4 mtodo A 32,5000 6,20484 10
F 1,333
semanas mtodo B 35,5000 3,80789 10

Total 34,0000 5,24153 20


gl1 15
intensiva: 4 horas dia 3 mtodo A 29,6000 4,37671 10 gl2 15949,680
semanas mtodo B 27,0000 3,39935 10 Sig. ,172
Total 28,3000 4,04058 20

Total mtodo A 32,1333 5,70380 30

mtodo B 35,1000 7,77418 30 a


Prueba de esfericidad de Bartlett
Total 33,6167 6,92353 60
precision extensiva: 2 horas al da 6 mtodo A 21,8000 2,25093 10 Razn de verosimilitudes ,000
semanas mtodo B 25,6000 1,71270 10
Chi-cuadrado aprox. 57,441
Total 23,7000 2,75490 20
gl 2
semi-intensiva: 3 horas dia 4 mtodo A 18,2000 2,65832 10
semanas mtodo B 18,5000 1,35401 10 Sig. ,000
Total 18,3500 2,05900 20
intensiva: 4 horas dia 3 mtodo A 14,1000 1,28668 10
semanas mtodo B 11,6000 1,26491 10
Total 12,8500 1,78517 20

Total mtodo A 18,0333 3,81000 30


mtodo B 18,5667 5,98091 30

Total 18,3000 4,97894 60

100
c
Contrastes multivariados
Efecto Eta al
Gl de la cuadrado
Valor F hiptesis Gl del error Sig. parcial
a
Interseccin Traza de Pillai ,992 3133,833 2,000 53,000 ,000 ,992
a
Lambda de Wilks ,008 3133,833 2,000 53,000 ,000 ,992
a
Traza de 118,258 3133,833 2,000 53,000 ,000 ,992
Hotelling
a
Raz mayor de 118,258 3133,833 2,000 53,000 ,000 ,992
Roy
condicion Traza de Pillai ,871 20,827 4,000 108,000 ,000 ,435
a
Lambda de Wilks ,132 46,500 4,000 106,000 ,000 ,637
Traza de 6,568 85,383 4,000 104,000 ,000 ,767
Hotelling
b
Raz mayor de 6,565 177,250 2,000 54,000 ,000 ,868
Roy
a
metodo Traza de Pillai ,090 2,630 2,000 53,000 ,081 ,090
a
Lambda de Wilks ,910 2,630 2,000 53,000 ,081 ,090
a
Traza de ,099 2,630 2,000 53,000 ,081 ,090
Hotelling
a
Raz mayor de ,099 2,630 2,000 53,000 ,081 ,090
Roy
condicion * Traza de Pillai ,367 6,075 4,000 108,000 ,000 ,184
metodo a
Lambda de Wilks ,633 6,804 4,000 106,000 ,000 ,204
Traza de ,579 7,522 4,000 104,000 ,000 ,224
Hotelling
b
Raz mayor de ,577 15,588 2,000 54,000 ,000 ,366
Roy

Contraste de Levene sobre la igualdad de las varianzas


a
error

F gl1 gl2 Sig.

velocidad ,456 5 54 ,807


precision 1,644 5 54 ,164

Pruebas de los efectos inter-sujetos


Origen Variable Suma de Eta al
dependiente cuadrados Media cuadrado
tipo III gl cuadrtica F Sig. parcial
a
Modelo dimension1
velocidad 1495,083 5 299,017 12,112 ,000 ,529
corregido b
precision 1281,200 5 256,240 76,279 ,000 ,876
Interseccin dimension1
velocidad 67804,817 1 67804,817 2746,576 ,000 ,981
precision 20093,400 1 20093,400 5981,497 ,000 ,991
condicion dimension1
velocidad 1055,033 2 527,517 21,368 ,000 ,442
precision 1177,300 2 588,650 175,232 ,000 ,866
metodo dimension1
velocidad 132,017 1 132,017 5,348 ,025 ,090
precision 4,267 1 4,267 1,270 ,265 ,023
condicion * dimension1
velocidad 308,033 2 154,017 6,239 ,004 ,188
metodo precision 99,633 2 49,817 14,830 ,000 ,355
Error velocidad 1333,100 54 24,687
dimension1

precision 181,400 54 3,359


Total velocidad 70633,000 60
dimension1

precision 21556,000 60
Total velocidad 2828,183 59
corregida dimension1

precision 1462,600 59
a. R cuadrado = ,529 (R cuadrado corregida = ,485)
b. R cuadrado = ,876 (R cuadrado corregida = ,864)

101
Variable metodo (I)condicion (J)condicion Intervalo de confianza al
a
dependiente 95 % para la diferencia
Diferencia de Error Lmite Lmite
a
medias (I-J) tp. Sig. inferior superior
velocidad mtodo extensiva: 2 horas semi-intensiva: 3 1,800 2,222 1,000 -3,690 7,290
A al da 6 semanas horas dia 4
semanas
intensiva: 4 horas 4,700 2,222 ,117 -,790 10,190
dia 3 semanas
semi-intensiva: 3 extensiva: 2 horas -1,800 2,222 1,000 -7,290 3,690
horas dia 4 al da 6 semanas
semanas intensiva: 4 horas 2,900 2,222 ,592 -2,590 8,390
dia 3 semanas
intensiva: 4 horas extensiva: 2 horas -4,700 2,222 ,117 -10,190 ,790
dia 3 semanas al da 6 semanas
semi-intensiva: 3 -2,900 2,222 ,592 -8,390 2,590
horas dia 4
dimension0
semanas
*
mtodo extensiva: 2 horas semi-intensiva: 3 7,300 2,222 ,005 1,810 12,790
B al da 6 semanas horas dia 4
semanas
*
intensiva: 4 horas 15,800 2,222 ,000 10,310 21,290
dia 3 semanas
*
semi-intensiva: 3 extensiva: 2 horas -7,300 2,222 ,005 -12,790 -1,810
horas dia 4 al da 6 semanas
semanas *
intensiva: 4 horas 8,500 2,222 ,001 3,010 13,990
dia 3 semanas
*
intensiva: 4 horas extensiva: 2 horas -15,800 2,222 ,000 -21,290 -10,310
dia 3 semanas al da 6 semanas
*
semi-intensiva: 3 -8,500 2,222 ,001 -13,990 -3,010
horas dia 4
semanas

*
precision mtodo extensiva: 2 horas al da 6 semi-intensiva: 3 horas dia 4 3,600 ,820 ,000 1,575 5,625
A semanas semanas
*
intensiva: 4 horas dia 3 7,700 ,820 ,000 5,675 9,725
semanas
*
semi-intensiva: 3 horas dia 4 extensiva: 2 horas al da 6 -3,600 ,820 ,000 -5,625 -1,575
semanas semanas
*
intensiva: 4 horas dia 3 4,100 ,820 ,000 2,075 6,125
semanas
*
intensiva: 4 horas dia 3 extensiva: 2 horas al da 6 -7,700 ,820 ,000 -9,725 -5,675
semanas semanas
*
semi-intensiva: 3 horas dia 4 -4,100 ,820 ,000 -6,125 -2,075
semanas
*
mtodo extensiva: 2 horas al da 6 semi-intensiva: 3 horas dia 4 7,100 ,820 ,000 5,075 9,125
B semanas semanas
*
intensiva: 4 horas dia 3 14,000 ,820 ,000 11,975 16,025
semanas
*
semi-intensiva: 3 horas dia 4 extensiva: 2 horas al da 6 -7,100 ,820 ,000 -9,125 -5,075
semanas semanas
*
intensiva: 4 horas dia 3 6,900 ,820 ,000 4,875 8,925
semanas
intensiva: 4 horas dia 3 extensiva: 2 horas al da 6 - ,820 ,000 - -
*
semanas semanas 14,000 16,025 11,975
*
semi-intensiva: 3 horas dia 4 -6,900 ,820 ,000 -8,925 -4,875
semanas

102
Comparaciones por pares
Variable condicion (I)metodo (J)metodo Intervalo de
dependiente confianza al 95 %
a
Diferencia para la diferencia
de medias Error Lmite Lmite
a
(I-J) tp. Sig. inferior superior
*
velocidad extensiva: 2 horas mtodo A dimension3
mtodo -8,500 2,222 ,000 -12,955 -4,045
al da 6 semanas B
*
mtodo B dimension3
mtodo 8,500 2,222 ,000 4,045 12,955
A
semi-intensiva: 3 mtodo A dimension3
mtodo -3,000 2,222 ,183 -7,455 1,455
horas dia 4 B
semanas mtodo B dimension3
mtodo 3,000 2,222 ,183 -1,455 7,455
A
intensiva: 4 horas mtodo A dimension3
mtodo 2,600 2,222 ,247 -1,855 7,055
dia 3 semanas B
mtodo B dimension3
mtodo -2,600 2,222 ,247 -7,055 1,855
dimension0
A
*
precision extensiva: 2 horas mtodo A dimension3
mtodo -3,800 ,820 ,000 -5,443 -2,157
al da 6 semanas B
*
mtodo B dimension3
mtodo 3,800 ,820 ,000 2,157 5,443
A
semi-intensiva: 3 mtodo A dimension3
mtodo -,300 ,820 ,716 -1,943 1,343
horas dia 4 B
semanas mtodo B dimension3
mtodo ,300 ,820 ,716 -1,343 1,943
A
*
intensiva: 4 horas mtodo A dimension3
mtodo 2,500 ,820 ,004 ,857 4,143
dia 3 semanas B
*
mtodo B dimension3
mtodo -2,500 ,820 ,004 -4,143 -,857
A

103
TEMA 5.A.: ANLISIS FACTORIAL EXPLORATORIO Y
COMPONENTES PRINCIPALES

Introduccin
Tcnicas de reduccin de datos que permiten estudiar las dimensiones que subyacen a las relaciones
entre una serie de variables.

Carcter exploratorio

Anlisis Factorial (AF) Componentes Principales (CP)

Uso
Estudios psicomtricos

Estructura interna de un test

Relacin de un test con otros

Desarrollar teoras

Resumir informacin a travs de las puntuaciones factoriales

05/11/13

Busca las relaciones que se dan entre una serie de variables cuantitativas, y qu dimensiones subyacen
entre las variables que estamos midiendo. No hay diferencias entre VI y VD, son todas del mismo estatus.

Buscan agrupar variables basndose en la relacin que existe entre ellas. Dimensiones o factores
subyacentes. Lo que permite que las variables sean homogneas son los factores o componentes.

Tcnicas de carcter exploratorio, no partimos de hiptesis previas, la nica aspiracin que tenemos es
contar lo que ocurre en la muestra con la que estamos trabajando. Ser capaces de construir menos dimensiones
con la menor prdida de informacin posible que expliquen las relaciones entre los datos.

Tcnicas de anlisis factorial confirmatorio, se dan frente a las anteriores, s parten a priori de la
definicin de una cierta estructura de los datos. Mirar si ese modelo cuadra con la estructura real de los datos.

Siempre tienes una cierta idea de lo que esperas encontrar, tambin en el exploratorio. En estudios
psicomtricos, el anlisis factorial sirve para mirar validez.

Para desarrollar teoras, como la teora factorial de Eysenck.

104
El comienzo: La matriz de correlaciones

Punto de partida del anlisis factorial, matriz de correlaciones simtrica. El anlisis factorial busca
conjuntos homogneos de variables, con variables muy relacionadas entre s y que se diferencian de otras.

Ns rojos: correlaciones altas entre un nmero de variables.

Ns azules: tienen el mismo patrn, se relacionan mucho entre s y poco con el resto de variables.

El resultado final es la matriz factorial. Expresa la relacin entre las variables observables y los factores que
subyacen a la primera matriz. El modelo es de dos dimensiones subyacentes a los datos. Matriz factorial que
aparece con unos pesos, cargas o saturaciones factoriales. Nos dan la relacin que existe entre las variables
observadas y el factor. Los coeficientes factoriales o saturaciones van entre +-1. Cuanto ms alto el valor del peso,
la variable contribuye ms a definir el factor.

A B C D E F G H VAR Factor 1 Factor 2

A 1 .87 .12 .11 .92 .08 .61 .08 A .95558 .04616

B 1 .07 .17 .89 .13 .57 .15 E .94828 .04119

C 1 .86 .10 .88 .14 .56 B .93463 .08318

D 1 .14 .91 .09 .60 G .73099 .06213

E 1 .06 .55 .07 F .03531 .95125

F 1 .08 .58 D .08330 .94641

G 1 .07 C .05697 .92905

H 1 H .05845 .73754

Matriz de correlaciones (R) Matriz factorial

El modelo matemtico

La puntuacin de un sujeto en una variable observada depende de la combinacin lineal de sus puntuaciones en
una serie de variables no observadas que denominamos factores.

- F. Factores comunes, que determinan la puntuacin en diferentes variables observadas. Explican la


correlacin entre las variables, explican lo que hay en comn entre ellas, son lo que aparece en la matriz
factorial.

105
- E. Factores nicos, se refiere a factores exclusivos de una sola variable observable. Expresa la parte
especfica de cada variable, lo que no tiene en comn con el resto de variables. Suele incluirse aqu el error
de muestreo (por tener muestra en lugar de poblacin) y el error de medida
- Lambda. Peso factorial o carga factorial, indican la relacin entre la variable observada y el factor
subyacente. A veces se pone p en lugar de lambda.

Se asume que los factores comunes no se relacionan con los factores nicos, correlacin 0. En una
primera etapa del modelo, los factores comunes adems son independientes entre s, correlacin entre Fs 0.

Conceptos Bsicos

Comunalidad (H2): Proporcin de varianza de la variable observable Xj que es explicada por los factores
comunes del modelo. Para cada una de las variables tendremos su correspondiente comunalidad, parte de
varianza comn explicada.
Qu proporcin de la varianza de A consiguen explicar entre C1 y C2?
Si son independientes, vale con sumar los pesos al cuadrado.

Unicidad: Complementario. Proporcin de la varianza de la variable Xj que no es explicada por los factores
comunes. 1-Comunalidad = Unicidad

Autovalores: Indicador de la varianza que u factor explica del total de la varianza de las variables
observadas. Cuanta varianza, del total de las variables observadas, explica un factor. Trabajamos en
columna.

R = Reproducida + Residual: Matriz de correlaciones de las diferencias entre las observadas y las
reproducidas por el modelo.
Correlacin A-B: Emprica
Correlacin A-B reproducida
Correlacin A-B residual

Si quiero saber si un modelo factorial ajusta bien tendra que esperar que la residual fuera 0, que coincidieran la
emprica y la reproducida.

Cuanto mayor sea el coeficiente ms influencia tiene el factor en la variable observable. Coeficientes
estandarizados de regresin

Una puntuacin tpica tiene varianza 1.

Pesos factoriales vs Coeficientes de estructura

106
Si los factores con los que estamos trabajando no tienen correlacin entre ellos, factores ortogonales. En
este caso esos pesos factoriales son la correlacin entre la variable observada y el factor correspondiente, adems
de aplicarse la interpretacin anterior.

La solucin final nos da dos matrices, la matriz patrn o de configuracin, donde van los pesos factoriales,
y lo que nos indican esos pesos son la interpretacin como Beta; pero ya no indican correlacin, porque adems
de la matriz patrn da una matriz de estructura, donde aparecen los coeficientes de estructura, correlaciones
entre la variable y el factor.

Factores oblicuos: aquellos que tienen relacin entre s.

Se mira generalmente la matriz de configuracin o patrn.

No hay una nica manera correcta de hacer un anlisis factorial del mismo modo que no hay una nica manera
correcta de fotografiar Waikiki Beach

Cronbach, 1970

Pasos en la Realizacin de un Anlisis Factorial

1.- Diseo del estudio y comprobacin de la adecuacin de los datos:


La calidad del anlisis depende de la calidad de los datos
2.- Extraccin de factores
3.- Seleccin del nmero de factores
4.- Rotacin
5.- Interpretacin de la solucin
6.- Clculo de la puntuaciones factoriales

Tipo, Distribucin y Nmero de Variables

Como partimos de correlaciones de Pearson necesitamos variables cuantitativas y normalmente distribuidas


(especialmente su queremos generalizar los resultados ms all de nuestra muestra).

Si empleamos variables tipo Likert podemos tener problemas si las distribuciones son muy asimtricas. Los
ndices de asimetra deberan estar entre +1 y -1.

Para tems dicotmicos sus medias deberan estar entre .4 y .6.

Correlaciones policricas.

Al menos tres variables por factor

Partimos de una matriz r de correlaciones de Pearson, se supone que esas variables estn normalmente
distribuidas.

La mayora de las veces el anlisis factorial no cuadra con los datos.

107
La normalidad es importante para hacer tcnicas inferenciadas, no tiene tanta importancia para comprobar un
modelo, s cuando queremos generalizar a poblacin.

Pruebas psicomtricas: campo en el que ms se utiliza el anlisis factorial

Opciones: Correlaciones policricas: con ms de dos categoras, la matriz r no sera de pearson sino policricas o
tetracricas (de 2, cuando binmicas).

06/11/13

Tamao y tipo de muestra

Las muestras de conveniencia pueden dar problemas porque suelen ser muy homogneas y eso produce una
atenuacin de las correlaciones por la restriccin del rango de puntuaciones.

Tamao de muestra recomendable: 200 sujetos mnimo. Con menos de 5 sujetos por variable, o con menos de
100 sujetos, el AF dara resultados poco fiables.

Las muestras de conveniencia tienen el problema de que los sujetos suelen ser muy homogneos entre s,
atenuacin por restriccin de rasgos, las correlaciones tienden a dar ms bajas. Como si utilizamos una muestra
de estudiantes de psicologa. Si no tenemos muestras aleatorias. Adems problema de generalizacin de
resultados.

Adecuado 10 sujetos por variable.

ndices de adecuacin

Determinante:

Indicador de multicolinealidad

Debera ser mayor de 0.00001.

Kaiser-Meyer-Olkin (KMO):

Medida de adecuacin de la muestra (mide en que medida cada variable est correlacionada con
las otras)

1 KMO > 0.9 muy bueno

0.9 KMO > 0.8 meritorio

0.8 KMO >0.7 mediano

0.7 KMO > 0.6 mediocre

0.6 KMO > 0.5 bajo

KMO > 0.5 inaceptable

108
Test de esfericidad de Barlett:

Pone a prueba la hiptesis de que R es una matriz identidad

Debera ser significativo p < .05

Permiten comprobar si cumplimos unos ciertos lmites para abordar el anlisis factorial. Las pruebas ms
comunes de adecuacin de la muestra son el KMO (fuerza de correlacin entre cada una de las variables y el resto
de las variables, de 0 a 1, cuanto ms cerca de 1 mejor se adeca; por debajo de 0,7 mal); y el test de esfericidad
de Barlett (matriz de correlaciones inicial no sea una matriz identidad, nos interesa p<0,05).

Buscan que las variables observadas estn correlacionadas entre s para poder hacer anlisis factorial. El
Determinante busca lo mismo de manera contraria, que no haya una correlacin muy alta, si todas
correlacionaran 1 el determinante de la matriz saldra 0, en correlacin perfecta no tiene sentido aplicar anlisis
factorial.

Extraccin de factores
AF vs CP

Procedimientos de AF

Extraccin de factores. Busca dar valores a los parmetros que hagan que las correlaciones producidas
por el modelo sean lo ms parecidas posibles a las observadas, que la matriz de residuales sea lo ms cercana a 0
posible.

Diferencia entre Anlisis Factorial y Componentes Principales

Aparentemente son casi idnticos, ambos procedimientos tienen un objetivo comn, extraer dimensiones
a partir de los datos empricos, diferencias ms conceptuales.

Cuando hacemos un AF se asume que refleja un constructo, una variable que realmente existe pero
que no podemos observar/medir directamente. De tal forma que mis datos empricos, las variables
observadas, funcionan como indicadores de ese constructo. Es esa variable terica la que genera las
variables observadas, los indicadores.
Cuando hacemos un anlisis de CP no suponemos nada, combinacin de datos por transformaciones
lineales, pero no asumen que por debajo hay constructos psicolgicos reales. Hace una reagrupacin

109
emprica de datos. Procedimiento de reduccin de dimensiones puramente emprico. Hablo de
componentes, no de factores; el flujo va de lo observado a lo no observado.
En el AF se distingue entre varianza comn, a todas las variables empricas, y nica, exclusiva a una
determianda variable. Se trata explicar la varianza comn, en el CP trata de explicar todas las
varianzas de las variables empricas.
Comunalidad, en componentes principales, como quiero explicar toda la varianza, la comunalidad
valdr 1, quiero explicar toda la varianza. En AF, la comunalidad ser siempre un valor inferior a 1.
R reducida: Estimacin de la comunalidad en la diagonal principal. Cuando hagamos
componentes principales, el valor ser 1, en AF menor.

En la mayora de las ocasiones las diferencias empricas son mnimas.

Distingue entre varianza comn y varianza nica


Trata de explicar la varianza comn.
Comunalidad inicial = correlacin mltiple al cuadrado
No distingue segmentos de varianza
Trata de explicar toda la varianza.
Comunalidad inicial = 1

Producen resultados similares cuando:

1. el nmero de variables es grande (ms de 30)


2. las variables tienen poco error (mucha comunalidad)

Mtodos de extraccin en AF

Descriptivos

No tratan de generalizar a la poblacin, se quedan en la muestra. Para generalizar mirar en diferentes


muestras, por replicacin del mismo experimento.
Mtodos de mnimos cuadrados ordinarios, buscan minimizar los residuales al cuadrado:
o Ejes principales, o factores principales
o Imagen
o Mnimos cuadrados no ponderados, ULS

110
Inferenciales

Pretendemos hacer generalizacin a la poblacin, a costa de poner ms supuestos


a. Aleatoridad
b. Asumir que los tems son la poblacin de todos los posibles para medir un determinado
constructo
Dan ndices tipo chi2 que permiten mirar el ajuste del modelo, pero cuando el tamao de muestra es
grande tiende a sobreestimar el n de factores.
La mayora procedimientos iterativos.

Mtodos de extraccin en AF

Independientemente del mtodo el resultado es la Matriz Factorial No Rotada, que se caracteriza porque los
factores:

a) Correlacionan 0, son independientes


b) Aparecen ordenados segn la proporcin de varianza que explican

Este parte de matriz reducida con diagonal principal de correlaciones mltiples al cuadrado. Por defecto SPSS usa
componentes principales.

1. Independientemente del mtodo, el resultado es la Matriz Funcional No Rotada. Solucin inicial que siempre
cumple con:
Entre los factores extraidos correlacin 0. Factores independientes
Se presentan de forma decreciente en funcin de su varianza explicada
2. Podemos derivar tantos factores o componentes como variables observadas tengamos. Pero entonces no
habra reduccin de la dimensionalidad.

Ejemplo

Escala de actitud hacia la democracia. Lickert 1-5

Determinante bien
Barlett significativa
KMO 0,8 bueno
Tabla de comunalidades:
Iniciales: si hubiera utilizado componentes principales la comunalidad inicial sera 1, y luego tras
aplicar el procedimiento la suya.
Rotacin ortogonal
Matriz factorial no rotada o inicial: Pesos de la variable observada. No hay en blanco,
mandaste al SPSS que por debajo de un determinado peso los quite.

111
Seleccin del nmero de variables

Dos procedimientos:

Rela de Kaiser o K1 de Kaiser: Cul es el autovalor de cada uno de los factores, reteniendo aquellos que
tengan un autovalor mayor que 1. Tiende a sobreestimar el nmero de factores. El procedimiento funciona peor
cuanto menor tamao de muestra y ms nmero de variables, aunque es el procedimiento ms popular.

Grfico de sedimentacin (Scree plot de Catell), ms intuitivo, hacer una grfica, en el eje X pones los
diferentes componenetes, en Y los autovalores. Lo normal es encontrar grficas curvas con algn punto de
inflexin, a partir del punto donde la lnea se hace horizontal tenemos que dejar de coger componentes. Nos
quedaramos con todos los componentes que estn a la izquierda del punto de inflexin.

-San Milln-

Map de velicer (mnimum average partial correlation): Es un nuevo procedimiento. Basado en las correlaciones
parciales. Lo que hace es ver en qu valor la media de las correlaciones parciales al cuadrado es mnimo. Ese
mnimo indica en qu momento debemos de dejar de extraer factores.

Anlisis paralelo de Horn: Genera un nmero de matrices aleatorias (que suele ser entre 50 y 100) y con la misma
dimensin que nuestra matriz original. Estas variables sern independientes entre s, por lo que se supone que no
subyacen factores comunes, la poca correlacin que pueda haber ser mera casualidad. El procedimiento para
todas estas matrices es calcular el autovalor para cada uno de los factores que se puedan extraer en esa matriz y
luego los promedia para con el nmero de matrices que tengamos. Esos valores son los que luego comparan con
los autovalores de nuestra matriz emprica (la real) y se queda con aquellos factores en los que los autovalores de
la matriz emprica sean mayores a la media de los factores de las matrices aleatorias.

En nuestro ejemplo, las dos primeras estn por encima de las muestras aleatorias, por lo que nicamente nos
quedaramos con el Factor 1 y el Factor 2.

112
METODOS NO TAN POPULARES
Residuales: Lo que deberamos de tender a encontrarnos es que esos
residuales tienen una distribucin mas o menos simtrica, tirando a la curva normal y
su media debera de ser 0. La ecuacin que tenemos arriba, se considera un ndice de
ajuste y con valores menores de 0,08 indican un buen ajuste

Mxima verosimilitud: nmero ms bajo de factores con chi-cuadrado no significativa. Buscamos que el
modelo ajuste por lo que no debe de ser significativa. Entre todos aquellos que ajustan nos quedamos con el que
menos factores tiene.

Medidas basadas en los modelos AF confirmatorios: en algunos programas o artculos se utilizan este
tipo de ndices, que provienen de los modelos confirmatorios.

- ndice Gamma o GFI superior a 0.9 (va entre 0 y 1)

- TLI-NNFI superior a 0.9 (va entre 0 y 1)

- RMSEA Inferior a 0.08

Como no hay acuerdo de que ndice mirar, pues se mira mas de uno.

113
ROTACIN DE FACTORES
La matriz de correlaciones que nosotros tenemos podra reproducirse ajustando igual de bien desde
diferentes matrices factoriales. Dicho de otra manera no hay una nica solucin factorial. Por tanto tenemos una
indeterminacin.

Esto se representa como lo vemos aqu (representacin ortogonal, ngulos rectos). Los ejes seran los factores
(factor 1 y factor 2). Entonces en esta grafica indicamos los pesos en forma de coordenadas. Es decir se coloca el
peso segn la puntuacin que tenga en el factor 1 y en el 2. Si los dos ejes tienen ngulos distintos, hablamos
entonces de factores relacionados u oblicuos.

Los factores que tienen los mismos pesos en los


dos factores son muy difciles de interpretar
puesto que no podemos decidir a qu factor
pertenece. Para solucionar esto, giramos los ejes
de coordenadas (rayas rojas) para que se
acerquen a los pesos.

Estructura Simple

Nos indica que debemos hacer para que sea simple interpretar una estructura factorial. Se defiende que han de
cumplirse 3 condiciones:

1 - Cada factor debe tener unos pocos pesos altos y otros prximos a 0.

2 - Cada variable no debe de cargar ms que en un factor.

3 No deben existir factores con la misma distribucin, es decir, los factores distintos deben presentar
distribuciones de cargas altas y bajas. Si tienen la misma distribucin de cargas, estamos contando lo mismo.

rotacin ortogonal (factores independientes)

Varimax

Quartimax

rotacin oblicua (factores correlacionados)

Matriz de configuracin
Matriz de estructura

Oblimin

A la hora de mover los ejes hay dos opciones: rotamos ortogonal (90 grados entre los ejes) u oblicuo
(permitimos cambiar los grados). Cuando rotamos el eje, cambian los pesos, pero no cambia la varianza explicada
por el modelo.

114
Rotacin ortogonal (factores independientes):
Varimax: intenta maximizar la varianza de los pesos dentro de un factor. Es decir, trata de que haya unas
variables con pesos muy altos y otras con pesos muy bajos. Esto se realiza cuando no hay factores
dominantes (los factores explican ms o menos la misma proporcin de varianza)

Quartimax: maximizar la varianza de los pesos pero por filas dentro de una variable. El caso ms extremo
sera un peso muy alto en una variable y un peso muy bajo sobre otras (se centra sobre todo en la
segunda condicin). Se tiende a dar un factor dominante y otros mas pequeos

Cuando utilizar uno u otro depende de lo que estemos buscando

Rotacin oblicua (factores correlacionados): adems de girar permitimos que los ejes se acerquen, por lo
tanto sus factores ya no son ortogonales, son factores con correlacin entre ellos. Aqu ya son cosas distintas los
pesos y la correlacin

- Matriz de configuracin: nos indica los pesos

- Matriz de estructura: nos indica las correlaciones.

Oblimin: es el mtodo clsico, trata de maximizar las diferencias entre los factores, para que sean
unos claramente diferentes a los otros.

En principio, Marcelino es partidario de la oblicua. En psicologa en la mayora de las ocasiones los


constructos estn relacionados entre s. Pero en lo que debemos de fijarnos es en nuestro supuesto: si yo asumo
que lo que subyace a mis variables est relacionado o no.

Una manera de operar racional es empezar con una oblicua, si entre los factores que tengo la correlacin
es muy baja (.20) entonces es recomendable no complicarnos la vida y hacer una ortogonal. No se podr rotar en
soluciones unifactoriales (ya que si cada eje es un factor, es imposible)

Interpretacin de los Factores

Estudiar la composicin de las saturaciones factoriales de cada factor

Dar nombres a los factores

Para que nos ayude:

Ordenar la matriz rotada segn el tamao de los pesos

Eliminar pesos bajos (> .30)

115
Puntuaciones factoriales

Componentes principales

Mtodo de Regresin

Mtodo de Barlett

Mtodo de Anderson-Rubin

No es para nada obligatorio

Se hace cuando el objetivo de nuestro anlisis es simplemente una reduccin de datos. Las puntuaciones
factoriales se calculan despus de realizar la rotacin. Se calcula multiplicando el peso de cada factor por su
puntuacin en la variable.

Componentes principales:

Mtodo de Regresin: es el que da por defecto el Spss, da lugar a unas puntuaciones factoriales de media
0 y su varianza es la correlacin mltiple al cuadrado entre las variables y el factor con el que estamos
trabajando. Hay que tener en cuenta que las puntuaciones factoriales estimadas pueden estar
correlacionadas entre s aunque la rotacin que hayamos hecho haya sido ortogonal.

Mtodo de Barlett: media 0 y la varianza es la correlacin mltiple al cuadrado entre variables y factor.
Trata de minimizar la influencia del factor especifico, de la unicidad. Da mas fuerza a lo que hay comn
entre los factores. Tambin podra darnos puntuaciones factoriales relacionadas entre s

Mtodo de Anderson-Rubin: modificacin del anterior, con una escala de media 0 y desviacin tpica 1 y
donde las puntuaciones factoriales no estn correlacionadas entre s.

Ejemplo: anlisis de una escala de actitud hacia la democracia (Morales 2006)

Los tems negativos iran en contra de la democracia y los positivos a favor. Es una escala con 6 items que
trata de medir actitudes hacia la democracia.

Matriz de correlacionesa

a. Determinante = ,092

116
Se analizaron los datos para ver:

Matriz de correlaciones: determinante= 0092.

No hay problema de multicolinealidad perfecta.

La prueba de esfericidad de bartlett es significativa, por tanto no es una matriz de identidad y es adecuada para
hacer una AF. El KMO es meritorio (0805).

La tabla de comunalidades nos indica dos cosas:

- Columna inicial: si fuese componentes principales sera 1. Como no lo es, s que me encuentro ante AF.

La tabla de varianza total explicada se llamara solucin explicada. Como en el Spss se utiliza la regla de
K1, pues extrae todos los factores con sus correspondientes autovalores y corta por autovalores mayores que 1. Si
no le decimos nada al Spss, el utiliza por regla el K1. As, encontramos que nos quedamos con dos nicos factores
el 1 y el 2.

En este caso K1 y plot de Catell cuadran perfectamente.

117
Rotacin Ortogonal
En la matriz factorial tengo los pesos de cada variable observada en los dos factores. Lo que aparece en
vaco es para que SPPS quite valores bajos. Cuando nosotros rotamos por los ejes mantenindolos independientes
nos encontramos con la matriz de factor rotado. Como vemos es mucho mas fcil interpretar la segunda.

Rotacin Oblicua
SI rotamos de forma oblicua encontramos una matriz de patrn (pesos factoriales), una de estructura y
una de correlaciones factorial. Aqu, la matriz de patrn es mucho mas fcil de interpretar. La matriz de estructura
da lugar a confusin. Si queremos ver que variable define cada factor, nos lo indica la matriz patrn.

Si la correlacin estan los dos de 0.60 para arriba, entonces estn midiendo lo mismo.

Para interpretar el analisis factorial, lo primero que debemos de mirar son las cargas factoriales olvidandonos del
signo, dependiendo del tipo de rotacin que hemos realizado elegiremos una tabla u otra (matriz de factor rotado
ortogonal; matriz de patron oblicua).

El segundo paso es darle nombre al factor. Para ello ordenamos las variables segn su peso en los factores. Si los
dejas desordenado es mucho mas dificil de interpretar. Una variable que carga en mas (mas o menos lo mismo)
de un factor es una variable compleja. Esa no se utiliza para la interpretacin, es decir, no se tiene en cuenta a la
hora de denominar le factor. Para nombrar los factores entonces, deberemos de mirar a que se refieren las
variables originales que definen ese factor y buscar lo que hay de comn en ellas.

118
Los items impares que son los que representan el primer factor vemos que presentan una actitud antidemocracia.
Los items pares representan una actitud favorable a la democracia.

La matriz de correlacin reproducida es la que saldra del modelo. Esta no coincide con la original, pero se trata de
que si el modelo funciona bien debera de estar bastante cerca de la original y esto nos lo ofrece la matriz de
residuo. Como vemos todos estn muy cercanos a 0. Por tanto si que parece que la solucin por la que hemos
adoptado de 2 factores es eficiente.

13/11/13

Ejemplo Prctico, Programa FACTOR

Con el programa FACTOR puede trabajarse desde una matriz de datos brutos, de correlaciones o matriz
var-covar.

Escala Lickert, ansiedad ante la estadstica. Las escalas lickert, a partir de 5, puedes contarlas como cuantitativas.

SPSS

1. Comprobar supuestos de normalidad. Con ndices estadsticos o histograma.


a. KS de 1 muestra.
i. Ninguna se corresponde con la normal, pero era esperable puesto que solo tenemos 5
categoras.
b. Grficos.
i. Con distribuciones ms o menos centradas no son muy preocupantes.

2. Factorial con componentes principales, para ver con cuntos factores nos quedamos y empezar a
trabajar.
a. Pedimos KMO para ver cmo funcionan las muestras, si la matriz es adecuada para analizar.
i. Valor mnimo .50, buscamos entorno a .80.
ii. Barlett tiene que dar significativa.
iii. Comunalidad inicial 1
b. Autovalores mayores que 1 (por defecto), regla K1.
i. 23 componentes principales

119
ii. Con 4 factores se explica entorno al 50% de la varianza, los que tienen ms que 1 en
autovalor cuando te da los resultados.
c. Grfico de sedimentacin
i. En un primer golpe de vista parece que hay solo dos factores, ver la solucin con 2 y con 4
y ver con cul cuadra mejor nuestro modelo.

Podramos hacerlo con SPSS, pero vamos a ver el programa Factor. psico.fcep.urv/utilitats/factor

Factor no lee datos de SPSS, tenemos que pasarlo a formato ascii, el SPSS en -guardar como- le das a delimitado
por tabuladores.

Factor te pide que introduzcas n de sujetos y n de variables (23 tems que componen el cuestionario).

Hull: Busca un modelo parsimonioso

Factores relacionados entre s, todos intentan mirar la ansiedad. Intentamos en principio con oblicua, si no sale
muy bien podemos probar con ortogonal.

No nos interesan variables muy asimtricas. En los descriptores univariantes tenemos que mirar los ndices,
tienen que estar entre +-1.

La curtosis nunca ajusta, siempre da significativo. Puede que sea por el tamao de muestra, que cuando es muy
grande siempre da significativa, puede que sea muy sensible a la muestra.

Matriz de datos estandarizada.

El programa aconseja quedarnos con 4 factores.

Rotacin oblicua, en la primera matriz no hay forma de interpretar nada.

Rotated loading matrix: A partir de la matriz original de distribucin de pesos, plantean una matriz objetivo de
llevar a 0 los pesos que no son significativos, para dar una visin ms clara. Esta es la matriz que utilizamos para
interpretar los datos, no la de correlaciones. Corta a partir de .30, en clase vimos a partir de .40.

120
TEMA 6.A.: ANLISIS DISCRIMINANTE

Definicin

El Anlisis Discriminante es una tcnica estadstica que permite estudiar las diferencias entre dos o ms
grupos de objetos con respecto a varias variables cuantitativas simultneamente.

El problema que nos resuelve el Anlisis Discriminante es el de reducir el nmero de variables que
discriminan entre los grupos a una, dos o varias nuevas variables (llamadas factores, variadas, variables
cannicas), que son combinacin de las anteriores y que viene expresadas por una funcin discriminante.

19/11/13

Respecto a una serie de variantes cuantitativas de manera simultnea para tratar de diferenciar entre dos
o ms grupos. Reducir el nmero de variables que discriminan entre grupos, creando dos, tres o ms variables
nuevas (cannicas) que son combinacin de las anteriores y que vienen expresadas en una funcin discriminante,
perdiendo la menor informacin posible.

Se parece bastante a otras tcnicas. El caso ms sencillo posible tenemos dos variables cuantitativas,
representacin conjunta de dos grupos de sujetos respecto a dos variables (los dos huevos de la grfica 1 de la
diapositiva). Qu ganancia tengo utilizando la funcin discriminante respecto a utilizar las variables
cuantitativas?

Si yo tuviera slo X1, los grupos se solapan, si cojo un punto medio en algunos casos me voy a equivocar.
Si lo hago slo con X2 y establezco un criterio de a partir de una puntuacin los sujetos son de un grupo o de otro,
tambin voy a tener una serie de errores. El anlisis discriminante busca que seamos ms capaces de diferenciar
los grupos, para que se solapen menos y cometer menos errores de los que se cometen en un principio.

Nueva variable D, ya no x1 ni x2. Cmo se distribuyen los grupos respecto a las dos variables
conjuntamente. Menores errores en la clasificacin.

121
Usos
Clasificacin (Anlisis Discriminante Predictivo)

Explicacin (Anlisis Discriminante Descriptivo)

Uso de clasificacin: asignar sujetos a grupos en base a las nuevas variables. Anlisis discriminante
predictivo.
Explicar en qu difieren los grupos: por qu se dan diferentes grupos, de esas variables que estamos
considerando, cules tienen mayor influencia. Anlisis discriminante descriptivo

Generalmente en los anlisis se mezclan ambos usos de la tcnica.

Anlisis Discriminante vs. Regresin Logstica

o Tipo de VI
o Tipo de funcin: Lineal vs Sigmoidal

Muy parecida a regresin logstica. Aunque esta ltima se utiliza en cuanto a factores de riesgo, el
discriminante se utiliza ms en el mbito econmico, aunque fundamentalmente es lo mismo. La diferencia ms
clara es la VD, en logstica podra ser cualitativas o cuantitativas o mixtas, en el anlisis discriminante las variables
son necesariamente cuantitativas. Menos supuestos que en regresin logstica. El discriminante se basa
directamente en el modelo lineal, no en modelo logstico (S).

En muchos libros animan a aplicar la logstica cuando no se puede utilizar la discriminante. Lo que no se
puede hacer es al revs, ya que el discriminante no admite variables cualitativas.

Anlisis Discriminante vs. MANOVA

El AD es otra forma de ver el MANOVA con un solo factor.

122
Condiciones de Aplicacin

Al menos dos grupos mutuamente excluyentes

2 casos o ms por cada grupo

Nmero VI mximo: nmero de casos menos 2

VD cualitativa, VIs cuantitativas

Ausencia de multicolinealidad entre las VI

Nmero mximo de Funciones Discriminantes = el menor de: nmero de VIs o nmero de grupos menos 1

Homogeneidad de varianzas

Normalidad multivariada

Sensible a los valores extremos

Tamao de muestra: En cada grupo 20 casos por predictor.

En MANOVA, VI a la V. cualitativas, VD a las cuantitativas. Cuando AD tratamos de ver si con una


combinacin de V.cuantitativas somos capaces de explicar una serie de diferencias entre los grupos, ahora las VI
son las cuantitativas, y la VI las cualitatativas. En el fondo estamos intentando ver las diferencias entre grupos. La
diferencia principal est en cmo planteamos la situacin, pero incluso algunos estadsticos son los mismos.

ANOVAS univariados como alternativa cuando da significativo el MANOVA, hay otras posibilidades de
hacerlo, como con anlisis discriminante. El MANOVA calcula una variada, combinacin de V.D. Hay una
dimensin o ms que explican las diferencias entre grupos?

Tenemos que tener al menos dos grupos, que tienen que definir categoras excluyentes, que no se
solapen. Al menos han de tener dos casos por grupos. Con dos variables independientes menos que el tamao
demuestra, pero los modelos cuanto ms parsimoniosos sean mejor. La VD tiene que ser de tipo cualitativa, y las
VI o variables discriminantes han de ser cuantitativas. Las VI no deben ser muy redundantes, problema de
colinealidad.

Podemos construir ms de una funcin discriminante, hasta el n de VI que tengamos o el n de grupos


menos 1 (el valor de entre los dos que sea ms pequeos).

Tiene los supuestos bsicos del modelo lineal general. Es una prueba bastante robusta, tiene ms
problemas en casos extremos, que influyen mucho en la varianza. Prueba propuesta por Fisher, aunque en sus
datos no cumplen normalidad ni homogeneidad de varianzas.

El AD admite grupos de distinto tamao, aunque mejor cuanto ms equilibrados estn los grupos. Lo que
no se puede es tener grupos con muy pocos sujetos, bastantes ms casos que VI. 20 sujetos por cada variable
predictora en cada grupo.

123
Ejemplo de empresas: ver si en base a unas caractersticas de los empleados podramos diferenciar
entre unas empresas y otras.

Anlisis de varianza univariado de forma contraria que en el ANOVA. Lambda de Wilks como si fuera una
F, las variables predictoras o discriminantes difieren estadsticamente en los grupos que tenemos. Si la gran
mayora no tiene diferencias significativas para este tipo de anlisis no va bien.

Comparacin del supuesto de homogeneidad de varianzas. Matrices var-covar. En ANOVA utilizbamos la


M de Box, cuando era significativo no hay homogeneidad (suele ser lo ms habitual). M de Box criticada, con
tamaos de muestra grande, a la mnima desviacin da significativo, seguramente no haya tanta diferencia de
varianzas.

El logaritmo de los determinantes de las matrices var-covar para cada uno de los grupos. Indicador
generalizado de la varianza. El determinante es un escalar, resumen de la varianza. Entre los determinantes no
hay muchas diferencias, lo que apunta a que cualquier mnima diferencia da significativa M de Box.

124
La funcin discriminante

Las funciones maximizan la distancia entre los grupos.

Los coeficientes se derivan por Mxima Verosimilitud

Cada funcin explica una cantidad decreciente de varianza

Combinacin lineal de variables, donde la D son las puntuaciones discriminantes. X puntuaciones directas
de los sujetos en las V. discriminantes, U pesos discriminantes para las variables.

Funcin que consigue la mejor diferenciacin entre los grupos, maximizar las diferencias entre los grupos.
El centroide, media multivariada, el centroide de un grupo, media de variables combinadas. Busca maximizar la
distancia entre los centroides de un grupo.

La segunda funcin busca lo mismo, pero con la condicin de que las puntuaciones discriminantes de la
segunda funcin no estn correlacionadas con la primera. Las de la tercera no pueden estar correlacionadas ni
con la primera ni con la segunda, funciones ortogonales entre s.

Los coeficientes en regresin mltiples se estiman por mnimos cuadrados. Aqu, como en regresin
logstica, procedimientos iterativos.

Tantas funciones como n-1 grupos. Explicar lo ms posible de las varianzas de las funciones
discriminantes. El procedimiento es secuencial, la segunda funcin es la que explica la mayor cantidad de varianza
de la varianza que la primera dej sin explicar (varianza residual).

Significacin de las Funciones

Lambda de Wilks para ver diferencia de medias, si es significativa indicar que el conjunto de funciones
consiguen discriminar entre los grupos mejor que el azar. Cuanto ms bajo sea su valor, mayor capacidad
predictiva, cuanto ms cercanos a 0, nos indica que la proporcin de varianza no explicada por el modelo es baja.
Va de 0-1. Nos dice si el global de las funciones derivadas tienen capacidad discriminativa; para saber si una
funcin tiene capacidad discriminativa por ella misma utilizamos un procedimiento algortmico.

Autovalores: indicador de varianza explicada, no de proporcin. Puede conceptualizarse como el cociente


entre varianza explicada y varianza no explicada (de error). Autovalores mayores que 1 nos estn diciendo que

125
hay ms varianza explicada que varianza de error. Nuestro objetivo es que ese autovalor sea mayor que 1. Con
trminos negativos MAL.

Autovalores y Lambda son ms descriptivos.

Algoritmo para comprobar la significacin de las funciones. Calcular la lambda de wilks para las funciones
que tengo (3 por ejemplo), si no da estadsticamente significativo acabo el anlisis, si no tienen capacidad
discriminativas todas juntas menos lo tiene una. Si da estadsticamente significativa el conjunto de las funciones
tienen capacidad predictiva. Al menos la primera ser por tanto significativa, porque es la que ms explica de las
tres, al menos la primera diferencia bien los grupos.

Veo si la segunda y tercera dan diferencias significativas, si no la dan slo la primera lo era; si dan
significativas, al menos la primera y la segunda son significativas. Sigo hacindolo hasta que lambda no de
significativo, te quedas con las que hayan dado.

Cuando me quedo con el modelo, por ejemplo de dos funciones, tengo que ver en qu medida funciona
ese modelo, como el ajuste. Uno de los ndices que nos permiten ver esto es lambda, si queremos la proporcin
de varianza explicada podemos utilizar 1-Lambda, esto nos sirve para valorar el modelo.

El autovalor es el indicador de la varianza discriminante. Si sumamos los autovalores de todas las


funciones, tendremos la cantidad total de varianza que explica. Si lo dividimos entre el nmero de funciones
tendremos la proporcin de varianza que explica cada funcin. Capacidad discriminativa de esas funciones
respecto al total.

La correlacin cannica es un estadstico que permite calcular la correlacin entre dos grupos de
variables. En el contexto del AD se calcula la correlacin entre las variables discriminantes y los grupos.
Proporcin de varianza explicada.

El punto de referencia no es 0, sino el nmero de sujetos clasificados correctamente por azar. Cuidado
porque los grupos pueden tener distinto tamao, tener en cuenta para calcular los aciertos por azar.

Cuando el tamao de los grupos sean muy extremos por alguna razn sustantiva, tener o no X. Si ese
desequilibrio en los grupos refleja el desequilibrio en la poblacin, tener en cuenta a la hora de hacer la
clasificacin, no son la mitad de cada grupo, por azar. Si en la poblacin los grupos son equilibrados aunque en mi
muestra sean desequilibrados, trabajamos con los grupos de manera estndar.

Clasificacin dejando uno fuera, procedimiento de validacin cruzada. No infla los resultados. Interesante.
Es trampa utilizar los mismos sujetos para construir el modelo y problarlo. Solucin de partir la muestra, una
mirad se deja para hacer el constructo y otra para la prueba.

126
Otro procedimiento similar es el mtodo Jack Knife, hace el modelo con todos los sujetos menos 1 y luego
lo clasifica con el modelo construido sin l. Se hace as con todos los sujetos, es el procedimiento de validacin
cruzada.

Tabla para anlisis cualitativo, cuando me equivoco, Dnde me equivoco? Resultados de la clasificacin.

Evaluar la Calidad de los Resultados

Lambda o (1 Lambda)

Correlaciones cannicas y autovalores

Los resultados de la clasificacin

Con todos los sujetos

Dejando uno fuera (validacin cruzada)

20/11/13

Los Coeficientes de las Funciones Discriminantes

Cuando el SPSS deriva la funcin discriminante nos da varios tipos de coeficientes:

Coeficientes discriminantes no estandarizados: los que aparecen directamente en la ecuacin del modelo,
coeficientes en puntuaciones directas, las U. Equivalente a lo que antes eran las B. Importancia en trminos
absolutos y en diferentes escalas. Se utilizan para calcular las puntuaciones discriminantes de los sujetos.

127
Coeficientes discriminantes estandarizados: tipificados, equivalentes a las Betas de regresin mltiple.
Tenemos ahora trminos relativos, nos permiten comparar unas variables con otras. Importancia relativa.

Coeficientes de estructura: correlaciones entre la funcin discriminante y la variable. Intentar dar un nombre
al constructo subyacente que est definiendo la diferencia entre los grupos. La variable que tenga ms
correlacin con la funcin comparte ms.

Siguiendo nuestro ejemplo,

La tabla 1 es de tpicas (autoestima y neuroticismo las que ms cargan en la funcin 1 y depresin en 2).
La 3 de directas (da tambin constantes).
La tabla 2 es de coeficientes de estructura (la que define la segunda funcin es depresin).
La 4 es la tabla de centroides, medias multivariadas. La primera funcin diferencia sobre todo al grupo
de las empresas en quiebra de las de rpida expansin, separa los ms extremos.
o Es lgico que los que trabajan en empresas en quiebra tengan mayores niveles de depresin,
neuroticismo y menores de autoestima. Sensaciones psicolgicas contrarias.
o La segunda funcin es ms residual, entre el grupo medio y los otros dos grupos.

Cada redondel es la puntuacin discriminante de cada sujeto, cada cuadrado es un centroide de cada uno de los
grupos.

La primera funcin s que ayuda a discriminar bien entre los grupos. Pero si miramos la segunda funcin
(eje y) vemos que poco contribuye esa segunda funcin.

128
Procedimientos de Clasificacin

Las funciones de clasificacin

b coeficientes de la funcin de clasificacin

El sujeto se clasifica en el grupo con h ms alto

Distancias de Mahalanobis al cuadrado (D2)

Probabilidad a posteriori, P(Gk/D2)

Varias formas de clasificar los sujetos:

Funcin de clasificacin: no es exactamente un anlisis discriminante. Fisher propone que dentro de


cada grupo se busque una combinacin lineal de las variables independientes, denominada h.
Coeficientes de la funcin de clasificacin (b), para cada uno de los grupos de variables un valor de h
para cada sujeto. Clasifico al sujeto en aquel grupo en el que su puntuacin h sea mayor.
Distancias de Mahalanobis al cuadrado (D2): Distancia entre un sujeto y los centroides de los grupos, le
clasificamos en el que la distancia sea ms pequea.
Propabilidad a posteriori, P(Gk/D): Es la que utiliza el SPSS. Probabilidad de pertenecer al grupo K dado
que el sujeto tiene una puntuacin D. Clasificaremos al sujeto en el grupo en que su probabilidad a
posteriori sea mayor.
1-n de grupos, probabilidad a priori cuando los grupos son equilibrados. Si los grupos son
desequilibrados quedar reflejado en la frmula, para grupo habr una probabilidad a priori distinta.
Dar lugar a distintas clasificaciones.
Me da una puntuacin para cada uno de los grupos. Para hacer este paso hay que pedirlo
especficamente al SPSS; no es necesario hacer el anlisis discriminante.

129
La probabilidad Vallesiana se diferencia de la a priori en que utiliza ms informacin que puedes obtener en
la realidad, no solo la probabilidad a priori sino la puntuacin discriminante del sujeto, da una probabilidad a
posteriori.

El resultado final es una tabla de resultados de clasificacin, el estadstico por casos se pide a parte si
quieres, te desmenuza el proceso de clasificacin (los asteriscos dan donde se falla, la probabilidad asignada
puede ser mucho menor por ejemplo). Compara probabilidades y asigna.

130
Mtodos Stepwise de Construccin de las Funciones Discriminantes

Procedimientos para seleccionar las variables

Lambda de Wilks: Lambda ms baja o F ms alta.

Varianza no explicada. La variable que minimiza la varianza no explicada

D2 de Mahalanobis. La que maximiza la D2 entre los grupos ms prximos

Menor razn F: La variable que hace mxima la menor de las F calculadas segn:

V de Rao: La que maximiza este estadstico

Podemos utilizar Stepwise para no quedarnos con todas las variables, o bien a ojo. Las crticas de los
procedimientos es que son procedimientos exclusivamente estadsticos.

Criterios para seleccionar las variables

Valor de F. Mayor a 3,84 para entrar y menor a 2,71 para salir

Probabilidad de F. Menor de 0,05 para entrar y mayor de 0,10 para salir

Tolerancia

Criterios:

Lambda de Wilks: busca que sean lambdas bajas, pero si miramos F buscamos que sea la ms alta
La variable que hace mnima la varianza no explicada
Mahalanobis: coge aquella variable que hace que los grupos estn ms separados
Estadstico de razn de F: para cada pareja de grupos calculo una F, donde p es el n de variables
independientes dentro del modelo (incluida la que estamos intentando meter). La variable que entra es
la que hace mxima el valor de las F ms pequeas.
V de Rao: Estadstico de MANOVA que calcula diferencias de medias, incluye la que es capaz de
discriminar ms entre las medias.

Condiciones previas para seleccionar variables, independientemente del criterio que escojamos de seleccin.

Probabilidad de F: alfa. Similar a valor de F. Es ms fcil entrar que salir.


Segunda condicin: Nivel de tolerancia, 0,001 mnimo para que pueda entrar una variable. Mide la
colinealidad entre las variables, la tolerancia es 1-R2. Si R2 es muy alta la tolerancia ser muy baja,
variables muy relacionadas. Esto se mira para la variable que est entrando y para las variables que
estn dentro.

131
132
133
134
TEMA 6.B.: ANLISIS DE CLSTER O CONGLOMERADOS
El Anlisis de Cluster es una tcnica de anlisis de datos de carcter exploratorio que sirve para revelar
agrupaciones dentro de un conjunto de datos. Se trata de una tcnica multivariante que permite agrupar casos o
variables en funcin del parecido o similaridad.

Grupos lo ms homogneos entre s y los ms heterogneos unos frente a otros.

Dos tcnicas a las que se asemeja bastante el anlisis de clster:

Anlisis factorial: El anlisis factorial es bastante rgido en sus supuestos, mientras que el de clster es
ms generalizable. En el factorial partimos de una matriz de correlaciones entre las variables (matriz de
distancias), mientras que en el anlisis de clster se pueden utilizar diferentes tipos de matrices de
distancia. Cuando los supuestos no se cumplen, o n pequea, anlisis de clster.
o La finalidad es la misma.
Anlisis discriminante: Desde la perspectiva de agrupar casos, no variables. En el AD tenemos los grupos
hechos, cuantitativas; mientras que en el de clster hacemos los grupos a partir de observadas, y no
tenemos supuestos, ms flexible.

Cmo funciona el anlisis de clster?

Se basa en el concepto de distancia, agrupando a los casos ms prximos.


No ofrece soluciones unvocas.
Admite todo tipo de variables.
No se deben usar variables muy correlacionadas entre s.
Cuidado con los outliers.
Las variables deben ser cuidadosamente seleccionadas en base a criterios tericos.
Suele tipificarse las variables

El clster se basa en el anlisis de distancia, agrupa sujetos menos distantes entre s. Tcnica claramente
exploratoria en anlisis multivariado:

Admite variables tanto cualitativas como cuantitativas, aunque conviene no mezclarlas.

Primero suele hacerse un anlisis de componentes principales, para dar coger las variables que dan
cuenta de la informacin, as reducimos la dimensionalidad y tenemos componentes ortogonales.

Problema de outliers, que pueden dar lugar a clsters nicos que realmente no representan a nadie.

135
Los outliers a posteriori se ven bien, tambin pueden detectarse a priori. Podemos eliminar esos sujetos.

Seleccionar bien las variables para que los grupos resultantes tengan sentido sustantivo.

Se basa sobre todo en el concepto de distancia, basada en las puntuaciones de las variables observadas.
Puede surgir problema si hay muchas diferencias en cuanto a la escala, las medidas de distancia pueden
ser infladas, puede influir en el resultado de los grupos.
o Solucin, tipificar, media 0, desviacin tpica 1.

No existe un nico anlisis de clster, depender del tipo de variable con la que estamos trabajando,
cmo miramos la similitud entre los casos y cmo definiremos cundo dos casos se agrupan entre s o cuando dos
grupos ya formados se unirn para formar uno mayor.

Medidas de Proximidad (Distancias)


En qu medida dos observaciones estn relacionadas entre s.

Con las distancias medimos las diferencias, lo que se aleja una observacin de otra: raz cuadrada de la
resta de las puntuaciones de los dos sujetos elevados al cuadrado.
Medidas de similitud o simaridades: estamos viendo lo contrario, cun cerca estn dos observaciones
entre s. La medida ms clsica de similitud es la correlacin, Pearson; se calcula respecto a la
correlacin de dos observaciones, no de dos variables.

Mtodos de Clster

Mtodos Jerrquicos

Grandes bloques, mtodos jerrquicos y no jerrquicos, de agrupacin.

Procedimiento por pasos sucesivos, en el primer paso hay tantos grupos como sujetos observados, se mide
la distancia entre esos sujetos y en el primer paso se agrupan los dos que son ms cercanos. El siguiente paso
puede ser hacer un nuevo grupo o unir a un sujeto a un grupo ya formado. Ms adelante se darn agrupamientos
de clster entre s para dar lugar a grupos superiores.

Dentro de los modelos jerrquicos, diferentes criterios para decidir qu sujetos uno:

136
Vecino ms prximo: todos los sujetos son clsters individuales, unimos los ms cercanos entre s.
o Se miden las distancias entre cada uno del resto de sujetos y cada uno de los elementos que
forman parte de ese clster, se unen aquellos con la distancia ms corta.
Vecino ms alejado: medir distancias entre ellos y quedarnos con la distancia ms lejana, de entre
los grupos ms alejados, se queda con la ms prxima.
Vinculacin inter-grupos: calcula todas las distancias y compara distancias medias. Agrupa los que
tienen una distancia media menor
Mtodo de agrupacin de centroides: Mide la distancia entre los vectores de medias.

El SPSS tambin oferta el mtodo de WOR, varianza intragrupos la menor posible.

Procedimientos de salida:

De tipo anidado, no se separan del mismo grupo una vez se han medio

Una vez que un caso se une a un grupo permanece en l durante el resto de etapas posteriores

137
Ejemplo:
Situacin sanitaria en los pases rabes (Engelman, 1985)

Matriz de distancias entre todas las observaciones que tenemos.

Se suelen mirar los grficos del SPSS,

Trazar una lnea por la mitad superior del grfico, nos quedaramos con tantos clster como lneas cortramos.
Aunque hay que sustantivizarlo, igual tenemos que quedarnos con ms que lo que dice la teora.

Razonable estndar las variables, no es lo mismo n de enfermeras, n de camas y n de hospitales.

Dendograma. Las soluciones no suelen ser muy claras.

Calcular para cada una de las variables iniciales la media y hacer un grfico de perfil. Ah vemos en qu
son diferentes esos grupos, por ejemplo aqu vemos que las diferencias de grupos se dieron fundamentalmente
por la diferencia en el nmero de camas.

No se estandariz en el anlisis, al ver la tipificacin se arrepinti.

138
139
Mtodos no jerrquicos: K-Means
Aqu los sujetos pueden cambiar de un grupo a otro.
Anlisis recomendado cuando tenemos muchos casos y relativamente pocas variables.
En los procedimientos no jerrquicos nosotros establecemos de antemano el nmero de grupos que
queremos.
Procedimientos de tipo iterativo, un paso se basa en los resultados del paso anterior. Hasta llegar a una
solucin estable.
SPSS no estandariza valores, a diferencia del procedimiento jerrquico, no se puede tipificar.
En el comando descriptivos, opcin de guardar valores tipificados como variables.

140
Procedimiento:

1. Fase de clasificacin: parte de un nmero de clster al que tiene que llegar. Busca a los sujetos ms
separados entre s y los toma como centroides de esos grupos iniciales o semillas.
a. Ojo con los utliers, que tomar como grupos iniciales. Mirar primero los datos para descartar esos
outliers.
2. Mirar distancia ocldea entre el caso y el centroide del grupo.
a. Una vez formados esos grupos, recalcula los centroides de media. Una vez recalculados los
centroides, se reasignan todos los sujetos. Reasignacin.
3. Se valora si el cambio de distancias que ha habido respecto a las dos fases cumple un cierto criterio, que
la distancia sea ms pequea. Si no lo cumple, se realiza una nueva iteracin. Si cumple el umbral la
situacin est estabilizada.
a. Se para cuando no hay cambio entre una iteracin o se llega a la mnima establecida; o cuando
hayamos llegado al mximo de iteraciones establecidas por defecto.

Suele ser bastante tpico pedir soluciones con varios nmeros de clster, para al final coger la que mejor te
cuadra.

Ejemplo
Agrupacin de alumnos universitarios en funcin del NEO, Five Factor Inventory (tomado de Meyers,
Gamst y Guarino, 2013)

Variables de personalidad. Estandarizadas y a partir de ah solucin con 4 clsters.

Con 10 iteracciones que haba pedido no converga, pidi que el SPSS hiciera ms iteraciones.

141
Anlisis de varianza para ver si hay divergencia en las variables que hemos creado. Pruebas F puramente
descriptivas, los sujetos no han sido asignados al azar a los grupos ni los estamos protegiendo contra la tasa de
error tipo I. Esto no te lo da el anlisis anterior. Debera haber diferencias estadsticamente significativas,
diferenciar los sujetos entre las variables.

Tambin mirar diferencias de los grupos, tomar terceras variables relacionadas con las variables que
hemos utilizado para realizar los grupos, y ver si hay relacin Buscar evidencias para validar el anlisis.

Mirar tambin n de sujetos por clster, generalmente nos interesan grupos ms o menos equilibrados,
igual nos interesa tener 3 clsters en vez de 4 si as conseguimos grupos ms equilibrados, tambin podra ser de
5, los grupos se van distribuyendo de diferente manera.

142
TEMA 5.B.: ANLISIS FACTORIAL CONFIRMATORIO
03/12/13 San Milln

INTRODUCCIN AL ANLISIS FACTORIAL CONFIRMATORIO

Cuando trabajamos en el contexto de anlisis factorial, lo que hacamos era determinar a partir de una
serie de variables observadas cuantos factores y como las diferentes variables por procedimientos empricos
cargaban en esos factores. Siempre hacamos esto desde el punto de vista exploratorio.

En ese mismo contexto, podemos hipotetizar por adelantado y basndonos en una teora que constructos
psicolgicos subyacen a los datos. Lo que estamos hablando es de proponer un modelo con variables subyacentes
y observadas y como se relacionan entre ellas y comprobar si eso ajusta a unos datos empricos. Lo que luego
hacemos es si ese modelo que tenemos cuadra con los datos empricos que tenemos, es una bondad de ajuste.

En el AFC el investigador va a plantear hiptesis previas al anlisis definidas a priori sobre:

Cul es el numero de factores: cuantos factores subyacen a los datos


Si hay correlacin o no entre los factores
Como saturan las variables observadas en esos factores, cuales son los pesos.
Si existen correlaciones entre los trminos de error especficos. Esto el AFE no lo haca.

Nuestra finalidad ahora no es dejar que los datos nos cuenten cosas si no decirles a los datos, creo que vais a
funcionar as. Por tanto:

- AFE procedimiento inductivo, tratamos de encontrar unos factores subyacentes de una serie de datos
partiendo de una serie de variables observadas.

- AFC procedimiento deductivo. Basndome en la teora, propugnamos que existen una serie de factores
o constructos subyacentes, y a partir de ellos voy a los datos a ver si se cumplen.

Frente al AFE, el AFC tiene algunas VENTAJAS ya que permite:

- Contrastar directamente el modelo terico del investigador. Esto es un inconveniente en el sentido de


que podemos dar palos de ciegos

- Estudiar modelos complejos (por ejemplo se pueden introducir errores correlacionados entre las
variables).

- Establecer restricciones en los pesos (por ejemplo que los pesos de dos variables sean iguales). Es decir,
no metemos los datos y a ver que sale, sino que de antemano vamos a introducir restricciones, poniendo
como cargan determinados tems en ciertos factores.

- Reducir el nmero de parmetros a estimar. Al fijar que variables no pesan en los factores, se estima un
menor nmero de parmetros.

143
PASOS EN EL AFC

1. Especificacin del modelo


2. Identificacin del modelo
3. Estimacin del modelo
4. Evaluacin del modelo (hasta aqu son los necesarios)
5. Re-especificacin si es necesario (lo suyo, sera no hacerlo, ya que realizar esto supone cambiar el modelo
y se pone d entredicho el confirmatorio)

1- ESPECIFICACIN DEL MODELO

Indicar que variables entran en el modelo y qu papel juegan dentro de este. Esta especificacin del modelo se
hace a travs de un grfico, el diagrama de caminos o senderos. El trmino ms habitual es el path diagram. A la
hora de escribir estos grficos hay una serie de convenciones que se siguen siempre. Distinguimos diferentes
tipos de variables:

- Variables observadas o medidas. Representadas con rectngulos o cuadrados.

- Variables latentes o constructos: se representan con crculos u valos. Estaran incluidos en este grupo los
factores presupuestos los errores de medida de las variables observadas.

- Paths, flechas: pueden ser unidireccionales (rectas), que indican que cosa influye en que otra; y
bidireccionales (curvas) que expresan covariacin entre variables.

E1 E2 E3 E4 E5 E6 E7

X1 X2 X3 X4 X5 X6 X7

F1 F2

Adems de estas, se suele hacer una distincin en modelos estructurales entre variables endgenas y
exgenas. Las variables endgenas son aquellas que en el grafico reciben alguna influencia de otras variables. Las
variables exgenas, son aquellas que no reciben ninguna flecha direccional. Solo flechas direccionales, no
estamos hablando de bidireccionales.

Ecuaciones de las puntuaciones:

Un modelo de AFC se puede expresar de forma genrica como:

No todos los tems tienen que cargar en todos los factores. Se puede indicar correlaciones entre los errores.
Podemos establecer otras restricciones como que todos los pesos del factor 1 sean iguales.

144
Diferentes entre el AFC y AFE

- Pesos no estandarizados (AFC, tratamos de modelar la matriz de varianza-covarianza) Vs pesos


estandarizados (AFE, tratamos de modelar la matriz de correlaciones)

- Parmetros a estimar: los parmetros a estimar son los pesos factoriales, las varianzas y las covarianzas
entre las variables exgenas (las variables latentes: Fm Ej). En el AFC los parmetros no estn
estandarizados y por tanto no son comparables entre s. Por ello debemos estandarizarlos
posteriormente. Esto no pasa en AFE.

- Los parmetros a estimar son los pesos factoriales, las varianzas y las covarianzas entre las variables
exgenas (las variables latentes: Fm y Ej). En el modelo del ejemplo los parmetros a estimar (inicialmente)
seran:

2- IDENTIFICACIN DEL MODELO

Comprobar que el nmero de datos observados es mayor que el de parmetros que deben estimarse y que
se va a estimar de una forma nica. Un modelo no est identificado cuando es posible estimar o derivar ms de
un conjunto de parmetro que den lugar a modelos que ajusten. Por tanto, no habra una nica solucin.

El nmero de datos observados debe tener unos grados de libertad positivos. Ese nmero de datos observados
debe de ser mayor que el nmero de parmetros a observar. Si no se cumple eso, deberemos de ir aparnosla
para que haya menos parmetros a estimar.

Mas cosas para que el modelo de una solucin nica: Establecer una escala comn para los factores comunes.

- Fijar la varianza de los factores a 1: suponiendo que esos factores subyacentes son factores estadarizados

- Fijar, para cada factor, el peso factorial de una de las variables que cargan en l a 1: es la que hace el Spss,
fijar para cada uno de los factores subyacentes el peso de una variable a 1.

Antes de empezar el anlisis siempre debemos comprobar que el modelo est bien identificado.

3- ESTIMACIN DEL MODELO

Mtodos ms populares: son procedimientos de tipo iterativo y por tanto son necesarios ordenadores para
llevarlos a cabo. Es ms, ests tcnicas no fueron desarrolladas hasta que no se crearon los primeros paquetes
estadsticos informticos.

1) Mnimos cuadrados no ponderados (ULS):

2) Mnimos cuadrados generalizados (GLS): son la mejor opcin con muestras pequeas siempre y cuando
sea plausible la asuncin de normalidad.

3) Mxima verosimilitud (ML): son la mejor opcin con muestras pequeas siempre y cuando sea plausible
la asuncin de normalidad.

4) Mxima verosimilitud robusto o de media ajustada (MLM): funciona cuando nos apartamos de los
supuestos y no requiere de grandes muestras (entre 200 y 500).

145
Todos ellos trabajan en funcin de discrepancia o funcin de perdida. Esta funcin de discrepancia es una
medida de las diferencias entre la matriz de varianza-covarianza reproducida por el modelo y la misma matriz
emprica. Estas funciones tienen la caracterstica de que cuando la diferencia es muy grande, tiende a 2 y cuando
no a 0. Cada uno de ellos, adems de esta diferencia tambin debemos de calcular otros parmetros, entonces
tambin tiene en cuenta la discrepancia entre los coeficientes estimados y los reales. La estimacin de
parmetros pasar con la funcin de perdida mas pequea posible.

04/12/13

Modelo sobreidentificado: cuando hay ms datos observados que parmetros a estimar, es lo que buscamos
realmente.

Los mtodos trabajan a partir de una funcin de discrepancia o funcin de prdida, medida entre matriz var-covar
reproducida por el modelo y la medida de la matriz var-covar emprica. Esta funcin tiene la caracterstica de que
cuando las matrices tienen una diferencia muy pequea tienden a 0.

Tambin tienen en cuenta los coeficientes calculados y los reales, se busca una funcin de prdida lo ms baja
posible.

Procedimiento de media ajustada o rubusta va bien con muestras pequeas (200-500 sujetos)

Ajuste del Modelo

La bondad de ajuste se resuelve en dos dimensiones:


1) bondad de ajuste de los parmetros individuales (bondad de ajuste de cada uno de los parmetros,
individualmente considerados)
2) bondad de ajuste global (del modelo en su totalidad).

La bondad de ajuste global ha de considerarse siempre previamente a la valoracin de la bondad de ajuste de los
parmetros

En qu medida lo propuesto cuadra con la realidad. Miran la diferencia entre la matriz var-covar
hipotetizada y la emprica, en qu medida cuadra, si la diferencia es estadsticamente aceptable.

Mirar los parmetros individuales


Mirar el ajuste global del modelo: esto es lo primero que se mira, si el modelo ajusta miramos si los
parmetros individuales tambin ajustan.

ndices absolutos: miran la discrepancia entre las matrices var-covar en puntuaciones brutas.
ndices relativos: pone en relacin nuestro modelo con dos extremos del continuo (el modelo de
independencia, nada se relaciona con nada, no ajusta; y el modelo saturado, que ajusta de manera
perfecta a los datos), en qu punto de esa escala est nuestro modelo, a partir de 0,90 se dice que el
modelo ajusta razonablemente bien.
ndices parsimoniosos: tratan de corregir que cuantos ms parmetros tenga el modelo mejor ajusta, el
problema es que los modelos as son ms complejos de interpretar. Penalizan en funcin del nmero de
parmetros, cuanto ms complejo es el modelo ms penalizacin, as hacemos que el sesgo se reduzca.
ndices de comparacin del modelo: ver qu modelo tiene el ndice ms pequeo, nos quedaramos con
ese.

146
El coeficiente de mxima similitud da un x2 (en AFE), similar a los ndices absolutos; el problema que tienen
es que x2 vara mucho segn la muestra; se pone siempre aunque de significativo (buscamos que no de), luego
ponemos otros ndices que igual nos dan bien, como GFI.

ndices inferenciales, ajuste absoluto y ajuste comparativo. Supuesta distribucin subyacente, podran hacerse
extrapolaciones a la poblacin. Dependen mucho del tamao de muestra

ndices descriptivos, ajuste comparativo. El CFI penaliza mejor los modelos no parsimoniosos.

ndices de Ajuste Global

Abad, Olea, Ponsoda y Garca, 2011

147
Meyers, Gamst y Guarino (2013)

Una vez comprobado que el modelo ajusta globalmente:

Significacin de los coeficientes de los pesos factoriales, el cociente entre el valor del peso y el error
tpico es la razn crtica, que se distribuye segn la normal; por la razn crtica miramos si los
coeficientes son estadsticamente significativos o no.

Cuando en un modelo tenemos muchos pesos que no ajustan, seguramente habra que replantearse el modelo.

An cuando el modelo globalmente ajuste, habra que hacerse una serie de preguntas, que en caso de no ser
negativas habra que replantearse el modelo; Ajuste de los Parmetros:

Existen correlaciones superiores a 1?


Existen cargas factoriales estandarizadas fuera del intervalo +-1?
Son los residuos estandarizados anormalmente grandes o pequeos?
Hay estimaciones negativas de las varianzas? Es imposible que sean negativas (son al cuadrado).

Posibles causas del mal ajuste de los parmetros:

- El modelo est mal especificado


- Los datos no respaldan la hiptesis de normalidad multivariante de las variables observadas
- La muestra es demasiado pequea: Resultados difcilmente generalizables.
- El modelo est demasiado cerca de no estar identificado, lo que hace la estimacin de algunos de
algunos parmetros difcil o inestable
- Los valores perdidos de algunas variables observadas han provocado que cada elemento de la matriz de
covarianzas muestral est calculado sobre una muestra diferente: A veces no conseguimos medir a
todos los sujetos, diferentes n en cada uno de los grupos realmente pero suponemos iguales,
estimaciones incorrectas.

148
Ajuste de los Parmetros

Existen correlaciones superiores a 1?

Existen cargas factoriales estandarizadas fuera del intervalo -1 +1?

Son los residuos estandarizados anormalmente grandes o pequeos?

Hay estimaciones negativas de las varianzas?

Posibles causas del mal ajuste de los parmetros

El modelo est mal especificado

Los datos no respaldan la hiptesis de normalidad multivariante de las variables observadas

La muestra es demasiado pequea

El modelo est demasiado cerca de no estar identificado, lo que hace la estimacin de algunos
parmetros difcil o inestable

Los valores perdidos de algunas variables observadas han provocado que cada elemento de la matriz de
covarianzas muestral est calculado sobre una muestra diferente

Si el modelo no ajusta: Re-especificacin del modelo

Confirmatorio?

ndices de Modificacin

Recomendaciones de Hatcher (1994)

Utilizar muestras grandes

Hacer pocas modificaciones

Realizar slo aquellos cambios que puedan ser interpretados desde una perspectiva terica o
tengan soporte en trabajos anteriores

Seguir un procedimiento paralelo de especificacin

Comparar modelos alternativos desde el principio

Describir detalladamente las limitaciones de su estudio

Estamos en un modelo tericamente dirigido,

ndices de Modificacin: Suele tomarse un umbral de ndices mayores 3-4, relacin candidata para introducir una
modificacin, esto suele hacerse cuando el modelo global no ajusta. Hay que ver que adems ese cambio tenga
sentido.

149
Recomendaciones de Hatcher (1994)

Utilizar muestras grandes, de lo contrario poco estable, conseguimos ajuste en nuestra muestra concreta
pero no es generalizable, ms de 100 sujetos como mnimo.
Hacer pocas modificaciones, si estamos en un enfoque confirmatorio no tiene sentido cambiar hasta que
ya no sea nuestro modelo, al final las especificaciones son especficas de la muestra concreta que estamos
analizando.
Realizar slo aquellos cambios que puedan ser interpretados desde una perspectiva terica o tengan
soporte en trabajos anteriores.
Seguir un procedimiento paralelo de especificacin, proponer desde el principio modelos distintos.
Comparar modelos alternativos desde el principio: proponiendo dos modelos o trabajando con dos
muestras paralelamente. Variacin cruzada.
Describir detalladamanete las limitaciones de su estudio.

150
04/12/13

Ejemplo con otro programa:

El modelo fija a 1 los pesos de los errores y se fija por defecto 1 a una de las variables de cada factor que
tengas.
Especificar un modelo.
Variables no observadas: los errores
Los modelos suponen que tienes el mismo nmero de sujetos para todas las variables, si tienes valores
perdidos hay consecuencias en estimaciones, tienes que marcarlo.
Tienes que pedir que transforme los estadsticos a estandarizados.
Coeficientes no estandarizados, coeficientes en diferenciales, no en tpicas.
Cuando estn estandarizados, la flecha que une pasa a ser la correlacin, no la covarianza.
Coeficientes en rango de +-1 al estar en tpicas.
Variables endgenas y variables exgenas (no observadas, errores)
Para que un modelo est identificado tiene que haber menos parmetros a estimar que valores
observados. El nmero de datos observados es n de variables * n de variables observadas/2
Modelo sobreidentificado y por tanto estimado.
X2 de ajuste, si la diferencia entre la matriz var-covar estimada y la emprica ajusta o no.
Pesos de regresin en puntuaciones tpicas, no estandarizadas, *** estadsticamente significativos.
Valores estandarizados, los que van en la segunda grfica.
La relacin entre los constructos, entre los factores subyacentes, nos lo da en formato estandarizado y no
estandarizado.
Si estadsticamente significativo, el modelo no ajusta
En todos los casos da el modelo por defecto (el que metimos nosotros) en comparacin con el modelo
saturado y el de independencia. En trminos relativos.
Los ndices de modificacin se distribuyen segn X2, si superiores a 4 son susceptibles de modificacin
estadsticamente en el modelo. Te da el parmetro estimado para esa nueva flecha si lo haces. Pero hay
que sustantivarlo para ver si tiene sentido, dos variables ms relacionadas de lo que creamos, se refleja
en que sus errores estn covariados, susceptibles de modificacin. Pero slo una o dos modificaciones,
me puedo quedar con un modelo no identificado y adems sera como pasar a un modelo exploratorio.
Nueva estimacin de los parmetros del modelo en formato estandarizado y no estandarizado. Que
hayamos hecho modificacin no garantiza nada, hay que volver a mirar que el modelo ajusta.
Ahora incluso con X2 el modelo ajusta. Mejora con la modificacin.

151
152
153
154
155
TEMA 7.A.: ECUACIONES ESTRUCTURALES: PATH ANALYSIS

Introduccin
Las ecuaciones estructurales (Structural equation modeling SEM-) es un procedimiento estadstico que
permite evaluar relaciones hipotetizadas por el investigador entre un conjunto de variables. Suelen distinguirse
dos partes en el modelo global:

Un modelo de medida que se evala por medio de un Anlisis Factorial Confirmatorio.

Un modelo estructural en el que se hipotetizan interrelaciones entre constructos latentes o entre


constructos latentes y variables medidas

El Path Analysis es el caso ms simple de SEM en el cual no hay variables latentes, todas son observadas.
Debido a esto no hay modelo de medida que evaluar y los procedimientos estadsticos son algo ms simples.

Las ecuaciones estructurales trabajan con variables latentes, con constructos. Por tanto siempre habr
que tener un modelo de medida, implcito de alguna manera un AFC. Se definen las relaciones existentes entre las
diferentes variables latentes y entre las variables latentes y las variables observadas.

Modelo que trabaja solo con variables observadas, medidas, el path (dibujos en cuadrados). Path anlisis,
generalizacin del modelo de regresin mltiple. A veces se denominan modelos causales, modelos basados en la
regresin, en la covariacin, no realmente causa, la covariacin es una relacin necesaria pero no suficiente de la
causalidad; capacidad predictiva de una variable para otra.

Se puede hacer por un modelo de regresin o por ajuste del modelo. Por ajuste del modelo tiene algunas
ventajas.

Path Analysis

Fue introducido por Wright (1921) como una aplicacin de la regresin mltiple.

Puede resolverse por ajuste de modelos o por regresin.

Permite evaluar relaciones explcitamente hipotetizadas entre las variables observadas.

Slo tengo rectngulos, solo variables observadas, especificarlo es indicar qu variables tengo y cmo se
relacionan entre ellas. Slo como variables latentes los errores, ligados a las variables endgenas que tengo.

Representado por rectngulos, variables directamente observadas, las nicas latentes son los errores,
tenemos relaciones directas y covarianzas (representadas por flechas curvas); adems las flechas tienen direccin,
por lo que a veces se denominan modelos causales, ya que aunque realmente no dice causalidad, visualmente lo
parece, matiz de causalidad. Son diseos de tipo correlacional, no experimental (distintivos de los de causalidad).

- Variables endgenas: que reciben flechas


- Pueden ser variables dependientes o independientes: Depende de a qu parte del diagrama
miremos puede ser dependiente o independiente, pueden recibir y lanzar flechas a su vez.
- Variables exgenas: que lanzan flechas
- Siempre son variables independientes

156
Como si tuviramos dos modelos de regresin, uno para explicar motivacin y otro para rendimiento acadmico.
Este tipo de modelo se puede resolver por sucesivas regresiones mltiples o por modelos estructurales.

Asunciones:

La relacin entre las variables debe ser lineal


Los errores asociados con las variables endgenas no estn correlacionados con las variables que
predicen esa variable: los errores no estn correlacionados con las variables predictoras, no hay flechas ni
covariaciones que las unan en el modelo.
Las variables estn medidas al menos en escala de intervalo: cuantitativas
Las variables estn medidas sin error; esto es tienen fiabilidad perfecta. Esta es una asuncin irreal en
psicologa.

Kline (2011) recomienda usar el enfoque basado en ajuste de modelos porque el software existente nos da:

a) El ajuste global del modelo a los datos


b) Los efectos indirectos y totales de las variables predictoras
c) Estimar los coeficientes de regresin (path coefficients) para las variables latentes, en el caso de que se
incluya alguna en el modelo

10/12/13

Para realizar un Path Analysis seguimos bsicamente los mismos pasos explicados para el Anlisis Factorial
Confirmatorio:

a) Especificar el modelo
b) Identificacin del modelo
c) Estimacin
d) Evaluacin
e) Re-especificacin

La fase de especificacin del modelo para nuestro ejemplo queda recogida en el diagrama mostrado antes.

157
Relacin directa de estatus socioeconmico a rendimiento e indirecta a travs de la motivacin. El producto de
los coeficientes me dar el efecto indirecto del estatus socioeconmico sobre el rendimiento.

Identificacin del modelo

Nmero de valores conocidos: Nmero de valores no redundantes de la matriz de correlaciones o de la


matriz de varianza-covarianza q(q+1)/2

Nmero de valores desconocidos: Cuntos parmetros hay que estimar?

Los coeficientes de regresin asociados con cada una de las variables predictoras

Los coeficientes de regresin asociados con los errores de las variables endgenas

Las varianzas de las variables exgenas

Las varianzas de las variables de error

La correlacin entre las variables exgenas (si asumimos que estn correlacionadas)

Al intentar hacerlo con el SPSS, te dice que el modelo no est identificado, nos interesa un modelo
sobreidentificado, as que al menos 3 restricciones para que el modelo funcione bien.

Reducir parmetros a estimar para que el modelo pueda estar identificado, suelen fijarse las flechas de
los errores en 1, fijar alguno de los otros parmetros. Se podran quitar flechas y valdra, pero se supone que t
estimas que tu modelo es as, mejor no quitarla.

158
Relacin inversa de las variables, fijo motivacin en -1. Puedo fijar en 1 o -1 de manera estandarizada,
aunque si tienes mucho conocimiento se pueden poner ms valores. Ahora 10 datos observados y 9 para estimar,
grados de libertad positivos.

Solucin no estandarizada, en puntuaciones tpicas, no estima aquellos que hemos fijado:

Coeficientes de regresin prcticamente 0, no parece que el modelo vaya muy bien, he puesto unas
flechas de influencia que parece que no influyen mucho. Tenerlo en cuenta para posible re-especificacin del
modelo. ndices de ajuste relacionados con la regresin mltiples, en motivacin y rendimiento acadmico, R2
(tamao del efecto):

159
Te da tambin el modelo en letra. X2 significativo,
el modelo no ajusta

Coeficientes de regresin. La significacin estadstica de un coeficiente se hace con la correlacin tpica.


De estatus socioeconmico a rendimiento (o,118) y de y de autoduda (0,136) a rendimiento no son significativas:

160
Efecto directo sobre la motivacin del estus es 0,35 (n que aparece en la tabla), el efecto indirecto es -0,95.

Estatus socioeconmico sobre rendimiento, efecto indirecto 0,180. El efecto total es la suma del directo y el
indirecto.

161
No ajusta muy bien. CMIN/DF

GFI da bien

TLI valor muy bajo

RMSA

Parece que el modelo no ajusta, acuerdo con


lo que deca X2.

Habra que re-especificar el modelo

Re-Especificacin del Modelo

Ms grados de libertad, reducidos parmetros a estimar. Los coeficientes que me quedan son todos
significativos. El ajuste por otros ndices mejora. Con todo esto explico un 33% de la varianza de rendimiento,
habra que ver en trminos relativos si eso es poco o mucho. Ahora chi cuadrado no es significativo, por lo que el
modelo ajusta.

162
163
TEMA 7.B. ECUACIONES ESTRUCTURALES: MODELO
COMPLETO

Introduccin

Un modelo de ecuaciones estructurales puede ser deconstruido en dos modelos:

El modelo de medida que representa el grado en el cual las variables indicadoras captan la esencia del
factor latente.

El modelo estructural en que buscamos las relaciones causales entre las variables de inters de nuestra
teora. Normalmente el inters se centra en variables latentes y no en indicadores.

Un modelo SEM evala cmo de bien las interrelaciones predichas por el modelo terico casan con las
interrelaciones entre las variables observadas. Tiene la capacidad de evaluar simultneamente tanto el modelo de
medida como el modelo estructural

Del Path Analysis al modelo de ecuaciones estructurales

El path analysis asume que las variables (todas observadas) estn medidas sin error (poco realista).

Modelo de ecuaciones estructurales (SEM) introduce variables latentes modelo de medida (facilita la
identificacin del modelo). En el momento que metemos variables latentes debemos de meter
obligatoriamente variables de medida. Esto en el Path no era necesario.

Se introduce en el modelo el error de medida (variables con fiabilidad no perfecta) lo cual es un mejor
reflejo de la realidad. Al introducir modelos de medida estoy viendo la capacidad de tener en cuenta el
error de medida de mi modelo, cosa que el path analysis no lo hace.

Mayor coste en el diseo. Si para cada constructo tenemos que pensar en una serie de indicadores
empricos bajo los cuales subyace el constructo tengo que medirlos.

Modelo Completo:

164
En este caso, queremos ver si hay una serie de variables que influyen en la nota media final de la carrera.
Esta variable como vemos no es latente. Los autores de trabajo creen que hay cuatro variables: influencias que
recibe el alumno a la hora de elegir la universidad, percepcin de autoeficacia acadmica, calidad del centro y
vida social de la universidad. Estos se objetivizan con 3 indicadores de cada uno y estos ya son variables
observadas, medidas. Como son variables observadas, pues tenemos los errores.

Se asume que estas variables entre si tienen ciertas relaciones, que la autoeficacia tiene influencia sobre
la vida social pero no sobre las notas, que influencia y autoeficacia covaran, etc. A la hora de definirlo,
automticamente asignamos a una variable que fijamos en 1 para darle escala al factor subyacente. Tambin
fijamos a 1 el peso de los errores.

Este modelo es ms complejo que los vistos hasta ahora, pero las fases son las mismas que en el Path
analysis.

Lo primero que hay que mirar es si el modelo est


identificado. Miramos en Degrees of freedom (91-33) y encontramos
grados de libertad positivos. Vemos que chi-cuadrado no ajusta, ya
que su sig es 0,00.

Luego en pesos de regresin, encontramos que hay flechas


que no son estadsticamente significativas. Influencia en vida social es
un peso no estadsticamente significativo, por ejemplo. As que es
posible que sea necesaria una re-especificacin del modelo.

Mirando los ndices, miramos que TLI no est bien, mientras que GFI si lo est. RMSEA da bastante bien.
Por lo tanto no es un modelo que vaya muy mal pero se puede mejorar.

165
En cuanto a los ndices de modificacin (convariances y regresin Weights.). Propone aadir flechas al
modelo, interacciones. Lo que hay que ver es que sean pocas modificaciones y congruentes desde el punto de
vista terico. Por ejemplo los anlisis nos informan que el modelo mejorara si unisemos la autoeficacia
academica con el error 14. Esto no tiene mucho sentido as que se desecha. La mayora de las modificaciones que
nos da, son covarianzas entre errores. Esto puede tener sentido, pero lo tendr entre errores que pertenecen al
mismo constructo o cosas muy parecidos, pero lo que nos indica mezclar errores de distintos factores
subyacentes parece que no tienen mucho sentido. Luego nos proporciona los pesos de regresin y deberemos de
hacer lo mismo, mirar cuales tienen sentido. Pero hay que recordar que se debe de limitar los cambios a hacer.

166
Este sera el modelo final. Han aadido covarianzas entre algunos errores. Tambin han quitado
ciertas flechas que no eran significativas. Algunas cosas que nos pueden preocupar del modelo es que los pesos
de las variables con los factores son razonables, no hay muchas por debajo de 0,30. Se podra decir que el modelo
de medida est justito.

El 0,20 de la nota es R cuadrado, el porcentaje del modelo que explica la nota.

Despus vemos que el modelo no ajusta, pero que se ha mejorado relativamente 0,011. Veamos qu pasa
con el resto de ndices. El resto de ndices dan valores bastante buenos. Con lo cual el modelo ms o menos
ajustara, pero no estaramos muy contentos con l por el 20% que logra explicar la nota.

167
Puntaciones totales, las marcadas: si nos fijamos en las 4 variables subyacentes, la conclusin a la que
llegamos es que la nica que ejerce influencias importantes es la propia opinin del alumno. Si el alumno cree en
s mismo.

168

Você também pode gostar