Escolar Documentos
Profissional Documentos
Cultura Documentos
Multivariado
Marcelino Cuesta, 235 y Decanato
M Dolores Paz Caballero, 306
PRCTICAS 45%
3 Ejercicios de evaluacin de 1,5ptos.
Al menos necesitas 2 puntos de Prcticas.
1-5: Evaluacin
6-7:
8-10:
TG 1%
Trabajo Grupal
EXAMEN 45%
Al menos 2 puntos de Examen.
Terico: 45 preguntas V-F. 1 error descuenta 1, no descuentan omisiones.
EXTRAORDINARIOS
Si >2ptos no tienes que examinarte
Se conserva nota TG
Examen terico-prctico si suspendes prcticas
Residuos tipificados
1
- Si la ODDS ratio de tener un infarto = 0,8 entre los que practican deporte y los que no, esto quiere decir
que hacer deporte es un factor de riesgo.
o Falso, porque la ODDS = 1 quiere decir que hay menos probabilidad.
Lo importante para garantizar que sobre unos datos puedo realizar un anlisis factorial (o de componentes
principales) es que las variables observadas sean asimtricas negativas.
Falso, como mnimo tienen que ser simtricas, busco normalidad.
El tamao de muestra mnimo para sentirse tranquilo haciendo un anlisis factorial es de 200 sujetos.
Verdadero.
Antes de rotar una solucin factorial, la correlacin entre los factores siempre se mantiene fija en 0,5.
Falsa, la solucin inicial es de factores ortogonales, la correlacin entre ellos es 0, por definicin son
independientes. Cuando rotamos cambiamos esa correlacin.
Los mtodos de extraccin de factores denominados descriptivos, siempre van acompaados de un ndice de
ajuste del modelo.
Falso, los que llevan ndices de ajuste son los inferenciales, en mxima verosimilitud, que dan valores
como chi2. Los descriptivos slo describen.
Cuando la lambda de wilks aplicada sobre todas las funciones discriminantes no resulta estadsticamente
significativa indica que solo la primera funcin discriminativa es significativa.
Falso
La nica diferencia entre la regresin logstica binaria y un anlisis discriminante es que en la primera solo
puede haber dos grupos y en el anlisis discriminativo dos o ms.
Falso
2
TEMA 1: INTRODUCCIN
Es posible predecir el rendimiento en Anlisis Multivariado en funcin de las notas obtenidas en las
asignaturas previas del rea de metodologa?
o Regresin lineal mltiple: Predecir una tcnica a partir de otras.
Es posible asignar a los conductores al grupo de infractores o al de no infractores en base a sus
puntuaciones en una serie de pruebas de personalidad, del sexo y del nivel socio-econmico?
o Regresin logstica: Algunas variables cualitativas.
Elaborada una prueba con 51 tems para evaluar la Esquizotipia Constituyen esos tems una nica
dimensin o hay varias sub-escalas o dimensiones subyaciendo al constructo general?
o Anlisis factorial: Estructura interna de un test.
Influye el mtodo de enseanza en las calificaciones obtenidas en las diferentes asignaturas de 2 de
bachiller?
o MANOVA: Diferencias entre grupos en varias variables.
Anlisis Multivariado: Mltiples Variables. Situaciones complejas que podran descomponerse tambin en
anlisis univariado o bivariado, pero con multivariado obtenemos ms informacin.
El Anlisis multivariante es la parte de la estadstica y del anlisis de datos que estudia, analiza, representa e
interpreta los datos que resultan de observar ms de una variable estadstica sobre una muestra de individuos
Variables Tericas: Variables (V) artificiales construidas como combinaciones de variables observadas. El AM trata
de predecir resultados utilizando variables tericas.
HISTORIA
3
Desarrollo en los aos 30
o Cuestiones tericas, anlisis que requieren un clculo complejo
o Kendal
BOOM con la aparicin de Ordenadores
o 80s SPSS, Software comercial
CLASIFICACIN
MTODOS DE DEPENDENCIA
Regresin lineal
varias cuantitativas una cuantitativa
mltiple
cuantitativas y/o
Regresin logstica varias una cualitativa
cualitativas
Anlisis de cuantitativas
varias una cuantitativa
supervivencia y/o dicotmicas
4
- MANOVA: Anlisis multivariado de las varianzas. Varias VD. Influencia de 1 o ms factores en una
combinacin de variables que funcionan como una (Todas las VD tomadas conjuntamente). Diferencias en
una prueba X en funcin de si hay pista o no TR, latencia, velocidad VD cuantitativas agrupadas-.
El anlisis de medidas repetidas podra considerarse como MANOVA, variable medida en distintos
momentos.
MTODOS DE INTERDEPENDENCIA
Tipo
TIPOS DE DATOS
Matrices de Datos: Brutos, bsico. V en columnas y sujetos (S) en filas.
Matrices de Varianza-Covarianza
Matrices de Correlaciones: Diagonal principal 1
Matrices de Proximidades: Similitud (Grado de Asociacin) entre V, S o V-S. Las similitudes se miden en
cercana entre dos puntos (ndices de correlacin).
o Medidas de distancia: Disimilaridad. Distancia entre objeto en fila i y j.
V w1 X 1 w2 X 2 ... w p X p
5
V= Variante (Nueva variable construda)
W= Pesos, ponderaciones
X = Variables Observadas.
Combinacin til de variables. Buscan un conjunto de pesos ptimo para nuestro objetivo.
17/09/13
Supuestos Paramtricos:
Normalidad: Variable sigue Campana de Gauss. No se pide la normalidad univariada, sino multivariada;
que cada una de las variables se distribuya de acuerdo a la campana de Gauss, al igual que las
combinaciones lineales entre ellas. Difcil de comprobar a priori.
o Para comprobar a posteriori: Ver qu ocurre con los residuos, la diferencia que dan los datos
reales (empricos) y los datos del modelo terico (matemtico) que estamos utilizando. Si se
cumple una normalidad multivariada, estos residuos cumplen la distribucin normal.
o Cuando la prueba es de carcter descriptivo (anlisis factorial exploratorio) no es muy
importante, no as si la prueba tiene carcter inferencial.
o Cuando no cumplimos el supuesto tiende a aumentarse el Error Tipo I. Rechazar Ho cuando
haba que aceptarla. Estaremos trabajando con un nivel de significacin real mayor al 5%. No
podra hacer inferencia estadstica, cada coeficiente me dar resultados diferentes.
6
TEMA 2.A: ASOCIACIN ENTRE DOS O MS VARIABLES
CATEGRICAS
2 DE INDEPENDENCIA DE VARIABLES
Tabla de Contingencia: Tabla en que consideramos dos variables de tipo categrico (en este caso). En cada una de
las celdillas aparece la frecuencia de cada una de esas variables. F1,2; frecuencia de la aparicin conjunta de esas
variables en la condicin respectiva-
Podemos ver si hay relacin entre esas dos variables. Prueba de Chi2 de independencia de variables. Prueba de
tipo inferencial. Establece 2 hiptesis:
Una muestra aleatoria de n observaciones es clasificada en las k x r combinaciones de las categoras de las
dos variables.
La probabilidad de que una observacin pertenezca a cada una de las categoras de la variable se
mantiene constante en la n observaciones
Todas las frecuencias observadas son mayores de cero ( es decir, no hay celdas vacas) y no ms del 20%
de las frecuencias esperadas son menores de 5
o Si hay de 0, tenemos que colapsar. No podra unir chicos y chicas, pero s unir por resultado
acadmico, por ejemplo unir notables-sobresalientes. Si colapso pierdo informacin.
Se denominan 0s de tipo coyuntural, puede darse por ejemplo por muestras pequeas o
por exceso de categoras.
0s estructurales, caso de 0 por narices. Cruzar servicios de atencin de hospital por sexo de
pacientes. Ginecologa x Varones 0. No se puede colapsar, podemos quitar esa categora.
7
Estadstico de Contraste: Para cada una de las celdas tmese la frecuencia observada y comprese con la
frecuencia esperada.
La frecuencia esperada es la que tendra que haber en esa celda si las dos variables fueran independientes -
Marginal de filax Marginal de columna /N-.
Si fueran realmente independientes tendran que coincidir, chi2=0, modelo terico y emprico cuadran. En la
medida en que difiere de 0 hay alguna desviacin. Por puro azar nunca dar 0, aunque sean independientes.
La pregunta es si la diferencia es suficientemente grande para pensar que no se debe al azar.
N de filas-1 x n de columnas-1 /Gl. Si rechazamos H0 hay relacin entre variables, la diferencia es
suficientemente grande para considerar que no se debe al azar.
k r
f fe
2
2 o
i 1 i 1 fe
Correccin de Yates (2x2): Caso particular para las tablas 2x2. El SPSS la da por defecto en estas tablas. Muy
conservadora, puede reducir Ho.
f
2
k r f e 0.5
2
o
i 1 i 1 fe
Ejemplo:
OPINION
a favor en contra Total
ESTCIV + 10 aos casado Recuento 20 80 100
Frecuencia esperada 68,0 32,0 100,0
% de ESTCIV 20,0% 80,0% 100,0%
% de OPINION 5,9% 50,0% 20,0%
% del total 4,0% 16,0% 20,0%
- 10 aos casado Recuento 200 50 250
Frecuencia esperada 170,0 80,0 250,0
% de ESTCIV 80,0% 20,0% 100,0%
% de OPINION 58,8% 31,3% 50,0%
% del total 40,0% 10,0% 50,0%
solteros Recuento 120 30 150
Frecuencia esperada 102,0 48,0 150,0
% de ESTCIV 80,0% 20,0% 100,0%
% de OPINION 35,3% 18,8% 30,0%
% del total 24,0% 6,0% 30,0%
Total Recuento 340 160 500
Frecuencia esperada 340,0 160,0 500,0
% de ESTCIV 68,0% 32,0% 100,0%
% de OPINION 100,0% 100,0% 100,0%
% del total 68,0% 32,0% 100,0%
Sig. asinttica
Valor gl (bilateral)
Chi-cuadrado de Pearson 132,353a 2 ,000
Razn de verosimilitud 126,467 2 ,000
Asociacin lineal por
81,544 1 ,000
lineal
N de casos vlidos 500
a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. 8
La frecuencia mnima esperada es 32,00.
Chi2 = 132,353. El valor depende de ms cosas que las variables, como n de sujetos y tamao de la tabla. Hay
que mirar la significacin; si es menor a 0,05 hay diferencia estadsticamente significativa. S hay relacin
estadsticamente significativa.
Chi2 no nos dice la intensidad de la relacin (no tiene que ver con la significacin). Una manera posible de ver
cmo se da esa relacin es utilizar los residuales. No podemos utilizarlos en bruto, hay que dividirlos de su error
tpico y dan lugar a una variable con media 0 y error tpico 1, variable normalizada Gauss-. En la tabla el valor de
Z= +-1,96 se considera significativo al 5%; si el residuo estandarizado cumple esos valores se considera que esa
celda es la que est causando relacin.
- 20-68. Negativo. Entre esas variables a priori parece haber relacin, saldra Z<1,96.
Otra posibilidad: Buscar algn ndice numrico. Estas pruebas ambas se basan en chi2, tratan de corregir la
influencia de la tabla y de los sujetos. Tericamente van entre 0-1, pueden interpretarse como una correlacin:
2
C
2 n
V de Craner: Corrige tamao de muestra y tamao de la tabla. S va entre 0-1. S lo interpretamos como
una correlacin. En principio preferible; ndice de tamao del efecto.
- K: Menor de filas o columnas. Dara igual en caso de tablas cuadradas
- Phi: Caso particular de V de Craner en tablas 2x2.
2
V
n k 1
Pruebas de chi-cuadrado
Sig. asinttica
Valor gl (bilateral)
Chi-cuadrado de Pearson 132,353a 2 ,000
Razn de verosimilitud 126,467 2 ,000
Asociacin lineal por
81,544 1 ,000
lineal
N de casos vlidos 500
a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5.
La frecuencia mnima esperada es 32,00.
Medidas simtricas
Sig.
Valor aproximada
Nominal por Phi ,514 ,000
nominal V de Cramer ,514 ,000
Coeficiente de
,457 ,000
contingencia
N de casos vlidos 500
a. Asumiendo la hiptesis alternativa.
b. Empleando el error tpico asinttico basado en la hiptesis
nula. 9
TEMA 2.B: ASOCIACIN ENTRE DOS O MS VARIABLES
CATEGRICAS
Son medidas de asociacin que expresan la proporcin en que conseguiramos reducir la probabilidad de
cometer un error de prediccin cuando, al intentar clasificar un caso o grupo de casos como pertenecientes a una
u otra categora de una variable, en lugar de utilizar nicamente las probabilidades asociadas a cada categora de
esa variable, efectuamos la clasificacin teniendo en cuenta las probabilidades de esa variable en cada categora
de una segunda variable.
Variables en escala nominal (categoras) vs ordinal (los n indican orden) vs cuantitativas (los n funcionan como
tales).
ndices de reduccin proporcional del error: Cmo hacen la asignacin de sujetos, basndose en una sola
variable o utilizando las dos.
Ambos ndices van 0-1 (Tau y Lambda). 0 indica que no hay relacin entre las dos variables, no hay diferencia
entre el error.
Si las dos variables son estadsticamente independientes dan 0; pero que los ndices den 0 no significa que
necesariamente las variables sean independientes. Similar a la correlacin de Pearson, 0 es no relacin lineal
entre variables, pero puede haber relacin de otro tipo.
Con tamaos de muestra grande generalmente siempre va a dar estadsticamente significativo. Son ms
interesantes los valores en s que dan los ndices que la significacin.
10
Ejemplo Diapo 4.
DATOS ORDINALES
Con tablas de contingencia las ordinales se analizan con pocas categoras. En nominal puedo hablar de
intensidad y decir si hay relacin o no, pero no puedo decir nada sobre la direccin de la relacin, porque las
etiquetas son arbitrarias. En ordinal ya puedo hablar de intensidad y de direccin de la relacin.
Gamma
d de Somers
Tau-b y Tau-c de Kendall
Cuando predominan las no inversiones tendremos una relacin directa o positiva entre variables. Cuando
predominen las inversiones tendremos relaciones inversas o negativas. Si predominan empates no hay relacin.
Los siguientes ndices van entre +-1, como una correlacin. El n da la intensidad de la relacin y el smbolo la
direccin.
11
17/09/13
ndices de Acuerdo
Kappa: Entre 0 y 1. Para probar el acuerdo entre dos fuentes. Como entre dos evaluadores, grado de
acuerdo entre los jueces interjueces-, tiene en cuenta que el acuerdo sea por azar lo resta-.
o Se emplea para evaluar el acuerdo entre dos jueces. Toma valores entre 0 (sin acuerdo) a 1
(acuerdo absoluto). Tiene en cuenta en su clculo las clasificaciones correctas que se pueden dar
simplemente por azar.
ndices de Riesgo
Desenlace
(Tiempo 2)
SI NO
(Tiempo 1)
NO f21 f22 f2.
f.1 f.2
12
Lo cruzo dando lugar a una tabla de contingencia 2x2.
Ejemplo:
Conducta Sedentaria
SI NO
Estimacin de riesgo
Interpretacin
La proporcin de desenlace entre los sujetos expuestos al factor desencadenante es Rr veces ms alta que entre
los sujetos no expuestos. De otra manera, por cada desenlace observado entre los sujetos no expuestos cabe
esperar que aparezcan Rr desenlaces entre los sujetos expuestos. Un Rr=1 indica que la probabilidad de desenlace
es igual en ambos grupos.
La % de que en aquellos sujetos que se presenta un factor desencadenante se de el desenlace, casi 3,5
veces mayor que los que no tenan factor de riesgo. Muy utilizado en epidemiologa
13
Diseo Retrospectivo o Caso-Control
Desenlace
(Tiempo 1)
SI NO
(Tiempo 2)
NO f21 f22 f2.
f.1 f.2
Tabla de contingencia aparentemente igual que la anterior, pero el matiz de por qu no se puede aplicar el riesgo
relativo es porque el nmero de sujetos en cada uno no depende de la proporcin de desenlaces que se dan, sino
del muestreo que yo haya hecho. Depende del n de casos control las proporciones irn cambiando, no reflejan la
verdadera proporcin desenlaces.
66 579 645
14
Valor inferior a 1 Es ms probable no tener fobia que tenerla.
Output de SPSS:
Estimacin de riesgo
Casi 2 veces mayor la % de que un alumno desarrolle fobia a la estadstica despus de AD con Marcelino. Factor
de riesgo claro, desencadenante.
RIESGO =/ CAUSALIDAD
Que algo sea factor de riesgo no significa que sea causalidad. Puede ser una relacin indirecta.
La Odds relativa se utiliza tambin para otro tipo de anlisis como tamao del efecto.
Caso longitudinal, se compara la proporcin de una determinada situacin antes y despus, se utiliza para evaluar
el cambio.
Diferencia de medias en muestras relacionadas; mido, intervengo, pasa tiempo, mido, hay cambio? Proporciones
relacionadas. Este caso es similar pero con proporciones, no medias.
15
Tabla de contingencia Intencin de voto antes * Intencin de voto despus
Recuento
Candidato B 80 64 144
Total 131 109 240
Pruebas de chi-cuadrado
Sig. exacta
Valor (bilateral)
a
Prueba de McNemar ,002
N de casos vlidos 240
P= 0,002. Menor 0,05. Conclusin: Las diferencias entre las proporciones de antes y despus son estadsticamente
significativas, debate efectivo.
McNemar presentada para variables dicotmicas, si hay ms de 3 niveles se necesita una modificacin de la
prueba McNemar-Bower
Candidato B 12 42 31 85
Candidato C 14 9 63 86
Total 80 69 110 259
Pruebas de chi-cuadrado
Sig. asinttica
Valor gl (bilateral)
Si queremos ver por dnde ha ido el cambio tenemos que descomponer la tabla 3x3 en otras de 2x2 para saber
dnde.
Correcciones del nivel de alfa para no trabajar con nivel de alfa mayor (Error Tipo I).
16
Combinacin de tablas 2x2 (Mantel-Haenzel)
Existe relacin entre dos variables dicotmicas controlando el efecto de una tercera variable que se descompone
en grupos o estratos. Por ejemplo controlar la influencia de la variable edad sobre otras dos.
Muchas veces se utiliza para mirar el funcionamiento diferencial de los tems. Sospechamos que un tem es
injusto (Hay un grupo de personas que puntan distinto respecto al grupo mayoritario).
Ejemplo: Comparar grupo de referencia frente al grupo focal de emigrantes. Tener en cuenta nivel de los sujetos.
Que realmente se vea la diferencia por el origen, no por el nivel.
En niveles (SPSS) meteremos los que hemos hecho, y en columnas los datos.
Ho: No hay relacin entre los grupos de inters. No hay funcionamiento diferencial del tem DIF.
Test item
aciertan fallan Total
nivel 1 grupo Nativos 40 40 80
Emigrantes 30 45 75
Total 70 85 155
nivel 2 grupo Nativos 60 40 100
Emigrantes 45 50 95
Total 105 90 195
nivel 3 grupo Nativos 60 30 90
Emigrantes 55 35 90
Total 115 65 180
nivel 4 grupo Nativos 55 5 60
Emigrantes 50 5 55
Total 105 10 115
Sig. asinttica
Chi-cuadrado gl (bilateral)
Breslow-Day ,593 3 ,898
De Tarone ,593 3 ,898
17
Pruebas de independencia condicional
Sig. asinttica
Chi-cuadrado gl (bilateral)
De Cochran 4,726 1 ,030
Mantel-Haenszel 4,337 1 ,037
Estimacin 1,450
ln(estimacin) ,372
Error tp. de ln(estimacin) ,171
Sig. asinttica (bilateral) ,030
Intervalo de confianza Razn de ventajas comn Lmite inferior 1,037
asinttico al 95% Lmite superior 2,028
ln(Razn de ventajas Lmite inferior ,036
comn) Lmite superior ,707
La estimacin de la razn de las ventajas comn de Mantel-Haenszel se distribuye de manera asintticamente
normal bajo el supuesto de razn de las ventajas comn igual a 1,000. Lo mismo ocurre con el log natural de la
estimacin.
- S hay relacin entre acertar o fallar y ser inmigrante habiendo controlado el nivel.
- ltima tabla, estimacin del tamao del efecto, realmente es grande la diferencia?
- Mayor 1, hay una relacin real entre las variables del fallo del tem y el grupo focal.
- El logaritmo neperiano (ln) es igual pero la referencia es 0, si es mayor es que hay relacin.
- Intervalo de confianza al 95%: Odds ratio entre 1,03 y 1,28. Cuanto ms alejado est de 1 hay relacin. Si los
lmites del intervalo fueran menores a 1 o alrededor nos dara a entender que no hay diferencia.
18
TEMA 2.C: ASOCIACIN ENTRE DOS O MS VARIABLES
CATEGRICAS
Una posibilidad para ver la relacin entre esas variables sera chi2 dos a dos, pero estamos perdiendo algo de
informacin.
Estos modelos sirven para ver la relacin entre dos o ms variables, de tipo categrico.
Se emplean para analizar la relacin entre dos o ms variables en una tabla de contingencia
Slo estudian la asociacin entre variables. Tcnicas de Independencia o Reductivas. Estamos buscando
una reduccin de dimensionalidades.
Los modelos log-lineales resumen las relaciones existentes en una tabla de contingencia en una serie de
componentes lo ms reducida posible de tal forma que sean fcilmente interpretables. Estos componentes
reciben el nombre de parmetros lambda ()
Por ejemplo, en una tabla con dos variables se pueden presentar cuatro efectos:
- Efecto debido al promedio de la casilla () : Efecto comn de todos los sujetos, la media de la casilla.
El modelo log-linea tambin se puede aplicar para 2 variables, no es necesario ms de tres. Lo que ocurre en
una matriz puede depender de varios efectos. Cada casilla puede deberse al efecto de las filas, columnas El
modelo log-linea pretende ver cules de esos efectos son necesarios.
Modelo Log-lnea?
Para elaborar un modelo log-lineal se transforman las frecuencias observadas en logaritmos naturales. De
esta forma el modelo multiplicativo se transforma en un modelo aditivo, similar a los modelos lineales de
regresin mltiple y anlisis de varianza (Modelo Lineal General). Pasar de un modelo multiplicativo a otro
aditivo, lineal.
En una tabla de contingencia cuando las respuestas son independientes las probabilidades conjuntas de cada
casilla Pij se obtienen como el producto de los marginales de filas y columnas
Pij = Pi.P.j
19
Los modelos log-lineales usan frecuencias esperadas en lugar de probabilidades
fij = nPij.
fij = nPi.P.j
ln(fij) = + Ai + Bj + ABij
La probabilidad conjunta de una celda es el producto de sus marginales. Bajo el supuesto de variables
independientes. EL log-lnea trabaja sobre las frecuencias esperadas de las celdas, no bajo las probabilidades. Hay
que pasarlo a probabilidades.
El logaritmo de un producto es la suma de los logaritmos. Pasar de una expresin multiplicativa a una
aditiva, mejor anlisis. Es un modelo lineal en su logaritmo.
El objetivo fundamental del log-lineal consiste en encontrar un modelo que represente ptimamente los
resultados empricos (de la tabla de contingencia) y que sea adems el ms simple de todos los posibles modelos
con ajuste ptimo. Una vez hallado ese modelo, se interpretan sus parmetros desde una perspectiva sustantiva.
La interpretacin de parmetros de modelos no ajustados no tiene sentido (se calculan cuando tenemos el
modelo definido).
Aspectos tericos
El mayor peligro est en el uso de muchas variables que hace que su interpretacin sea muy
complicada
Aspectos prcticos
Independencia. Que las frecuencias de una celda no interfieran con las de otras, tener bien
definidas las variables para que un sujeto no pueda estar en varias. Comprobar que la N coincida
con el n de casos.
Aspectos prcticos
Ratio casos/variables. Tendremos problema de convergencia cuando hay pocos casos en relacin
al nmero de variables. Esto puede dar lugar a celdas con frecuencia 0 (vacas), que s pueden
analizarse en log-lneal, pero cuando hay muchas hay problemas de convergencia, los parmetros
no son adecuados. Posibilidad de aadir en SPSS +0,5 a todas las frecuencias, evitas convergencia.
20
Adecuacin de las frecuencias esperadas. Frecuencias esperadas inadecuadamente pequeas
producen prdida de potencia estadstica. Problemas de potencia estadstica, muchas variables
para los sujetos.
Formulacin (Especificacin) del modelo o modelos que pudieran dar cuenta de las frecuencias
esperadas para poder obtener las frecuencias esperadas. Una vez definido el modelo:
Comprobacin del ajuste mediante la comparacin de las frecuencias esperadas obtenidas en cada
modelo con las frecuencias observadas. Estadsticos de ajuste, hay mucha diferencia entre las frecuencias
esperadas y observadas?
Seleccin del modelo ms adecuado de entre los que ajusten para la tabla de contingencia-.
Estimacin de los parmetros del modelo seleccionado para ver su importancia relativa.
Modelo Saturado
ln(fijk) = + Ai + Bj + Ck + ABij + ACik + BCjk + ABCijk
Modelo en el que aparecen todos los efectos, para dar cuenta del logaritmo de la frecuencia tengo que
tener en cuenta todos los efectos. Las tres variables estn relacionadas entre s, por ello hay un trmino de tercer
orden.
La relacin entre A y B vara por la relacin con la tercera variable C. La interaccin entre las tres es
significativa, aparece en el modelo. Contempla todos los posibles efectos de una tabla. Siempre ajustan de
manera perfecta a los datos. Los residuales en un modelo saturado siempre son 0, no hay diferencias entre la
frecuencia observada y la frecuencia esperada.
El log-lnea busca simplificar, no utilizar todos los efectos. El modelo saturado suele utilizarse como punto
de partida para ir rebajando.
Modelo de Independencia
ln(fijk) = + Ai + Bj + Ck
21
Modelos Jerrquicos
- Si hay un trmino para la interaccin de un grupo de variables, entonces tiene que haber trminos de
orden inferior para todas las combinaciones posibles de esas variables.
- Para describir un modelo jerrquico es suficiente enumerar los trminos de orden superior en los cuales
aparecen las variables. A esto se le llama clase generadora (generating class) de un modelo.
La frecuencia de la celda puede expresarse a travs de un modelo con solo los efectos principales. Las
variables son independientes y no tienen relacin con otras. Contrario al saturado.
Est presente una determinada interaccin y todos los trminos que estn por debajo de la misma. Estos
modelos pueden abreviarse indicando los trminos de orden ms altos presenten en el modelo.
22
TEMA 2.D: ASOCIACIN ENTRE DOS O MS VARIABLES
CATEGRICAS
Comparar lo terico con lo emprico. Si el modelo ajusta de manera perfecta el valor del estadstico es 0, a medida
que no aumenta. Hay que comprobar la significacin estadstica.
La H0 es que el modelo ajusta, que no hay diferencias entre lo observado y lo esperado. En este caso, al contrario
que en la generalidad, es aceptar la Ho, que P>0,05
Cuando la muestra es pequea suele diferir bastante. En log-lineal suele preferirse la razn de verosimilitud.
23
1- Tenemos un modelo terico. En este caso simplemente se pone a prueba el modelo y si se ajusta se da por
bueno y se interpreta. Ejemplo conductor nobel y velocidad sin tener en cuenta ms variables. Tambin podra
ser que hubiera relacin entre otras variables, entonces el modelo tendra que proponer ms interacciones.
Tendra que decidir entre uno y otro modelo.
2- Generalmente en psicologa es ms exploratorio, no tengo muy claro lo que ocurre y voy probando.
Parmetros estandarizados
Comparacin de modelos
Residuales
Parmetros estandarizados
Los residuos estandarizados menores a |1.96| indican que ese parmetro puede ser eliminado del
modelo
Se distribuyen de acuerdo a la curva normal. Comparar su valor con +-1,96, los que estn por abajo y por arriba se
consideran valores estadsticamente significativo.
A partir del modelo saturado pedirle al programa que nos de los parmetros para los efectos, los que no
podramos eliminarlos, no aportan informacin estadsticamente significativa. Teniendo en cuenta siempre que
estamos en modelos JERRQUICOS, lo que est en interaccin ms alta tiene que estar por abajo representado.
Comparacin de Modelos
Es posible comparar dos modelos restando sus respectivos valores de G2 y comprobando si la diferencia
es o no significativa. El nico requisito necesario es que todos los trminos de uno de ellos estn incluidos en el
otro, es decir, que uno de los modelos sea un subconjunto del otro.
24
El modelo que tiene ms efectos hay que tenerlo presente, sino perderamos informacin. Que el que tenga ms
trminos tenga incluidos a los ms pequeos (que estn anidados).
Propiedades:
1. Para hacer la comparacin de modelos nos basamos en el estadstico de Razn de Verosimilitud, que dice
que la misma del modelo ms simple siempre ser mayor o igual que la del modelo ms complejo. Esta
razn va decreciendo a medida que aumentamos trminos en el modelo. El extremo sera el modelo
saturado, donde G2 sera 0. Para que esta propiedad se cumpla tienen que ser modelos anidados.
2. El modelo ms simple puede descomponerse entre las razones de verosimilitud de los modelos sucesivos.
Se compara con chi2, y si da estadsticamente significativo es que ese trmino de ms que hemos incluido
s es importante (rechazar H0)
a. G2(c-d) = G2(c) G2(d)
b. Para saber si merece la pena quedarnos con el tercer trmino, si es que ajustasen varios modelos.
Probar que los efectos de un determinado orden o inferior son estadsticamente significativas o probar
exclusivamente que los efectos de un determinado orden son significativos.
Prueba global, Omnibus, nos dice si en conjunto x ej las interacciones son o no estadsticamente significativas,
pero no una por una, no sabemos cul. Para esto asociacin parcial que compara una por una, AB-AC-BC.
25/09/13
Residuales
Si se estandarizan aquellos con un valor mayor a |1.96| indican diferencias estadsticamente significativas
entre la frecuencia observada y esperada de esa celda, es decir que esa casilla no ajusta a los datos. Si
encontramos varias celdas con residuales significativos quizs podramos replantearnos el modelo y probar otro
alternativo.
Cuando un modelo ajusta muy bien los residuales son similares a 0. Si tenemos muchas celdas con residuales muy
altos, aunque el modelo general ajuste, habra que plantearse tomar otro modelo. No mirar solo el ajuste global
del modelo.
Stepwise
Se trata de tomar el modelo saturado como punto de partida, y a partir de l se van eliminando los
trminos que no satisfacen el criterio de permanencia en el modelo. El procedimiento se basa en la significacin
de la asociacin parcial al ir aadiendo o suprimiendo un parmetro, analizando el ajuste de los modelos
resultantes
Procedimientos estadsticos son aquellos que el programa va quitando por significacin estadstica. Utilizando las
pruebas de asociacin parcial, utilizando trmino a trmino, de una clase generadora ir quitando trminos. Si el
25
trmino es significativo el trmino no puede quitarse. Forma ms comn de trabajar. Enfoque ms exploratorio
de todos.
Estimacin de Parmetros
Solo tiene sentido cuando tenemos ya un modelo ajustado elegido. El SPSS no lo hace del modelo final, solo
del saturado.
Las estimaciones de los parmetros son funcin directa de los logaritmos de las frecuencias esperadas.
Se calculan a partir de los log. De las frecuencias esperadas, de las celdas de las tablas de
contingencia y de los marginales. En tablas de 2x2 procedimientos substractivos, en mayores
interactivos.
Para tablas de tres o ms dimensiones esta estimacin se realiza por procedimientos iterativos.
La suma de las estimaciones de los parmetros correspondientes a los diferentes niveles de una variable
debe valer 0.
La suma de las estimaciones para una determinada variable tiene que valer 0.
Interpretacin
No hay unas normas fijas. Ir analizando los diferentes trminos. Cuando hay un modelo con interacciones,
la que se interpreta es la interaccin ms alta, ya que las siguientes estn condicionadas por la superior. Con
interacciones de segundo orden podra hacer tablas de contingencia de 2x2 para entender mejor dnde se
produce ms incidencia. Con variables de tercer orden es ms complicado
Para realizar la interpretacin hay que tener ajustado el modelo e ir analizando lo que implican los
trminos que permanecen en l.
Hay que tener en cuenta que al igual que en el AVAR se interpreta siempre la interaccin de ms alto
orden.
Relacin entre asistencia o no a clase de prcticas, ver o no Facebook y aprobar o no la asignatura. Relacin entre
variables. Procedimiento log-lineal en SPSS, modelo razonado de 3 variables.
26
Tablas 4,5 y 6 empieza a dar parmetros para escoger otro modelo ms simplificado.
Pruebas de orden K y superior, tabla 4. Comprobar si los efectos de un determinado orden y superiores a
l son significativos. La segunda parte de esta tabla si los efectos de un determinado orden y solo ellos
son significativos, prueba mnibus. La conclusin ha de ser la misma.
- 1 (efectos principales). Significativo, merece la pena introducir el siguiente. Si este no da
significativo nos dice que todo lo que est por encima de mu no aporta nada.
- 2 o +. Estadsticamente significativo.
- 3 o +. Como no hay ms de tres aqu miraramos solo 3. No es estadsticamente significativo,
p<0.05. En principio parece descartable del modelo. Los estadsticos coinciden en la primera y
segunda parte respecto al 3, ya que es el mayor factor del modelo.
La tabla de asociaciones parciales mira elemento a elemento. Plantea la interaccin entre asistir o no a
clase y Facebook, y plantea si esa interaccin es significativa. Si lo es, no podemos eliminar este trmino
del modelo.
- Aqu sale que las tres interacciones de segundo orden son estadsticamente significativas. Y
adems lo son los efectos principales en s mismos.
Estimacin de parmetros del modelo saturado. El valor del parmetro para cada uno de los trminos,
esto se transforma en una z de acuerdo a la curva normal, y esto lo transforma en significacin.
- La de tercer orden no es sign. Y todas las de segundo s. Parece que el parmetro de mirar
Facebook no es sig. Aunque tiene que estar porque se incluye en un modelo superior.
Procedimiento Stepwise, tabla resumen de los pasos, informacin de los diferentes pasos hasta parar el
modelo.
- Paso 0: Clase generadora de tercer orden, que pasa si se quita. P>0,05, el modelo sigue ajustando,
podemos prescindir de ese trmino.
- Paso 1: Modelo interacciones segundo orden, si quito alguna de esas interacciones, la prdida es
estadsticamente significativa? Ninguno de estos trminos pueden ser eliminados
- Modelo ajustado y definido, los trminos de primer orden necesariamente van a tener que
entrar.
- El ajuste del modelo es de P=210. Con las tres interacciones de segundo orden.
Frecuencia y residuos de casillas. Que ajuste el modelo estadsticamente no significa que sea perfecto. Si
vemos los residuales, ya no son 0.
- Columnas de residuos tpicos, son z en la curva normal. Alarma cuando ms o menos 1,96.
Indicar que son residuos demasiado grandes para no tenerlos en cuenta. Tendramos que buscar
otro modelo que ajuste mejor. Si pasa en pocas celdas no pasa nada.
La chi2 es el estadstico de ajuste global del modelo. Pearson es lo que nosotros llamamos chi2.
Hay relacin entre ver Facebook y la nota, pero no tiene que ver con asistir a clase.
Dentro de la gente que va ms del 50% a clase, el 80% aprueban y el 20% suspende. Informacin
cualitativa de la relacin.
- Odds ratio, estimacin de riesgo, tabla 2x2. Relacin positiva entre ir a clase y la proporcin de
aprobar es de 7,20 a 1.
42% aprueba vs 57% suspende de los que miran Facebook. 80% aprueba de los que no miran Facebook.
- Odds ratio, 1/X, cunto es mayor la probabilidad de suspender para los que aprueban Facebook.
1/0,18 = 5,29 veces ms probable suspender si miras Facebook en las prcticas.
27
28
29
30
TEMA 3.A: EL MODELO DE REGRESIN LINEAL
Pensado para variables cuantitativas, escala de intervalo. Centrada en la relacin lineal entre variables.
Regresin: Se basa en la correlacin. Estos modelos sirven para hacer pronsticos de cosas. Basadas en relaciones
lineales, ya no hay variables simtricas.
Modelo de regresin lineal mltiple: predecimos una variable a partir de muchas. Un caso particular es la
regresin lineal simple, solo una X e Y.
Puedo representarlas como un diagrama de dispersin, cuanto ms inteligencia ms rendimiento, relacin directa
regresin simple-.
Regresin = realizar predicciones sobre una variable a partir de otra(s). Relacin direccional.
6
5
Rendimiento
4
3
2
1
A 0
-1
-2
Inteligencia
Modelo de regresin: Y=A+BX
31
B. Pendiente de la recta, inclinacin. Relacin directa. Adems las B se representan como tasa de cambio.
Cuando yo paso de una puntuacin a otra en Y, qu cambio se produce en la Y. Tasa de cambio por
unidad de Y. El cambio en horizontal cunto cambio produce en vertical.
Y La pronosticada
e = Y Y
Criterios de mnimos cuadrados para dibujar la recta en la nube de puntos, busco la recta que haga que esos
errores, sumados para todos los sujetos, sean los mnimos posibles. En cuadrado porque algunos son por exceso y
otros por defecto, por lo que la suma sera 0. Pero al cuadrado son todos positivos.
Y = A + B1X1 + B2X2++BKXK
Y ' A B1 X 1 B2 X 2 ...... Bk X k
B X ' X X 'Y
1
B eselvector de pesosestimados
X eslamatrizde puntuacionesdirectasenlas variables predictoras
conuna primeracolumnadeunos
Y vector de puntuacionesenelcriterio
32
Coeficientes en puntuaciones diferenciales:
y ' a b1 x1 b2 x2 ...... bk x k
b Cxx1Cxy
b eselvector de pesosestimados
Cxx1 Inversadelamatrizde varianzas covarianzas entrelas variables predictoras
Cxy vector de covarianzasentre variables predictoras yelcriterio
X: Puntuacin directa
Si los valores estn en escalas distintas no son comparables, nuestra escala de referencia son las puntuaciones
tpicas. Cuando queramos hacer la comparacin relativas de las variables se comparan los coeficientes Beta, no
las B.
5
ERRORES (Y)
4
Y
3
2 Y
Y
1 Y Y
0
0 2 4 6 8 10 12 14
TIEMPO (X)
33
S2Y Varianza de la Variable criterio
Los errores pueden seguir siendo grandes aunque sean los ms pequeos posibles. Valoracin del modelo, la foto
es buena? Comparar un modelo base con nuestro modelo, y comparar si nuestro modelo es mejor o peor.
Variacin total de la variable, la media entre la puntuacin del sujeto y la media del grupo.
Si el modelo fuera perfecto la varianza explicada coincidira con la varianza total. Recta perfecta por todos los
puntos.
Coeficiente de determinacin: Para verlo hacemos una relacin de cocientes. Qu proporcin de varianza explica
el modelo de regresin de la varianza que quiero explicar. Viene dado por la correlacin mltiple al cuadrado.
Manera en la que empricamente se calcula el ajuste.
n 11 RYY
2
' p1 RYY
2
'
RYY ' 1
2
RYY '
2
n p 1 n p 1
34
Correlacin mltiple: Extensin de Pearson. Una variable con un conjunto de variables tomadas todas a la vez.
Combinacin lineal de variables para poder tomarlas conjuntamente, eso es lo mismo que la ecuacin de
regresin, sera R2y,y = R2y,x1x2x3.
R2 -> Varianza explicada. Estimador sesgado positivo: Tiende a sobreestimar la proporcin de varianza explicada.
Coeficiente de determinacin insesgado: Corregirlo en funcin del tamao de muestra n de variables; valor igual
o ms bajo que el coeficiente de determinacin.
Comprobar si la varianza explicada por el modelo es significativamente mayor que la explicada por el error. SI es
significativa el modelo ajusta bien.
En qu medida ajusta el modelo. Cunto aade de nuevo esa variable al modelo. Cuadrado de la Correlacin
Semiparcial, proporcin de varianza con la que esa variable contribuye a explicar el modelo. Funciona parecido a
tipificar, tambin nos da qu variable es ms importante para ajustar el modelo.
Correlacin Semiparcial: Correlacin de x e y eliminando el efecto de z solo sobre una de ellas. Vx(y.z)
Correlacin parcial, cmo correlacionan x e y quitando el efecto de la variable z. Vxy.z
Otro procedimiento:
Ejemplo
Partimos de un modelo lineal, tiene que haber relaciones, sino no podemos pronosticar.
El SPSS primero nos mira la valoracin del modelo y luego nos da datos del mismo.
Tabla: Resumen del modelo. Informacin sobre el ajuste. Las puntuaciones, tomadas conjuntamente, es de 0,72,
que elevado al cuadrado es el coeficiente de determinacin, proporcin de varianza de las puntuaciones en
matemticas que consigue explicar, 56%.
Comprobar ajuste a partir de anlisis de varianza. Regresin suficientemente grande respecto al residual F
35
Estimaciones de los coeficientes. Primera parte de la tabla B ligadas a cada una de las variables, constante A. Error
tpico y B pasadas a Beta. EN puntuaciones tpicas B0 = 0. La constante desaparece del modelo, la casilla aparece
vaca.
36
Sesgos en el Modelo
Outliers: Problemas en regresin. Estimacin de los coeficientes sesgada. Aunque el modelo de forma general sea
ajustada.
- Cualquier caso con un valor superior a |3| es un serio candidato a ser un outlier.
Casos influyentes: Grupo de sujetos no representativos de lo que puede ocurrir, pero aparecen con ms
frecuencia de lo que tendra que ocurrir en una muestra estndar; sin ser extremos. Estn influyendo en exceso?
El estadstico ms clsico es la distancia de Cook. Beta con el caso dentro y sin l. Si distancia >1
problemas.
Norma general: Si tienes un outlier pero la distancia de Cook es menor a 1, no pasa nada desde el pto de vista
estadstico.
SPSS. Qu casos tienen un residual con valor absoluto >3. Diagnsticos por caso. Te da el outlier. Miras los
estadsticos sobre residuos, residuales tipificados +-3. Valor de Cook, no problemas de valores influyentes, lmite
en 1.
Contraste: 2-raiz-(p+1/n)
Stevens (2002):
Si un punto es un outlier en Y, pero su distancia de Cook es menor a 1 no hay necesidad real de eliminar ese
punto ya que no tiene gran efecto sobre el anlisis de regresin. Sin embargo, a pesar de todo uno podra aun
estar interesado en estudiar ese valor para tratar de entender porque no ajusta al modelo.
37
Supuestos del Modelo
Linealidad
No colinealidad
Independencia
Normalidad: Ms importante cuanto ms pequea es la muestra, como homoscedascidiad. Al menos 10
casos por variable independiente. Importante para intervalos de confianza. El resto de supuestos es ms
para que los valores sean insesgados.
Homoscedasticidad
38
Linealidad
Grficos de dispersin y Grficos de dispersin parcial (regresin parcial).
Para intentar controlar el efecto de terceras variables se utilizan grficos de dispersin parcial.
Eje Y, residuos del modelo en que pronostico matemticas a partir de escritura, cc.sociales y cc.naturales.
Eje X, residuos modelo de regresin de lectura a partir de las variables independientes, escritura,
ccsociales y ccnaturales.
Miramos la correlacin de la lectura y escritura. Relacin entre lectura y matemticas eliminando el
efecto de escritura, ccsociales y ccnaturales. Si se cumple nube alargada y estrecha.
Sociales ms dbil que las dems. Aunque parecen cumplir todas el supuesto de linealidad.
Colinealidad
Un posible indicio de problema de colinealidad puede ser que la F que pone a prueba la hiptesis global
de no relacin (R2 = 0) sea estadsticamente significativa y sin embargo ninguno de los coeficientes de
regresin lo sea.
39
El nivel de tolerancia de una variable independiente Xj se obtiene restando a 1 el valor de la R2 de esa
variable con el resto de variables independientes del modelo (T = 1 R2XJ,X1,X2..,Xp). Flucta entre 0 y 1.
Suele asumirse que los problemas asociados a la presencia de colinealidad empiezan con tolerancias
inferiores a 0.10.
Cuando una variable puede expresarse de manera perfecta en funcin de otra variable u otras variables. La
variable nota total es una combinacin perfecta de la ponderacin de las parciales. Cuando esto ocurre el modelo
no lo permite.
Cuando hay colinealidad perfecta el determinante = 0. Informacin redundante. Muy rara, se plantea si es tan alta
para que pueda dar problemas de estimacin de parmetros.
Tolerancia y factor de inflacin de la varianza. Correlacin mltiple entre la variable de estudio y el resto de las VI
tomadas independientemente y restarlo de 1. Si la correlacin multiple es muy alta dice que esa variable depende
mucho de las otras, problema de colinealidad. Lmite aceptable 0-10.
Tolerancia 0,448, lejos del lmite. El valor ms alto de la inflacin 2,23, tambin lejos. No hay problema de
colinealidad. Sin embargo s hay colinealidad, s hay correlacin de las variables entre s, pero no son tan altas
como para dar problemas.
Independencia
Los errores que cometemos no siguen ningn tipo de tendencia, son idependientes unos de otros. Errores
autocorrelacionados, frecuentes en estudios longitudinales. Da coeficientes inestables.
Durbin-Watson: Trabaja con el error en un sujeto y en el sujeto anterior. Entre 0-4; ausencia de
correlacin 2. Si es menor a 2 es correlacin positiva y si es mayor es correlacin negativa. Ideal entre 1,5
y 2,5.
40
Este estadstico toma valores entre 0 y 4:
Valor 2,178
Normalidad
Se refiere a los residuos. Si las variables tienen distribucin normal multivariada los residuos se
distribuirn en la curva de la normal. Estamos comprobando la normalidad multivariada a posteriori.
Homoscedasticidad
Los errores tienen la misma varianza para todos los valores de las variables X. Para cada valor de X
tendramos una curva normal.
X: Valor pronosticado en z
Y: Residuo tipificado
41
Si esto se cumple, todos los puntos entorno al valor 0, ms o mismo con la misma anchura, en un grfico de
dispersin.
Nube de puntos: se percibe un cierto aumento de la variabilidad a medida que aumentan las puntuaciones.
Homoscedasticidad en entredicho.
Mtodos de Regresin
Las variables del modelo suelen elegirse por razones tericas.
Paso a paso (Stepwise): Procedimientos ms estadsticos, el modelo final se construye slo por criterios
estadsticos. Va paso a paso introduciendo variables, no todas a la vez. Para que una variable entre en el
modelo utiliza una correlacin parcial ms alta con el modelo dependiente, siempre que sea
estadsticamente significativa. SPSS nivel sig. 5%. Si tengo que sacar una variable del modelo pero en este
caso p = 0,10; ms difcil que salga. Tiene que cumplirse adems que el nivel de la varianza est en unos
lmites razonables. 1. Correlacin 2. Supuesto de tolerancia
- Fordward: No hay ninguna variable, se introducen una a una.
- Stepwise: Mezcla de los otros dos, parte del Fordward, pero a diferencia del mismo cuando entra
una variable y luego entra la segunda, se comprueba si ahora podra quitar la primera y el modelo
sigue ajustando, hasta que no se pueden poner ni quitar ms.
- Backward: Se introducen todas las variables y de ah va quitando variables con el criterio de
significacin al 10%.
El Stepwise es el ms popular. Criterios puramente estadsticos, crtica. Variables muy importantes puede dejarlas
fuera. Puede no ser interpretable desde el punto de vista sustantivo.
42
-FALTA-
43
44
TEMA 3.B.: REGRESIN LOGSTICA BINARIA
La regresin logstica es un tipo de regresin en el que la variable dependiente es categrica y los
predictores pueden ser categricos (dicotmicos) o cuantitativos.
En su forma ms simple esto significa que podemos predecir a cul de dos categoras una persona es
probable que pertenezca conocida cierta informacin.
Si tratamos de predecir una variable con dos categoras tendremos una regresin logstica binaria (la que
aqu vamos a ver) y si la VD tiene ms de dos categoras tendremos una regresin logstica multinomial.
Pueden ser variables categricas (slo dicotmicas), cuantitativas o una mezcla de ambas.
No podemos usar la expresin bsica del modelo con datos categricos porque no se da linealidad. Puede
utilizarse haciendo la transformacin necesaria de los datos. Necesitamos un formato ms lineal, la regresin
logstica linealiza ese modelo.
Una manera de evitar este problema es sometiendo los datos a una transformacin logartmica
La regresin logstica se basa en el siguiente principio: Expresa la ecuacin de regresin en trminos de logaritmos
de probabilidades de Y (lo que llamamos Logit) y de este modo vence el problema de violar la asuncin de
linealidad.
45
Pasar la ecuacin a logaritmos de las probabilidades. Ecuacin de la regresin logstica, curva en forma de
S. Expresa las probabilidades de un determinado suceso en funcin de unas variables de tipo cuantitativo.
Probabilidad de xito considerada en trminos genricos.
El logaritmo de la Odds es la expresin lineal. Un log-it, xito frente a no xito, esto se puede representar de
acuerdo al modelo lineal que conocemos. Logaritmo neperiano de las ODDS. Para trabajar sobre el modelo lineal.
La regresin logstica binaria sirve para la probabilidad de una variable dicotmica en funcin de variables
categricas o cuantitativas.
Tantas variables nuevas como categoras que tenga la variable original menos 1. Si tenemos una variable con 3
niveles, tenemos que crear 2 variables nuevas.
46
Dar valores a los coeficientes de regresin, nos quedaremos con los que ms probables hagan los valores
empricos de nuestro estudio. Proceso iterativo.
La probabilidad conjunta de unos sucesos independientes son el producto de sus probabilidades. Verosimilitud
para los coeficientes.
ndice de riesgo realmente. Pero slo de una variable dicotmica en la de riesgo, aqu puede haber varias.
Estimacin de Parmetros
A diferencia de la regresin lineal los coeficientes B no se estiman por Mnimos Cuadrados sino por Mxima
Verosimilitud.
El mtodo de Mxima Verosimilitud consiste, en buscar estimaciones de los coeficientes de regresin que hacen
que los valores observados sean los ms probables, es decir, se buscan valores que maximicen la probabilidad
(verosimilitud) de los valores observados en nuestra muestra
Por ejemplo, supongamos que tres sujetos tienen en el criterio puntuaciones de 1, 1 y 0 y que, estimando unos
determinados valores para los pesos de las variables predictoras, las probabilidades pronosticadas a cada sujeto
de obtener 1 en el criterio son 0.9, 0.8 y 0.2. La verosimilitud (L) es la probabilidad que asigna el modelo a los
datos obtenidos. As pues :
Cuanto mayor sea la verosimilitud (L), ms se ajusta el modelo (parmetros estimados) a los datos observados,
as, el ordenador utiliza un procedimiento iterativo que finaliza cuando logra la mxima verosimilitud
Odds Ratio: eB
Ejemplo:
47
Trato de pronosticar una variable dicotmica.
Similar al output de una regresin mltiple. Parece que el sexo tiene mayor capacidad predictiva. A partir del
valor tpico se calcula la Z.
Las dos variables que tenemos parece que son estadsticamente significativas.
Exp (B) ODDS. Para sujetos con un mismo nivel de escrupulosisdad la mejora de tener xito en la terapia segn
seas hombre o mujer se multiplican x 9,191. Ser mujer parece que tiene muchas ms probabildiades de xito,
para un mismo nivel de escrupulosidad!
Dentro de ser hombre o mujer, el hecho de aumentar un punto en escrupulosidad aumenta la probabilidad de
xito.
El punto neutro de las OODS es 1, NO 0. Igual probabilidad de tener xito como de no tenerlo. Si est por encima
de 1, mayor probabilidad de tenerlo al aumentar en esa variable, si es inferior a 1, menor probabilidad de tenerlo
cuanto ms aumenta esa variable, relacin inversa.
Significacin estadstica no a travs de una p sino a travs del intervalo de confianza. Valores distintos de 0.
Funcionar bien el modelo cuando el porcentaje de bien clasificados sea alto, es un mtodo de ajuste.
48
Evaluacin del Modelo
09/10/13
Respecto a la regresin mltiple, cambian los criterios que se utilizan para realizar los modelos.
Estadstico score: correlacin entre la VI y la VD, un chi2. Si es estadsticamente significativo esa variable
puede entrar
Para decidir si una variable puede salir o no, una vez dentro del modelo:
- Estadstico de Wald: Estadstico sesgado, valor alto de coeficiente B hace que se infle su error
tpico, podramos estar dando por significativo algo que en realidad no lo es.
- Bondad de ajuste: La compara entre dos modelos, con o sin la variable. Si la razn de
verosimilitud de la diferencia es estadsticamente significativa o no.
49
Procedimientos de ajuste del modelo:
Adelante (Forward-Stepwise) : Se van incluyendo una a una las variables siempre que cumplan un
determinado criterio. Cada vez que se incluye una nueva variable vuelve a cuestionarse la permanencia
de las anteriores.
Atrs (Backward-Stepwise) : Comienza con un modelo que contiene todas las variables y va eliminando
una a una todas las que no cumplan un determinado criterio. Cada vez que se elimina una variable se
vuelve a cuestionar la inclusin en la ecuacin de las eliminadas anteriormente.
Como criterio para incluir una variable en la ecuacin se utiliza la significacin estadstica de su correlacin con el
criterio, que viene dada por el estadstico score (puntuacin)
Ejemplo Stepwise
1. xito en la terapia.
1. Mujer 0. Hombre
50
Peso para la constante significativo. No hace falta fijarse.
La primera que entra es, dentro de las significativas, la variable con mayor puntuacin. En este caso sexo
Paso 1
- Escaln: Comparacin del modelo base con el modelo con una variable independiente (sexo).
Ganancia que tenemos y si es significativo.
Paso 2
- El modelo sigue siendo la comparacin del modelo (ahora con dos variables) con el modelo base.
- Escaln/Paso: Diferencia entre este modelo y el del paso 1.
- Para que este pseudopaso se de, tiene que ser signigicativa la ganancia. Paso 2. Escaln.
Sig.
51
Cox y Snell. No llega a 1. Negelkerke variacin del anterior, llega a 1, mejor interpretacin.
Proporcin de varianza explicable con 1 variable de 0,305. Bastante buena. La otra aporta matizaciones.
Ajuste global del modelo con Hosmer. Buscamos p>0,05. H0 el modelo ajusta.
75,2% de los sujetos explicados slo con la variable sexo. Este es el global. Cuando metemos tambin la
escrupulosisdad tenemos un 75,7%, no conseguimos mucha mejora. 66,7% el modelo base.
Donde hay ms cambio al meter la segunda variable es en los porcentajes intermedios, no en los globales. Segn
lo que estemos buscando igual es ms interesante meter o no esa variable. Sujetos que la terapia no funciona
acertamos en el 77,3% cuando pronosticamos que no va a funcionar, si metemos la segunda variable acertamos
en un 59,6%.
Construccin del modelo en los dos pasos. Una vez visto que el modelo ajusta. Los coeficientes cambian cuando
metemos ms variables en un modelo. Cuando estamos en el modelo con solo el sexo, las ODDS son 9,746,
mientras que cuando aadimos la segunda son 9,191. Variable que desde el punto de vista estadstico se podra
eliminar del modelo.
Modelo si el trmino se ha eliminado. Si quito sexo nos da unos valores, que son estadsticamente significativos,
no puedo quitar la variable. En el segundo paso mira las dos variables; prdida estadsticamente significativa
tanto de sexo como de escrpulosidad.
52
Algunas situaciones problemticas en la regresin logstica
El procedimiento de clculos de coeficientes es integrativo, hasta estabilizar los valores. Pero hay veces que el
procedimiento no converge, no encuentra valores estables. A veces el SPSS nos da valores muy inestables, con un
error muy alto.
Informacin incompleta sobre los predictores: Cuando tenemos muy pocos casos en la VI o incluso
ningn caso.
- Considerar si un sujeto se siente feliz o no en cuanto a sexo, raza Si solo tengo un caso de una
raza y coincide que es feliz, va a hacer que diga que todos los de esa raza son felices. Problemas
de convergencia e inestabilidad.
- La solucin es aumentar tamao de muestra, reducir variables o reducir categoras dentro de las
variables.
La prueba de la regresin logstica a veces se utiliza para clasificar sujetos. Peor ms flexible que la
discriminantes. Tambin nos sirve para trabajar con ndices de riesgo.
Punto de corte arbitrario de 0,50 para meter en grupos. Si cambiamos el punto de corte la clasificacin ser
distinta. Dependiendo de lo que busques en tu investigacin puede interesarte cambiar el punto de corte.
Curvas ROC: Para tratar de determinar cmo podramos modificar. Nos permite evaluar las decisiones
que toman los sujetos en base a una V categrica. Utilizada en percepcin para distincin de seales.
Dnde est el criterio adecuado para que las decisiones que tomemos sean lo menos errneas posibles.
53
Valores predichos
Valores reales
0 1
0 A. Verdaderos Negativos. B.Falsos Positivos.
No tienen el sndrome y
decimos que son
negativos
En epidemiologa:
Especificidad (Tasa de
verdaderos negativos)
A/(A+B)
1 C.Falsos negativos. D.Verdaderos Positivos.
Errores
Sensibilidad de una
prueba: Tasa o %
D/(C+D)
Curvas ROC: En el eje Y se representa la sensibilidad y en el X 1-Especificidad (falsos positivos). Se dibuja una
diagonal que representara un modelo con solo la constante, sin ninguna capacidad predictiva. Despus para las
diferentes tasas se van calculando las probabilidades y se dibuja una curva:
Hay que ver las consecencias, qu modelo es mejor? Es preferible decirle a alguien que tiene cncer que no lo
tiene o viceversa? No te lo da la estadstica. Elegir un modelo equilibrado o no segn la significacin misma, el
punto de corte.
El SPSS me da el rea bajo curva. El modelo de referencia ocupa la mitad, el total 1. Se calcula por debajo de la
curva, si es estadsticamente significativo al 0,5 que es lo que queda por debajo de la curva.
Despus de cambiar el punto de corte tienes que ver la predectibilidad total del modelo, explicacin global, que
puede perder al cambiar las parciales.
54
TEMA 4.A.: ANOVA CON FACTORES ENTRE SUJETOS
-San Milln-
Veremos si hay diferencias entre los grupos entre las medidas de grupo en una o ms variables cuantitativas.
Modelo lineal general (MLG): El Anlisis de Varianza (ANOVA) es una familia de tcnicas de anlisis que permiten
explicar el comportamiento de una variable dependiente cuantitativa a partir de una o ms variables
independientes categricas.
A partir de comprobar esta influencia tambin podremos introducir en estos modelos, un cierto control
estadstico sobre variables extraas, introducindolas en el modelo como co-variables. Esta familia de tcnicas se
basan en una ecuacin matemtica, el modelo lineal general. En esencia lo que hace este modelo es explicar una
variable en funcin de la suma ponderada de otras variables.Habr multitud de causas que sean las que den esas
puntuaciones en las variables dependientes de los sujetos. Nosotros no podemos tener en cuenta todos esos
factores que tienen efecto en la variable de inters.
55
Podemos controlar previamente una variable que parece que influye nuestro modelo. Si yo presupongo que en el
estudio que estoy haciendo la variable edad est influyendo a los datos, pues entonces podemos solucionarlos
buscando a sujetos de la misma edad, hacindola as constante.
En otras ocasiones no podemos controlar la variable, como la historia personal de los sujetos. La puntuacin del
sujeto en VD depender de aquellas variables que me interesan estudiar pero tambin habr otra parte explicada
por una parte comn para todos los sujetos y una parte de error, parte que no controlamos en la que varan los
sujetos.
Si queremos pronosticar el rendimiento de los sujetos en base al nivel cultural de los padres y al nivel de CI de los
nios. Aqu habra dos VI, CI y nivel cultural. Traduciendo eso, yo tendra que la puntuacin de un sujeto en la
variable rendimiento vendr explicada por:
- Una parte comn a todos los sujetos, la media general de los sujetos en rendimiento
- Efectos que tengan el nivel cultural de los padres + efectos del CI de los nios
Este es un esquema similar al de la regresin mltiple. De este modelo, el primer trmino hace referencia a la
constante, y en el caso de la ANOVA, hara referencia a eso que es comn a todos los sujetos. A la X se le da
valor 1 y la B0 es la media.
(0 xi0): recoge el conjunto de efectos debidos a los factores mantenidos constantes, es decir, aquellos factores
que son comunes a todos los sujetos:
- xi0 suele tomar valor 1 para todos los sujetos indicando que todos los sujetos puntan igual en los
factores que se mantienen constantes)
- 0 es, generalmente, la media poblacional (que es justamente la parte de la variable dependiente que es
comn a todos los sujetos).
56
Los coeficientes de ponderacin (pesos) indican la diferencia entre la media del grupo y la media total (la gran
media)
Nuestro modelo base sera aquel que asignara a los sujetos la media general a la variable dependiente. As,
estaramos asumiendo que todos los grupos son iguales, las variables independientes no producen efectos. En el
segundo se pronostica la media del grupo al que pertenece, estamos diciendo que los grupos son distintos entre
s (su media no es igual a la media general.
- Modelo base: media similar para todos los grupos (media global)
En el caso de los anlisis del tipo ANOVA lo que tendramos es un modelo que pronosticara a todos los sujetos la
media general en la variable dependiente y por tanto implicara que no hay diferencias entre las medias de los
diferentes grupos, frente a un modelo que pronosticara a cada sujeto la media del grupo al que pertenece, lo que
implica que las medias difieren entre los diferentes grupos.
Comprobamos si la partre de la varianza de los factores que tenemso en el modelo es realmente mayor que la
parte que no explica (el error). Esto da lugar al estadstico F. Cuando este da 1, quiere decir que la parte explicada
no es realmente mayor que la parte no explicada. Cuando da mayor que uno, quiere decir que la parte explicada
es mayor que la parte no explicada. Esto deberemos de comprobarlo con el nivel de significacin, ya que si no hay
57
La lnea horizontal muestra la media general, mientras que las puntuaciones se muestras con las lneas verticales
de colores. Muestran cuanto dista cada puntuacin de la media. Los distintos colores muestran los distintos
niveles de la variable.
El primero es el modelo base. Lo siguiente que se hace es poner la puntuacin de cada sujeto en relacin con la
media. Con el ANOVA proponemos otro modelo que afirma que hay diferencias entre los grupos, y por tanto para
pronosticar las puntuaciones lo mejor sera usar la media del grupo al que pertenece en vez de la gran media. El
grafico de arriba a la derecha representa el error. Si la varianza explicada por el modelo de abajo es mayor que el
de la derecha (el del error) la hiptesis correcta ser que nuestro nuevo modelo (las medias de cada grupo). Si la
varianza explicada de la derecha es mayor que el de abajo, nos tenemos que quedar con el modelo de la
izquierda, es decir el de la media general para todos los grupos.
Estimacin intergrupal de la varianza poblacional, se basa en la variacin entre las medias de los
grupos.
Si la hiptesis nula es verdadera, las dos estimaciones de la varianza deberan ser aproximadamente iguales y, por
tanto, la razn entre la estimacin intergrupal y la estimacin intragrupal, es decir, la F debera ser
aproximadamente 1.
Esas dos estimaciones de la varianza tienen que dar valores muy parecidos, y para ello utilizamos el estadstico F.
Segn el nmero de factores: en el contexto del anlisis de varianza, factor es sinnimo de variable
independiente. Siempre que tenga dos o mas factores hablamos de anova factorial.
- ANOVA de un factor
- ANOVA multifactorial
Segn la asignacin de las unidades de anlisis a los niveles de estudio: llamamos unidades de anlisis a los
sujetos, aquello de lo que recojamos datos. Llamamos a las condiciones de estudio a los niveles que surgen de
cruzar nuestros niveles de las variables independientes. Deberamos utilizar siempre la asignacin aleatoria.
Dentro de esta tenemos dos grandes formas, grupos o bloques aleatorios.
58
- Diseos de bloques aleatorios modelo aleatorizado en bloques. Se aplica cuando sospechamos que
hay una determinada variable extraa que puede estar influyendo en los resultados del estudio. Una
posibilidad de controlar esta variable es el bloqueo. Por ejemplo, frmaco para el insomnio que funciona
de manera diferencial dependiendo de la severidad del trastorno, esto habra que controlarlo. Esto se
puede controlar realizando grupos de gravedad del trastorno (leve, moderado y grave) y distribuirlos
aleatoriamente en las condiciones de frmaco.
- Diseo intrasujetos modelo de medidas repetidas. Es un diseo particular de bloques, y es donde cada
sujeto es un bloque, cada sujeto se controla a s mismo. Cada sujeto no se asigna a un nivel tratamiento
distinto de la variable independiente sino que el sujeto pasa por todos los niveles de la variable
independiente.
Segn la forma de establecer los niveles de un factor: niveles de un factor se refiere a los grupos. Hay dos
tcticas para elegir estos factores:
- Efectos fijos: dentro de una variable independiente, elegimos unos niveles concretos de esa variable y
estos son los niveles que nos interesan. Puede ser que no tengamos mas remedio que sean determinados
previamente, por ejemplo el sexo. Pero tambin puede ser que nos interesen por lo que sea, la cantidad
del frmaco (10g, 15g, etc.). Cuando generalizo los resultados solo lo puedo hacer para estos niveles de la
variable. Si repito el anlisis los sujetos variaran pero no los niveles de esta variable. Sera el modelo tipo
1.
- Efectos aleatorios: considerar que una variable independiente tienen infinitos niveles y yo de manera
aleatoria escojo 3 o 4 de esos niveles, que podran ser esos u otros cualquiera. No es que solo me
interesen esos 3 o 4 valores, sino que me interesa la inferencia. Si replicamos los estudios los niveles de la
variable independiente seguramente sean distintos. Sera el modelo tipo 2.
SUPUESTOS
Normalidad: la variable dependiente tiene que ser cuantitativa y debe de tener una distribucin normal en cada
uno de los niveles de tratamiento.
Homocedasticidad: la varianza de la VD sea equivalente en cada uno de los niveles de la variable independiente,
equivalente en cada uno de los grupos.
Con tamaos de muestra grandes el modelo resulta, en general, robusto a violaciones no extremas de los
supuestos, especialmente con grupos equilibrados. Este modelo soporta bastante bien ciertos incumplimientos
de supuestos. Sobre todo bajo las condiciones de un tamao de muestra grande (de 30 para arriba) y que los
grupos sean del mismo tamao). Por definicin en el ANOVA, no importa el tamao de los grupos, pero desde el
punto de vista estadstico, esto es importante.
59
COMPARAR VARIOS GRUPOS EN UNA VARIABLE CUANTITATIVA:
Para comprobar la hiptesis hacemos una prueba F. Los grados de libertad cambiaran dependiendo del modelo.
Las medias cuadrticas son las varianza, que es la suma de los cuadrados partidos de los grados de libertad. La F
es la parte entre, entre la parte intra. La prueba F es una prueba mnibus, una prueba global. Si rechazamos la
Hipotesis nula la conclusin es que al menos dos de los grupos difieren con respecto a la VI que estamos
considerando. No podemos ir mas all.
60
Encontramos que en el nivel mas bajo la VI se distribuye de una forma asimtrica. Si no fijamos en la caja, la
mediana no est centrada con respecto a la caja. Por tanto aqu hay asimetra. Por tanto este nivel nos puede dar
algn tipo de problema con respecto a la normalidad. La homogeneidad puede que no sea significativa.
Pruebas de normalidad
a
status socio- Kolmogorov-Smirnov Shapiro-Wilk
econmico Estadstico gl Sig. Estadstico gl Sig.
puntuacin en bajo ,150 47 ,010 ,883 47 ,000
matemticas *
dimension2
medio ,062 95 ,200 ,977 95 ,093
*
alto ,096 58 ,200 ,967 58 ,112
a. Correccin de la significacin de Lilliefors
*. Este es un lmite inferior de la significacin verdadera.
Para comprobar lo anterior, pedimos K-S. Encontramos entonces que el nivel medio y alto aceptamos la hiptesis
nula, el modelo ajusta, mientras que nuestro nivel bajo no cumple el supuesto de normalidad. De todas formas
seguiremos adelante.
El siguiente supuesto de homogeneidad de varianzas se comprueba con la prueba de Levene. La hiptesis nula es
que las varianzas son iguales, la alternativa que las varianzas son distincas. En este caso la significacin es 0,86. y
por tanto es significativa y se cumple el supuesto.
61
Origen
Fecha
Brown-Forsythe
WDLCH
La diferencia no puede deberse al azar, las diferencias de medias, pero pueden deberse a que efectivamente los
grupos son diferentes u otros factores como tamao de muestra, no nos asegura que haya un efecto importante
de la variable independiente sobre la dependiente. Para comprobar esto utilizamos pruebas de Tamao del
efecto, la ms clsica con ANOVA es eta 2 (n2), que se interpreta en trminos de proporcin de varianza
explicada:
R cuadrado = 0,075. Que sale del modelo corregido entre la proporcin de varianza total. Nos dice cunto
explican nuestras variables del modelo
0,01 pequeo
0,09 mediano
0,25 grande
Tamao del efecto mediano. Ses error cuadrado parcial (n2) 0,075
62
Comparaciones Mltiples entre Medias
Entre cules de los grupos hay diferencias
Tenemos que fijar un error con el que trabajar, generalmente 0,05, admitimos un 5% de rechazar una H0 que en
realidad es verdadera (alfa). Pero si hacemos dos comparaciones, la % de cometer errores aumenta, y cuantos
ms metamos ms aumenta, por lo que no es cierto que alfa siga siendo 0,05, la % de error TIPO I crece.
Las Post-Hoc sirve para cuando no tengo hiptesis previas y quiero mirar sobre qu grupos hay diferencias. 18
pruebas del SPSS para hacer comparaciones a posteriori corrigiendo la tasa de error por familia, intentando
mantener 5%.
63
Bonferroni: 0,05 entre el n de comparaciones que haces. P no sera con 0,05 sino con el resultado de la
divisin. Una T de Student corrigiendo el nivel de alfa, puede hacerse a mano. Muy popular. Sirve para grupos
no equilibrados tambin.
Sin asumir varianzas iguales Games-Howel o C de Dunnet.
El SPSS te da la opcin de fijar la tasa de error que quieres.
Comparaciones mltiples
Variable dependiente: puntuacin en matemticas
de de confianza
(I) status socio- (J) status socio- medias (I- Error Lmite Lmite
econmico econmico J) estndar Sig. inferior superior
Scheffe bajo medio -3,04031 1,61512 ,173 -7,0240 ,9433
alto *
-
-7,00220 1,77747 ,001 -2,6181
11,3863
alto *
-
-7,00220 1,77747 ,000 -2,7103
11,2941
Diferencias estadsticamente significativas entre el medio y el alto y entre el bajo y el alto. Por lo tanto el grupo
alto es el ms diferenciado. En este caso la conclusin para ambas pruebas es la misma.
El estatus socioeconmico ejerce efecto con las notas de matemticas, efecto medio-bajo. Se da entre el
grupo social alto respecto a medio o bajo.
Si se tienen ciertas hiptesis previas sobre donde deben darse las diferencias entre los grupos, en estos
casos no es necesario comparar todos los grupos con todos sino que el nmero de comparaciones a
realizar es menor.
Para elaborar estos contrastes asignamos un coeficiente a cada uno de los grupos, con la nica restriccin
de que la suma de los coeficientes de cada contraste tiene que ser cero. Cada contraste compara los
grupos al los que se asigna un coeficiente positivo con los grupos a los que se asigna un coeficiente
negativo. A los grupos no considerados en cada comparacin se les asigna el coeficiente cero.
Cuando antes de hacer el ANOVA tienes hiptesis sobre qu grupo habr diferencias. Lo normal es que no
compares todos con todos.
64
La suma de los coeficientes para un determiando contraste tiene que sumar 0. Los grupos con coeficiente positivo
se comparan con los de negativo. Si un grupo no quieres que entre en la comparacin, le asignas el coeficiente 0.
Si en nuestro ejemplo supusiramos que el rendimiento aumenta a medida que aumenta la clase social
deberamos hacer las siguientes comparaciones: cada nivel con el inmediatamente posterior.
bajo medio
medio alto
bajo medio alto
1 -1 0
0 1 -1
Tiene que haber diferencias entre grupos significativos. Comparar bajo con medio:
- 1 bajo
- -1 medio
- 0 alto
- Suma por fila = 0.
Comparar que vaya in creccendo:
- 0 bajo
- 1 medio
- -1 alto
Comparaciones mltiples
Variable dependiente: puntuacin en matemticas
alto *
-
-7,00220 1,77747 ,001 -2,6181
11,3863
alto *
-
-7,00220 1,77747 ,000 -2,7103
11,2941
Dentro de este tipo de contrastes, hay unos denominados contrastes ortogonales, que son independientes unos
de los otros. Tienen que cumplirse que los productos cruzados entre los coeficientes sumen 0.
65
Primer contraste, comparo el 1 con el resto de los grupos
Segundo, comparar 1 con 3.
La suma de productos cruzados tiene que dar 0. En este caso se cumple, contrastes ortogonales
Contrastes ortogonales:
Se diferencian del resto de contrastes planeados en que cada contraste (o comparacin) es independiente
de los otros.
Para comprobar la independencia de dos contrastes basta con sumar los productos cruzados de los
coeficientes de ambos.
En caso de independencia (ortogonalidad) la suma de los productos debe ser cero.
No
Anlisis de tendencias
Un tipo de contrastes ortogonales son los contrastes polinmicos, que se utilizan para analizar las tendencias de
las medias en aquellos casos en que los niveles del factor pueden ordenarse de menor a mayor.
Contrastes polinmicos: se utilizan cuando los niveles de la VI pueden seguir una tendencia, datos cuantitativos,
pueden ponderarse. Al menos ordinal, como la dosis de un medicamento. Comparar los grupos para ver si hay
diferencias y para ver si hay una determinada tendencia. Se pueden hacer tantos contrastes como n de grupos
menos 1.
Tabla de varianza, no me da valor global, sino que me da para comparar los posibles trminos que podemos
tener, en este caso lineal y cuadrtico.
66
La que nos da estadsticamente significativa es la lineal. La manera de comparar si es esta es pedirle un
diagrama donde represente las medias. Con el grfico puedes ver la tendencia casi sin necesidad de la
tabla.
Anlisis de Tendencias
Lineal
Cuadrtica
Cbica
67
Comparar grupos definidos por ms de una variable categrica en una variable cuantitativa
ANOVA Factorial
Al menos dos variables cualitativas que definen grupos. Nos van a interesar sus combinaciones.
Tendremos ms efectos, el efecto individual de cada una de las variables que estamos contemplando ms la
combinacin de ambas, estudio del efecto de interaccin.
No es l mismo un anova factorial que dos de un factor por separado. Nos da la interaccin.
EJEMPLO:
Si sexo y zona donde se vive influye en el n de horas en redes sociales. Diseos de grupos independientes,
factores entre.
Generalizacin de un factor. Dos factores independientes como fuente de variacin e interaccin entre ellos,
pasamos de uno a 3 efectos de inters.
Similar a log-lineal, que haya interaccin entre dos factores es que una de las VI se comporta de distinta manera
dependiendo de alguno de los niveles de la otra VI.
68
Cuando no hay interaccin, las lneas son paralelas, pudiendo haber diferencias entre los efectos principales o no.
No hay cambio de comportamiento de una variable para otra. Tampoco habr efectos, no diferencias sig.
Para b1 y b2.
Hay una diferencia entre medias globales de b1, b2; pero no hay diferencia con a.
Cuando los grficos no son paralelos, podemos esperarnos (no seguro) una interaccin significativa:
S
Medias
a1
Medias
a2 a1
a2
b1 b2 b1 b2
NO
Medias
Medias
a1 a1
a2 a2
b1 b2 b1 b2
Supuestos:
El efecto global de todos a la vez es el eta cuadrado. Suma de cuadrados del efecto entre suma total
Eta cuadrado parcial, 0, 186. Se interpreta en trminos de proporcin de varianza explicada. EL sexo explica el
20% de la diferencia de la variable dependiente.
22/10/13
69
Ejemplo
Estadsticos descriptivos
Variable dependiente:Uso de las redes sociales en horas semanales
sexo tamao_ciudad Desviacin
Media tpica N
mujer grande 17,71 1,604 7
pequea
dimension2
20,43 1,718 7
Total 19,07 2,129 14
hombre grande 29,57 2,637 7
pequea
dimension2
12,14 1,952 7
Total 20,86 9,314 14
Total grande 23,64 6,500 14
pequea
dimension2
16,29 4,648 14
Total 19,96 6,692 28
1,434 3 24 ,257
70
Los supuestos son los mismos, el SPSS nos da la prueba de Levene para comprobar homogeneidad, cuya
H0 es que las varianzas son iguales. Si p>0,05 cumplimos supuesto de homogeneidad de varianzas.
El factor principal sexo diferencias estadsticamente significativas, tambin tamao de ciudad y la interaccin. Nos
quedamos con la interaccin.
R2 es lo que llambamos eta2 en el ANOVA de un factor, nos da el tamao de efecto para el modelo global. Toma
en cuenta todos los efectos del modelo y ve conjuntamente cul es el efecto. Dividiendo la suma de cuadrados
del modelo corregido / Total corregida = 0,92. El modelo globalmente explica el 92% de la varianza de la variable
dependiente.
Esa interaccin tiene un tamao de efecto muy alto, 0,88. My buen modelo.
Pedir grfico de perfiles: Grfica de medias, eje X niveles de una de las VI y mediante lneas distintas
representamos los niveles de la otra VI. Si hay un cruce claro, lneas no paralelas, es que hay interaccin, puede
que la interaccin no sea estadsticamente significativa, en este caso s.
- Los efectos son muy distintos segn el nivel en el que te muevas, hay gran diferencia del uso de las
redes sociales en ciudad grande y pequea.
- Si alguno de los efectos principales es significativo y tiene ms de dos niveles, cmo es esa diferencia?
Hasta dos niveles bien.
- La prueba F es mnibus, todas son iguales excepto una que es distinta.
- Tengo 2 opciones:
- Comparaciones post-occ
- Comparaciones planeadas: Si tengo concepciones previas de cmo pueden ir,
concepcin del modelo
- Utilizamos condiciones arbitrarias, suma cero
- Ortogonales: Adems pide la suma de productos cruzados 0
- Contrastes polinmicos o de tendencias: En el caso de
que pudiramos ordenar los datos, sera de tipo cbico x
ej
Estamos trabajando con factores en teora independientes. La diferencia prctica es que en ANOVA de un
factor tienes que meter tu los contrastes si son planeados. En factorial necesitas el modelo lineal general, modelo
univariante, te da l los contrastes predefinidos.
- Repetido: Si mi hiptesis es que cada nivel debe ser distinto del inmediatamente anterior.
- Simple: Compara cada nivel con uno de referencia. En regresin logstica, cuando hay variables
categricas con ms de dos niveles. Lo hacemos respecto al ltimo.
- Desviacin: Compara cada nivel menos el primero, con la media del resto de niveles.
71
- En realidad es una T-student con correccin error tipo I. Hay que pedirlo a travs de sintaxis. SI le das a
PEGAR te pega la sintaxis.
(Tabla) Comparaciones por pares: Vemos que ambas diferencias (en ciudades grandes y pequeas) la
diferencia por sexo es significativa.
- En ciudades grandes los hombres tienden a consumir muchas ms horas que las mujeres en
ciudades grandes.
- Utilizan ms tiempo en las redes sociales las mujeres que los hombres en ciudades pequeas.
Cuando el SPSS hace grficos de medias Los lmites de los ejes los coge en funcin de los datos empricos,
grficamente parece que hay grandes diferencias en sitios donde no las hay. Combiene modificarlo para que
empiece en el cero.
Hablamos de analizar los efectos simples cuando habiendo sido una interaccin estadsticamente significativa
comparamos entre s los niveles de un factor dentro de cada nivel del otro factor
*
pequea mujer hombre 8,286 1,079 ,000 6,060 10,512
*
hombre mujer -8,286 1,079 ,000 -10,512 -6,060
Basadas en las medias marginales estimadas.
*. La diferencia de medias es significativa al nivel ,05.
a. Ajuste para comparaciones mltiples: Bonferroni.
*
pequea dimension3
grande 2,714 1,079 ,019 ,488 4,940
*
hombre grande dimension3
pequea 17,429 1,079 ,000 15,203 19,655
dimension2
*
pequea dimension3
grande -17,429 1,079 ,000 -19,655 -15,203
ANCOVA
ANCOVA o Anlisis de la Covarianza. Cuando tenemos la creencia de que hay una tercera variable de tipo
cuantitativo que creemos puede estar influyendo en la VI y que tratamos de controlarla desde el punto de vista
estadstico ya que no lo hemos hecho en el experimental.
El ANCOVA requiere dos supuestos propios adems de todos los del ANOVA:
73
- Supuesto de homogeneidad en la regresin: Se mira dentro de cada uno de los grupos definidos dentro
de la variable del modelo. Las pendientes de la recta de regresin son iguales en todos los grupos
definidos por la VI. Todas las B son iguales.
- Si no se cumple no podemos aplicar.
- Lneas de regresin paralelas, miramos la pendiente (B), pero no la ordenada en el origen
(A), no tienen que estar superpuestas.
- Se comprueba por un ANOVA en el que se comprueba si es significativa la relacin entre
la covariable (CI) y la VI (estatus socioeconmico). NO debe ser estadsticamente sig. Para
que se cumpla el supuesto.
- La interaccin que da en las pruebas de los efectos inter-sujetos. P=0,986. S se
cumple el supuesto
- ANOVA at OC para comprobar el supuesto.
NO HOMOGENEIDAD
HOMOGENEIDAD
Homogeneidad de la regresin:
Pruebas de los efectos inter-sujetos
Variable dependiente:puntuacin en matemticas
Origen Suma de
cuadrados tipo Media
III gl cuadrtica F Sig.
a
Modelo corregido 7779,018 5 1555,804 31,159 ,000
Interseccin 3117,139 1 3117,139 62,428 ,000
ses * CI 1,397 2 ,698 ,014 ,986
ses 9,407 2 4,703 ,094 ,910
CI 5892,607 1 5892,607 118,013 ,000
Error 9686,777 194 49,932
Total 571765,000 200
Total corregida 17465,795 199
a. R cuadrado = ,445 (R cuadrado corregida = ,431)
74
Interpretacin ANCOVA
Nuestro inters sigue siendo el mismo de un ANOVA normal, los efectos de las VI, pero controlando una tercera
variable.
Podemos mirar adems el efecto de las covariables. Si no son sig. No hay relacin lineal, las podemos eliminar del
modelo, no interesa controlarlas. El resultado con el ANOVA tiene que ser prcticamente el mismo.
Si el efecto no resulta estadsticamente significativa quiere decir que esa covariable no est linealmente
relacionada con la V.D. y podra ser eliminada del anlisis.
75
- Puede ocurrir que no den lo mismo:
- Lo que era significativo en el ANOVA pasa a no significativo: la relacin que
habamos visto era artificial, y poda deberse al efecto de la covariable que no
estbamos controlando.
- Viceversa: Puede deberse a que esa VI cuando consideras la VD globalmente no
estn relacionadas, pero s con aquella parte de la VD que no explica la
covariable. Relacin con la VD cuando quitamos la influencia de la covariable.
Estamos controlando un efecto de tercer orden.
Relacin entre rendimiento y clase social esprea, desaparece en el momento en que controlamos otra variable
que est influyendo entre ellas.
SI lo hubiramos controlado experimentalmente tendramos que haber pasado una prueba de CI y haber
agrupado a los sujetos por un mismo nivel de CI para controlar la variable.
a
Contraste de Levene sobre la igualdad de las varianzas error
Variable dependiente:puntuacin en matemticas
F gl1 gl2 Sig.
1,845 2 197 ,161
Contrasta la hiptesis nula de que la varianza error de la variable
dependiente es igual a lo largo de todos los grupos.
a. Diseo: Interseccin + CI + ses
76
TEMA 4.B: ANOVA CON FACTORES INTRA-SUJETOS
Grupos dependientes, normalmente porque los sujetos pasan por distintos niveles. Modelos de medidas
repetidas.
Los modelos de medidas repetidas una de las grandes ventajas es que necesitas menos sujetos. Variabilidad
intragrupos meten ruido, cuando los sujetos son los mismos reducimos la fuente de error intra, los sujetos son los
mismos.
Inconveniente: Hay que poner ms supuestos, adems medir a los sujetos repetidas veces tiene diversos efectos,
como de memoria o cansancio, orden en que presentas los tratamientos. Problemas a nivel de diseo, no de
anlisis estadstico.
Pros y Contras
Ventajas
Necesitan menos sujetos
Inconvenientes
Nuevos supuestos
o Superposicin
o Latencia
o Aprendizaje
23/10/13
77
Los mismos sujetos medidos repetidas veces en una misma variable
Ej: Conocer si la cantidad de ingesta de alcohol influye en la cantidad de interacciones violenta con otros
jugadores.
Con un modelo entre, tendramos una variable que define grupos, ahora no, tenemos la misma variable
medida en distintas ocasiones, por lo que en la base de datos entra como distintas variables (SPSS).
La estructura de la tabla resumen tambin vara un poco. No nos interesa la variabilidad de unos sujetos por
otros. El error se considera la interaccin de sujetos*tratamientos.
78
Comparaciones Mltiples
El supuesto de esfericidad: Las varianzas de las diferencias entre cada dos niveles de la VI son
homogneas, iguales.
Este supuesto implica que las varianzas de las diferencias entre cada dos niveles de la VI son iguales
La forma ms popular de evaluarlo es la W de Mauchly, pero es muy sensible al tamao de muestra, en muestras
pequeas puede decirnos que hay esfericidad aunque no la haya; A tamaos de muestra grande es probable que
nos diga que no hay esfericidad por algn sujeto que se desve.
- Epsilon: Nos indica en qu medida nos alejamos de la esfericidad. Es un parmetro, por tanto hay
que estimarlo.
- 1. Esfericidad perfecta
- Cuando nos alejamos de la esfericidad va bajando de valor, hasta el valor mnimo de 1/(J-
1). J = N de niveles de la variable independiente.
Si no tenemos esfericidad la F se comporta de forma liberada, tiende a decir que hay diferencias significativas sin
que necesariamente las haya, aumenta el error. Por lo que la F no sirve de manera adecuada como contraste.
- Seguir utilizando la F pero modificarle los gl. Para hacerla ms conservadora. Con Greenhose o
Huynt.
- Tomar para E el valor mnimo que puede tomar, hacemos que los gl bajen ms.
Multiplicar el E por los gl de la F normal.
- Utilizar una aproximacin multivariada: Considerar cada uno de los niveles de la VI como VD, el
anlisis multivariado de la varianza no requiere supuestos de esfericidad.
79
- La desventaja es que pierde potencia de prueba cuando el tama de muestra es peque.
La capacidad de ver diferencias donde las hay realmente, puede que no seamos capaces
de captar esas diferencias.
Si no se cumple:
de Greenhose-Geisser
de Huynt-Feld
Ejemplo:
1. Comprobar supuestos:
a. Normalidad: Para cada uno de los niveles de la VI comprobar si se cumple el supuesto. Pedir para
cada uno de los niveles, no conjuntamente.
i. Como estamos mirando ajuste del modelo, interesa por encima de 0,05.
b. Esfericidad: H0, varianzas homogneas, s esfericidad. Interesa p superior a 0,05.
i. Mauchly, si rechazamos H0 no hay esfericidad. No deberamos utilizar la F estndar.
80
Aceptamos H0, no hay efecto de tratamiento, no hay diferencias en el nmero de interacciones violentas
independientemente del nmero de copas. P=0,59
Pero multivariado poca potencia de prueba. Vamos al enfoque univariado con los grados de libertad multivariado.
Si hubiramos cumplido esfericidad nos iramos directamente al univariado.
81
Anlisis de varianza estndar:
Ahora tenemos que ver entre qu niveles hay diferencias. T de Student modificando alfa con Bonferroni, porque
SPSS no nos va a dar post Occ para medidas repetidas.
Cuando hay mucha variabilidad es ms difcil explicar diferencias. Error tpico variable.
82
Los mismos sujetos medidos repetidas veces en dos variables
Diseo: 3 tipos de bebida y 3 tipos de imgenes junto con sloganes (negativas, positivas, neutras). 2 variables
independientes con 3 niveles cruzados, ambas de medidas repetidas (por cada cruce pasan todos los sujetos).
Diseo Factorial de Medidas Repetidas
3 sesiones. Se aleatorizan, despus de cada sesin se pregunta a los sujetos por su opinin respecto a la bebida,
de -100 a + 100.
83
Ejemplo, resultados:
- Prueba de anlisis de varianza. Tenemos el supuesto aadido de esfericidad, que tiene que
cumplirse para cada uno de los factores y para la interaccin entre ellas
- Slo cumple el supuesto la interaccin, los factores individuales no.
- En esfericidad mejor univariada que multivariada, ms potencia de prueba
- Si no cumple mirar multivariada, si no da estadsticamente significativa mirar
univariada corrigiendo grados de libertad.
84
- Miramos esfericidad asumida.
- La F, asumiendo grados de esfericidad, da F=17,155, tamao grande, grados de libertad y
significacin. Dar los datos de esta tabla.
Efectos Simples
Cuando tenemos interaccin significativa, miramos efectos simples. Bloqueando una variable que efectos
tiene la otra.
85
- Entre las bebidas slo hay diferencia entre 2 y 3, vino y agua.
Comparaciones por pares
Medida:MEASURE_1
(I)bebida (J)bebida Intervalo de confianza al 95
a
% para la diferencia
Diferencia de Lmite Lmite
a
medias (I-J) Error tp. Sig. inferior superior
1 dimension2
2 3,500 2,849 ,703 -3,980 10,980
3 8,317 3,335 ,066 -,438 17,072
dimension1
2 dimension2
1 -3,500 2,849 ,703 -10,980 3,980
*
3 4,817 1,116 ,001 1,886 7,747
3 dimension2
1 -8,317 3,335 ,066 -17,072 ,438
*
2 -4,817 1,116 ,001 -7,747 -1,886
- En la grfica vemos los resultados anteriores de forma ms visual, la cerveza se mantiene con una
actitud positiva incluso con imgenes negativas:
86
87
Diseos mixtos o split-plot
Ventajas:
necesita menos sujetos que un diseo completamente aleatorizado
permite cubrir situaciones que no pueden abordarse con otros enfoques pues un diseo
completamente aleatorizados permite efectuar comparaciones entre tratamientos pero no un
seguimiento de los sujetos y por su parte un diseo de medidas repetidas permite hacer un
seguimiento de los sujetos pero no comparacin de tratamientos. El diseo que nos ocupa permite
realizar ambas cosas.
Permite comparar grupos y a la vez dar seguimiento a esos grupos en el tiempo. Comparar dos
tipos de terapias.
Ejemplo:
Ver los efectos en las notas segn e-learning o mtodo tradicional. VI, de forma aleatoria se asignan
sujetos a grupos. Variable que define grupos independientes. Se les va a hacer dos medidas a los sujetos, a
principio y a final de semestre.
Diseo 2x2
Diseo Factorial
Evaluacin
Pre-tratamiento Post-tratamiento
S1 S1
S2 S2
Web . .
. .
Mtodo
. .
S9 S9
S10 S10
Clase . .
. .
. .
88
Supuestos
Normalidad
Esfericidad multi-muestra
Esfericidad
Ejemplo:
Nos interesa mayor a 0,05
Pruebas de normalidad
Kolmogorov-Smirnova Shapiro-Wilk
Estadsticos descriptivos
mtodo Desviacin
Media tpica N
89
M de Box 4,415
F 1,244
gl1 3
gl2 35280,000
Sig. ,292
El SPSS nos da por una parte la parte entre y por otro la intra (medidas repetidas)
Intra: Mauchly
No es que la esfericidad sea perfecta, sino que no hay varianzas que comparar, slo hay dos niveles.
Medida:MEASURE_1
Contrastes multivariadosb
- El tratamiento tiene algn tipo de efecto, pero es diferencial para el momento pre y
post.
- La esfericidad no tiene sentido, no hay ningn tipo de correccin, los gl son iguales en
todos los sitios y la F es estndar
Efecto Eta al
Gl de la Gl del cuadrado
Valor F hiptesis error Sig. parcial
90
evaluacin * Traza de Pillai ,680 29,726a 1,000 14,000 ,000 ,680
mtodo
Lambda de ,320 29,726a 1,000 14,000 ,000 ,680
Wilks
- Sabiendo que la interaccin es significativa no habra que mirar nada ms. Pero vamos a ver como
sera si no. Mirar efectos entre.
- Levene: se cumple homogeneidad de varianzas.
Medida:MEASURE_1
Variable transformada:Promedio
Origen Suma de
cuadrados tipo Media Eta al cuadrado
III gl cuadrtica F Sig. parcial
91
Comparaciones por pares
Medida:MEASURE_1
evaluacin (I)mtodo (J)mtodo Intervalo de confianza al 95
a
% para la diferencia
Diferencia de Lmite
a
medias (I-J) Error tp. Sig. Lmite inferior superior
1 dimension2
web dimension3
92
TEMA 4.C.: MANOVA
Trabajar simultneamente con varias VD en un solo anlisis. Anlisis de varianza multivariado.
Generalizacin del ANOVA.
VI
Para cada uno de los grupos varias VD medidas. Estamos hablando de fenmenos difciles de medir con
una sola variable y que se miden mejor con varios indicadores, que nos interesa tomarlos de forma conjunta, no
como atajo del ANOVA para hacer menos. NO VARIABLES INCONEXAS, diferentes indicadores de la misma cosa,
que contribuyen a construir una nica variable. Ej.: satisfaccin laboral relacionada con muchas variables
distintas.
Mltiples variables dependientes nos quiere decir recolectar variables dependientes de forma
indiscriminada.
Suele ser relativamente comn que el fenmeno que tratamos de estudiar sea lo suficientemente
complejo como para que sea necesario medirlo empleando ms de un ndice o medida cuantitativa. Es en
esos caso cuando tiene sentido emplear el MANOVA y no con mltiples variables dependientes
inconexas.
Estas mltiples medidas pueden combinarse en lo que conocemos como variada (en ingls variate) o
variable latente de forma que podremos determinar si los sujetos difieren no en una nica dimensin
sino en una combinacin de ellas haciendo uso de la informacin sobre la relacin entre las propias
variables dependientes.
Escalares vs Vectores
La variada o variable latente puede pensarse como un vector formado por la suma ponderada de sus
componentes.
En el contexto del MANOVA, las variables en los vectores son combinadas de forma que maximicen las
diferencias entre los grupos definidos por la(s) variable(s) independiente(s).
Tamao de muestra
Una regla de mnimos planteada por diferentes autores es tener al menos 20 casos por cada grupo para
asegurarnos una mnima potencia de prueba, especialmente con muchas variables dependientes.
El MANOVA puede pensarse como un vector en el que se combinan las diferentes variables. En ANOVA
solo trabajbamos con un nico nmero, con un escalar. Busca la mejor combinacin para que los grupos sean lo
ms distintos posibles y podamos captar esas diferencias. Con mltiples variables no nos valen los escalares,
vamos a vectores de manera matricial.
93
Beneficios y Problemas del MANOVA
Beneficios
2. Abarcar mejor el fenmeno de estudio
3. Control de la Tasa de Error Tipo I
4. Puede tener mayor potencia de prueba
Problemas
1. Variables relativamente incorrelacionadas
2. Variables altamente correlacionadas
Con comparaciones mltiples de los mismos datos aumenta probabilidad de error tipo I, para ello
utilizamos pruebas post-hoc. Solucin posible: Corregir por Bonferroni.
No combiene que las variables correlacionen entre s ms de 0,70. Si tengo variables muy correlacionadas
son redundantes. Sumar variables o eliminar alguna.
30/10/13
El precursor: T2 de Hotelling
Crea un vector que es el que mejor separa los niveles o categoras de la variable independiente.
La hiptesis nula de esta prueba es que los vectores de medias en la poblacin para los dos grupos son
iguales. Por lo tanto la diferencia con la prueba univariada est en que ahora se comparan dos vectores
de medias no dos medias poblacionales.
La idea introducida por Hotelling puede extenderse al caso de tres o ms grupos. Entonces la hiptesis nula ser
los vectores de medias de los k grupos son iguales.
Como precursor del manova, Tcuadrado de Hotelling, extensin de la T de Student. Para ver diferencias
de medias entre dos grupos con varias VD. Crea un vector en el que combina las variables dependientes que
estamos manejando, de tal manera que maximiza las diferencias entre los grupos. No compara dos escalares, sino
dos vectores de medias. La H0 es que esos vectores son iguales.
ANOVA MANOVA
Sumas de Cuadrados Matrices de Sumas de Cuadrados y Productos Cruzados (SCPC)
SCPC Total (T) que reflejar la generalizacin multivariada de cmo los casos en cada nivel de la variable
independiente se desva respecto a la Media Total de cada variable dependiente
SCPC Entre (E) expresa los efectos diferenciales de un tratamiento sobre un conjunto de variables dependientes
94
SCPC Intra (I) representa como los casos de cada nivel de la variable independiente se desvan de las medias de su
grupo en las variables dependientes
T=E+I
Descomponer la varianza total en dos tipos de variables, entre e intra. La suma de ambas explican la
varianza de la VD, esto lo hacamos a travs de la suma de cuadrados. Distancias respecto a una media. Ahora ya
no trabajamos solo con sumas de cuadrados, sino sobre matrices, aunque es el mismo concepto. Matrices de
sumas de cuadrados y productos cruzados.
Matrices cuadradas, en la diagonal sumas de cuadrados y en el resto los productos cruzados. Matriz varianza-
covarianza al dividir por el nmero de variables. Aqu tiene en cuenta la varianza de las propias variables y la
relacin entre ellas, matiz del MANOVA respecto al ANOVA, puede tener ms potencia estadstica.
Supuestos
- Normalidad multivariada: en todas las variables dependientes y correlacin entre ellas. Si las variables
se distribuyen de forma univariada ms o menos normal podemos dar por bueno al supuesto.
- Homogeneidad: de matrices de Var-Covar. Homogeneidad para cada una de las VD y para cada cruce
de VD, de correlaciones entre variables.
- Prueba de Box
No hay propuestas de tcnicas estadsticas no paramtricas fcilmente aplicables, si te alejas mucho de los dos
supuestos hay problema de aplicacin.
Estadsticos
- Lambda de Wilks
- Traza de Hotelling
- Traza de Pillai: Para ms de dos grupos, ms potente. Ms robusta, sobre todo cuando los grupos son
del mismo tamao.
- Raz mxima de Roy: Para el caso de 2 grupos, ms potente
Comparacin suma de cuadrados entre/suma de cuadrados intra ANOVA. El MANOVA intenta hacer lo mismo,
pero comparando matrices y no variables.
Potencia (capacidad explicativa) y Robustez (qu pasa cuando no se cumplen los supuestos)
Variable variada: combinacin, ver si hay diferencias significativas en los dos grupos. Prueba Omnibus, F.
Post-hoc, hay que corregir la tasa de error, corregir por Bonferroni, alfa cambia.
95
Ejemplo
Queremos comprobar si la intensidad en la enseanza tiene efecto sobre el rendimiento en una tarea
de taquigrafa, en la que se miden velocidad y precisin. La VI tiene tres niveles: 2 horas al da durante 6
semanas; 3 horas da durante 4 semanas; 4 horas da durante 3 semanas. (Tomado de Bisquerra, 1989)
Estadsticos descriptivos
condicion Desviacin
Media tpica N
M de Box 9,653 a
Prueba de esfericidad de Bartlett
F 1,527 Razn de ,000
verosimilitudes
gl1 6 Chi-cuadrado 65,003
aprox.
gl2 80975,077 gl 2
Sig. ,165 Sig. ,000
96
- Box: Aceptamos H0, se cumple homogeneidad, sig=0,165
- Las VD tienen que estar relacionadas entre s, distintos indicadores de lo mismo. La prueba de
esfericidad de Barlett comprueba la correlacin. H0 matriz identidad, interesa rechazar.
Cumplimos supuestos, ahora miramos contrastes multivariados. Si hay relacin entre variables.
c
Contrastes multivariados
Efecto Eta al
Gl de la cuadrado
Valor F hiptesis Gl del error Sig. parcial
a
Interseccin Traza de Pillai ,986 2039,913 2,000 56,000 ,000 ,986
a
Lambda de Wilks ,014 2039,913 2,000 56,000 ,000 ,986
a
Traza de Hotelling 72,854 2039,913 2,000 56,000 ,000 ,986
a
Raz mayor de Roy 72,854 2039,913 2,000 56,000 ,000 ,986
condicion Traza de Pillai ,817 19,701 4,000 114,000 ,000 ,409
a
Lambda de Wilks ,185 37,140 4,000 112,000 ,000 ,570
Ahora univariado. Por separado para cada una de las variables dependientes vemos si se cumple el supuesto.
b
precision 1177,300 2 588,650 117,606 ,000 ,805
Interseccin velocidad 67804,817 1 67804,817 2179,666 ,000 ,975
dimension1
precision 21556,000 60
Total corregida velocidad 2828,183 59
dimension1
precision 1462,600 59
a. R cuadrado = ,373 (R cuadrado corregida = ,351)
b. R cuadrado = ,805 (R cuadrado corregida = ,798)
97
- El tipo de intensidad de programa establece diferencias estadsticamente significativas tanto para
la velocidad como para la precisin.
Si no se cumple el supuesto de homogeneidad de varianzas no puedo pedir Tukey. Para precisin s puedo pedir
Tukey, se cumple el sujeto y los grupos son homogneos.
Comparaciones mltiples
velocidad Games- extensiva: 2 horas al semi-intensiva: 3 4,5500 1,96211 ,066 -,2511 9,3511
Howell da 6 semanas horas dia 4 semanas
Comparaciones mltiples
Variable dependiente (I)condicion (J)condicion Intervalo de
Diferencia confianza 95%
de medias Lmite Lmite
(I-J) Error tp. Sig. inferior superior
*
precision DHS de extensiva: 2 horas semi-intensiva: 3 5,3500 ,70748 ,000 3,6475 7,0525
Tukey al da 6 semanas horas dia 4
semanas
*
intensiva: 4 horas 10,8500 ,70748 ,000 9,1475 12,5525
dia 3 semanas
*
semi-intensiva: 3 extensiva: 2 -5,3500 ,70748 ,000 -7,0525 -3,6475
horas dia 4 horas al da 6
semanas semanas
*
intensiva: 4 horas 5,5000 ,70748 ,000 3,7975 7,2025
dia 3 semanas
*
intensiva: 4 horas extensiva: 2 -10,8500 ,70748 ,000 -12,5525 -9,1475
dia 3 semanas horas al da 6
semanas
*
semi-intensiva: 3 -5,5000 ,70748 ,000 -7,2025 -3,7975
horas dia 4
semanas
98
- Velocidad. Games-Howell, prueba post-hoc sin homogeneidad. Diferencias entre modalidad
extensive e intensiva, y la semi-intensiva e intensiva. Respecto a la variable velocidad
- Precisin. Tukey, hay diferencias de todos con todos.
Pillai significativa, por la intensidad de la enseanza en interaccin con el mtodo. Interaccin significativa.
- Como la interaccin es significativa, ahora miramos las interacciones para cada una de las VD.
- Dentro del ANOVA univariado interaccin condicin*mtodo. Tanto para una variable
como para la otra es significativa.
- Hacer por separado efectos simples de velocidad y depresin
Si no hay interaccin significativa nos hubiramos ido directamente a los efectos principales. Estudiar qu ocurre
para la condicin en la variable velocidad, ya que el mtodo por s mismo no era significativo.
Para analizar el factor principal tiene que dar significativo en la parte multivariada.
- Factores simples por separado para la variable velocidad y para variable precisin.
- No hay diferencias en funcin del tipo de enseanza, para el mtodo b hay diferencias
para todos los niveles.
- Para precisin para ambos mtodos hay diferencias significativas en todos los niveles.
Tabla dada la vuelta por velocidad y precisin para mtodo. Comparaciones por pares.
Diseos Factoriales
Meyers, Gamst y Guarino (2013)
B) Examinar la interaccin.
3. Para cada interaccin univariada que no de significativa pasamos a considerar los efectos principales.
Cuando alguna de las interacciones univariadas no es significativa puede ser interesante estudiar los efectos
principales multivariados, siguiendo el siguiente esquema.
1. Si un efecto principal multivariado es significativos examinamos los efectos principales univariados para
aquellas variables dependientes que no estn incluidas en una interaccin significativa.
2. Para cada efecto principal univariado que resulte significativo empleando la correccin de Bonferroni
realizamos comparaciones mltiples e interpretamos.
99
Estadsticos descriptivos
100
c
Contrastes multivariados
Efecto Eta al
Gl de la cuadrado
Valor F hiptesis Gl del error Sig. parcial
a
Interseccin Traza de Pillai ,992 3133,833 2,000 53,000 ,000 ,992
a
Lambda de Wilks ,008 3133,833 2,000 53,000 ,000 ,992
a
Traza de 118,258 3133,833 2,000 53,000 ,000 ,992
Hotelling
a
Raz mayor de 118,258 3133,833 2,000 53,000 ,000 ,992
Roy
condicion Traza de Pillai ,871 20,827 4,000 108,000 ,000 ,435
a
Lambda de Wilks ,132 46,500 4,000 106,000 ,000 ,637
Traza de 6,568 85,383 4,000 104,000 ,000 ,767
Hotelling
b
Raz mayor de 6,565 177,250 2,000 54,000 ,000 ,868
Roy
a
metodo Traza de Pillai ,090 2,630 2,000 53,000 ,081 ,090
a
Lambda de Wilks ,910 2,630 2,000 53,000 ,081 ,090
a
Traza de ,099 2,630 2,000 53,000 ,081 ,090
Hotelling
a
Raz mayor de ,099 2,630 2,000 53,000 ,081 ,090
Roy
condicion * Traza de Pillai ,367 6,075 4,000 108,000 ,000 ,184
metodo a
Lambda de Wilks ,633 6,804 4,000 106,000 ,000 ,204
Traza de ,579 7,522 4,000 104,000 ,000 ,224
Hotelling
b
Raz mayor de ,577 15,588 2,000 54,000 ,000 ,366
Roy
precision 21556,000 60
Total velocidad 2828,183 59
corregida dimension1
precision 1462,600 59
a. R cuadrado = ,529 (R cuadrado corregida = ,485)
b. R cuadrado = ,876 (R cuadrado corregida = ,864)
101
Variable metodo (I)condicion (J)condicion Intervalo de confianza al
a
dependiente 95 % para la diferencia
Diferencia de Error Lmite Lmite
a
medias (I-J) tp. Sig. inferior superior
velocidad mtodo extensiva: 2 horas semi-intensiva: 3 1,800 2,222 1,000 -3,690 7,290
A al da 6 semanas horas dia 4
semanas
intensiva: 4 horas 4,700 2,222 ,117 -,790 10,190
dia 3 semanas
semi-intensiva: 3 extensiva: 2 horas -1,800 2,222 1,000 -7,290 3,690
horas dia 4 al da 6 semanas
semanas intensiva: 4 horas 2,900 2,222 ,592 -2,590 8,390
dia 3 semanas
intensiva: 4 horas extensiva: 2 horas -4,700 2,222 ,117 -10,190 ,790
dia 3 semanas al da 6 semanas
semi-intensiva: 3 -2,900 2,222 ,592 -8,390 2,590
horas dia 4
dimension0
semanas
*
mtodo extensiva: 2 horas semi-intensiva: 3 7,300 2,222 ,005 1,810 12,790
B al da 6 semanas horas dia 4
semanas
*
intensiva: 4 horas 15,800 2,222 ,000 10,310 21,290
dia 3 semanas
*
semi-intensiva: 3 extensiva: 2 horas -7,300 2,222 ,005 -12,790 -1,810
horas dia 4 al da 6 semanas
semanas *
intensiva: 4 horas 8,500 2,222 ,001 3,010 13,990
dia 3 semanas
*
intensiva: 4 horas extensiva: 2 horas -15,800 2,222 ,000 -21,290 -10,310
dia 3 semanas al da 6 semanas
*
semi-intensiva: 3 -8,500 2,222 ,001 -13,990 -3,010
horas dia 4
semanas
*
precision mtodo extensiva: 2 horas al da 6 semi-intensiva: 3 horas dia 4 3,600 ,820 ,000 1,575 5,625
A semanas semanas
*
intensiva: 4 horas dia 3 7,700 ,820 ,000 5,675 9,725
semanas
*
semi-intensiva: 3 horas dia 4 extensiva: 2 horas al da 6 -3,600 ,820 ,000 -5,625 -1,575
semanas semanas
*
intensiva: 4 horas dia 3 4,100 ,820 ,000 2,075 6,125
semanas
*
intensiva: 4 horas dia 3 extensiva: 2 horas al da 6 -7,700 ,820 ,000 -9,725 -5,675
semanas semanas
*
semi-intensiva: 3 horas dia 4 -4,100 ,820 ,000 -6,125 -2,075
semanas
*
mtodo extensiva: 2 horas al da 6 semi-intensiva: 3 horas dia 4 7,100 ,820 ,000 5,075 9,125
B semanas semanas
*
intensiva: 4 horas dia 3 14,000 ,820 ,000 11,975 16,025
semanas
*
semi-intensiva: 3 horas dia 4 extensiva: 2 horas al da 6 -7,100 ,820 ,000 -9,125 -5,075
semanas semanas
*
intensiva: 4 horas dia 3 6,900 ,820 ,000 4,875 8,925
semanas
intensiva: 4 horas dia 3 extensiva: 2 horas al da 6 - ,820 ,000 - -
*
semanas semanas 14,000 16,025 11,975
*
semi-intensiva: 3 horas dia 4 -6,900 ,820 ,000 -8,925 -4,875
semanas
102
Comparaciones por pares
Variable condicion (I)metodo (J)metodo Intervalo de
dependiente confianza al 95 %
a
Diferencia para la diferencia
de medias Error Lmite Lmite
a
(I-J) tp. Sig. inferior superior
*
velocidad extensiva: 2 horas mtodo A dimension3
mtodo -8,500 2,222 ,000 -12,955 -4,045
al da 6 semanas B
*
mtodo B dimension3
mtodo 8,500 2,222 ,000 4,045 12,955
A
semi-intensiva: 3 mtodo A dimension3
mtodo -3,000 2,222 ,183 -7,455 1,455
horas dia 4 B
semanas mtodo B dimension3
mtodo 3,000 2,222 ,183 -1,455 7,455
A
intensiva: 4 horas mtodo A dimension3
mtodo 2,600 2,222 ,247 -1,855 7,055
dia 3 semanas B
mtodo B dimension3
mtodo -2,600 2,222 ,247 -7,055 1,855
dimension0
A
*
precision extensiva: 2 horas mtodo A dimension3
mtodo -3,800 ,820 ,000 -5,443 -2,157
al da 6 semanas B
*
mtodo B dimension3
mtodo 3,800 ,820 ,000 2,157 5,443
A
semi-intensiva: 3 mtodo A dimension3
mtodo -,300 ,820 ,716 -1,943 1,343
horas dia 4 B
semanas mtodo B dimension3
mtodo ,300 ,820 ,716 -1,343 1,943
A
*
intensiva: 4 horas mtodo A dimension3
mtodo 2,500 ,820 ,004 ,857 4,143
dia 3 semanas B
*
mtodo B dimension3
mtodo -2,500 ,820 ,004 -4,143 -,857
A
103
TEMA 5.A.: ANLISIS FACTORIAL EXPLORATORIO Y
COMPONENTES PRINCIPALES
Introduccin
Tcnicas de reduccin de datos que permiten estudiar las dimensiones que subyacen a las relaciones
entre una serie de variables.
Carcter exploratorio
Uso
Estudios psicomtricos
Desarrollar teoras
05/11/13
Busca las relaciones que se dan entre una serie de variables cuantitativas, y qu dimensiones subyacen
entre las variables que estamos midiendo. No hay diferencias entre VI y VD, son todas del mismo estatus.
Buscan agrupar variables basndose en la relacin que existe entre ellas. Dimensiones o factores
subyacentes. Lo que permite que las variables sean homogneas son los factores o componentes.
Tcnicas de carcter exploratorio, no partimos de hiptesis previas, la nica aspiracin que tenemos es
contar lo que ocurre en la muestra con la que estamos trabajando. Ser capaces de construir menos dimensiones
con la menor prdida de informacin posible que expliquen las relaciones entre los datos.
Tcnicas de anlisis factorial confirmatorio, se dan frente a las anteriores, s parten a priori de la
definicin de una cierta estructura de los datos. Mirar si ese modelo cuadra con la estructura real de los datos.
Siempre tienes una cierta idea de lo que esperas encontrar, tambin en el exploratorio. En estudios
psicomtricos, el anlisis factorial sirve para mirar validez.
104
El comienzo: La matriz de correlaciones
Punto de partida del anlisis factorial, matriz de correlaciones simtrica. El anlisis factorial busca
conjuntos homogneos de variables, con variables muy relacionadas entre s y que se diferencian de otras.
Ns azules: tienen el mismo patrn, se relacionan mucho entre s y poco con el resto de variables.
El resultado final es la matriz factorial. Expresa la relacin entre las variables observables y los factores que
subyacen a la primera matriz. El modelo es de dos dimensiones subyacentes a los datos. Matriz factorial que
aparece con unos pesos, cargas o saturaciones factoriales. Nos dan la relacin que existe entre las variables
observadas y el factor. Los coeficientes factoriales o saturaciones van entre +-1. Cuanto ms alto el valor del peso,
la variable contribuye ms a definir el factor.
H 1 H .05845 .73754
El modelo matemtico
La puntuacin de un sujeto en una variable observada depende de la combinacin lineal de sus puntuaciones en
una serie de variables no observadas que denominamos factores.
105
- E. Factores nicos, se refiere a factores exclusivos de una sola variable observable. Expresa la parte
especfica de cada variable, lo que no tiene en comn con el resto de variables. Suele incluirse aqu el error
de muestreo (por tener muestra en lugar de poblacin) y el error de medida
- Lambda. Peso factorial o carga factorial, indican la relacin entre la variable observada y el factor
subyacente. A veces se pone p en lugar de lambda.
Se asume que los factores comunes no se relacionan con los factores nicos, correlacin 0. En una
primera etapa del modelo, los factores comunes adems son independientes entre s, correlacin entre Fs 0.
Conceptos Bsicos
Comunalidad (H2): Proporcin de varianza de la variable observable Xj que es explicada por los factores
comunes del modelo. Para cada una de las variables tendremos su correspondiente comunalidad, parte de
varianza comn explicada.
Qu proporcin de la varianza de A consiguen explicar entre C1 y C2?
Si son independientes, vale con sumar los pesos al cuadrado.
Unicidad: Complementario. Proporcin de la varianza de la variable Xj que no es explicada por los factores
comunes. 1-Comunalidad = Unicidad
Autovalores: Indicador de la varianza que u factor explica del total de la varianza de las variables
observadas. Cuanta varianza, del total de las variables observadas, explica un factor. Trabajamos en
columna.
R = Reproducida + Residual: Matriz de correlaciones de las diferencias entre las observadas y las
reproducidas por el modelo.
Correlacin A-B: Emprica
Correlacin A-B reproducida
Correlacin A-B residual
Si quiero saber si un modelo factorial ajusta bien tendra que esperar que la residual fuera 0, que coincidieran la
emprica y la reproducida.
Cuanto mayor sea el coeficiente ms influencia tiene el factor en la variable observable. Coeficientes
estandarizados de regresin
106
Si los factores con los que estamos trabajando no tienen correlacin entre ellos, factores ortogonales. En
este caso esos pesos factoriales son la correlacin entre la variable observada y el factor correspondiente, adems
de aplicarse la interpretacin anterior.
La solucin final nos da dos matrices, la matriz patrn o de configuracin, donde van los pesos factoriales,
y lo que nos indican esos pesos son la interpretacin como Beta; pero ya no indican correlacin, porque adems
de la matriz patrn da una matriz de estructura, donde aparecen los coeficientes de estructura, correlaciones
entre la variable y el factor.
No hay una nica manera correcta de hacer un anlisis factorial del mismo modo que no hay una nica manera
correcta de fotografiar Waikiki Beach
Cronbach, 1970
Si empleamos variables tipo Likert podemos tener problemas si las distribuciones son muy asimtricas. Los
ndices de asimetra deberan estar entre +1 y -1.
Correlaciones policricas.
Partimos de una matriz r de correlaciones de Pearson, se supone que esas variables estn normalmente
distribuidas.
107
La normalidad es importante para hacer tcnicas inferenciadas, no tiene tanta importancia para comprobar un
modelo, s cuando queremos generalizar a poblacin.
Opciones: Correlaciones policricas: con ms de dos categoras, la matriz r no sera de pearson sino policricas o
tetracricas (de 2, cuando binmicas).
06/11/13
Las muestras de conveniencia pueden dar problemas porque suelen ser muy homogneas y eso produce una
atenuacin de las correlaciones por la restriccin del rango de puntuaciones.
Tamao de muestra recomendable: 200 sujetos mnimo. Con menos de 5 sujetos por variable, o con menos de
100 sujetos, el AF dara resultados poco fiables.
Las muestras de conveniencia tienen el problema de que los sujetos suelen ser muy homogneos entre s,
atenuacin por restriccin de rasgos, las correlaciones tienden a dar ms bajas. Como si utilizamos una muestra
de estudiantes de psicologa. Si no tenemos muestras aleatorias. Adems problema de generalizacin de
resultados.
ndices de adecuacin
Determinante:
Indicador de multicolinealidad
Kaiser-Meyer-Olkin (KMO):
Medida de adecuacin de la muestra (mide en que medida cada variable est correlacionada con
las otras)
108
Test de esfericidad de Barlett:
Permiten comprobar si cumplimos unos ciertos lmites para abordar el anlisis factorial. Las pruebas ms
comunes de adecuacin de la muestra son el KMO (fuerza de correlacin entre cada una de las variables y el resto
de las variables, de 0 a 1, cuanto ms cerca de 1 mejor se adeca; por debajo de 0,7 mal); y el test de esfericidad
de Barlett (matriz de correlaciones inicial no sea una matriz identidad, nos interesa p<0,05).
Buscan que las variables observadas estn correlacionadas entre s para poder hacer anlisis factorial. El
Determinante busca lo mismo de manera contraria, que no haya una correlacin muy alta, si todas
correlacionaran 1 el determinante de la matriz saldra 0, en correlacin perfecta no tiene sentido aplicar anlisis
factorial.
Extraccin de factores
AF vs CP
Procedimientos de AF
Extraccin de factores. Busca dar valores a los parmetros que hagan que las correlaciones producidas
por el modelo sean lo ms parecidas posibles a las observadas, que la matriz de residuales sea lo ms cercana a 0
posible.
Aparentemente son casi idnticos, ambos procedimientos tienen un objetivo comn, extraer dimensiones
a partir de los datos empricos, diferencias ms conceptuales.
Cuando hacemos un AF se asume que refleja un constructo, una variable que realmente existe pero
que no podemos observar/medir directamente. De tal forma que mis datos empricos, las variables
observadas, funcionan como indicadores de ese constructo. Es esa variable terica la que genera las
variables observadas, los indicadores.
Cuando hacemos un anlisis de CP no suponemos nada, combinacin de datos por transformaciones
lineales, pero no asumen que por debajo hay constructos psicolgicos reales. Hace una reagrupacin
109
emprica de datos. Procedimiento de reduccin de dimensiones puramente emprico. Hablo de
componentes, no de factores; el flujo va de lo observado a lo no observado.
En el AF se distingue entre varianza comn, a todas las variables empricas, y nica, exclusiva a una
determianda variable. Se trata explicar la varianza comn, en el CP trata de explicar todas las
varianzas de las variables empricas.
Comunalidad, en componentes principales, como quiero explicar toda la varianza, la comunalidad
valdr 1, quiero explicar toda la varianza. En AF, la comunalidad ser siempre un valor inferior a 1.
R reducida: Estimacin de la comunalidad en la diagonal principal. Cuando hagamos
componentes principales, el valor ser 1, en AF menor.
Mtodos de extraccin en AF
Descriptivos
110
Inferenciales
Mtodos de extraccin en AF
Independientemente del mtodo el resultado es la Matriz Factorial No Rotada, que se caracteriza porque los
factores:
Este parte de matriz reducida con diagonal principal de correlaciones mltiples al cuadrado. Por defecto SPSS usa
componentes principales.
1. Independientemente del mtodo, el resultado es la Matriz Funcional No Rotada. Solucin inicial que siempre
cumple con:
Entre los factores extraidos correlacin 0. Factores independientes
Se presentan de forma decreciente en funcin de su varianza explicada
2. Podemos derivar tantos factores o componentes como variables observadas tengamos. Pero entonces no
habra reduccin de la dimensionalidad.
Ejemplo
Determinante bien
Barlett significativa
KMO 0,8 bueno
Tabla de comunalidades:
Iniciales: si hubiera utilizado componentes principales la comunalidad inicial sera 1, y luego tras
aplicar el procedimiento la suya.
Rotacin ortogonal
Matriz factorial no rotada o inicial: Pesos de la variable observada. No hay en blanco,
mandaste al SPSS que por debajo de un determinado peso los quite.
111
Seleccin del nmero de variables
Dos procedimientos:
Rela de Kaiser o K1 de Kaiser: Cul es el autovalor de cada uno de los factores, reteniendo aquellos que
tengan un autovalor mayor que 1. Tiende a sobreestimar el nmero de factores. El procedimiento funciona peor
cuanto menor tamao de muestra y ms nmero de variables, aunque es el procedimiento ms popular.
Grfico de sedimentacin (Scree plot de Catell), ms intuitivo, hacer una grfica, en el eje X pones los
diferentes componenetes, en Y los autovalores. Lo normal es encontrar grficas curvas con algn punto de
inflexin, a partir del punto donde la lnea se hace horizontal tenemos que dejar de coger componentes. Nos
quedaramos con todos los componentes que estn a la izquierda del punto de inflexin.
-San Milln-
Map de velicer (mnimum average partial correlation): Es un nuevo procedimiento. Basado en las correlaciones
parciales. Lo que hace es ver en qu valor la media de las correlaciones parciales al cuadrado es mnimo. Ese
mnimo indica en qu momento debemos de dejar de extraer factores.
Anlisis paralelo de Horn: Genera un nmero de matrices aleatorias (que suele ser entre 50 y 100) y con la misma
dimensin que nuestra matriz original. Estas variables sern independientes entre s, por lo que se supone que no
subyacen factores comunes, la poca correlacin que pueda haber ser mera casualidad. El procedimiento para
todas estas matrices es calcular el autovalor para cada uno de los factores que se puedan extraer en esa matriz y
luego los promedia para con el nmero de matrices que tengamos. Esos valores son los que luego comparan con
los autovalores de nuestra matriz emprica (la real) y se queda con aquellos factores en los que los autovalores de
la matriz emprica sean mayores a la media de los factores de las matrices aleatorias.
En nuestro ejemplo, las dos primeras estn por encima de las muestras aleatorias, por lo que nicamente nos
quedaramos con el Factor 1 y el Factor 2.
112
METODOS NO TAN POPULARES
Residuales: Lo que deberamos de tender a encontrarnos es que esos
residuales tienen una distribucin mas o menos simtrica, tirando a la curva normal y
su media debera de ser 0. La ecuacin que tenemos arriba, se considera un ndice de
ajuste y con valores menores de 0,08 indican un buen ajuste
Mxima verosimilitud: nmero ms bajo de factores con chi-cuadrado no significativa. Buscamos que el
modelo ajuste por lo que no debe de ser significativa. Entre todos aquellos que ajustan nos quedamos con el que
menos factores tiene.
Medidas basadas en los modelos AF confirmatorios: en algunos programas o artculos se utilizan este
tipo de ndices, que provienen de los modelos confirmatorios.
Como no hay acuerdo de que ndice mirar, pues se mira mas de uno.
113
ROTACIN DE FACTORES
La matriz de correlaciones que nosotros tenemos podra reproducirse ajustando igual de bien desde
diferentes matrices factoriales. Dicho de otra manera no hay una nica solucin factorial. Por tanto tenemos una
indeterminacin.
Esto se representa como lo vemos aqu (representacin ortogonal, ngulos rectos). Los ejes seran los factores
(factor 1 y factor 2). Entonces en esta grafica indicamos los pesos en forma de coordenadas. Es decir se coloca el
peso segn la puntuacin que tenga en el factor 1 y en el 2. Si los dos ejes tienen ngulos distintos, hablamos
entonces de factores relacionados u oblicuos.
Estructura Simple
Nos indica que debemos hacer para que sea simple interpretar una estructura factorial. Se defiende que han de
cumplirse 3 condiciones:
1 - Cada factor debe tener unos pocos pesos altos y otros prximos a 0.
3 No deben existir factores con la misma distribucin, es decir, los factores distintos deben presentar
distribuciones de cargas altas y bajas. Si tienen la misma distribucin de cargas, estamos contando lo mismo.
Varimax
Quartimax
Matriz de configuracin
Matriz de estructura
Oblimin
A la hora de mover los ejes hay dos opciones: rotamos ortogonal (90 grados entre los ejes) u oblicuo
(permitimos cambiar los grados). Cuando rotamos el eje, cambian los pesos, pero no cambia la varianza explicada
por el modelo.
114
Rotacin ortogonal (factores independientes):
Varimax: intenta maximizar la varianza de los pesos dentro de un factor. Es decir, trata de que haya unas
variables con pesos muy altos y otras con pesos muy bajos. Esto se realiza cuando no hay factores
dominantes (los factores explican ms o menos la misma proporcin de varianza)
Quartimax: maximizar la varianza de los pesos pero por filas dentro de una variable. El caso ms extremo
sera un peso muy alto en una variable y un peso muy bajo sobre otras (se centra sobre todo en la
segunda condicin). Se tiende a dar un factor dominante y otros mas pequeos
Rotacin oblicua (factores correlacionados): adems de girar permitimos que los ejes se acerquen, por lo
tanto sus factores ya no son ortogonales, son factores con correlacin entre ellos. Aqu ya son cosas distintas los
pesos y la correlacin
Oblimin: es el mtodo clsico, trata de maximizar las diferencias entre los factores, para que sean
unos claramente diferentes a los otros.
Una manera de operar racional es empezar con una oblicua, si entre los factores que tengo la correlacin
es muy baja (.20) entonces es recomendable no complicarnos la vida y hacer una ortogonal. No se podr rotar en
soluciones unifactoriales (ya que si cada eje es un factor, es imposible)
115
Puntuaciones factoriales
Componentes principales
Mtodo de Regresin
Mtodo de Barlett
Mtodo de Anderson-Rubin
Se hace cuando el objetivo de nuestro anlisis es simplemente una reduccin de datos. Las puntuaciones
factoriales se calculan despus de realizar la rotacin. Se calcula multiplicando el peso de cada factor por su
puntuacin en la variable.
Componentes principales:
Mtodo de Regresin: es el que da por defecto el Spss, da lugar a unas puntuaciones factoriales de media
0 y su varianza es la correlacin mltiple al cuadrado entre las variables y el factor con el que estamos
trabajando. Hay que tener en cuenta que las puntuaciones factoriales estimadas pueden estar
correlacionadas entre s aunque la rotacin que hayamos hecho haya sido ortogonal.
Mtodo de Barlett: media 0 y la varianza es la correlacin mltiple al cuadrado entre variables y factor.
Trata de minimizar la influencia del factor especifico, de la unicidad. Da mas fuerza a lo que hay comn
entre los factores. Tambin podra darnos puntuaciones factoriales relacionadas entre s
Mtodo de Anderson-Rubin: modificacin del anterior, con una escala de media 0 y desviacin tpica 1 y
donde las puntuaciones factoriales no estn correlacionadas entre s.
Los tems negativos iran en contra de la democracia y los positivos a favor. Es una escala con 6 items que
trata de medir actitudes hacia la democracia.
Matriz de correlacionesa
a. Determinante = ,092
116
Se analizaron los datos para ver:
La prueba de esfericidad de bartlett es significativa, por tanto no es una matriz de identidad y es adecuada para
hacer una AF. El KMO es meritorio (0805).
- Columna inicial: si fuese componentes principales sera 1. Como no lo es, s que me encuentro ante AF.
La tabla de varianza total explicada se llamara solucin explicada. Como en el Spss se utiliza la regla de
K1, pues extrae todos los factores con sus correspondientes autovalores y corta por autovalores mayores que 1. Si
no le decimos nada al Spss, el utiliza por regla el K1. As, encontramos que nos quedamos con dos nicos factores
el 1 y el 2.
117
Rotacin Ortogonal
En la matriz factorial tengo los pesos de cada variable observada en los dos factores. Lo que aparece en
vaco es para que SPPS quite valores bajos. Cuando nosotros rotamos por los ejes mantenindolos independientes
nos encontramos con la matriz de factor rotado. Como vemos es mucho mas fcil interpretar la segunda.
Rotacin Oblicua
SI rotamos de forma oblicua encontramos una matriz de patrn (pesos factoriales), una de estructura y
una de correlaciones factorial. Aqu, la matriz de patrn es mucho mas fcil de interpretar. La matriz de estructura
da lugar a confusin. Si queremos ver que variable define cada factor, nos lo indica la matriz patrn.
Si la correlacin estan los dos de 0.60 para arriba, entonces estn midiendo lo mismo.
Para interpretar el analisis factorial, lo primero que debemos de mirar son las cargas factoriales olvidandonos del
signo, dependiendo del tipo de rotacin que hemos realizado elegiremos una tabla u otra (matriz de factor rotado
ortogonal; matriz de patron oblicua).
El segundo paso es darle nombre al factor. Para ello ordenamos las variables segn su peso en los factores. Si los
dejas desordenado es mucho mas dificil de interpretar. Una variable que carga en mas (mas o menos lo mismo)
de un factor es una variable compleja. Esa no se utiliza para la interpretacin, es decir, no se tiene en cuenta a la
hora de denominar le factor. Para nombrar los factores entonces, deberemos de mirar a que se refieren las
variables originales que definen ese factor y buscar lo que hay de comn en ellas.
118
Los items impares que son los que representan el primer factor vemos que presentan una actitud antidemocracia.
Los items pares representan una actitud favorable a la democracia.
La matriz de correlacin reproducida es la que saldra del modelo. Esta no coincide con la original, pero se trata de
que si el modelo funciona bien debera de estar bastante cerca de la original y esto nos lo ofrece la matriz de
residuo. Como vemos todos estn muy cercanos a 0. Por tanto si que parece que la solucin por la que hemos
adoptado de 2 factores es eficiente.
13/11/13
Con el programa FACTOR puede trabajarse desde una matriz de datos brutos, de correlaciones o matriz
var-covar.
Escala Lickert, ansiedad ante la estadstica. Las escalas lickert, a partir de 5, puedes contarlas como cuantitativas.
SPSS
2. Factorial con componentes principales, para ver con cuntos factores nos quedamos y empezar a
trabajar.
a. Pedimos KMO para ver cmo funcionan las muestras, si la matriz es adecuada para analizar.
i. Valor mnimo .50, buscamos entorno a .80.
ii. Barlett tiene que dar significativa.
iii. Comunalidad inicial 1
b. Autovalores mayores que 1 (por defecto), regla K1.
i. 23 componentes principales
119
ii. Con 4 factores se explica entorno al 50% de la varianza, los que tienen ms que 1 en
autovalor cuando te da los resultados.
c. Grfico de sedimentacin
i. En un primer golpe de vista parece que hay solo dos factores, ver la solucin con 2 y con 4
y ver con cul cuadra mejor nuestro modelo.
Podramos hacerlo con SPSS, pero vamos a ver el programa Factor. psico.fcep.urv/utilitats/factor
Factor no lee datos de SPSS, tenemos que pasarlo a formato ascii, el SPSS en -guardar como- le das a delimitado
por tabuladores.
Factor te pide que introduzcas n de sujetos y n de variables (23 tems que componen el cuestionario).
Factores relacionados entre s, todos intentan mirar la ansiedad. Intentamos en principio con oblicua, si no sale
muy bien podemos probar con ortogonal.
No nos interesan variables muy asimtricas. En los descriptores univariantes tenemos que mirar los ndices,
tienen que estar entre +-1.
La curtosis nunca ajusta, siempre da significativo. Puede que sea por el tamao de muestra, que cuando es muy
grande siempre da significativa, puede que sea muy sensible a la muestra.
Rotated loading matrix: A partir de la matriz original de distribucin de pesos, plantean una matriz objetivo de
llevar a 0 los pesos que no son significativos, para dar una visin ms clara. Esta es la matriz que utilizamos para
interpretar los datos, no la de correlaciones. Corta a partir de .30, en clase vimos a partir de .40.
120
TEMA 6.A.: ANLISIS DISCRIMINANTE
Definicin
El Anlisis Discriminante es una tcnica estadstica que permite estudiar las diferencias entre dos o ms
grupos de objetos con respecto a varias variables cuantitativas simultneamente.
El problema que nos resuelve el Anlisis Discriminante es el de reducir el nmero de variables que
discriminan entre los grupos a una, dos o varias nuevas variables (llamadas factores, variadas, variables
cannicas), que son combinacin de las anteriores y que viene expresadas por una funcin discriminante.
19/11/13
Respecto a una serie de variantes cuantitativas de manera simultnea para tratar de diferenciar entre dos
o ms grupos. Reducir el nmero de variables que discriminan entre grupos, creando dos, tres o ms variables
nuevas (cannicas) que son combinacin de las anteriores y que vienen expresadas en una funcin discriminante,
perdiendo la menor informacin posible.
Se parece bastante a otras tcnicas. El caso ms sencillo posible tenemos dos variables cuantitativas,
representacin conjunta de dos grupos de sujetos respecto a dos variables (los dos huevos de la grfica 1 de la
diapositiva). Qu ganancia tengo utilizando la funcin discriminante respecto a utilizar las variables
cuantitativas?
Si yo tuviera slo X1, los grupos se solapan, si cojo un punto medio en algunos casos me voy a equivocar.
Si lo hago slo con X2 y establezco un criterio de a partir de una puntuacin los sujetos son de un grupo o de otro,
tambin voy a tener una serie de errores. El anlisis discriminante busca que seamos ms capaces de diferenciar
los grupos, para que se solapen menos y cometer menos errores de los que se cometen en un principio.
Nueva variable D, ya no x1 ni x2. Cmo se distribuyen los grupos respecto a las dos variables
conjuntamente. Menores errores en la clasificacin.
121
Usos
Clasificacin (Anlisis Discriminante Predictivo)
Uso de clasificacin: asignar sujetos a grupos en base a las nuevas variables. Anlisis discriminante
predictivo.
Explicar en qu difieren los grupos: por qu se dan diferentes grupos, de esas variables que estamos
considerando, cules tienen mayor influencia. Anlisis discriminante descriptivo
o Tipo de VI
o Tipo de funcin: Lineal vs Sigmoidal
Muy parecida a regresin logstica. Aunque esta ltima se utiliza en cuanto a factores de riesgo, el
discriminante se utiliza ms en el mbito econmico, aunque fundamentalmente es lo mismo. La diferencia ms
clara es la VD, en logstica podra ser cualitativas o cuantitativas o mixtas, en el anlisis discriminante las variables
son necesariamente cuantitativas. Menos supuestos que en regresin logstica. El discriminante se basa
directamente en el modelo lineal, no en modelo logstico (S).
En muchos libros animan a aplicar la logstica cuando no se puede utilizar la discriminante. Lo que no se
puede hacer es al revs, ya que el discriminante no admite variables cualitativas.
122
Condiciones de Aplicacin
Nmero mximo de Funciones Discriminantes = el menor de: nmero de VIs o nmero de grupos menos 1
Homogeneidad de varianzas
Normalidad multivariada
ANOVAS univariados como alternativa cuando da significativo el MANOVA, hay otras posibilidades de
hacerlo, como con anlisis discriminante. El MANOVA calcula una variada, combinacin de V.D. Hay una
dimensin o ms que explican las diferencias entre grupos?
Tenemos que tener al menos dos grupos, que tienen que definir categoras excluyentes, que no se
solapen. Al menos han de tener dos casos por grupos. Con dos variables independientes menos que el tamao
demuestra, pero los modelos cuanto ms parsimoniosos sean mejor. La VD tiene que ser de tipo cualitativa, y las
VI o variables discriminantes han de ser cuantitativas. Las VI no deben ser muy redundantes, problema de
colinealidad.
Tiene los supuestos bsicos del modelo lineal general. Es una prueba bastante robusta, tiene ms
problemas en casos extremos, que influyen mucho en la varianza. Prueba propuesta por Fisher, aunque en sus
datos no cumplen normalidad ni homogeneidad de varianzas.
El AD admite grupos de distinto tamao, aunque mejor cuanto ms equilibrados estn los grupos. Lo que
no se puede es tener grupos con muy pocos sujetos, bastantes ms casos que VI. 20 sujetos por cada variable
predictora en cada grupo.
123
Ejemplo de empresas: ver si en base a unas caractersticas de los empleados podramos diferenciar
entre unas empresas y otras.
Anlisis de varianza univariado de forma contraria que en el ANOVA. Lambda de Wilks como si fuera una
F, las variables predictoras o discriminantes difieren estadsticamente en los grupos que tenemos. Si la gran
mayora no tiene diferencias significativas para este tipo de anlisis no va bien.
El logaritmo de los determinantes de las matrices var-covar para cada uno de los grupos. Indicador
generalizado de la varianza. El determinante es un escalar, resumen de la varianza. Entre los determinantes no
hay muchas diferencias, lo que apunta a que cualquier mnima diferencia da significativa M de Box.
124
La funcin discriminante
Combinacin lineal de variables, donde la D son las puntuaciones discriminantes. X puntuaciones directas
de los sujetos en las V. discriminantes, U pesos discriminantes para las variables.
Funcin que consigue la mejor diferenciacin entre los grupos, maximizar las diferencias entre los grupos.
El centroide, media multivariada, el centroide de un grupo, media de variables combinadas. Busca maximizar la
distancia entre los centroides de un grupo.
La segunda funcin busca lo mismo, pero con la condicin de que las puntuaciones discriminantes de la
segunda funcin no estn correlacionadas con la primera. Las de la tercera no pueden estar correlacionadas ni
con la primera ni con la segunda, funciones ortogonales entre s.
Los coeficientes en regresin mltiples se estiman por mnimos cuadrados. Aqu, como en regresin
logstica, procedimientos iterativos.
Tantas funciones como n-1 grupos. Explicar lo ms posible de las varianzas de las funciones
discriminantes. El procedimiento es secuencial, la segunda funcin es la que explica la mayor cantidad de varianza
de la varianza que la primera dej sin explicar (varianza residual).
Lambda de Wilks para ver diferencia de medias, si es significativa indicar que el conjunto de funciones
consiguen discriminar entre los grupos mejor que el azar. Cuanto ms bajo sea su valor, mayor capacidad
predictiva, cuanto ms cercanos a 0, nos indica que la proporcin de varianza no explicada por el modelo es baja.
Va de 0-1. Nos dice si el global de las funciones derivadas tienen capacidad discriminativa; para saber si una
funcin tiene capacidad discriminativa por ella misma utilizamos un procedimiento algortmico.
125
hay ms varianza explicada que varianza de error. Nuestro objetivo es que ese autovalor sea mayor que 1. Con
trminos negativos MAL.
Algoritmo para comprobar la significacin de las funciones. Calcular la lambda de wilks para las funciones
que tengo (3 por ejemplo), si no da estadsticamente significativo acabo el anlisis, si no tienen capacidad
discriminativas todas juntas menos lo tiene una. Si da estadsticamente significativa el conjunto de las funciones
tienen capacidad predictiva. Al menos la primera ser por tanto significativa, porque es la que ms explica de las
tres, al menos la primera diferencia bien los grupos.
Veo si la segunda y tercera dan diferencias significativas, si no la dan slo la primera lo era; si dan
significativas, al menos la primera y la segunda son significativas. Sigo hacindolo hasta que lambda no de
significativo, te quedas con las que hayan dado.
Cuando me quedo con el modelo, por ejemplo de dos funciones, tengo que ver en qu medida funciona
ese modelo, como el ajuste. Uno de los ndices que nos permiten ver esto es lambda, si queremos la proporcin
de varianza explicada podemos utilizar 1-Lambda, esto nos sirve para valorar el modelo.
La correlacin cannica es un estadstico que permite calcular la correlacin entre dos grupos de
variables. En el contexto del AD se calcula la correlacin entre las variables discriminantes y los grupos.
Proporcin de varianza explicada.
El punto de referencia no es 0, sino el nmero de sujetos clasificados correctamente por azar. Cuidado
porque los grupos pueden tener distinto tamao, tener en cuenta para calcular los aciertos por azar.
Cuando el tamao de los grupos sean muy extremos por alguna razn sustantiva, tener o no X. Si ese
desequilibrio en los grupos refleja el desequilibrio en la poblacin, tener en cuenta a la hora de hacer la
clasificacin, no son la mitad de cada grupo, por azar. Si en la poblacin los grupos son equilibrados aunque en mi
muestra sean desequilibrados, trabajamos con los grupos de manera estndar.
Clasificacin dejando uno fuera, procedimiento de validacin cruzada. No infla los resultados. Interesante.
Es trampa utilizar los mismos sujetos para construir el modelo y problarlo. Solucin de partir la muestra, una
mirad se deja para hacer el constructo y otra para la prueba.
126
Otro procedimiento similar es el mtodo Jack Knife, hace el modelo con todos los sujetos menos 1 y luego
lo clasifica con el modelo construido sin l. Se hace as con todos los sujetos, es el procedimiento de validacin
cruzada.
Tabla para anlisis cualitativo, cuando me equivoco, Dnde me equivoco? Resultados de la clasificacin.
Lambda o (1 Lambda)
20/11/13
Coeficientes discriminantes no estandarizados: los que aparecen directamente en la ecuacin del modelo,
coeficientes en puntuaciones directas, las U. Equivalente a lo que antes eran las B. Importancia en trminos
absolutos y en diferentes escalas. Se utilizan para calcular las puntuaciones discriminantes de los sujetos.
127
Coeficientes discriminantes estandarizados: tipificados, equivalentes a las Betas de regresin mltiple.
Tenemos ahora trminos relativos, nos permiten comparar unas variables con otras. Importancia relativa.
Coeficientes de estructura: correlaciones entre la funcin discriminante y la variable. Intentar dar un nombre
al constructo subyacente que est definiendo la diferencia entre los grupos. La variable que tenga ms
correlacin con la funcin comparte ms.
La tabla 1 es de tpicas (autoestima y neuroticismo las que ms cargan en la funcin 1 y depresin en 2).
La 3 de directas (da tambin constantes).
La tabla 2 es de coeficientes de estructura (la que define la segunda funcin es depresin).
La 4 es la tabla de centroides, medias multivariadas. La primera funcin diferencia sobre todo al grupo
de las empresas en quiebra de las de rpida expansin, separa los ms extremos.
o Es lgico que los que trabajan en empresas en quiebra tengan mayores niveles de depresin,
neuroticismo y menores de autoestima. Sensaciones psicolgicas contrarias.
o La segunda funcin es ms residual, entre el grupo medio y los otros dos grupos.
Cada redondel es la puntuacin discriminante de cada sujeto, cada cuadrado es un centroide de cada uno de los
grupos.
La primera funcin s que ayuda a discriminar bien entre los grupos. Pero si miramos la segunda funcin
(eje y) vemos que poco contribuye esa segunda funcin.
128
Procedimientos de Clasificacin
129
La probabilidad Vallesiana se diferencia de la a priori en que utiliza ms informacin que puedes obtener en
la realidad, no solo la probabilidad a priori sino la puntuacin discriminante del sujeto, da una probabilidad a
posteriori.
El resultado final es una tabla de resultados de clasificacin, el estadstico por casos se pide a parte si
quieres, te desmenuza el proceso de clasificacin (los asteriscos dan donde se falla, la probabilidad asignada
puede ser mucho menor por ejemplo). Compara probabilidades y asigna.
130
Mtodos Stepwise de Construccin de las Funciones Discriminantes
Menor razn F: La variable que hace mxima la menor de las F calculadas segn:
Podemos utilizar Stepwise para no quedarnos con todas las variables, o bien a ojo. Las crticas de los
procedimientos es que son procedimientos exclusivamente estadsticos.
Tolerancia
Criterios:
Lambda de Wilks: busca que sean lambdas bajas, pero si miramos F buscamos que sea la ms alta
La variable que hace mnima la varianza no explicada
Mahalanobis: coge aquella variable que hace que los grupos estn ms separados
Estadstico de razn de F: para cada pareja de grupos calculo una F, donde p es el n de variables
independientes dentro del modelo (incluida la que estamos intentando meter). La variable que entra es
la que hace mxima el valor de las F ms pequeas.
V de Rao: Estadstico de MANOVA que calcula diferencias de medias, incluye la que es capaz de
discriminar ms entre las medias.
Condiciones previas para seleccionar variables, independientemente del criterio que escojamos de seleccin.
131
132
133
134
TEMA 6.B.: ANLISIS DE CLSTER O CONGLOMERADOS
El Anlisis de Cluster es una tcnica de anlisis de datos de carcter exploratorio que sirve para revelar
agrupaciones dentro de un conjunto de datos. Se trata de una tcnica multivariante que permite agrupar casos o
variables en funcin del parecido o similaridad.
Anlisis factorial: El anlisis factorial es bastante rgido en sus supuestos, mientras que el de clster es
ms generalizable. En el factorial partimos de una matriz de correlaciones entre las variables (matriz de
distancias), mientras que en el anlisis de clster se pueden utilizar diferentes tipos de matrices de
distancia. Cuando los supuestos no se cumplen, o n pequea, anlisis de clster.
o La finalidad es la misma.
Anlisis discriminante: Desde la perspectiva de agrupar casos, no variables. En el AD tenemos los grupos
hechos, cuantitativas; mientras que en el de clster hacemos los grupos a partir de observadas, y no
tenemos supuestos, ms flexible.
El clster se basa en el anlisis de distancia, agrupa sujetos menos distantes entre s. Tcnica claramente
exploratoria en anlisis multivariado:
Primero suele hacerse un anlisis de componentes principales, para dar coger las variables que dan
cuenta de la informacin, as reducimos la dimensionalidad y tenemos componentes ortogonales.
Problema de outliers, que pueden dar lugar a clsters nicos que realmente no representan a nadie.
135
Los outliers a posteriori se ven bien, tambin pueden detectarse a priori. Podemos eliminar esos sujetos.
Seleccionar bien las variables para que los grupos resultantes tengan sentido sustantivo.
Se basa sobre todo en el concepto de distancia, basada en las puntuaciones de las variables observadas.
Puede surgir problema si hay muchas diferencias en cuanto a la escala, las medidas de distancia pueden
ser infladas, puede influir en el resultado de los grupos.
o Solucin, tipificar, media 0, desviacin tpica 1.
No existe un nico anlisis de clster, depender del tipo de variable con la que estamos trabajando,
cmo miramos la similitud entre los casos y cmo definiremos cundo dos casos se agrupan entre s o cuando dos
grupos ya formados se unirn para formar uno mayor.
Con las distancias medimos las diferencias, lo que se aleja una observacin de otra: raz cuadrada de la
resta de las puntuaciones de los dos sujetos elevados al cuadrado.
Medidas de similitud o simaridades: estamos viendo lo contrario, cun cerca estn dos observaciones
entre s. La medida ms clsica de similitud es la correlacin, Pearson; se calcula respecto a la
correlacin de dos observaciones, no de dos variables.
Mtodos de Clster
Mtodos Jerrquicos
Procedimiento por pasos sucesivos, en el primer paso hay tantos grupos como sujetos observados, se mide
la distancia entre esos sujetos y en el primer paso se agrupan los dos que son ms cercanos. El siguiente paso
puede ser hacer un nuevo grupo o unir a un sujeto a un grupo ya formado. Ms adelante se darn agrupamientos
de clster entre s para dar lugar a grupos superiores.
Dentro de los modelos jerrquicos, diferentes criterios para decidir qu sujetos uno:
136
Vecino ms prximo: todos los sujetos son clsters individuales, unimos los ms cercanos entre s.
o Se miden las distancias entre cada uno del resto de sujetos y cada uno de los elementos que
forman parte de ese clster, se unen aquellos con la distancia ms corta.
Vecino ms alejado: medir distancias entre ellos y quedarnos con la distancia ms lejana, de entre
los grupos ms alejados, se queda con la ms prxima.
Vinculacin inter-grupos: calcula todas las distancias y compara distancias medias. Agrupa los que
tienen una distancia media menor
Mtodo de agrupacin de centroides: Mide la distancia entre los vectores de medias.
Procedimientos de salida:
De tipo anidado, no se separan del mismo grupo una vez se han medio
Una vez que un caso se une a un grupo permanece en l durante el resto de etapas posteriores
137
Ejemplo:
Situacin sanitaria en los pases rabes (Engelman, 1985)
Trazar una lnea por la mitad superior del grfico, nos quedaramos con tantos clster como lneas cortramos.
Aunque hay que sustantivizarlo, igual tenemos que quedarnos con ms que lo que dice la teora.
Calcular para cada una de las variables iniciales la media y hacer un grfico de perfil. Ah vemos en qu
son diferentes esos grupos, por ejemplo aqu vemos que las diferencias de grupos se dieron fundamentalmente
por la diferencia en el nmero de camas.
138
139
Mtodos no jerrquicos: K-Means
Aqu los sujetos pueden cambiar de un grupo a otro.
Anlisis recomendado cuando tenemos muchos casos y relativamente pocas variables.
En los procedimientos no jerrquicos nosotros establecemos de antemano el nmero de grupos que
queremos.
Procedimientos de tipo iterativo, un paso se basa en los resultados del paso anterior. Hasta llegar a una
solucin estable.
SPSS no estandariza valores, a diferencia del procedimiento jerrquico, no se puede tipificar.
En el comando descriptivos, opcin de guardar valores tipificados como variables.
140
Procedimiento:
1. Fase de clasificacin: parte de un nmero de clster al que tiene que llegar. Busca a los sujetos ms
separados entre s y los toma como centroides de esos grupos iniciales o semillas.
a. Ojo con los utliers, que tomar como grupos iniciales. Mirar primero los datos para descartar esos
outliers.
2. Mirar distancia ocldea entre el caso y el centroide del grupo.
a. Una vez formados esos grupos, recalcula los centroides de media. Una vez recalculados los
centroides, se reasignan todos los sujetos. Reasignacin.
3. Se valora si el cambio de distancias que ha habido respecto a las dos fases cumple un cierto criterio, que
la distancia sea ms pequea. Si no lo cumple, se realiza una nueva iteracin. Si cumple el umbral la
situacin est estabilizada.
a. Se para cuando no hay cambio entre una iteracin o se llega a la mnima establecida; o cuando
hayamos llegado al mximo de iteraciones establecidas por defecto.
Suele ser bastante tpico pedir soluciones con varios nmeros de clster, para al final coger la que mejor te
cuadra.
Ejemplo
Agrupacin de alumnos universitarios en funcin del NEO, Five Factor Inventory (tomado de Meyers,
Gamst y Guarino, 2013)
Con 10 iteracciones que haba pedido no converga, pidi que el SPSS hiciera ms iteraciones.
141
Anlisis de varianza para ver si hay divergencia en las variables que hemos creado. Pruebas F puramente
descriptivas, los sujetos no han sido asignados al azar a los grupos ni los estamos protegiendo contra la tasa de
error tipo I. Esto no te lo da el anlisis anterior. Debera haber diferencias estadsticamente significativas,
diferenciar los sujetos entre las variables.
Tambin mirar diferencias de los grupos, tomar terceras variables relacionadas con las variables que
hemos utilizado para realizar los grupos, y ver si hay relacin Buscar evidencias para validar el anlisis.
Mirar tambin n de sujetos por clster, generalmente nos interesan grupos ms o menos equilibrados,
igual nos interesa tener 3 clsters en vez de 4 si as conseguimos grupos ms equilibrados, tambin podra ser de
5, los grupos se van distribuyendo de diferente manera.
142
TEMA 5.B.: ANLISIS FACTORIAL CONFIRMATORIO
03/12/13 San Milln
Cuando trabajamos en el contexto de anlisis factorial, lo que hacamos era determinar a partir de una
serie de variables observadas cuantos factores y como las diferentes variables por procedimientos empricos
cargaban en esos factores. Siempre hacamos esto desde el punto de vista exploratorio.
En ese mismo contexto, podemos hipotetizar por adelantado y basndonos en una teora que constructos
psicolgicos subyacen a los datos. Lo que estamos hablando es de proponer un modelo con variables subyacentes
y observadas y como se relacionan entre ellas y comprobar si eso ajusta a unos datos empricos. Lo que luego
hacemos es si ese modelo que tenemos cuadra con los datos empricos que tenemos, es una bondad de ajuste.
Nuestra finalidad ahora no es dejar que los datos nos cuenten cosas si no decirles a los datos, creo que vais a
funcionar as. Por tanto:
- AFE procedimiento inductivo, tratamos de encontrar unos factores subyacentes de una serie de datos
partiendo de una serie de variables observadas.
- AFC procedimiento deductivo. Basndome en la teora, propugnamos que existen una serie de factores
o constructos subyacentes, y a partir de ellos voy a los datos a ver si se cumplen.
- Estudiar modelos complejos (por ejemplo se pueden introducir errores correlacionados entre las
variables).
- Establecer restricciones en los pesos (por ejemplo que los pesos de dos variables sean iguales). Es decir,
no metemos los datos y a ver que sale, sino que de antemano vamos a introducir restricciones, poniendo
como cargan determinados tems en ciertos factores.
- Reducir el nmero de parmetros a estimar. Al fijar que variables no pesan en los factores, se estima un
menor nmero de parmetros.
143
PASOS EN EL AFC
Indicar que variables entran en el modelo y qu papel juegan dentro de este. Esta especificacin del modelo se
hace a travs de un grfico, el diagrama de caminos o senderos. El trmino ms habitual es el path diagram. A la
hora de escribir estos grficos hay una serie de convenciones que se siguen siempre. Distinguimos diferentes
tipos de variables:
- Variables latentes o constructos: se representan con crculos u valos. Estaran incluidos en este grupo los
factores presupuestos los errores de medida de las variables observadas.
- Paths, flechas: pueden ser unidireccionales (rectas), que indican que cosa influye en que otra; y
bidireccionales (curvas) que expresan covariacin entre variables.
E1 E2 E3 E4 E5 E6 E7
X1 X2 X3 X4 X5 X6 X7
F1 F2
Adems de estas, se suele hacer una distincin en modelos estructurales entre variables endgenas y
exgenas. Las variables endgenas son aquellas que en el grafico reciben alguna influencia de otras variables. Las
variables exgenas, son aquellas que no reciben ninguna flecha direccional. Solo flechas direccionales, no
estamos hablando de bidireccionales.
No todos los tems tienen que cargar en todos los factores. Se puede indicar correlaciones entre los errores.
Podemos establecer otras restricciones como que todos los pesos del factor 1 sean iguales.
144
Diferentes entre el AFC y AFE
- Parmetros a estimar: los parmetros a estimar son los pesos factoriales, las varianzas y las covarianzas
entre las variables exgenas (las variables latentes: Fm Ej). En el AFC los parmetros no estn
estandarizados y por tanto no son comparables entre s. Por ello debemos estandarizarlos
posteriormente. Esto no pasa en AFE.
- Los parmetros a estimar son los pesos factoriales, las varianzas y las covarianzas entre las variables
exgenas (las variables latentes: Fm y Ej). En el modelo del ejemplo los parmetros a estimar (inicialmente)
seran:
Comprobar que el nmero de datos observados es mayor que el de parmetros que deben estimarse y que
se va a estimar de una forma nica. Un modelo no est identificado cuando es posible estimar o derivar ms de
un conjunto de parmetro que den lugar a modelos que ajusten. Por tanto, no habra una nica solucin.
El nmero de datos observados debe tener unos grados de libertad positivos. Ese nmero de datos observados
debe de ser mayor que el nmero de parmetros a observar. Si no se cumple eso, deberemos de ir aparnosla
para que haya menos parmetros a estimar.
Mas cosas para que el modelo de una solucin nica: Establecer una escala comn para los factores comunes.
- Fijar la varianza de los factores a 1: suponiendo que esos factores subyacentes son factores estadarizados
- Fijar, para cada factor, el peso factorial de una de las variables que cargan en l a 1: es la que hace el Spss,
fijar para cada uno de los factores subyacentes el peso de una variable a 1.
Antes de empezar el anlisis siempre debemos comprobar que el modelo est bien identificado.
Mtodos ms populares: son procedimientos de tipo iterativo y por tanto son necesarios ordenadores para
llevarlos a cabo. Es ms, ests tcnicas no fueron desarrolladas hasta que no se crearon los primeros paquetes
estadsticos informticos.
2) Mnimos cuadrados generalizados (GLS): son la mejor opcin con muestras pequeas siempre y cuando
sea plausible la asuncin de normalidad.
3) Mxima verosimilitud (ML): son la mejor opcin con muestras pequeas siempre y cuando sea plausible
la asuncin de normalidad.
4) Mxima verosimilitud robusto o de media ajustada (MLM): funciona cuando nos apartamos de los
supuestos y no requiere de grandes muestras (entre 200 y 500).
145
Todos ellos trabajan en funcin de discrepancia o funcin de perdida. Esta funcin de discrepancia es una
medida de las diferencias entre la matriz de varianza-covarianza reproducida por el modelo y la misma matriz
emprica. Estas funciones tienen la caracterstica de que cuando la diferencia es muy grande, tiende a 2 y cuando
no a 0. Cada uno de ellos, adems de esta diferencia tambin debemos de calcular otros parmetros, entonces
tambin tiene en cuenta la discrepancia entre los coeficientes estimados y los reales. La estimacin de
parmetros pasar con la funcin de perdida mas pequea posible.
04/12/13
Modelo sobreidentificado: cuando hay ms datos observados que parmetros a estimar, es lo que buscamos
realmente.
Los mtodos trabajan a partir de una funcin de discrepancia o funcin de prdida, medida entre matriz var-covar
reproducida por el modelo y la medida de la matriz var-covar emprica. Esta funcin tiene la caracterstica de que
cuando las matrices tienen una diferencia muy pequea tienden a 0.
Tambin tienen en cuenta los coeficientes calculados y los reales, se busca una funcin de prdida lo ms baja
posible.
Procedimiento de media ajustada o rubusta va bien con muestras pequeas (200-500 sujetos)
La bondad de ajuste global ha de considerarse siempre previamente a la valoracin de la bondad de ajuste de los
parmetros
En qu medida lo propuesto cuadra con la realidad. Miran la diferencia entre la matriz var-covar
hipotetizada y la emprica, en qu medida cuadra, si la diferencia es estadsticamente aceptable.
ndices absolutos: miran la discrepancia entre las matrices var-covar en puntuaciones brutas.
ndices relativos: pone en relacin nuestro modelo con dos extremos del continuo (el modelo de
independencia, nada se relaciona con nada, no ajusta; y el modelo saturado, que ajusta de manera
perfecta a los datos), en qu punto de esa escala est nuestro modelo, a partir de 0,90 se dice que el
modelo ajusta razonablemente bien.
ndices parsimoniosos: tratan de corregir que cuantos ms parmetros tenga el modelo mejor ajusta, el
problema es que los modelos as son ms complejos de interpretar. Penalizan en funcin del nmero de
parmetros, cuanto ms complejo es el modelo ms penalizacin, as hacemos que el sesgo se reduzca.
ndices de comparacin del modelo: ver qu modelo tiene el ndice ms pequeo, nos quedaramos con
ese.
146
El coeficiente de mxima similitud da un x2 (en AFE), similar a los ndices absolutos; el problema que tienen
es que x2 vara mucho segn la muestra; se pone siempre aunque de significativo (buscamos que no de), luego
ponemos otros ndices que igual nos dan bien, como GFI.
ndices inferenciales, ajuste absoluto y ajuste comparativo. Supuesta distribucin subyacente, podran hacerse
extrapolaciones a la poblacin. Dependen mucho del tamao de muestra
ndices descriptivos, ajuste comparativo. El CFI penaliza mejor los modelos no parsimoniosos.
147
Meyers, Gamst y Guarino (2013)
Significacin de los coeficientes de los pesos factoriales, el cociente entre el valor del peso y el error
tpico es la razn crtica, que se distribuye segn la normal; por la razn crtica miramos si los
coeficientes son estadsticamente significativos o no.
Cuando en un modelo tenemos muchos pesos que no ajustan, seguramente habra que replantearse el modelo.
An cuando el modelo globalmente ajuste, habra que hacerse una serie de preguntas, que en caso de no ser
negativas habra que replantearse el modelo; Ajuste de los Parmetros:
148
Ajuste de los Parmetros
El modelo est demasiado cerca de no estar identificado, lo que hace la estimacin de algunos
parmetros difcil o inestable
Los valores perdidos de algunas variables observadas han provocado que cada elemento de la matriz de
covarianzas muestral est calculado sobre una muestra diferente
Confirmatorio?
ndices de Modificacin
Realizar slo aquellos cambios que puedan ser interpretados desde una perspectiva terica o
tengan soporte en trabajos anteriores
ndices de Modificacin: Suele tomarse un umbral de ndices mayores 3-4, relacin candidata para introducir una
modificacin, esto suele hacerse cuando el modelo global no ajusta. Hay que ver que adems ese cambio tenga
sentido.
149
Recomendaciones de Hatcher (1994)
Utilizar muestras grandes, de lo contrario poco estable, conseguimos ajuste en nuestra muestra concreta
pero no es generalizable, ms de 100 sujetos como mnimo.
Hacer pocas modificaciones, si estamos en un enfoque confirmatorio no tiene sentido cambiar hasta que
ya no sea nuestro modelo, al final las especificaciones son especficas de la muestra concreta que estamos
analizando.
Realizar slo aquellos cambios que puedan ser interpretados desde una perspectiva terica o tengan
soporte en trabajos anteriores.
Seguir un procedimiento paralelo de especificacin, proponer desde el principio modelos distintos.
Comparar modelos alternativos desde el principio: proponiendo dos modelos o trabajando con dos
muestras paralelamente. Variacin cruzada.
Describir detalladamanete las limitaciones de su estudio.
150
04/12/13
El modelo fija a 1 los pesos de los errores y se fija por defecto 1 a una de las variables de cada factor que
tengas.
Especificar un modelo.
Variables no observadas: los errores
Los modelos suponen que tienes el mismo nmero de sujetos para todas las variables, si tienes valores
perdidos hay consecuencias en estimaciones, tienes que marcarlo.
Tienes que pedir que transforme los estadsticos a estandarizados.
Coeficientes no estandarizados, coeficientes en diferenciales, no en tpicas.
Cuando estn estandarizados, la flecha que une pasa a ser la correlacin, no la covarianza.
Coeficientes en rango de +-1 al estar en tpicas.
Variables endgenas y variables exgenas (no observadas, errores)
Para que un modelo est identificado tiene que haber menos parmetros a estimar que valores
observados. El nmero de datos observados es n de variables * n de variables observadas/2
Modelo sobreidentificado y por tanto estimado.
X2 de ajuste, si la diferencia entre la matriz var-covar estimada y la emprica ajusta o no.
Pesos de regresin en puntuaciones tpicas, no estandarizadas, *** estadsticamente significativos.
Valores estandarizados, los que van en la segunda grfica.
La relacin entre los constructos, entre los factores subyacentes, nos lo da en formato estandarizado y no
estandarizado.
Si estadsticamente significativo, el modelo no ajusta
En todos los casos da el modelo por defecto (el que metimos nosotros) en comparacin con el modelo
saturado y el de independencia. En trminos relativos.
Los ndices de modificacin se distribuyen segn X2, si superiores a 4 son susceptibles de modificacin
estadsticamente en el modelo. Te da el parmetro estimado para esa nueva flecha si lo haces. Pero hay
que sustantivarlo para ver si tiene sentido, dos variables ms relacionadas de lo que creamos, se refleja
en que sus errores estn covariados, susceptibles de modificacin. Pero slo una o dos modificaciones,
me puedo quedar con un modelo no identificado y adems sera como pasar a un modelo exploratorio.
Nueva estimacin de los parmetros del modelo en formato estandarizado y no estandarizado. Que
hayamos hecho modificacin no garantiza nada, hay que volver a mirar que el modelo ajusta.
Ahora incluso con X2 el modelo ajusta. Mejora con la modificacin.
151
152
153
154
155
TEMA 7.A.: ECUACIONES ESTRUCTURALES: PATH ANALYSIS
Introduccin
Las ecuaciones estructurales (Structural equation modeling SEM-) es un procedimiento estadstico que
permite evaluar relaciones hipotetizadas por el investigador entre un conjunto de variables. Suelen distinguirse
dos partes en el modelo global:
El Path Analysis es el caso ms simple de SEM en el cual no hay variables latentes, todas son observadas.
Debido a esto no hay modelo de medida que evaluar y los procedimientos estadsticos son algo ms simples.
Las ecuaciones estructurales trabajan con variables latentes, con constructos. Por tanto siempre habr
que tener un modelo de medida, implcito de alguna manera un AFC. Se definen las relaciones existentes entre las
diferentes variables latentes y entre las variables latentes y las variables observadas.
Modelo que trabaja solo con variables observadas, medidas, el path (dibujos en cuadrados). Path anlisis,
generalizacin del modelo de regresin mltiple. A veces se denominan modelos causales, modelos basados en la
regresin, en la covariacin, no realmente causa, la covariacin es una relacin necesaria pero no suficiente de la
causalidad; capacidad predictiva de una variable para otra.
Se puede hacer por un modelo de regresin o por ajuste del modelo. Por ajuste del modelo tiene algunas
ventajas.
Path Analysis
Fue introducido por Wright (1921) como una aplicacin de la regresin mltiple.
Slo tengo rectngulos, solo variables observadas, especificarlo es indicar qu variables tengo y cmo se
relacionan entre ellas. Slo como variables latentes los errores, ligados a las variables endgenas que tengo.
Representado por rectngulos, variables directamente observadas, las nicas latentes son los errores,
tenemos relaciones directas y covarianzas (representadas por flechas curvas); adems las flechas tienen direccin,
por lo que a veces se denominan modelos causales, ya que aunque realmente no dice causalidad, visualmente lo
parece, matiz de causalidad. Son diseos de tipo correlacional, no experimental (distintivos de los de causalidad).
156
Como si tuviramos dos modelos de regresin, uno para explicar motivacin y otro para rendimiento acadmico.
Este tipo de modelo se puede resolver por sucesivas regresiones mltiples o por modelos estructurales.
Asunciones:
Kline (2011) recomienda usar el enfoque basado en ajuste de modelos porque el software existente nos da:
10/12/13
Para realizar un Path Analysis seguimos bsicamente los mismos pasos explicados para el Anlisis Factorial
Confirmatorio:
a) Especificar el modelo
b) Identificacin del modelo
c) Estimacin
d) Evaluacin
e) Re-especificacin
La fase de especificacin del modelo para nuestro ejemplo queda recogida en el diagrama mostrado antes.
157
Relacin directa de estatus socioeconmico a rendimiento e indirecta a travs de la motivacin. El producto de
los coeficientes me dar el efecto indirecto del estatus socioeconmico sobre el rendimiento.
Los coeficientes de regresin asociados con cada una de las variables predictoras
Los coeficientes de regresin asociados con los errores de las variables endgenas
La correlacin entre las variables exgenas (si asumimos que estn correlacionadas)
Al intentar hacerlo con el SPSS, te dice que el modelo no est identificado, nos interesa un modelo
sobreidentificado, as que al menos 3 restricciones para que el modelo funcione bien.
Reducir parmetros a estimar para que el modelo pueda estar identificado, suelen fijarse las flechas de
los errores en 1, fijar alguno de los otros parmetros. Se podran quitar flechas y valdra, pero se supone que t
estimas que tu modelo es as, mejor no quitarla.
158
Relacin inversa de las variables, fijo motivacin en -1. Puedo fijar en 1 o -1 de manera estandarizada,
aunque si tienes mucho conocimiento se pueden poner ms valores. Ahora 10 datos observados y 9 para estimar,
grados de libertad positivos.
Coeficientes de regresin prcticamente 0, no parece que el modelo vaya muy bien, he puesto unas
flechas de influencia que parece que no influyen mucho. Tenerlo en cuenta para posible re-especificacin del
modelo. ndices de ajuste relacionados con la regresin mltiples, en motivacin y rendimiento acadmico, R2
(tamao del efecto):
159
Te da tambin el modelo en letra. X2 significativo,
el modelo no ajusta
160
Efecto directo sobre la motivacin del estus es 0,35 (n que aparece en la tabla), el efecto indirecto es -0,95.
Estatus socioeconmico sobre rendimiento, efecto indirecto 0,180. El efecto total es la suma del directo y el
indirecto.
161
No ajusta muy bien. CMIN/DF
GFI da bien
RMSA
Ms grados de libertad, reducidos parmetros a estimar. Los coeficientes que me quedan son todos
significativos. El ajuste por otros ndices mejora. Con todo esto explico un 33% de la varianza de rendimiento,
habra que ver en trminos relativos si eso es poco o mucho. Ahora chi cuadrado no es significativo, por lo que el
modelo ajusta.
162
163
TEMA 7.B. ECUACIONES ESTRUCTURALES: MODELO
COMPLETO
Introduccin
El modelo de medida que representa el grado en el cual las variables indicadoras captan la esencia del
factor latente.
El modelo estructural en que buscamos las relaciones causales entre las variables de inters de nuestra
teora. Normalmente el inters se centra en variables latentes y no en indicadores.
Un modelo SEM evala cmo de bien las interrelaciones predichas por el modelo terico casan con las
interrelaciones entre las variables observadas. Tiene la capacidad de evaluar simultneamente tanto el modelo de
medida como el modelo estructural
El path analysis asume que las variables (todas observadas) estn medidas sin error (poco realista).
Modelo de ecuaciones estructurales (SEM) introduce variables latentes modelo de medida (facilita la
identificacin del modelo). En el momento que metemos variables latentes debemos de meter
obligatoriamente variables de medida. Esto en el Path no era necesario.
Se introduce en el modelo el error de medida (variables con fiabilidad no perfecta) lo cual es un mejor
reflejo de la realidad. Al introducir modelos de medida estoy viendo la capacidad de tener en cuenta el
error de medida de mi modelo, cosa que el path analysis no lo hace.
Mayor coste en el diseo. Si para cada constructo tenemos que pensar en una serie de indicadores
empricos bajo los cuales subyace el constructo tengo que medirlos.
Modelo Completo:
164
En este caso, queremos ver si hay una serie de variables que influyen en la nota media final de la carrera.
Esta variable como vemos no es latente. Los autores de trabajo creen que hay cuatro variables: influencias que
recibe el alumno a la hora de elegir la universidad, percepcin de autoeficacia acadmica, calidad del centro y
vida social de la universidad. Estos se objetivizan con 3 indicadores de cada uno y estos ya son variables
observadas, medidas. Como son variables observadas, pues tenemos los errores.
Se asume que estas variables entre si tienen ciertas relaciones, que la autoeficacia tiene influencia sobre
la vida social pero no sobre las notas, que influencia y autoeficacia covaran, etc. A la hora de definirlo,
automticamente asignamos a una variable que fijamos en 1 para darle escala al factor subyacente. Tambin
fijamos a 1 el peso de los errores.
Este modelo es ms complejo que los vistos hasta ahora, pero las fases son las mismas que en el Path
analysis.
Mirando los ndices, miramos que TLI no est bien, mientras que GFI si lo est. RMSEA da bastante bien.
Por lo tanto no es un modelo que vaya muy mal pero se puede mejorar.
165
En cuanto a los ndices de modificacin (convariances y regresin Weights.). Propone aadir flechas al
modelo, interacciones. Lo que hay que ver es que sean pocas modificaciones y congruentes desde el punto de
vista terico. Por ejemplo los anlisis nos informan que el modelo mejorara si unisemos la autoeficacia
academica con el error 14. Esto no tiene mucho sentido as que se desecha. La mayora de las modificaciones que
nos da, son covarianzas entre errores. Esto puede tener sentido, pero lo tendr entre errores que pertenecen al
mismo constructo o cosas muy parecidos, pero lo que nos indica mezclar errores de distintos factores
subyacentes parece que no tienen mucho sentido. Luego nos proporciona los pesos de regresin y deberemos de
hacer lo mismo, mirar cuales tienen sentido. Pero hay que recordar que se debe de limitar los cambios a hacer.
166
Este sera el modelo final. Han aadido covarianzas entre algunos errores. Tambin han quitado
ciertas flechas que no eran significativas. Algunas cosas que nos pueden preocupar del modelo es que los pesos
de las variables con los factores son razonables, no hay muchas por debajo de 0,30. Se podra decir que el modelo
de medida est justito.
Despus vemos que el modelo no ajusta, pero que se ha mejorado relativamente 0,011. Veamos qu pasa
con el resto de ndices. El resto de ndices dan valores bastante buenos. Con lo cual el modelo ms o menos
ajustara, pero no estaramos muy contentos con l por el 20% que logra explicar la nota.
167
Puntaciones totales, las marcadas: si nos fijamos en las 4 variables subyacentes, la conclusin a la que
llegamos es que la nica que ejerce influencias importantes es la propia opinin del alumno. Si el alumno cree en
s mismo.
168