Escolar Documentos
Profissional Documentos
Cultura Documentos
de correspondencias
MICHAEL GREENACRE
Catedrtico de Estadstica en la Universidad Pompeu Fabra
_______________________________________________
www.fbbva.es
CAPTULO
20
Contenido
Conjunto de datos 11: actitudes hacia la ciencia y el medio ambiente . . . . . . . . . . . . . . . . . . . . . . .
La cuantificacin de categoras como objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
El ACM como el anlisis de componentes principales de la matiz binaria . . . . . . . . . . . . . . . . . . . . .
Maximizacin de la correlacin entre tems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ACM del ejemplo de la opinin sobre la ciencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Correlaciones individuales al cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Prdida de homogeneidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Geometra de la funcin de prdida en el anlisis de homogeneidad . . . . . . . . . . . . . . . . . . . . . . . . .
Fiabilidad y alfa de Cronbach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
RESUMEN: Propiedades del escalado ptimo del ACM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
205
206
206
207
208
209
210
210
212
213
Para simplificar solamente hemos utilizado datos de Alemania Occidental. Hemos omitido los casos con valores perdidos en cualquiera de las cuatro preguntas, lo que nos ha llevado a una muestra de N = 871. (Estos datos se hallan incluidos en nuestro paquete ca para R, que se ofrece en el apndice B.)
La cuantificacin de
categoras como objetivo
En el captulo 7 definamos el AC como un mtodo de cuantificacin de las categoras de la variable columna que nos lleva a la mayor diferenciacin, o discriminacin, posible entre las categoras de la variable fila, o viceversa. Es lo que llamaramos definicin asimtrica, ya que las filas y las columnas desempean papeles
distintos en la definicin, lo que tambin se refleja en los resultados. As, expresamos los resultados de las columnas en coordenadas estndares, mientras que los de
las filas los expresamos en coordenadas principales. En el captulo 8 definimos el
AC de forma simtrica como un mtodo de cuantificacin de las categoras que
nos lleva a la mayor correlacin entre filas y columnas. En esta definicin, el papel
de filas y columnas es el mismo. Esta cuantificacin de las categoras no incluye ningn concepto geomtrico especfico; en concreto, no hace mencin alguna a un
espacio en el que podamos imaginar situados los datos, lo que, por el contrario, es
muy importante en la aproximacin geomtrica para poder medir la inercia total y
los porcentajes de inercia en los subespacios de baja dimensionalidad.
dado un conjunto de datos, en el que las filas son los casos y las columnas las variables (m variables, x 1,..., x m ), asignamos a las columnas unos coeficientes 1,..., m (que
tendremos que estimar) que conducen a combinaciones lineales para las filas (casos)
de la forma 1x 1 + ... + m x m , las puntuaciones. Calculamos los coeficientes de manera
que se maximice la varianza de las puntuaciones de las filas. Como vimos anteriormente, para hallar la solucin tenemos que definir unas condiciones de identificacin. En el ACP, estas condiciones son, en general, que la suma de los cuadrados de los coeficientes sea 1: j j2 = 1. Aplicar estas ideas a la matriz binaria, que
slo consta de ceros y unos, y asignar coeficientes 1,..., J a las variables binarias,
para calcular luego las combinaciones lineales de las filas, simplemente significa sumar los coeficientes (es decir los valores de la escala) de cada caso. Por tanto, la
maximizacin de la varianza de los casos recuerda el procedimiento de escalado
ptimo que vimos en el captulo 7 (maximizacin de la discriminacin entre filas).
De hecho se trata de un concepto casi idntico, con la excepcin de las condiciones de identificacin. En el escalado ptimo, las condiciones de identificacin
seran que la varianza ponderada (inercia) de los coeficientes (no la simple suma
de cuadrados) fuera 1: j cj j2 = 1. Aqu las cj son las masas de las columnas, es decir, la suma de las columnas de la matriz binaria divididas por la suma total NQ de
la matriz binaria; as, para cada variable categrica, la suma de los cj es 1/Q. Por tanto, con este cambio en las condiciones de identificacin, podramos llamar al ACM,
ACP de datos categricos, que maximiza la varianza de los casos. Los coeficientes
son las coordenadas estndares de las categoras de las columnas, mientras que las
coordenadas principales del ACM de los casos son las medias de los valores de
stos. Es decir 1/Q veces la suma de lo que hemos llamado antes puntuaciones.
La primera dimensin del ACM maximiza la varianza (primera inercia principal),
la segunda dimensin maximiza la varianza con la condicin de que las puntuaciones no estn correlacionadas con las de la primera dimensin y as sucesivamente.
El anlisis de homogeneidad, visto como una tcnica de escalado ptimo del ACM,
se contempla, habitualmente, como una generalizacin de la correlacin segn
se expuso en el captulo 8. En concreto, vimos la ecuacin (8.1) como una manera alternativa de optimizar la correlacin entre dos variables categricas, que podemos fcilmente generalizar a ms de dos variables. Para ilustrar este hecho utilizaremos una notacin correspondiente a cuatro variables, sin embargo, podemos extenderlo fcilmente a Q variables con cualquier nmero de categoras (en
nuestro ejemplo Q = 4, y el nmero total de categoras es J = 20). Supongamos
que las cuatro variables toman los valores (desconocidos) de a 1 a a 5, de b1 a b 5, de
c 1 a c 5 y de d 1 a d 5. Asignaremos a los encuestados cuatro de estos valores ai , bj , ck y
dl de acuerdo con sus respuestas, y de esta manera cuantificaremos las respuestas
de toda la muestra, que simbolizamos como a, b, c y d (es decir, a indica todas las
871 respuesta cuantificadas a la pregunta A, etc.). Cada encuestado tendr como
puntuacin la suma estos valores, ai + bj + ck + dl . Simbolizaremos las puntuaciones
207
Maximizacin de la
correlacin entre tems
Imagen 20.1:
Mapa del ACM (versin
matriz binomial) sobre la
actitud hacia la ciencia, que
muestra los puntos
correspondientes a las
categoras en coordenadas
principales. Dado que las
inercias principales difieren
slo ligeramente (e incluso
menos en forma de races
cuadradas), en ambos ejes,
las coordenadas principales
presentan casi la misma
contraccin que las
coordenadas estndares
0,431 (10,8%)
C5
A5
B5
1,5
D1
B1
D5
0,5
C4
A1
A4
B4
D2
D4
0,457 (11,4%)
A2
C2
0,5
C3
A3
C1
D3
B2
B3
1
1,5
0,5
0,5
1,5
de toda la muestra como a + b + c + d. En este contexto, llamamos tems a las variables, puntuaciones de los tems a los valores de a a d, y suma de puntuaciones a la suma
a + b + c +d. Expresaremos, el criterio de bsqueda de los valores ptimos de la escala, como la maximizacin de la media de las correlaciones al cuadrado entre las
puntuaciones de los tems y la suma de puntuaciones:
1
4
(20.1)
En el mapa bidimensional de la matriz binomial de la imagen 20.1 vemos, de nuevo, porcentajes de inercia muy bajos (los porcentajes basados en las inercias ajustadas son el 44,9% y el 34,2%, respectivamente). Sin embargo, en este caso, dado
208
PREGUNTAS
CATEGORAS
1
2
3
4
5
Muy de acuerdo
Algo de acuerdo
Ni de acuerdo ni en desacuerdo
Algo en desacuerdo
Muy en desacuerdo
Suma
Suma
115
28
12
69
55
174
21
7
41
74
203
6
22
80
32
25
3
9
3
22
518
57
49
194
182
279
317
343
62
1000
Imagen 20.2:
Contribuciones a la inercia
en tantos por mil () del
primer eje principal (versin
matriz binaria) de los datos
sobre ciencia y medio
ambiente
que los valores de las inercias principales son medias de correlaciones al cuadrado, debemos ignorar los porcentajes, ya que los valores de las inercias principales
tienen inters per se. El valor mximo de (20.1) es 0,457. La segunda inercia principal, 0,431, se halla buscando un nuevo conjunto de valores que nos lleven a
unas puntuaciones que no estn correlacionadas con los que se obtuvieron anteriormente, y que adems maximicen (20.1); este valor mximo es 0,431. Y continuaramos de esta manera para hallar los resultados de los restantes ejes, siempre
no correlacionados con los hallados anteriormente. En el mapa de la imagen
20.1, vemos que las preguntas A, B y C presentan una distribucin muy similar,
como una cua en forma de herradura, que va de profundos desacuerdos, a la
izquierda, a fuertes acuerdos, a la derecha. Sin embargo, la pregunta D sigue una
trayectoria completamente distinta con los dos valores extremos muy prximos.
Las primeras tres preguntas presentaban un redactado negativo hacia la ciencia,
mientras que la pregunta D tena un redactado mucho ms positivo; por tanto,
habramos esperado que D5 se hallara hacia A1, B1 y C1, y D1 se hallara al lado
de A5, B5 y C5. Sin embargo, el hecho de que D1 y D5 se hallen tan cerca y dentro de la herradura indica que ambas estn asociadas con respuestas extremas de
las restantes tres preguntas: la explicacin ms plausible es que algunos encuestados hayan interpretado mal el cambio de sentido del redactado de la cuarta
pregunta.
Tambin es interesante conocer los valores de cada una de las correlaciones al
cuadrado que componen (20.1). Podemos obtener estos valores directamente
sumando la contribucin de cada pregunta a la inercia del primer eje principal.
Habitualmente, los resultados del ACM proporcionan esta informacin en forma
de proporciones o en tanto por mil. En la imagen 20.2 detallamos estos valores
en esta ltima forma para ilustrar cmo recuperar estas correlaciones. Las preguntas de A a D contribuyen, en las proporciones 0,279, 0,317, 0,343 y 0,062 de
la inercia principal de 0,457. Dado que 0,457 es la media de las cuatro correlaciones al cuadrado, las correlaciones al cuadrado y, en consecuencia, las correlaciones son:
209
Correlaciones
individuales al cuadrado
El anlisis de homogeneidad generaliza la funcin objetivo (8.3) a muchas variables. Utilizando la notacin anterior para el ejemplo que nos ocupa con cuatro
variables, calcularamos la puntuacin media 41 (ai + bj + c k + dl ) de las puntuaciones de los tems de cada encuestado y luego calcularamos la varianza del encuestado dentro de su grupo de respuestas cuantificadas:
varianza (para un caso) =
1
1
[ai (ai
4
4
1
+ [bj (ai
4
1
+ [c k (ai
4
1
+ [dl (ai
4
+ bj + c k + dl )]2
+ bj + c k + dl )]2
+ bj + c k + dl )]2
+ bj + c k + dl )]2
(20.2)
C5
Imagen 20.3:
Mapa asimtrico (versin
matriz binaria) de la opinin
sobre la ciencia, que
muestra los encuestados en
coordenadas principales y
las categoras en
coordenadas estndares.
Cada encuestado se halla
en la media de sus cuatro
respuestas. El ACM minimiza
la suma de las distancias al
cuadrado entre los puntos
correspondientes a los
individuos y sus respuestas
0,413
A5
B5
#679
D1
B1
D5
C4
#521
A4
C1
A1
D2
B4
C2
1
0,457
A2
D4
C3 D3
A3
B2
B3
2
3
cuatro respuestas. Para cualquier configuracin de respuestas categricas, los encuestados se hallarn en la posicin media. El mapa que mostramos en la imagen
20.3 es ptimo en el sentido de que las lneas que unen los encuestados con las
categoras son las ms cortas posibles (en trminos de sumas de distancias al cuadrado). Llamamos diagrama de estrellas a los diagramas resultantes de unir los puntos correspondientes a los individuos con los de sus respuestas. Podramos decir
que el objetivo del ACM es la obtencin de diagramas de estrellas con las menores
distancias entre los individuos y sus respuestas en el sentido mnimo-cuadrtico. El
nmero de uniones entre los puntos correspondientes a los N encuestados y los
correspondientes a sus Q respuestas es NQ. La prdida de homogeneidad es la
media de los cuadrados de las uniones (por ejemplo, en (20.2) donde Q = 4,
dividimos la suma de los cuatro cuadrados por 4; para los N individuos dividimos
la suma de cuadrados por 4N). Por tanto, la media de la suma de las uniones al cuadrado en la primera dimensin es 1 0,457 = 0,513 y en la segunda dimensin es
1 0,413 = 0,587. Por el teorema de Pitgoras, la media de la suma de las uniones
al cuadrado en el mapa bidimensional de la imagen 20.3 es 0,513 + 0,587 = 1,100.
Fiabilidad y alfa de
Cronbach
En el ejemplo que nos ocupa con datos sobre la ciencia y el medio ambiente, vimos que la pregunta D no est muy correlacionada con las restantes (pg. 210).
En este contexto, si hubiramos querido obtener un indicador global de la opinin de la gente sobre la ciencia, hubiramos dicho que estos resultados nos
muestran que la pregunta D empeoraba la fiabilidad de la puntuacin total, y que
lo mejor habra sido eliminarla. En teora de fiabilidad suponemos que las Q preguntas o tems miden una estructura subyacente. La alfa de Cronbach es una medida estndar de fiabilidad definida como:
=
s2
Q
1 q q
Q 1
s2
(20.3)
donde sq2 es la varianza de la puntuacin del tem q-simo, q = 1,..., Q (por ejemplo,
las varianzas de a, b, c y d) y s2 es la varianza de la suma de las puntuaciones media
(por ejemplo, la varianza de (a + b + c + d )). Aplicando esta definicin a la primera
dimensin del resultado del ACM, vemos que la alfa de Cronbach se reduce a:
=
Q
1
1
Q 1 Q 1
(20.4)
donde 1 es la primera inercia principal de la matriz binaria. Por tanto, cuanto mayor sea la inercia principal, mayor ser la fiabilidad. Utilizando Q = 4 y 1 = 0,4574
(cuatro dgitos significativos para aumentar un poco la exactitud) obtenemos:
4
3
= 1
212
1
= 0, 605
4 0, 4574
213
RESUMEN:
Propiedades del
escalado ptimo del ACM