Você está na página 1de 13

Medidas de asociacin

Adrin Pignataro Escuela de Ciencias Polticas Universidad de Costa Rica

Introduccin Entre la descripcin y la causalidad se puede establecer un grado intermedio al examinar dos o ms variables: la asociacin.1 Con ella se puede entender que una caracterstica vara de forma conjunta con otra pero ello no basta para establecer una direccin de tipo causa-efecto (no hay una secuencia temporal donde la causa precede al efecto). Veamos algunos ejemplos: Existe una asociacin entre sistemas electorales y sistemas de partidos (empezando por Duverger, 1957). Las democracias tienden a no luchar entre s (tesis de la democracia-paz). Los ciudadanos con bajo estatus social (educacin e ingreso) son ms frecuentes entre aquellas personas polticamente inactivas. (Verba y Nie, 1972). La confianza social se relaciona con las redes de compromiso cvico (Putnam, 1993). El tamao de la poblacin de un pas se asocia con la existencia del federalismo (Lijphart, 1999).

Existen mltiples medidas de asociacin, cada una con distintas ventajas y desventajas, pero adems resultan especficas para la relacin entre los tipos las variables (nominales, ordinales, de intervalo, de razn). En esta leccin se vern dos mediadas de asociacin muy comunes, la primera para relacionar dos variables categricas (nominales) y la segunda para dos variables continuas (de intervalo o de razn). Prueba chi cuadrado para tablas de contingencia Cuando se tienen variables categricas (pueden ser medidas nominalmente u ordinalmente pero sin poner atencin al orden, es decir interpretndolas como nominales), como pueden ser sexo (hombre/mujer), grupo etario (jvenes/adultos/adultos mayores), participacin electoral (vot/no vot), entre muchas ms, es posible arreglar los datos de dos variables en un nico cuadro denominado tabla de contingencia.
1

Aunque en ocasiones se le llama tambin correlacin, se reservar este nombre para la medida en particular de correlacin de Pearson.

Estas tablas deben ser exhaustivas y mutuamente excluyentes: cada observacin (como personas encuestadas) debe pertenecer a una categora de cada variable (exhaustividad) y solamente a una categora (exclusividad mutua). Por ejemplo, con los datos de la encuesta de octubre-noviembre 2012 realizada por el CIEP se construy una tabla de contingencia al cruzar las variables categricas sexo y simpata partidaria (ver Cuadro 1). Ac cada persona encuestada se ubica en una categora de sexo y simpata partidaria y a la vez no puede estar en ms de una categora. Puesto que cada variable posee dos categoras, se genera una tabla de dos filas y dos columnas (de forma abreviada, una tabla 2 x 2).
Cuadro 1 Sexo y simpata partidaria (valores absolutos) Simpatiza con algn partido Sexo S No Hombres 69 166 Mujeres 85 225 Total 154 391 Fuente: CIEP (2012).

Total 235 310 545

La misma tabla puede verse en trminos relativos o de porcentajes, en tres sentidos. Primero, por el porcentaje de simpata segn sexo, es decir por columnas (Cuadro 2). Los datos de esta tabla se puede interpretar descriptivamente de la siguiente manera: entre los simpatizantes con algn partido hay 45% de hombres y 55% de mujeres, mientras entre los no simpatizantes existe un 43% de hombres y un 58% de mujeres.
Cuadro 2 Sexo y simpata partidaria Sexo Hombres Mujeres Total Fuente: CIEP (2012). Simpatiza con algn partido S No 44.8% 42.5% 55.2% 57.5% 100.0% 100.0% Total 43.1% 56.9% 100.0%

Tambin se pueden ordenar los porcentajes por filas como en el Cuadro 3. Mediante la lectura de la tabla de contingencia de sexo segn simpata partidaria se encuentra que en los hombres un 29% simpatiza por algn partido mientras un 71% no; entre las mujeres un 27% simpatiza con algn partido y un 73% no lo hace.
Cuadro 3 Sexo y simpata partidaria Sexo Hombres Mujeres Simpatiza con algn partido S No 29.4% 70.6% 27.4% 72.6% Total 100.0% 100.0%

Total Fuente: CIEP (2012).

28.3%

71.7%

100.0%

Finalmente es posible interpretar porcentajes en relacin con el total de la muestra bajo anlisis (Cuadro 4). Bajo esta lgica, se puede leer que un 13% del total de encuestados corresponden a hombres que simpatizan con algn partido, mientras un 41% son mujeres que no simpatizan con ninguno.
Cuadro 4 Sexo y simpata partidaria Sexo Hombres Mujeres Total Fuente: CIEP (2012). Simpatiza con algn partido S No 12.7% 30.5% 15.6% 41.3% 28.3% 71.7% Total 43.1% 56.9% 100.0%

Como es comn en el anlisis estadstico, luego de observar los datos se buscar alguna prueba que permita sostener inferencias sobre la relacin entre las variables, es decir, siguiendo el ejemplo anterior, hay alguna relacin entre el sexo y la simpata por partidos polticos? Para ello vamos a ver la prueba chi cuadrado de independencia para el caso de: (1) relacin entre dos variables nominales (es decir, categricas sin poner atencin al orden). (2) tablas f x c (es decir, no hay lmite para el nmero de filas y columnas). En primer lugar es necesario esclarecer qu se entiende por independencia. Existe independencia estadstica entre dos variables categricas cuando sus porcentajes segn alguna variable son iguales para cualquier categora de la otra variable. Por ejemplo, una tabla como la presente en el Cuadro 5 indicara independencia de la variable Y respecto a la variable X ya que no importa la categora de X (puede ser la 1 o la 2), el porcentaje segn Y es igual.
Cuadro 4 Ejemplo de independencia entre variables Variable X Categora 1 Categora 2 Total Variable Y Categora 1 120 (60%) 90 (60%) 210 (60%) Categora 2 80 (40%) 60 (40%) 140 (40%) Total 200 (100%) 150 (100%) 350 (100%)

Por lo tanto, con la prueba chi cuadrado se establecen las siguientes hiptesis: H0: las variables son estadsticamente independientes H1: las variables no son estadsticamente independientes (i.d. son dependientes) La prueba considera una tabla hipottica con valores independientes para establecer si es significativamente diferente de la tabla observada. Si el valor p obtenido es menor al alfa

establecido (vg. 0.05) se rechaza la hiptesis nula de independencia, es decir existe una asociacin entre ambas variables. La lgica del clculo es la siguiente. Recordando un poco la teora de probabilidades, se dice que dos eventos A y B son independientes si la probabilidad de que ocurran A y B es igual a la probabilidad de A multiplicada por la probabilidad de B. Por ejemplo, si se quiere saber cul es la probabilidad de sacar un 2 en un dado de seis caras y luego un 5, entonces se calcula:

Por consiguiente, con los datos del Cuadro 1, si se piensa que las probabilidades de ser hombre y simpatizar por un partido son independientes, entonces la probabilidad de la ocurrencia de ambas debe ser igual al producto de sus probabilidades:

Esta sera la probabilidad si los eventos son independientes, la cual al multiplicarse por el total de personas (545) permite calcular el llamado valor esperado: 65.4. Es decir, si fuesen independientes, debera haber 65 hombres con simpatas partidarias. Pero la frecuencia observada (real) es 69. Al calcular los valores esperados para cada celda (bajo el supuesto hipottico de que son categoras independientes) se utiliza una frmula para determinar la diferencia entre frecuencias reales y esperadas. Si la diferencia es estadsticamente grande (mayor a lo esperado por el azar), entonces no son independientes. Por el contrario, si los valores esperados son semejantes a los observados, se creera que las variables son independientes. Ntese que la prueba seala nicamente si son independientes, pero no la intensidad de la independencia. Para ello se puede recurrir al coeficiente V de Cramer la cual alcanza valores cercanos a 1 cuando la asociacin entre las variables es fuerte y 0 cuando es dbil. Procedimiento El procedimiento en SPSS se puede resumir as: Analizar ---> Estadsticos descriptivos ---> Tablas de contingencia Trasladar las variables a Filas y Columnas (el orden es a juicio propio). En Estadsticos seleccionar Chi cuadrado y Phi y V de Cramer. Continuar. Aceptar. Ejemplo Se quiere examinar si existe alguna relacin entre el sexo y el apoyo al Tratado de Libre Comercio entre Centroamrica, Repblica Dominicana y Estados Unidos con base en datos de una encuesta realizada a costarricenses (CIEP, 2012). Puesto que se tienen dos variables categricas (sexo es hombre o mujeres; apoyo al TLC es a favor o en contra) se construye una tabla de contingencia para estudiar la asociacin entre ambas.

En SPSS se busca en el men Analizar, Estadsticos descriptivos y Tablas de contingencia, con lo cual se abre la siguiente ventana:

Figura 1. Ventana de tablas de contingencia en SPSS

Primero se trasladan las variables hacia las casillas de filas y columnas. Luego en Estadsticas se solicita el clculo de la chi cuadrada y el Phi y la V de Cramer para variables nominales (estos dos ltimos estn en una misma opcin). Luego continuar.

Figura 2. Ventana para definir estadsticas en tablas de contingencia en SPSS

En Celdas pueden solicitarse los porcentajes segn columnas, filas o el total de la muestra. En este caso se pedir por filas para examinar cmo se distribuyen los hombres y mujeres segn el apoyo o no al TLC.

Figura 3. Ventana para definir celdas en tablas de contingencia en SPSS

Al ejecutar el procedimiento anterior, se obtiene entre los resultados una tabla de contingencia que combina las categoras sexo con el apoyo al TLC. Se observa que entre los hombres un 54% estuvo a favor y un 47% en contra, mientras entre las mujeres el 60% estuvo en contra y el 40% a favor.

Figura 4. Resultado de tablas de contingencia en SPSS

Luego se obtiene el resultado de la prueba chi cuadrado de independencia en la primera fila de la siguiente tabla. En ella se indica que el valor p (la significancia) es 0.005: la probabilidad de equivocarse rechazando la hiptesis de independencia es 0.005 e inferior a un nivel de

significancia usual como el 0.05. Por lo tanto las variables no son independientes y el sexo est asociado con el apoyo al TLC.

Figura 5. Resultado de la prueba chi cuadrado en SPSS

Ahora bien, se sabe que las variables estn relacionadas, pero cun fuerte es la asociacin? La ltima tabla del anlisis nos indica que el valor V de Cramer es 0.135. Es decir, la asociacin existe pero no es muy fuerte pues la medida oscila entre 0 (no hay asociacin) hasta 1 (asociacin muy fuerte).2

Figura 6. Resultado del coeficiente V de Cramer en SPSS

Correlacin bivariada: coeficiente de correlacin lineal de Pearson Para establecer la relacin entre dos variables mtricas o continuas, una de las medidas de asociacin ms utilizadas es el coeficiente de correlacin lineal de Pearson (abreviado por su smbolo r), el cual se ha convertido en una pieza de informacin fundamental en las investigaciones cuantitativas. La correlacin indica cun fuerte es una relacin lineal entre dos variables (que denominaremos X y Y) y sus valores oscilan entre -1 y 1, por lo que existe adems una direccin: nmeros positivos significan que cuanto mayor sea la X, mayor es la Y (y viceversa, a mayor Y mayor X), mientras los nmeros negativos indican una relacin inversa, a mayor X menor Y (y viceversa).
2

Ntese que por la instruccin en el men, SPSS otorga tambin el valor Phi de forma automtica. Esta medida tambin es para la relacin entre dos variables nominales, pero aplica solo para tablas 2 x 2 (dos filas por dos columnas) por lo que debe cuidarse que la interpretacin sea apropiada (ver Snchez, 2005 para mayor profundizacin entre las diferentes medidas existentes para tablas de contingencia).

Por ejemplo, si se calcula la correlacin entre edad en aos cumplidos e ingreso anual promedio, una correlacin mayor a 0 se interpretara como que cuantos ms aos tenga una persona, mayor ser su ingreso. Una correlacin menor a 0 es lo opuesto: a mayor edad, menor ingreso. Si la correlacin fuese 0, entonces las variables no estn correlacionadas. Ahora bien, surge la pregunta sobre cmo leer niveles intermedios de correlacin, como 0.7, -0.5, 0.2, etc. Aunque muchas veces los libros de texto ofrecen reglas de dedo para su interpretacin, la fuerza de la correlacin depende ms del rea de estudio. Por ejemplo, en un campo donde se sabe que la relacin entre dos variables es tericamente fuerte y en una investigacin se encuentra un r de 0.6, esta correlacin podra considerarse decepcionante y baja. Pero si tan solo se esperaba una tenue relacin entre dos variables, se puede ser menos exigente y considerar un r = 0.5 como moderadamente alto. Por supuesto que r iguales a 1 y -1 indican siempre correlacin lineal perfecta. A continuacin se observan algunos grficos de dispersin entre dos variables X y Y que ejemplifican distintos niveles de correlacin: la Figura 7 muestra datos con una alta correlacin positiva (r = 0.95), la Figura 8 otros con una baja correlacin positiva (r = 0.20) y la Figura 9 datos con una alta correlacin negativa o inversa (r = -0.75).3

Variable Y

-6

-4

-2

-2

-1

0 Variable X

r = 0.95
Figura 7. Ejemplo de una correlacin lineal positiva alta
3

Los grficos fueron creados con datos simulados mediante la funcin corgen del paquete ecodist en el software estadstico R. Una alternativa interesante consiste en el simulador de coeficientes de correlacin de Pearson del profesor Richard N. Landers, disponible en la siguiente direccin: http://rlanders.net/correlation.html.

Variable Y

-3

-2

-1

-2

-1

0 Variable X

r = 0.20
Figura 8. Ejemplo de una correlacin lineal positiva baja

Variable Y

-3

-2

-1

-2

-1

0 Variable X

r = -0.75
Figura 9. Ejemplo de una correlacin lineal negativa moderadamente alta

Por otra parte, es sumamente importante destacar que la correlacin de Pearson se establece para asociacin lineal entre variables, por lo que no aplica en relaciones curvilneas o de otro tipo no lineal. Una aplicacin sobre datos no lineales llevara a conclusiones errneas. Por ejemplo, en la Figura 10 se observa que el r de Pearson es igual a 0.97 implicando una correlacin casi perfecta aunque la relacin es curvilnea (de hecho es una funcin cuadrtica) por lo que la correlacin lineal de Pearson es inadecuada.

100

200

300

400

10 x

15

20

r = 0.97
Figura 10. Ejemplo de una falsa correlacin lineal positiva fuerte

Procedimiento En SPSS se utiliza la siguiente ruta: Analizar ---> Correlaciones ---> Bivariadas Trasladar las variables de inters. En Coeficientes de correlacin seleccionar Pearson. En Prueba de significacin dejar Bilateral. Aceptar. Ejemplo En la encuesta de octubre-noviembre 2012 del CIEP se pregunt por calificaciones de 0 a 10 para diversas instituciones. Supngase que un grupo de investigadores piensa analizar la percepcin sobre instituciones sin control partidario directo, como la Sala Constitucional (o Sala Cuarta) y el Tribunal Supremo de Elecciones (TSE). Se esperara que una mayor calificacin en la primera se

relacione con otra mayor en la segunda, por lo que la correlacin de Pearson ofrecera una medicin pertinente de la asociacin. En la opcin de Correlaciones Bivariadas en SPSS se seleccionan ambas variables de la base de datos correspondiente. Se especifica la utilizacin del coeficiente de Pearson y la significancia Bilateral.

Figura 11. Ventana de correlaciones bivariadas en SPSS

Luego se obtiene como resultado una matriz de correlaciones entre la calificacin del TSE y la Sala Constitucional. El coeficiente de Pearson entre las dos es de 0.418, lo cual se puede interpretar como moderadamente alto ya que el estudio es exploratorio y no se tenan muchas expectativas de antemano para la relacin entre variables. Al ser r mayor a 0 se puede constatar que la relacin es positiva: un mayor puntaje al TSE se relacin como mayor puntaje a la Sala Cuarta.

Figura 12. Resultado de correlaciones bivariadas en SPSS

Ntese que la matriz de correlacin se caracteriza por ser simtrica: su diagonal acta como un espejo entre dos tringulos. As la correlacin entre TSE y Sala Cuarta se encuentra tanto en la esquina inferior izquierda como en la superior derecha. En la diagonal estn las correlaciones de la cada variable con ella misma: como es lgico esta correlacin es perfecta. Adems se obtiene un nivel de significancia que indica la probabilidad de rechazar la hiptesis nula de que la correlacin sea cero en la poblacin. En estos casos se puede rechazar la hiptesis nula con un nivel de significancia de 0.05. Vale aclarar que aunque es comn encontrar el valor p para la correlacin de Pearson, lo usual es centrarse en la magnitud de la correlacin, pues si es alta difcilmente no ser significativa. Comentarios finales Las medidas de asociacin son muchas ms de las que se abarcaron ac, que son especficas para relaciones entre variables nominales, por un lado, y entre variables continuas, por el otro. Para variables ordinales, o combinaciones de nominales con continuas, es necesario aplicar otros mtodos y medidas (cfr. Gutirrez-Espeleta, 2010). Las tcnicas vistas se utilizan en relaciones bivariadas o de dos variables. Como extensin para incorporar mayor nmero de variables en las tablas de contingencia es posible aplicar modelos denominados log-lineales y modelos de regresin logsticos (estos ltimos se vern ms adelante). Igualmente la correlacin simple bivariada que se estudi no permite controlar por otras variables simultneamente, lo cual implica que se podra est observando una relacin espuria. Por ello es recomendable utilizar modelos de regresin (por mnimos cuadrados ordinarios) para construir modelos con ms de dos variables. Finalmente recurdese que se ha hablado nicamente de asociacin y no de relacin causas-efectos. Una vez ms, para esto ltimo se puede aplicar el anlisis de regresin. Referencias CIEP. (2012). Estudios de Opinin Sociopoltica. Encuesta octubre-noviembre 2012 [archivo de datos SPSS]. Centro de Investigacin y Estudios Polticos, Universidad de Costa Rica. Duverger, Maurice. (1957). Los partidos polticos. Mxico: FCE. Gutirrez-Espeleta, dgar. (2010). Mtodos estadsticos para las ciencias biolgicas. Heredia: UNA. Hernndez, scar. (2010). Elementos de probabilidades e inferencia estadstica para Ciencias Sociales. San Jos: Editorial UCR. Hernndez, scar. (2012). Estadstica elemental para Ciencias Sociales. San Jos: Editorial UCR. Lijphart, Arend. (1999). Patterns of Democracy. Government Forms and Performances in ThirtySix Countries. New York: Yale University Press.

Putnam, Robert D. (1993). Making Democracy Work. Civic Traditions in Modern Italy. Princeton: Princeton University Press. Snchez Ramos, Miguel ngel. (2005). Uso metodolgico de las tablas de contingencia en la Ciencia Poltica. Espacios Pblicos, 8(16), 60-84. Verba y Nie. (1972). Participation in America. Political Democracy and Social Equality. Chicago y London: The University of Chicago Press.

Você também pode gostar