Escolar Documentos
Profissional Documentos
Cultura Documentos
Análisis bivariado
Baranger. Técnicas elementales de análisis.
Lectura de título de tabla → VI según VD (por VC). Lugar. Fecha.
Zeisel → Dígalo con números
Primera regla de Zeisel → “Los porcentajes se calculan en el sentido de la variable independiente y
se comparan en el sentido de la variable dependiente”
Análisis asimétrico ≠ Análisis simétrico
− Asimétrico apto para analizar la existencia de una relación de dependencia entre
las dos variables.
− Simétrico Se calculan todos los porcentajes en función del Total. Es para un
análisis aún más descriptivo.
2) Chi cuadrado → Prueba de significación estadística. Se basa en una medida de cuánto se apartan
las frecuencias condicionales más populares y se basa en una medida de cuánto se apartan las
frecuencias condicionales observadas en la muestra de lo que serían las frecuencias esperables si no
existiera ninguna relación entre las variables. El test consiste en medir cuánto se desvían las
frecuencias observadas respecto a las esperadas, debiendo entenderse que el conjunto de las
frecuencias esperadas configura sólo un modelo posible de no-asociación basado en la idea de
independencia estadística.
Este valor sólo cobra sentido cuando se lo compara con el valor crítico o teórico de la tabla de chi
cuadrado. El valor crítico depende del nivel de significación (confianza) con el que deseemos
trabajar y del número de grados de libertad
Grados de libertad → gf = (filas – 1) x (columnas – 1). Representan el número mínimo de celdas que
es suficiente para que queden determinadas todas las frecuencias condicionales.
Si el caso es contrario, (x2 < VC), habrá que concluir que no se puede rechazar la hipótesis nula; la
relación no es estadísticamente significativa (al menos no con ese porcentaje de confianza).
El test de x2 puede ser de utilidad para determinar si una relación entre dos variables es
estadísticamente significativa. La significación estadística no es sinónimo ni de “relevancia teórica”,
ni de “importancia práctica”. El nivel de significación se encuentra dependiendo en relación
directa de dos factores: la fuerza de la relación entre las variables y el tamaño de la muestra. En
muestras muy grandes x2 puede producir un valor estadísticamente significativo aunque la relación
entre las variables sea muy débil.
0 = independencia estadística.
1 (+ o -) = asociación perfecta.
1. Tipo de hipótesis
a. Diagonal b. Rinconal
2. Tipo de variable
a. Nominal b. Ordinal
3. Cantidad de categorías
− Simétricas. No presuponen que alguna de las dos variables sea la independiente. Se eligen
cuando buscamos estudiar la forma en que las dos variables covarían o se relacionan entre
sí.
− Asimétricas. Presuponen que una de las variables es independiente y otra dependiente. Se
eligen cuando se busca la explicación y/o predicción de una variable dependiente.
Se puede caracterizar la relación entre dos variables mediante el estudio de las siguientes
características:
2) Grado o fuerza: Altos o bajos valores de diferencia porcentual. No obstante, es difícil determinar
con precisión el significado de un valor determinado, no existe una escala con un valor mínimo y un
valor máximo entre los que puedan variar los valores obtenidos. Por dicha razón se utilizan otro tipo
de índices “estandarizados”: coeficientes de asociación.
3) Dirección: Sólo cabe hablar de ella cuando las variables se han medido, como mínimo, al nivel
ordinal. Cuando en una tabla la tendencia de variación conjunta de las dos variables es a que los
valores altos de una variable se corresponden con los valores altos de la segunda variable cabe
hablar de una asociación positiva. Por el contrario, cuando los valores superiores de una variable se
corresponden con los valores bajos de la segunda, y los valores altos de la segunda se corresponden
con los valores bajos de la primera, se dice entonces que la dirección de la asociación es negativa.
4) Naturaleza: Se refiere a la forma general en que se distribuyen los datos en la tabla. Se describe
mediante el examen de las distribuciones de los porcentajes. Cuando, al pasar de una categoría a
otra de una variable, el número de casos tiende a incrementarse (o disminuir) de forma bastante
homogénea entre las correspondientes categorías de la otra variable, se produce una asociación
“lineal”: los casos se concentran en la variable dependiente siguiendo una línea recta. Aunque con
frecuencia los datos sociológicos se distribuyen siguiendo formas curvilíneas o de otra naturaleza.
Los investigadores necesitan medidas resumen, medidas que en un solo índice indique la existencia,
grado y dirección de la asociación entre dos variables. Tales valores se hacen pasar entre -1, 0 y 1.
Están estandarizadas y tipificadas.
Tipo de hipótesis
Tipo de variable/Q Categorías Diagonal Rinconal
Nominal +2C V de Cramer
Nominal/Ordinal 2C Phi Q de Yule
Ordinal +2C Tau-b Gamma
García Ferrando. Capítulo 9. Medidas de asociación para variables de intervalo:
regresión y correlación.
Al tratar de estudiar el tipo de relación existente entre dos variables de intervalo aparecen dos
conceptos que conviene diferenciar.
Correlación ≠ Regresión
− Correlación. Covariación. Estudio de la variación conjunta de dos variables, su grado,
intensidad y dirección o sentido.
− Regresión. Predicción de resultados.
Regresión: predicción.
Siempre que se disponga de dos variables intervalares debemos tratar de definir la función que
relaciona a ambas variables, tratando de especificar la forma y el significado de la misma. Si los datos
confirman la relación, podría hablarse de una relación lineal entre variables. No siempre el tipo de
relación entre dos variables es tan sencilla como una relación lineal, apareciendo entonces
relaciones curvilíneas. Pero, como aproximación, la relación lineal es con frecuencia una buena
aproximación.
La forma más simple y clara de expresar una relación entre variables es a través de una ecuación
matemática. La relación en forma de una ecuación matemática podría permitir la predicción de la
puntuación de Y (variable dependiente) a partir del conocimiento de la correspondiente puntuación
en X (variable independiente).
Regresión lineal simple. Las predicciones se distribuyen a lo largo de una línea recta, por lo que se
dice que las variables X e Y están relacionadas linealmente. La fórmula que relaciona a X e Y
incorpora un término constante que representa el punto donde la línea recta corta el eje Y, y un
término constante que es el multiplicador de X. La ecuación que relaciona ambas es → Y = a + b.X
Criterio de los mínimos cuadrados → Consiste en encontrar la línea recta que tenga la propiedad de
que la suma de los cuadrados de las desviaciones de los valores reales de Y en relación a dicha
recta sea mínima. De este modo, si trazamos las líneas verticales que unen a cada punto con la línea
de mínimos cuadrados, y si elevan al cuadrado tales distancias, la suma resultante será la menor
posible de todas las sumas de cuadrados que se puedan calcular en relación a cualquier otra recta.
Es una medida de correlación entre dos variables de intervalo y que sus valores extremos son -1 y
+1. Los valores de r indican tanto la dirección como el grado (fuerza) de la asociación.
AHORA BIEN. → Resulta ser MUY SENSIBLE a la presencia de unos pocos valores extremos en una de
las dos variables.
NO OBSTANTE → r puede ser 0 pero no significa ausencia de relación completamente → puede ser
una relación curvilínea. Cuando el investigador encuentra r=0, no puede concluir de inmediato que
las variables no se encuentran relacionadas. Resulta conveniente la inspección del diagrama de
dispersión.
El coeficiente pearsoniano de correlación r es una medida de asociación del tipo que hemos
denominado aquí “reducción proporcional del error”. Elevado al cuadrado, r2 expresa la reducción
proporcional en el error cometido al predecir valores. Dado que la regresión de Y en X y la regresión
de X en Y tienen ambas la misma cantidad de dispersión alrededor de sus respectivas rectas de
regresión, resultará el mismo coeficiente de correlación de ambas ecuaciones. Por tanto, r es una
medida simétrica del grado de correlación. Dicho en otros términos, r2 representa la proporción de
la variación en una variable que queda explicada por su asociación lineal con otra variable.
Consideraciones finales
La consideración del nivel de medición de las variables es determinante a la hora de seleccionar una
medida de asociación apropiada. Si se utiliza una medida de bajo nivel de medición con datos
definidos a un nivel más alto de medición se perderá una información apreciable, mientras que si se
hace lo contrario, esto es, utilizar una medida de alto nivel con datos de bajo nivel → error
estadístico. Es preciso adecuar la selección de una medida de asociación apropiada al nivel de
medición de los datos que disponemos.
La selección de una medida concreta de asociación para resolver un problema determinado será,
pues, el resultado de ponderar una serie de decisiones en relación a los diferentes aspectos
analizados, alcanzando un óptimo por lo que se refiere a los fines de la investigación y al tipo de
información que suministra el coeficiente elegido.
El sociólogo tiene pocas oportunidades de realizar experimentos sociales con los que contrastar sus
teorías y poner a prueba las hipótesis sobre relaciones causales entre variables. En realidad, hay que
conformarse la mayor parte de las veces con ilustrar sus teorías con la obtención de datos empíricos
por medios no experimentales, que suelen tener un alcance limitado. Incluso si su teoría postula la
existencia de una relación causal entre dos variables, y al realizar una encuesta encuentra que tales
variables se encuentran fuertemente asociadas, no se puede concluir de ello que, en efecto, tales
variables estén causalmente relacionadas. La causalidad estará implícita en la teoría, pero no lo
está en absoluto en la asociación o correlación. Esta hay que interpretarla como una covariación o
una influencia de una variable en otra. Pero para inferir causalidad hace falta bastante más que la
existencia de una fuerte covariación. Por eso conviene tener siempre presente que ni la asociación
ni la correlación significan causación.
Dicho en otras palabras, uno de los objetivos del diseño experimental es explicar un fenómeno
socila de la manera más completa posible, dando cuenta de las variables que podrían explicar la
ocurrencia de dicho fenómeno.
Por esta razón en ciencias sociales más que hablar de experimentación en sentido clásico, nos
referimos al concepto de explicación. Hablar de análisis explicativo implica la presencia de tres
condiciones necesarias:
En síntesis, tomando las tres condiciones, podemos afirmar que en el análisis multivariado se
presenta una explicación de la relación entre dos variables, donde además de demostrar la
covariación que existe entre ambas, debemos explicitar la secuencia temporal que establecen
entre sí y garantizar que esa relación esté controlada, a la luz de otras variables que podrían estar
afectando esa relación.
1) La posible existencia de una relación espuria, una relación que en principio parecía existir
entre dos variables pero que sólo se manifiesta por la existencia de una tercera variable
que produce la relación
2) La explicación de la variable dependiente por la independiente demostrando la no
influencia de la variable de control en la relación
3) La existencia de determinadas condiciones bajo las cuales una relación se manifiesta, esto
es especificando las situaciones en las que dicha relación se presenta.
Correlación parcial → mide el grado de relación existente entre dos variables pero en función del
control que se ejerce sobre una o más variables. Es posible pensar que otras variables, por fuera del
modelo bivariado presentado anteriormente, se encuentren influyendo en distinta medida en la
relación original. Estas otras variables podrían incidir en la relación original, siendo causantes de las
variaciones presentadas en la correlación lineal.
El coeficiente de correlación parcial debe ser considerado como la correlación que queda entre la
variable independiente y la variable dependiente una vez suprimidos los efectos de la variable de
control. En definitiva, con la correlación parcial se procura explicar el comportamiento de la
variable dependiente a partir de la variable independiente con una variable de control. Varía entre
1 y -1 y su resultado se interpreta de forma similar al de la correlación simple. Aporta hacia una
explicación de tipo parcial.
Correlación múltiple → Trabajar con un cúmulo de variables independientes sobre una variable
dependiente, midiendo el peso en la explicación de la covarianza de cada una. Construcción de la
mejor combinación del peso que cada variable independiente aporta en la medición de la variable
dependiente que procura explicarse. Esta técnica supone que existen más de dos variables
correlacionadas y que es posible determinar la forma como se comportan las diversas
correlaciones a nivel bivariable.
En el segundo orden, el más importante, debe suponerse y plantear de una manera concreta cuál de
las VI se espera tenga un mayor poder explicativo. Jerarquización de las variables independientes
para el modelo de segundo orden.
Cuando la meta del análisis es probar una hipótesis bivariable del tipo diagonal o rinconal, el papel
más importante del análisis multivariable es que proporciona los sustitutos lógicos del control
experimental en estudios de laboratorio. Sin tales sustitutos no hay control experimental, y la
verificación empírica sería suficiente.
El procedimiento usual en las ciencias sociales para realizar estudios científicos consiste en la
manipulación simultánea de diversas variables o atributos. Esta función del análisis multivariable de
acercar el proceso de investigación al modelo experimental puro NO es la única. Pero el análisis
multivariable no tiene por propósito únicamente asegurar condiciones satisfactorias de control. El
interés sustantivo del análisis multivariable radica en que permite poner a prueba hipótesis más
complejas que las hipótesis bivariables vistas. En rigor, si las condiciones de control son
introducidas mediante criterios teóricos, son derivadas de algún cuerpo teórico más general.
El esquema comporta tres variables, una de las cuales es introducida como variable interviniente, o
de prueba, en una relación original bivariable. Pero no debe perderse de vista que el esquema,
como tal, es aplicable a situaciones con cualquier número de variables.
Conclusiones
La correlación simple entre las nuevas variables ajustadas ES la correlación parcial. De hecho, para
calcular el coeficiente de correlación parcial se parte de la matriz de correlaciones –bivariables–,
siendo estos los valores que se introducen en el cálculo.
Utilización → Puede emplearse con diversos fines de investigación. Utilizada adecuadamente resulta
ser una técnica apropiada para descubrir relaciones espurias y para localizar variables intervinientes.
Correlación múltiple → Dado que el interés del investigador se centra más en la capacidad
explicativa de las VI que en el tipo de relación entre VD y VI, se puede preferir utilizar el
coeficiente de correlación múltiple R, el cual mide el grado de ajuste del plano de regresión de
mínimos cuadrados a los datos. Otra forma de concebir la correlación múltiple es simplemente
como la correlación existente entre los valores reales u observados en la VD, y los valores de la VD
estimados por la ecuación de regresión múltiple.