Escolar Documentos
Profissional Documentos
Cultura Documentos
Conocer el grado de relacin o asociacin entre dos variables: anlisis mediante el coeficiente de
correlacin lineal de Pearson. Para representar esta relacin se puede utilizar una representacin grfica
llamada diagrama de dispersin
2. Aplicar un modelo matemtico y estimar el valor de una variable en funcin del valor de otra variable o
de otras variables. Se trata del modelo de anlisis de regresin simple en el primer caso y el modelo de
anlisis de regresin mltiple en el segundo caso (ms de una variable)
Anlisis de Correlacin
En ocasiones nos puede interesar estudiar si existe o no algn tipo de relacin entre dos variables aleatorias. El
coeficiente de correlacin mide la fuerza o el grado de asociacin entre dos variables. No predice una variable a
partir de otras sino que estudia el grado de asociacin que hay entre las variables. En cambio, en el anlisis de
regresin se efectan predicciones de una variable o ms (variable predictora) sobre una variable criterio.
El coeficiente de correlacin lineal de Pearson (r) permite medir el grado de asociacin entre dos variables y
el sentido de su relacin (positivo o negativo). Las variables tienen que ser cuantitativas y medidas en escala de
intervalo. Sus valores oscilan desde -1 hasta 1. La hiptesis nula seala que r = 0 en la poblacin ( = 0)y la
hiptesis alternativa que r 0 ( 0). El coeficiente de correlacin es un ndice de tamao del efecto pues
indica la magnitud de la relacin encontrada entre dos variables.
Se puede dibujar un grfico de dispersin o nube de puntos que nos orienta sobre la direccin de la relacin
(positiva o negativa) y sobre la magnitud. En concreto, respecto a la magnitud de la relacin, cuanto ms ancha
sea la nube de puntos menor relacin entre las variables. En cambio, cuanto ms estrecha sea la nube de puntos
mayor ser la relacin (correlacin) entre las variables y ms acertados los pronsticos de Y en funcin de X
pues el error de estimacin ser menor. Una correlacin lineal nula se representa por un conjunto de puntos
donde resulta casi imposible dibujar una recta. En este caso, no puede establecerse ningn tipo de relacin entre
X e Y.
Correlacin lineal directa: el valor de r se aproxima a +1, es decir, valores mayores de X se vinculan
con valores mayores de Y. Cuando aumentan los valores de una variable tambin aumentan los valores
de la otra variable
Correlacin lineal inversa: el valor de r se aproxima a -1, es decir, valores mayores de una variable se
asocian con valores menores en la otra variable. Cuando aumentan los valores de una variable
disminuyen los valores de la otra variable
Conviene tener en cuenta dos cuestiones. Primero, a travs de los resultados de un coeficiente de correlacin no
se puede hablar de relaciones de causalidad. Dos, un coeficiente de correlacin de Pearson igual a cero
indica que no hay ningn tipo de relacin lineal entre las variables pero quizs podra haber relacin no lineal.
El coeficiente de correlacin de Pearson se utiliza cuando se postula una relacin lineal entre las variables.
Por ejemplo, entre rendimiento y atencin la relacin es de tipo U invertida (no lineal) y ah no sera adecuado
efectuar un coeficiente de correlacin de Pearson.
Se puede realizar un contraste de hiptesis para comprobar si la correlacin entre las variables va ms
all del azar (con t de Student y n-2 grados de libertad). Y la interpretacin del contraste de hiptesis
mediante el coeficiente de correlacin es la misma que se hace ante con la prueba de hiptesis tipo t de
Student o F del anlisis de la varianza. Se trata de comparar el valor de alfa planteado a priori con el
valor p de probabilidad vinculado al valor del coeficiente de correlacin obtenido.
Desde el supuesto de la Hiptesis nula se trata de demostrar que la distribucin
muestral de correlaciones procedentes de una poblacin caracterizada por una
correlacin igual a cero sigue una distribucin de Student con N-2 grados de libertad.
El numerado es la diferencia entre los valores de correlacin (obtenido y el postulado
por la hiptesis nula) y el denominador es la desviacin tpica.
:
4
2. Normalidad y equidistribucin de los residuos. Si el valor del estadstico Durbin Watson est
prximo a 2 entonces los residuos no estn autocorrelacionados. Si su valor es 0 hay
autocorrelacin perfecta positiva. Si vale 4 existe autocorrelacin perfecta negativa.
3. Colinealidad. Si dos variables independientes estn muy relacionadas entre s y se incluyen en el modelo
es muy probable que ninguna de las dos resulte estadsticamente significativa. En cambio, si se incluye
una sola de ellas s podra resultar estadsticamente significativa. El investigador debe examinar los
coeficientes para ver si se vuelven inestables al introducir una nueva variable. Si eso sucede entonces
existe colinealidad entre la nueva variable y las anteriores.
4. Nmero de variables independientes. Como regla general al menos tienen que existir 20 observaciones
por cada variable independiente que se considere a priori como tericamente relevante. Si utilizamos
menos observaciones por variable es muy probable que aumente el error de Tipo II, es decir, disminuya
la potencia estadstica del diseo de investigacin.
Bondad del ajuste
Una vez ajustada la recta de regresin a la nube de observaciones es importante disponer de una medida que
mida la bondad del ajuste realizado y que permita decidir si el ajuste lineal es suficiente o se deben buscar
modelos alternativos. Como medida de bondad del ajuste se utiliza el coeficiente de determinacin
Por lo tanto, la bondad de ajuste del modelo se interpreta con el valor de R2 (conocido como coeficiente de
determinacin).
El coeficiente de determinacin (R2) indica la proporcin del ajuste que se ha conseguido con el modelo lineal.
Es decir, multiplicado por 100 seala el porcentaje de la variacin de Y que se explica a travs del modelo
lineal que se ha estimado a travs de las variables X (independientes). A mayor porcentaje mejor es nuestro
modelo para predecir el comportamiento de la variable Y. Recordar que esto mismo es eta cuadrado en el
modelo de ANOVA.
El coeficiente de determinacin (R2) tambin se puede interpretar como la proporcin de varianza explicada por
la recta de regresin y su valor siempre estar entre 0 y 1. Cuanto ms se acerque a uno mayor es la proporcin
de varianza explicada. Una cuestin, a medida que se introducen ms variables independientes mayor ser el
valor de R2. Para evitar este posible sesgo, es mejor interpretar R2 corregida ya que su valor disminuye
cuando se introducen variables independientes innecesarias.
La matriz de correlaciones entre las variables nos ayuda para identificar correlaciones lineales entre las
variables. La variable dependiente y las independientes pueden estar correlacionadas pero detectar
correlaciones entre pares de variables independientes es un problema que afecta a la colinealidad y alguna de
ellas deber ser eliminada del modelo.
El coeficiente de determinacin (R2) es el coeficiente de correlacin al cuadrado. Es decir, representa el valor
del tamao del efecto y se corresponde con eta cuadrado (2) del ANOVA.
R2 indica la proporcin de las variaciones explicadas por el modelo de regresin. Se trata de la varianza
explicada por las variables explicativas o predictorasdel modelo lineal.
1-R2 indica la proporcin de las variaciones no explicadas por el modelo de regresin. Se trata de la
varianza no explicada por las variables explicativas o predictoras, es decir, se atribuye al error.
5
Si la correlacin fuese perfecta (1; -1) entonces el coeficiente de determinacin sera 1. Es decir, todos los
puntos estaran situados a lo largo de la recta de regresin y no habra error de estimacin (diferencia entre
puntuacin obtenida y puntuacin pronosticada por el modelo).
El error tpico de estimacin es un concepto semejante al de la desviacin tpica (mide la dispersin
alrededor de la media) y en el anlisis de regresin mide la dispersin de los datos alrededor de la recta de
regresin estimada.
6
obtendramos para distintos valores de X. Estos conceptos quedarn representados en lo que se llama diagrama
de dispersin:
Modelo de regresin
Una modelo de regresin se representa como:
eje de abscisas, ms concretamente, cunto cambio se produce en Y por cada unidad de incremento en X. En
este sentido, representa un indicador de la relevancia del efecto que los cambios en X tienen sobre Y.
1
Cuando para los coeficientes b se estiman valores no estadsticamente significativos (cercanos al cero) entonces
la variable asociada se elimina del modelo. En caso contrario s se considera la variable asociada de inters y se
introduce en el modelo de regresin.
Interpretacin del modelo de regresin
7
La hiptesis nula seala que la variable respuesta o dependiente Y no est relacionada con las variables
independientes o predictoras X. La significacin estadstica de los contrastes se realiza ejecutando un anlisis
de la varianza.
El programa estadstico analiza la significacin estadstica de los coeficientes vinculados a las variables
independientes. Si alguno de ellos no resulta estadsticamente significativo se puede eliminar del modelo para
simplificar. Pero, muy importante, si al eliminar una variable cambian los coeficientes del resto de
variables independientes, incluso podran cambiar de signo, entonces muy posiblemente se trata de una
variable de confundido (tercera variable que acta como variable mediadora) que habr que controlar
en el diseo de investigacin. En ese caso se debe dejar en el modelo aunque su coeficiente no sea
estadsticamente significativo.
Modelos de regresin mltiple
El modelo de regresin mltiple permite estudiar la relacin entre varias variables independientes (predictoras o
explicativas) y otra variable dependiente (criterio, predicha o respuesta).
Por ejemplo se puede estudiar el coeficiente intelectual como variable predicha utilizando el tamao del cerebro
y el sexo como variables predictoras independientes.
Conviene siempre tener muy presente que los modelos de regresin (en general el modelo lineal general) no
permiten hablar de causa-efecto. Eso es una cuestin que solamente el diseo de investigacin y la metodologa
empleada pueden resolver. Nada que ver con la tcnica estadstica por s sola.
La relacin entre las variables (colinealidad) tambin es otra cuestin que hay que tener en cuenta a la hora de
interpretar un modelo de regresin.
8
MtodoIntroducir. Procedimiento para la seleccin de variables en el que todas las variables de un bloque
se introducen en un solo paso. Es el mtodo por defecto. Es nuestra opcin.
Mtodopasos sucesivos. En cada paso se introduce la variable independiente que no se encuentre ya en la
ecuacin y que tenga la probabilidad para el estadstico razn F ms pequea, si esa probabilidad es
suficientemente pequea. Las variables ya introducidas en la ecuacin de regresin se eliminan de ella si su
probabilidad para F llega a ser suficientemente grande. El mtodo termina cuando ya no hay ms variables
candidatas a ser incluidas o eliminadas.
En Variable de seleccin se traslada una variable que limite el anlisis a un subconjunto de casos que tengan un
valor particular para esta variable. Con Regla se puede definir el subconjunto de casos que se emplearn para
estimar el modelo de regresin. Por ejemplo si se define con regla que es 4 entonces solamente se incluirn en
el anlisis los casos para los que la variable de seleccin tenga un cuatro. Permite valores de cadena.
En Etiquetas de caso se designa una variable para identificar los puntos de los grficos. Para cada punto de un
diagrama de dispersin podemos utilizar la herramienta de seleccin de puntos y mostrar el valor de la variable
de etiquetas de casos correspondiente al caso seleccionado.
Ponderacin MCP. Permite obtener un modelo de mnimos cuadrados ponderados. Los puntos de los datos se
ponderan por los inversos de sus varianzas. Esto significa que las observaciones con varianzas grandes tienen
menor impacto en el anlisis que las observaciones asociadas a varianzas pequeas.
-Guardar El botn Guardar nos permite guardar los valores pronosticados, los residuos y medidas
relacionadas como nuevas variables que se aaden al archivo de datos de trabajo. El SPSS crea dos nuevas
variables en el editor de datos RES_1 y PRE_1 que recogen los residuos y las predicciones respectivamente.
Los valores pronosticados son los valores que el modelo de regresin predice para cada caso. Pueden ser:
1. No tipificados. Valor pronosticado por el modelo para la variable dependiente.
2. Tipificados. Cada valor pronosticado menos el valor predicho medio y dividido por la desviacin tpica de
los valores pronosticados. Los valores pronosticados tipificados tienen una media de 0 y una desviacin tpica
de 1.
Los valores de los residuos es el valor de la variable dependiente menos el valor pronosticado por la
regresin. Pueden ser de dos tipos:
1. No tipificados. Diferencia entre el valor observado y el valor pronosticado por el modelo.
2. Tipificados. El residuo dividido por una estimacin de su error tpico. Los residuos tipificados, que son
conocidos tambin como los residuos de Pearson o residuos estandarizados, tienen una media de 0 y una
desviacin tpica de 1.
- Opciones El botn Opcionesnos permite controlar los criterios por los que se eligen las variables para
su inclusin o exclusin del modelo de regresin, suprimir el trmino constante y controlar la manipulacin
de los valores perdidos.
Cuando accedemos a la opcin de Estadsticos sealaremos las estimaciones de los coeficientes de regresin,
los descriptivos, los estadsticos de ajuste del modelo, la prueba de Durbin-Watson y los diagnsticos de la
colinealidad.
-Ajuste del modelo. Muestra el coeficiente de correlacin mltiple (R mltiple), y su cuadrado (R , coeficiente
de determinacin, que expresa la proporcin de varianza de la variable dependiente que est explicada por la
variable o variables independientes), la R cuadrado corregida y el error tpico de la estimacin (desviacin
tpica de los residuos). Tambin, una tabla de ANOVA muestra las sumas de cuadrados, los grados de libertad,
las medias cuadrticas, el valor del estadstico F y el nivel crtico (Sig.) de la F.
-Cambio en R cuadrado. Nos muestra el cambio en el estadstico R2 que se produce al aadir o eliminar una
variable independiente. Si el cambio en R2 asociado a una variable es grande, significa que esa variable es un
buen predictor de la variable dependiente.
-Descriptivos. Muestra las medias de las variables, las desviaciones tpicas y la matriz de correlaciones con las
probabilidades unilaterales.
-Correlaciones parcial y semiparcial. Muestra las correlaciones de orden cero, semiparcial y parcial. Los
valores del coeficiente de correlacin van de -1 a 1. El signo del coeficiente indica la direccin de la relacin y
su valor absoluto indica la fuerza de la relacin. Los valores mayores indican que la relacin es ms estrecha.
La correlacin parcial seala el grado de asociacin lineal de cada variable independiente frente a la
dependiente excluyendo el resto de las variables independientes. Permite observar si se cumple la hiptesis de
linealidad.
-Diagnsticos de colinealidad. Muestra las tolerancias para las variables individuales y una variedad de
estadsticos para diagnosticar los problemas de colinealidad. La colinealidad (o multicolinealidad) es una
situacin no deseable en la que una de las variables independientes es una funcin lineal de otras variables
independientes. Hay dos procedimientos: tolerancia y factor de inflacin de la varianza (FIV). Valores bajos de
tolerancia o altos para FIV supone que existe colinealidad. Conviene tener en cuenta que estos mtodos no
sealan las variables implicadas.
Residuos. Este recuadro nos permite seleccionar una de las opciones:
10
-Durbin-Watson: Muestra la prueba de D-W para los residuos correlacionados serialmente. ste estadstico
oscila entre 0 y 4 y toma el valor 2 cuando los residuos son completamente independientes. Los valores
mayores de 2 indican autocorrelacin positiva y los menores de 2 autocorrelacin negativa. Suele asumirse que
los residuos son independientes si el estadstico de D-W est entre 15 y 25. Tambin muestra estadsticos de
resumen para los residuos y los valores pronosticados.
-Diagnsticos por caso: Indica los valores por encima o por debajo de n veces alguna desviacin tpica. Es
decir, seala los valores atpicos que producen un gran residuo.
Grficos
Con el botn Grficos obtenemos el cuadro de dilogo siguiente:
En la lista fuente tenemos la variable dependiente (DEPENDT), los valores predichos estandarizados (ZPRED),
los residuos estandarizados o tipificados (ZRESID), los residuos eliminando la puntuacin del sujeto (DRESID)
y los valores predichos ajustados (SDRESID).
Si se representan los residuos tipificados frente a las predicciones podremos contrastar la linealidad y la
igualdad de las varianzas.
-Dispersin 1 de 1. Nos muestra los diagramas de dispersin que queramos de la lista de la izquierda, para cada
par de variables, alternando anterior y siguiente.
-Grficos de residuos tipificados. En este recuadro podemos elegir uno de los grficos:
- Histograma: Crea un histograma de los residuos tipificados con una curva normal superpuesta.
- Grfico de probabilidad normal: Muestra un grfico de probabilidad normal de los residuos
tipificados. Se usa para comprobar la normalidad de los residuos tipificados. Si la variable se distribuye
normalmente, los puntos representados forman una lnea recta diagonal.
-Generar todos los grficos parciales. Genera todos los diagramas de dispersin de la variable dependiente
con cada una de las variables independientes. En la ecuacin tienen uqe haber al menos dos variables
independientes para que se generen los grficos parciales.
Interpretacin de los grficos.
1. Representar los residuos tipificados o estudentizados (ZRESID o SRESID) frente a los valores
pronosticados o predicciones tipificadas (ZPRED). El resultado tiene que ser una nube de puntos
totalmente aleatoria. Es decir, no se observan tendencias ni patrones en la representacin grfica. Si se
11
cumple esta condicin se acepta la hiptesis de linealidad y de varianza constante (homocedasticidad)
de los errores. Dos supuestos del anlisis de regresin.
2. Representar los valores observados frente a los predichos (DEPEND vs. ZPRED). Como resultado los
valores se deben de alinear en la diagonal del cuadrante, si hubiera mucha dispersin o variabilidad
entonces que no se cumple la hiptesis de homocedasticidad. Si la dispersin no es muy grande
entonces existe igualdad de varianzas.
12
variables independientes tomadas individualmente. En otras palabras, cuanto mayor la colinealidad menor es la
varianza explicada por cada variable independiente
Cmo detectar la colinealidad. Examinar la matriz de correlaciones entre las variables independientes. Si los
valores son altos es probable que exista colinealidad.
Tambin se pueden observar los estadsticos de colinealidad. Existe multicolinealidad cuando:
A) Valor de tolerancia (TOL) prximo a cero
B) Factor de Inflacin de la Varianza (FIV) superiores a 4
Simulacin de la recta de regresin simple:
http://www.stat.wvu.edu/SRS/Modules/Applets/Regression/regression.html
Recta de regresin: Ypredicha=0.311+3.066X
DATOS
3. Dibuja una recta que una esos puntos buscando que pase lo ms cercana posible por cada uno de los
puntos.
13
4.
5.
6.
7.
8.
9.
10. Ejecuta con esos nuevos datos de nuevo la recta de regresin con el SPSS
14
15