Escolar Documentos
Profissional Documentos
Cultura Documentos
REGRESION LINEAL
El objeto de estas notas es presentar un problema en el ámbito de la regresión lineal
que sirva como guía para el ejercicio que el alumno deberá realizar como tarea de
evaluación de esta parte del programa.1 .
1
Notas Regresión Lineal
(Extro)4, de tal forma que la Inteligencia General se puede explicar en gran parte por
estas variables y, además, conocidos los valores en estas variables en un sujeto
(perteneciente a la misma población) podremos conocer (con un cierto margen de
error) su valor en el test que hemos empleado para medir la Inteligencia General.
Para ello se selecciono (aleatoriamente) una muestra de 200 alumnos de segundo de
bachillerato, de entre todos los alumnos de segundo de bachillerato de la comunidad
de Madrid y, se les pasó una batería de test que medían, entre otras, cada una de las
variables antes citadas (Inteligencia General, Comprensión Verbal, Orientación
Espacial y Extroversión).
Desde la perspectiva estadística, que es la que trabajamos, el objetivo propuesto
“explicar la variable Inteligencia General mediante las variables Comprensión Verbal,
orientación Espacial y Extroversión” significa que queremos explicar la varianza de la
variable Inteligencia General (Y) y creemos que una parte relevante de ella se debe a
las variables que hemos propuesto, es decir que, la comprensión verbal, la orientación
espacial, y la extroversión dan cuanta (explican) la Inteligencia General, bien
entendido que habrá una parte (que intentamos sea lo más pequeña posible) que no
se podrá explicar por la acción de ellas y que no se puede hacer porque existen
errores debidos a la medida, a la situación de los sujetos, etc., es decir a errores
debidos a múltiples causas y que denominamos error atribuible la azar. (Este
planteamiento correctamente expresado es: La varianza total de Y se descompone en
varianza explicada por la variables que intervienen en el modelo (X 1, X2, …, Xk) y
varianza de error. 5 Es evidente que cuanto mayor sea la varianza que explican las
variables independientes elegidas para definir el modelo, mejor será el modelo.
Además de la parte general, en el tema de Ajuste del Modelo a los datos encontraran
los ejemplos relativos al estudio de la moderación y la mediación. Deben revisarlos
también en profundidad ya que es un tema central en el que se basan modelos más
elaborados como son los de ecuaciones estructurales en los qué es muy
recomendable antes de realizar el estudio mediante ecuaciones estructurales y, sobre
la base del modelo teórico, se deben estudiar la posible mediación o moderación.
Si bien la salida de resultados presenta un orden diferente al que aquí se expone, lo
que intentamos es presentarlos siguiendo la lógica que debe regir el proceso de
interpretación.
SOLUCIÓN y COMENTARIOS
El objetivo es explicar la variable Inteligencia General mediante las variables
Comprensión Verbal, orientación Espacial y Extroversión.
Cuadro 1: Estadísticos descriptivos para cada una de las variables que hemos
propuesto en el modelo. Su mención aquí es a título informativo y no es necesaria si,
previamente (como debe hacerse en todo estudio estadístico), se incluyen un apartado
correspondiente a la descripción tanto del proceso de selección como de las
características de la muestra. (Primera parte del apartado resultados del informe).
4
La nominación entre paréntesis se refiere a los nombres con que aparecerán en los
resultados que comentamos.
5
Varianza Total = Varianza explicada + varianza no explicada (o de error).
2
Notas Regresión Lineal
Cuadro 2: Correlaciones entre las variables que hemos introducido en el modelo a fin
de tener una primera aproximación sobre las posibilidades del modelo. Su análisis
debe permitirnos “explorar” la existencia, grado, etc. de las correlaciones entre la VD y
las VI (si alguna no es significativa deberemos pensar que mejor no la incluirla en el
modelo propuesto (puede ser que no haya relación o que la relación simplemente no
sea lineal), así mismo si entre las VI se presentan correlaciones muy altas puede ser
un indicativo de que alguna de ellas es redundante (es un importante indicio de
problemas de colinealidad) y puede distorsionar el modelo (habrá que pesar una
estrategia previa de reducción de dimensiones como por ejemplo hacer un análisis de
componentes principales6).
Cuadro 2: Correlaciones
Inteligencia Comprensión Orientación
general verbal espacial Extraversión
Correlación Inteligencia
1,000 ,406 -,335 -,079
de Pearson general
Comprensión
,406 1,000 -,298 -,016
verbal
Orientación
-,335 -,298 1,000 ,104
espacial
Extraversión -,079 -,016 ,104 1,000
Sig. Inteligencia
. ,000 ,000 ,132
(unilateral) general
Comprensión
,000 . ,000 ,414
verbal
Orientación
,000 ,000 . ,072
espacial
Extraversión ,132 ,414 ,072 .
N Inteligencia
200 200 200 200
general
Comprensión
200 200 200 200
verbal
Orientación
200 200 200 200
espacial
Extraversión 200 200 200 200
6
Importante no confundir el ANALISIS DE COMPONENTES PRINCIPALES con el método de componentes
principales del Análisis Factorial.
7
Cuando se actúa así, eliminando una variable por su falta de correlación con la V.I. es IMPRESCINDIBLE rehacer
todos los cálculos ya que los valores de los parámetros (B) están muy afectados por las correlaciones parciales.
3
Notas Regresión Lineal
8
Método que se emplea cuando el investigador no tiene una idea previa sobre la relevancia de cada variable
predictora en el modelo, generalmente por un escaso conocimiento teórico. En este caso se estima el modelo de
regresión múltiple completo y si, a posteriori, se aprecia que alguna o algunas de las variables no mantienen con el
criterio relación significativa, se van eliminando en pasos posteriores de cara a depurar dicho modelo .
9
La razón de utilizar R2 corregido tiene que ver con el problema de sesgo de R2 (infravaloración) como
estimador de su parámetro (ρ2). Este sesgo se produce por le relación que deben mantener el nº de
variables independientes k el número de casos de tal forma que cuanto menor es la relación n/k mayor es
el sesgo, de ahí la corrección (por honestidad) que se introduce en el cálculo del R 2 cuyo objetivo es
compensar el numero de casos y el número de variables independientes. Esta corrección se calcula:
R2 corregido = k2 - [k (1- R2)/ (n-k-1)] donde K es el número de V.I. y n el número de sujetos en la muestra.
Lo anterior también puede entender como que cada vez que se introduce una variable independiente en el
modelo R2 aumenta, así que simplemente por aumentar indiscriminadamente las V.I. podemos
incrementar la varianza explicada, lo cual no es correcto (sesgo positivo del estimador).
4
Notas Regresión Lineal
2
Sig. del cambio en F Cambio en R Cambio en F gl1 gl2 Sig. del cambio en F
,218 18,163 3 196 ,000 2,292
10
Cuando en un cuadro aparece (1) y debajo el mismo número de cuadro con (2), significa que es todo el
mismo cuadro
11
Estadístico que verifica la H0 de que los residuos de una regresión son independientes, frente a H1 de
que los residuos sigan un proceso autorregresivo de 1º orden. El estadístico de Durbin-Watson tiene un
rango entre 0 y 4: un valor próximo a 2 indica escasa autocorrelación; un valor entre 2 y 0 indica una
autocorrelación positiva mientras que un valor entre 2 y 4 indica una autocorrelación negativa. Los
valores del estadístico comprendidos entre 1,5 y 2,5 son tolerables e indican que en principio no se
incumple el supuesto de independencia.
5
Notas Regresión Lineal
Coeficient
es Intervalo de
Coeficientes no estandari confianza para B al
Modelo estandarizados zados t Sig. 95%
Limite Limite
1 B Error típ. Beta inferior superior
Constan.
3,199 4,116 ,000 6,857 19,474
13,166
Compr. ,338 ,066 ,337 5,087 ,000 ,207 ,468
Orient. -,030 ,009 -,230 -3,449 ,001 -,047 -,013
Extro. -,051 ,064 -,050 -,789 ,431 -,178 ,076
a Variable dependiente: Inteligencia general
12
Los coeficientes B1, B2;..; Bp (llamados coeficientes de regresión parciales puesto que su valor depende
del valor que tomen los otros. Representan el cambio esperado en Y cuando, permaneciendo constantes
todas las demás variables, Xj se incrementa en una unidad. Su dependencia de la métrica (unidades de
medida) de su variable correspondiente no les hace que sea muy útiles, por ejemplo no permiten valorar
la contribución individual de cada variable al modelo desde la perspectiva del cambio en Y.
13
Los coeficientes tipificados o estandarizados: Son los que se obtienen al trabajar con puntuaciones
tipificadas (z) en lugar de las puntuaciones originales. Los coeficientes resultantes son números carentes
de unidades y por tanto perfectamente comparables entre sí. Permiten valorar la importancia de las
variables en términos de contribución al cambio de Y. Así aquella variable X j cuyo coeficiente de
regresión tipificado sea el mayor (en términos absolutos) es la que más contribuye al cambio esperado en
Y (se entiende por unidad e Xj).
14
En regresión una de las utilidades de los intervalos de confianza de los parámetros del modelo es que si
son precisos (no muy amplios) son un indicio de que no hay colinealidad. El caso contrario, intervalos
amplios son indicios de colinealidad y por tanto en ese caso debe ser estudiada en profundidad.
6
Notas Regresión Lineal
Cuadro 6 a (2)
Correlaciones
Modelo Orden
1 V.I. cero parcial semiparcial tolerancia FV
Cuadro 6 a (2): Valores de los correlaciones de orden 0 de la VI con cada una de las
VD (que ya conocíamos) y las correlaciones parciales y semiparciales de la VD con
cada una de las VI.
La correlación semi parcial15 informa del valor de la correlación de la VD con cada VI
después de eliminar de una de ellas (en regresión de la V.I. en estudio) el efecto de las
otras VI incluidas en el modelo. Si calculamos los valores de R2 semiparciales
obtenemos: R2y,x1/23=.10 (10% de varianza explicada por comp., R2y,x2/13= .04 (4%)
varianza explicada por Orient y : R2y,x3/12= 0.0025 (0.25%) varianza explicada por Extr
(evidentemente no contribuye en nada, lo que por otra parte ya sabíamos debido a la
baja correlación de orden cero cuya no significatividad ya vimos al comienzo16.
Si comparamos los de criterios de ajuste que estamos viendo vemos que en ambos caos
Comp. es la variable que más peso tiene en la contribución al cambio (pronósticos) y en
el ajuste global. Cuando esto no ocurre deberemos estudiar si hay alguna variable
irrelevante que distorsiona los resultados haciendo que aparezcan inconsistencias entre
15
Como ya sabemos hay dos formas de valorar la contribución relativa de cada V.I. al modelo de
regresión: Contribución al cambio esperado en Y (peso en el pronóstico, Pardo 2010) que valoramos
mediante los coeficientes de regresión TIPIFICADOS, y contribución al ajuste global (varianza
explicada), que se haca a través de R2 (en su caso corregido), pero es importante determinar cuanto
contribuye cada V.I. a ese ajuste global, esta información la obtenemos de los coeficientes de
correlación semiparcial (elevados al cuadrado).
16
Sobre la no coincidencia de la varianza total explicada como suma de las distintas varianzas debidas a
cada V. I., recuérdese lo visto sobre las sumas de cuadrados.
7
Notas Regresión Lineal
los dos criterios de ajuste (una V.I. es la más relevante para la varianza explicada y otra
lo es para el pronóstico). Cuando eso ocurre la eliminación de la V.I. irrelevante suele
resolver la cuestión.
La correlación parcial expresa la relación ente la V.D. y cada V.I. tras eliminar de
ambas (V.D. y la V.I. analizada) el efecto debido al resto de variables que intervienen
en el modelo.
El análisis detenido de todas las correlaciones aporta un información muchas veces muy
útil (sobre todo cuando tenemos poca información previa sobre le modelo que
postulamos). Así, comparando los valores de las correlaciones de orden cero con las
parciales vemos cual es le valor real de la relación entre V.D. con la V.I. que estamos
viendo (ej. Cuando de la V.D. Intel y de la V.I. Extro, eliminamos de ambas el efecto de
las otras dos V.I. vemos que la relación es totalmente despreciable -.056 y cuando el
efecto debido a las dos V.I. que no son Extro (que es la estamos estudiando) la
eliminamos SOLAMENTE de la V.D. Intel, vemos que la relación es ahora de -.05, en
este ejemplo no hay mucho que decir (son similares) pero a vences se dan grandes
variaciones que pueden ser determinantes para comprender y dar sentido teórico al
modelo.
Sobre todas esta cuestiones cuya profundización es esencial para analizar de forma
correcta y exhaustiva un modelo de Regresión, encontraran las correspondientes
explicaciones en el documento AJUSTE DEL MODELO A LOS DATOS
17
La colinealidad bien entendida se produce cuando hay una asociación muy alta entre algunas de las
variables independientes, de tal forma que se puede decir que miden lo mismo. Otra cuestión es cuando
entre las V.I. se presenta correlación, que suele ser lo más habitual, en estos casos y, cuando su valor es
medio alto, y si la teoría lo sustenta, deberemos pensar en posibles efectos de supresión, mediación (Una
variable mediadora puede ser cualquier variable relacionada -estado psicológico, un proceso cognitivo,
afectivo, un cambio biológico, etc-. relacionado con la variable independiente y la variable dependiente.
Este tipo de análisis es importante porque permite buscar explicaciones (teóricas) que ayuden a entender
los procesos que operan en la realidad. Moderación (cuándo o en qué situaciones se produce el efecto
Una variable moderadora es la que modifica la relación entre la variable independiente y dependiente, de
modo que el signo y la fuerza de la relación entre ambas variables depende de la influencia de la variable
moderadora). Sobre estas cuestiones se recomienda ver
http://www.um.es/tercerasvariables/tercerasvariables
8
Notas Regresión Lineal
Normalidad: Para cada combinación de valores de las VI, los residuos presentan
distribución normal con media 0
Linealidad. La relación tanto en las variables como en los parámetros del modelo es
lineal de tal forma que la variable dependiente es la suma de un conjunto de elementos:
ordenada en el origen y una combinación lineal de las variables independientes. Cuando
no se cumple este supuesto decimos que hay un problema de especificación (falta
alguna VI relevante; la relación entre la VI y las VD no es lineal, hay no aditividad
(alguna VI es sensible a algunos valores de otra VI), los parámetros no son estables
durante la recogida de datos (Pardo y Ruiz 2005)18.
Independencia: Los residuos tienen que ser independientes entre si, constituyen una
variable aleatoria.
18
Linealidad: Es importante recordar que la linealidad de refiere fundamentalmente a linealidad de las relaciones: la
V. Independiente presenta relación lineal con cada una de las dependientes. Se comprueba con los gráficos de
regresión parcial. Su incumplimiento se puede solucionar mediante transformaciones de los datos.
19
(1- R2 x1, resto), donde R es el coeficiente de determinación, es decir el coeficiente de regresión semiparcial al
cuadrado de la variable i-ésima del modelo frente al resto de variables independientes (regresoras). Valores pequeños
de tolerancia indican colinealidad.
20
FIV: Factor de inflación de la varianza: Inverso de la tolerancia, es decir: 1/ (1- R 2 x1, resto), valores grandes indican
colinealidad (se considera grandes valores mayores de 10).
9
Notas Regresión Lineal
Proporciones de la v arianza
Indice de Comprensión Orientación
Modelo Dimensión Autov alor condición (Constante) v erbal espacial Extrav ersión
1 1 3,634 1,000 ,00 ,00 ,02 ,00
2 ,343 3,255 ,00 ,01 ,83 ,00
3 ,018 14,105 ,03 ,82 ,14 ,19
4 ,005 27,990 ,97 ,17 ,01 ,81
a. Variable dependiente: Inteligencia general
21
Índice de Condición: Su valor es la raíz cuadrada del cociente entre el autovalor más alto y cada uno de
los otros. Valores mayores de 15 indican posible colinealidad.
22
Hay colinealidad si un mismo componente explica más del 50% de la varianza en dos (o más)
coeficientes a la vez (excluida la intersección).
23
Cuando se presenta colinealidad se puede intentar evitar incrementando la muestra; reducir las
variables mediante análisis de componentes principales, excluir del análisis de regresión las variables
redundantes (las que correlacionan mucho entre si).
24
Las variables ZPRED y ZRESID las crea el SPSS y corresponden a los pronósticos tipificados y a los
residuales tipificados.
10
Notas Regresión Lineal
Grafico 1
Gráfico de dispersión
3
Regresión Residuo tipificado
-1
-2
-3
-5 -4 -3 -2 -1 0 1 2
Normalidad: EL archivo de resultados del SPSS nos ofrece dos gráficos importantes
para estudiar la normalidad de los errores, el histograma de los residuos
estandarizados y el gráfico de probabilidad normal.
El Gráfico 2 corresponde al histograma de los residuos. Como se deduce del gráfico
aunque existen algunos valores atípicos la superposición a la normal es bastante
buena no presentado síntomas excesivos de asimetría o curtosis.
Gráfico 2
Histograma
25
20
Frecuencia
15
10
Media =-7,78E-16
Desviación típica =0,
0 992
N =200
-3 -2 -1 0 1 2 3
11
Notas Regresión Lineal
1,0
Prob acum esperada
0,8
0,6
0,4
0,2
0,0
0,0 0,2 0,4 0,6 0,8 1,0
Gráfico 4
10,00
Inteligencia general
5,00
0,00
-5,00
-10,00
Comprensión verbal
12
Notas Regresión Lineal
9,00
6,00
Inteligencia general
3,00
0,00
-3,00
-6,00
-9,00
Orientación espacial
10,00
Inteligencia general
5,00
0,00
-5,00
-10,00
Extraversión
13
Notas Regresión Lineal
DFBETA Intercept
DFBETA compren
DFBETA orient
DFBETA extra
Standardized DFBETA Intercept
Standardized DFBETA compren
Standardized DFBETA orient
Standardized DFBETA extr
Para la variable Standardized DFBETA Orient vemos que los casos 7 y 16 no están
tachados, luego podemos considerarlos inicialmente influyentes. Para decidir si
eliminar el caso o no, no hay un criterio estadístico, realmente lo que hemos
conseguido es saber que hay un punto de influencia. Existe un criterio que nos
advierte del "grado de peligrosidad de un punto de influencia". Si se considera muy
peligroso (entiéndase coloquialmente lo de peligrosidad) se procede eliminando al
sujeto de forma definitiva de nuestros análisis advirtiendo el cambio del tamaño
muestral y la razón del cambio.
CONCLUSIONES DEL ANÁLISIS DE REGRESION
Nos habíamos planteado un modelo teórico en el cual proponemos Inteligencia
General (medida mediante un test al caso) es función de la Comprensión Verbal; la
Orientación Espacial y la Extroversión, medidas también a través de test. Para ver si
tal modelo tiene consistencia y aporta información y explicación llevamos a cabo un
estudio estadístico mediante regresión lineal múltiple.25
Para ello hemos establecido un modelo de regresión que expresa:
Inteligencia General = 13.166 + 0.338 Comprensión Verbal – 0.030 Orientación
Espacial – 0.51 Extroversión y dado lo poco que aporta a la varianza explicada la
variable tres se plantea como modelo más parsimonioso:
Inteligencia General = 13.166 + 0.338 Comprensión Verbal – 0.030 Orientación
Espacial (reacuérdese que el R2 corregido apenas sufrió cambios.
El modelo obtenido explica un 21,8 % de la varianza, un tamaño del efecto de .2787
(mediano en términos Cohen) y un valor de de 55.74 que con = 0.05 y 3 y 196
grados de libertad indican una potencia muy alta (mayor de .995).
El modelo no viola ninguno de los supuestos.
Se estudiaron los posibles puntos de influencia y se vio que no había ningún caso que
eliminar.
25
El modelo teórico debe explicarse de forma correcta, basándose en la literatura etc, y debe tener
consistencia y lógica teórica.
14
Notas Regresión Lineal
3.- Una vez dentro del cuadro de regresión lineal hay que elegir la V.D (en nuestro
caso Inteligencia General. A continuación seleccionar las VI que han sido:
Comprensión Verbal; Orientación Espacial y Extroversión.
4.- Dentro del cuadro de regresión pinchar en ESTADISTICOS. De las opciones que
ofrece el cuadro de estadísticos activar:
Todos los correspondientes a Coeficientes de Regresión
Todos los correspondientes a Ajuste del modelo
26
Si se emplea el SPSS 15 las instrucciones las verán en español si empelan la versión 19 en ingles. Se
adjuntan los dos ficheros de resultados, los de la versión 15 y los de la 19. para que todos pueden verlos.
15
Notas Regresión Lineal
16
Notas Regresión Lineal
17
Notas Regresión Lineal
El análisis se hará (esperar unos minutos) y aparecerán los resultados que deberemos
estudiar e interpretar siguiendo las pautas que hemos dado en este ejemplo.
CASOS ATÍPICOS
ESTUDIO DE LOS PUNTOS (CASOS) DE INFLUENCIA
Para el estudio de los puntos de influencia se emplearon las variables DFBetas
tipificadas (las genera el SPSS y las pone al final del fichero de datos). Tienen el
nombre en la primera fila y son fáciles de localizar). Para seleccionar los casos
considerados como puntos de influencia según el criterio comentado se calcula (a
mano) el valor de
2 / √n, cuyo valor en este caso ha sido .1414.
A continuación y en el fichero de datos se selecciona la opción DATOS (DATA) y se
activa la opción SELECCIONAR CASOS (SELET CASES) . Dentro de este cuadro “si
satisface la condición” (if condition satisfied). Se introdujo la primera variable que
queremos estudiar eligiéndola del cuadro de variables situado a la izquierda (se
compara una variable de cada vez, no se pueden poner todas juntas) y se especifico la
condición, que en este caso era: > 0.1414. Se pincha en CONTINUAR, que nos
devuelve al cuadro “seleccionar casos” y se pincha en aceptar. El fichero de salida es
el fichero da datos donde el ID (número de identificación del sujeto) aparece tachado
para todos aquellos que NO CUMPLEN LA CONDICCIÓN (que son los casos buenos
para nosotros). Si aparece algún caso sin tachar, hay que ver cuales son sus
puntuaciones, cuanto pesa sobre el cálculo de los coeficientes de regresión
(estudiando el valor que en ese sujeto presenta para decidir si eliminarlo o no). Se
repite el procedimiento con las restantes variables.
18