Você está na página 1de 53

ANÁLISIS DE

REGRESIÓN LOGÍSTICA

Antonio Pardo
Miguel Ángel Ruiz

Universidad Autónoma de Madrid


Índice de contenidos

Análisis de regresión logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1


Ejemplo: Regresión logística simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
La curva logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
El modelo de regresión logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Cálculo de las probabilidades pronosticadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Interpretación de los coeficientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
El problema de la clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Ejemplo: Regresión logística múltiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Análisis de regresión logística por pasos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Métodos de selección de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Ejemplo: Regresión logística por pasos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Variables categóricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Ejemplo: Regresión logística > Variables categóricas . . . . . . . . . . . . . . . . . . . . 28
Guardar pronósticos y residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Ejemplo: Regresión logística > Guardar pronósticos y residuos . . . . . . . . . . . . . 33
Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
Ejemplo: Regresión logística > Opciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Valoración del modelo de regresión logística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Seleccionar casos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Referencias bibliográficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Análisis de
regresión logística

El análisis de regresión logística binaria (regresión logística en adelante) tiene como finali-
dad principal pronosticar los valores de una variable dicotómica a partir de una o más varia-
bles independientes. El análisis de regresión logística requiere, en primer lugar, una variable
dicotómica que defina dos grupos: los pacientes que tienen una determinada enfermedad y
los que no, los que abandonan un tratamiento y los que no, los clientes que devuelven un cré-
dito y los que no, los ciudadanos que votan y los que no, etc.; esta variable dicotómica es la
variable dependiente del análisis, es decir, la variable cuyos valores se desea pronosticar. Y
para poder efectuar los pronósticos es necesario disponer, en segundo lugar, de la información
(cuantificada en un conjunto de variables) en la que se supone que se diferencian los dos gru-
pos definidos por los niveles de la variable dicotómica; estas variables en las que se supone
que se diferencian los grupos se utilizan como variables independientes o predictoras del aná-
lisis (generalmente llamadas covariables en el contexto de la regresión logística).
Como resultado de un análisis de regresión logística se obtienen una serie de pesos o coe-
ficientes que: (1) informan sobre la capacidad individual de cada variable independiente para
diferenciar entre los dos grupos y (2) permiten obtener pronósticos (probabilidades) que sir-
ven para clasificar a los sujetos.
En este sentido, el análisis de regresión logística se parece al análisis discriminante. Pero,
a diferencia de éste, el modelo de regresión logística permite incluir covariables tanto cuanti-
tativas como categóricas y los supuestos en los que se basa son menos exigentes que los del
análisis discriminante; únicamente es necesario asumir que las observaciones son indepen-
dientes y que las covariables incluidas en el modelo se relacionan linealmente con una fun-
ción de la variable dependiente llamada transformación logit.
Este capítulo ofrece una descripción del procedimiento Regresión logística binaria. Para
profundizar en los aspectos tratados aquí pueden consultarse los excelentes textos de Hosmer
y Lemeshow (2000), Kleinbaum y Klein (2002), y Menard (2002).

Análisis de regresión logística


Un análisis de regresión logística consta de cuatro fases fundamentales: la selección de las
variables del análisis, la estimación de los pesos o coeficientes del modelo, la clasificación
de los casos y el análisis de los residuos.

1
2 Análisis de regresión logística

La selección de las variables puede realizarse a partir de criterios teóricos (en cuyo caso
se utilizará una estrategia de inclusión forzosa de variables) o a partir de criterios estadísticos
(en cuyo caso se utilizará algún método de selección por pasos). La estimación de los pesos
o coeficientes asociados a cada variable se basa en el método de máxima verosimilitud y se
realiza mediante una algoritmo iterativo. La clasificación de los casos se lleva a cabo a partir
de las probabilidades pronosticadas por el modelo. El análisis de los residuos permite detectar
posibles casos atípicos o predicciones anómalas.

Para llevar a cabo un análisis de regresión logística:


' Seleccionar la opción Regresión > Logística binaria... del menú Analizar para acceder al cua-
dro de diálogo Regresión logística que muestra la Figura 1.

Figura 1. Cuadro de diálogo Regresión logística binaria

La lista de variables del archivo de datos contiene todas las variables del archivo que poseen
formato numérico o de cadena corta. Las variables de cadena corta pueden introducirse en
cualquiera de las listas de variables del procedimiento, si bien su comportamiento dependerá
del papel que desempeñen en el análisis. Aunque el cuadro de diálogo no establece restric-
ciones en la selección de variables independientes o covariables, la variable dependiente debe
ser una variable dicotómica (es decir, una variable con sólo dos valores). Si se selecciona una
variable dependiente con más de dos valores válidos no es posible llevar a cabo el análisis.
Para obtener un análisis de regresión logística binaria con las especificaciones que el procedi-
miento tiene establecidas por defecto:
' Seleccionar la variable dicotómica que se desea utilizar como variable dependiente
del análisis y trasladarla al cuadro Dependiente.
' Seleccionar la(s) variable(s) que se desea utilizar como variable(s) independiente(s)
del análisis y trasladarlas a la lista Covariables.
Análisis de regresión logística 3

Ejemplo: Regresión logística simple

Este ejemplo muestra cómo ejecutar el procedimiento Regresión logística binaria con las espe-
cificaciones que el programa tiene establecidas por defecto y cómo interpretar los resultados
obtenidos. En esta primera aproximación al estudio de la regresión logística se utiliza una sola
variable independiente o covariable.
Todos los ejemplos incluidos en este capítulo se basan en el archivo GSS93 reducido, que
se encuentra en la misma carpeta en la que está instalado el SPSS. El archivo contiene varia-
bles socio-demográficas y de opinión correspondientes a la General Social Survey del año
1993. Estos datos se van a utilizar para a intentar pronosticar el voto en las elecciones de 1992
a partir de un conjunto de características socio-demográficas y de opinión.
La variable que distingue a los sujetos que manifiestan haber votado de los que manifies-
tan no haber votado es la variable voto92. Para conocer el comportamiento de esta variable,
la Tabla 1 ofrece su distribución de frecuencias.

Tabla 1. Distribución de frecuencias de la variable voto92 (¿votó en las elecciones de 1992?)


Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos Ha votado 1032 68.8 69.2 69.2
No ha votado 420 28.0 28.2 97.3
No elegible 34 2.3 2.3 99.6
Rehusa 6 .4 .4 100.0
Total 1492 99.5 100.0
Perdidos No sabe 4 .3
No contesta 4 .3
Total 8 .5
Total 1500 100.0

La variable voto92 presenta más de dos categorías. Si se utiliza como variable dependiente
tal como se encuentra en el archivo de datos, el Visor emitirá una advertencia comunicando
que la variable dependiente seleccionada tiene más de dos categorías y que no es posible lle-
var a cabo el análisis. Para poder utilizar una variable politómica como variable dependiente
en un análisis de regresión logística binaria, es necesario filtrar previamente las dos categorías
con las que se desea trabajar o, alternativamente, recodificar la variable original haciéndole
tomar sólo dos valores, cuando esto tenga sentido.
En el ejemplo que nos ocupa se ha utilizado el procedimiento Recodificar > En distintas va-
riables... del menú Transformar para crear una nueva variable denominada voto, con etiqueta
«¿votó en 1992». En esta nueva variable, se ha asignado el código 1 (con etiqueta «sí votó»)
a los casos con valor 1 en la variable voto92, y el código 0 (con etiqueta «no votó») a los ca-
sos con valor 2 en la variable voto92. Según se tendrá ocasión de comprobar más adelante,
la categoría a la que corresponde el código más alto (voto = 1 = «sí votó») va a desempeñar
un importante rol en el análisis; aunque los códigos asignados a las categorías de la variable
dependiente no afectan al proceso de estimación del modelo, condicionan por completo la in-
terpretación de los resultados.
La Tabla 2 muestra la distribución de frecuencias de la nueva variable voto. El dato que
interesa destacar de estos resultados es que el 71,1 % de las personas encuestadas manifiesta
haber votado en las elecciones de 1992.
4 Análisis de regresión logística

Tabla 2. Distribución de frecuencias de la variable voto (¿votó en 1992?)


Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos No votó 420 28,0 28,9 28,9
Sí votó 1032 68,8 71,1 100,0
Total 1452 96,8 100,0
Perdidos Sistema 48 3,2
Total 1500 100,0

Para facilitar la comprensión de esta primera aproximación al análisis de regresión logística


también se ha recodificado la variable periódic (frecuencia con la que se lee el periódico) en
una nueva variable denominada periódico, con etiqueta «¿lee el periódico?». En esta nueva
variable, a los casos con código 1 («diariamente»), 2 («varios días a la semana») y 3 («varios
días al mes») se les ha asignado el código 1, con etiqueta «sí lee»; y a los casos con valores
4 («raramente») y 5 («nunca») se les ha asignado el código 0, con etiqueta «no lee». La Tabla
3 ofrece la distribución de frecuencias de la nueva variable.

Tabla 3. Distribución de frecuencias de la variable periódico (¿lee el periódico?)


Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos No lee 148 9,9 14,7 14,7
Sí lee 862 57,5 85,3 100,0
Total 1010 67,3 100,0
Perdidos Sistema 490 32,7
Total 1500 100,0

Antes de iniciar el análisis de regresión logística se han cruzado en una tabla de contingencias
las dos variables que se tiene intención de incluir en el análisis. La opción Estadísticos descrip-
tivos > Tablas de contingencias... del menú Analizar permite obtener las frecuencias que muestra
la Tabla 4.
La tabla contiene las frecuencias observadas y los porcentajes de columna. El porcentaje
de sujetos que manifiesta haber votado es del 74,9 % entre los sujetos que leen el periódico
y del 47,6 % entre los sujetos que no lo leen. Los resultados de la tabla también indican que,
de los 1.500 casos del archivo original, únicamente 976 poseen respuestas válidas en ambas
variables. Hay, por tanto, 524 sujetos que tienen valor perdido en al menos una de las dos va-
riables. El estadístico chi-cuadrado de Pearson aplicado a estos datos vale 44,275 con un nivel
crítico Sig. < 0,0005 que indica que las variables voto y periódico están relacionadas.

Tabla 4. Tabla de contingencias de las variables voto (¿votó en 1992?) y periódico (¿lee el periódico?)
¿Lee el periódico?
No lee Sí lee Total
¿Votó en 1992? No votó Recuento 75 209 284
% de ¿Lee el periódico? 52,4% 25,1% 29,1%
Sí votó Recuento 68 624 692
% de ¿Lee el periódico? 47,6% 74,9% 70,9%
Total Recuento 143 833 976
% de ¿Lee el periódico? 100,0% 100,0% 100,0%
Análisis de regresión logística 5

Para pronosticar el resultado de la variable voto a partir de la variable periódico mediante una
ecuación de regresión logística:
' En el cuadro de diálogo principal (ver Figura 1), seleccionar la variable voto y tras-
ladarla al cuadro Dependiente.
' Seleccionar la variable periódico y trasladarla a la lista Covariables.
Aceptando estas elecciones, el Visor de resultados ofrece la información que muestran las Ta-
blas 5 a la 13.
La Tabla 5 informa sobre el número de casos válidos incluidos en el análisis y sobre el
número de casos excluidos del análisis por tener algún valor perdido (ya sea en la variable
dependiente, en la independiente, o en ambas).

Tabla 5. Resumen de los casos procesados


a
Casos no ponderados N Porcentaje
Casos seleccionados Incluidos en el análisis 976 65,1
Casos perdidos 524 34,9
Total 1500 100,0
Casos no seleccionados 0 ,0
Total 1500 100,0
a. Si está activada la ponderación, consulte la tabla de clasificación
para ver el número total de casos.

La Tabla 6 muestra la codificación interna utilizada por el procedimiento para distinguir los
casos en cada una de las categorías de la variable dependiente. El procedimiento asigna el
valor interno 0 a los casos con el código menor en la variable dependiente (sea éste numérico
o de cadena) y asigna el valor interno 1 a los casos con el código mayor. En el ejemplo, los
códigos originales de la variable dependiente y los códigos internos asignados por el proce-
dimiento coinciden. Como se verá más adelante, la categoría con el valor interno 1 juega un
papel especial en la interpretación de los resultados.

Tabla 6. Codificación de la variable dependiente


Valor original Valor interno
No votó 0
Sí votó 1

El modelo de regresión logística no es un modelo lineal, por lo que se utiliza un método de


máxima verosimilitud para estimar los parámetros del modelo. El algoritmo de estimación es
iterativo: se aplica repetidamente hasta que dos estimaciones consecutivas difieren en menos
de una pequeña cantidad.
Las Tablas 7 a la 9 se presentan en el Visor bajo el título Bloque 0 = Bloque inicial y con-
tienen información relacionada con el modelo nulo: el modelo que sólo incluye la constante
(no incluye la variable independiente). Las tablas de este bloque incluyen una cabecera en la
dimensión de las filas que recuerda que se trata del paso 0.
La Tabla 7 muestra la clasificación de los casos en el paso 0. Esta tabla se denomina tam-
bién la matriz de confusión y en ella se cruza el resultado observado en la variable dependien-
te con el resultado pronosticado por el modelo nulo. Puesto que el modelo nulo todavía no
6 Análisis de regresión logística

incluye la variable independiente, todos los casos son clasificados en la misma categoría:
aquélla a la que pertenecen más casos. Por tanto, el porcentaje de casos correctamente clasifi-
cados coincide con el porcentaje de casos pertenecientes a esa categoría más numerosa.
Los datos de la matriz de confusión en el paso 0 coinciden con las frecuencias marginales
de la variable voto tal como aparecen en la Tabla 4; pero, debido a la presencia de valores per-
didos, no coinciden con las frecuencias de su distribución univariante (ver Tabla 2).

Tabla 7. Resultados de la clasificación en el paso 0 (matriz de confusión)


Pronosticado

¿Votó en 1992? Porcentaje


Observado No votó Sí votó correcto
Paso 0 ¿Votó en 1992? No votó 0 284 ,0
Sí votó 0 692 100,0
Porcentaje global 70,9

La Tabla 8 ofrece la estimación correspondiente al término constante (B = 0,891), varios


estadísticos asociados a esa estimación (error típico, estadístico de Wald y grados de libertad)
y la significación observada o nivel crítico del coeficiente estimado (Sig.). De momento, la
constante es el único término presente en el modelo. Su valor se estima a partir de las frecuen-
cias marginales de la variable dependiente: B = loge(n1/n0) = loge(692/264) = 0,891. El resto
de columnas de esta tabla se explican más adelante.

Tabla 8. Variables incluidas en la ecuación en el paso 0


B E.T. Wald gl Sig. Exp(B)
Paso 0 Constante ,891 ,070 159,717 1 ,000 2,437

La Tabla 9 contiene información sobre lo que ocurrirá cuando la covariable sea incorporada
al modelo: ofrece, para cada covariable, un contraste de la hipótesis de que el efecto de la co-
variable es nulo (mediante el estadístico de puntuación de Rao, 1973). Puesto que en este
ejemplo únicamente es está utilizando una covariable (periódico), la tabla sólo muestra infor-
mación sobre esa covariable. Si el nivel crítico asociado al estadístico de puntuación (Sig.)
es menor que 0,05, se puede rechazar la hipótesis nula y afirmar que la covariable contribuye
significativamente a explicar el comportamiento de la variable dependiente; o, de otro modo,
a mejorar el ajuste del modelo. Esta tabla tiene, según se verá más adelante, un interés espe-
cial cuando se utiliza una estrategia de ajuste por pasos.

Tabla 9. Variables no incluidas en la ecuación en el paso 0


Puntuación gl Sig.
Paso 0 Variables periódico 44,275 1 ,000
Estadísticos globales 44,275 1 ,000

Las Tablas 10 a la 13 aparecen en el Visor bajo el título Bloque 1: Método = Introducir y con-
tienen los resultados del modelo estimado. La Tabla 10 ofrece la información necesaria para
valorar el ajuste global del modelo. Esta información se basa en la razón de verosimilitudes.
Análisis de regresión logística 7

En el análisis de regresión logística, en lugar de estimar los coeficientes de regresión minimi-


zando la suma de cuadrados de los residuos, como se hace en regresión lineal, los coeficientes
se estiman eligiendo aquellos valores que hacen más verosímiles (más probables) los valores
observados. En este contexto es habitual utilizar –2 veces el logaritmo de la verosimilitud
(–2LL) como medida del grado en que el modelo estimado se ajusta a los datos. Un modelo
se ajusta tanto mejor a los datos cuanto menor es el valor del estadístico –2LL.
El estadístico chi-cuadrado que ofrece la tabla 10 se obtiene comparando los estadísticos
–2LL de los modelos correspondientes al paso 0 y al paso 1:
Chi-cuadrado = –2LL[modelo en el paso 0] – (–2LL[modelo en el paso 1])

Este estadístico se distribuye según el modelo de probabilidad chi-cuadrado con los grados
de libertad resultantes de restar el número de parámetros independientes* de ambos modelos.
El valor de –2LL en el paso 1 se encuentra en la tabla 11 en la columna –2 log de la vero-
similitud. Pero en los resultados que se ofrecen por defecto no aparece el valor de –2LL en
el paso 0; no obstante, este valor puede obtenerse marcando la opción Historial de iteraciones
en el subcuadro de diálogo Regresión logística: Opciones (ver Figura 8). Así:

Chi-cuadrado = 1.177,115 – 1.136,392 = 40,723

Este estadístico permite contrastar la hipótesis nula de que el modelo del paso 1 (el modelo
que incluye la covariable periódico) no mejora el ajuste obtenido con el modelo del paso 0
(el modelo que no incluye la covariable periódico). O, lo que es lo mismo, la hipótesis de que,
en la población, el coeficiente de regresión correspondiente a la variable periódico (único coe-
ficiente en el que se diferencian los modelos del paso 0 y del paso 1) vale cero. Es decir, el
estadístico chi-cuadrado permite determinar si, al introducir en el modelo la variable indepen-
diente periódico (paso 1), se consigue un incremento significativo del ajuste en comparación
con el ajuste obtenido con el modelo que únicamente incluye el término constante (paso 0).
El nivel crítico asociado al estadístico (Sig. < 0,0005) permite rechazar la hipótesis nula y con-
cluir que la covariable periódico contribuye significativamente al ajuste del modelo.
El cambio que se produce en la razón de verosimilitudes es conceptualmente similar al
que se produce en el coeficiente de determinación R2 al ajustar por pasos un modelo de regre-
sión lineal. En éste, se considera que una variable contribuye al ajuste del modelo si su incor-
poración va acompañada de un incremento significativo de R2. En un modelo de regresión lo-
gística se considera que una variable contribuye al ajuste del modelo si su presencia va acom-
pañada de una disminución significativa de la razón de verosimilitudes.

Tabla 10. Pruebas ómnibus sobre los coeficientes del modelo (contrastes de ajuste global)
Chi-cuadrado gl Sig.
Paso 1 Paso 40,723 1 ,000
Bloque 40,723 1 ,000
Modelo 40,723 1 ,000

*
El número de parámetros independientes de un modelo depende de la presencia de variables categóricas. Los modelos
que únicamente incluyen variables cuantitativas y dicotómicas tienen tantos parámetros como variables más uno (el corres-
pondiente al término constante). En los modelos que incluyen variables categóricas hay que añadir (J–1) + (K–1) + AAA +(P–1)
parámetros, siendo J, K, ..., P el número de categorías de la primera, segunda, ..., p-ésima variable categórica.
8 Análisis de regresión logística

La Tabla 10 incluye tres entradas: paso, bloque y modelo. Esto permite contrastar distintas
hipótesis cuando se utiliza una estrategia secuencial de selección de variables (más adelante
se explican los métodos de selección de variables por pasos). Paso: indica el cambio experi-
mentado en el estadístico –2LL entre un paso y el siguiente cuando se utiliza una estrategia
de selección de variables por pasos; permite contrastar la hipótesis de que el efecto correspon-
diente a la covariable incluida en un determinado paso es nulo. Bloque: recoge el cambio ex-
perimentado en el estadístico –2LL entre un bloque y el siguiente cuando se solicita el ajuste
de varios modelos formados por distintos bloques de variables; permite contrastar la hipótesis
de que el(los) efecto(s) correspondiente(s) a la(s) covariable(s) añadida(s) en el último bloque
son nulos. Modelo: informa del cambio experimentado en el estadístico –2LL entre el paso
0 y el paso 1, es decir, entre el valor del estadístico –2LL correspondiente al modelo que úni-
camente incluye el término constante y el valor del estadístico –2LL correspondiente al mode-
lo que incluye todas las covariables.
Puesto que el modelo del ejemplo se ha construido en un único paso (se está utilizando
el método introducir; ver, más adelante, el apartado Regresión logística por pasos), todas las
entradas de la tabla informan del mismo valor: la mejora respecto al modelo nulo, es decir,
respecto al modelo del paso 0 (Chi-cuadrado = 40,723).
La Tabla 11 ofrece, además del estadístico –2LL asociado al modelo que se está ajus-
tando, dos estadísticos R2 que permiten valorar el ajuste global del modelo estimado. Estos
estadísticos son parecidos al coeficiente de determinación R2 del análisis de regresión lineal
(que indica proporción de varianza explicada), pero dado que la variable dependiente es dico-
tómica, el concepto de varianza explicada debe ser interpretado con cautela. Además, debe
tenerse muy presente que estos dos estadísticos suelen adoptar valores moderados o incluso
bajos aun cuando el modelo estimado pueda ser apropiado y útil. El estadístico de Cox y Snell
(1989) se obtiene mediante:

donde L(0) se refiere a la verosimilitud del modelo nulo (paso 0) y L(1) a la verosimilitud del
modelo que se está ajustando (paso 1). El valor mínimo de este estadístico es cero (ajuste
nulo), pero en caso de ajuste perfecto su valor máximo no es 1. Por esta razón, Nagelkerke
(1991) ha propuesto una modificación del estadístico de Cox y Snell que le permite alcanzar
el valor 1 en caso de ajuste perfecto:

(con )

Los resultados de la Tabla 11 muestran que el modelo de regresión logística que incluye la
variable periódico únicamente consigue explicar en torno al 5 % de la variabilidad del voto
(un 4,1 % según Cox-Snell y 5,8 % según Nagelkerke).

Tabla 11. Resumen del modelo (estadísticos de ajuste global)


-2 log de la R cuadrado de R cuadrado de
Paso verosimilitud Cox y Snell Nagelkerke
1 1136,392 ,041 ,058
Análisis de regresión logística 9

Los inconvenientes asociados a los estadísticos de Cox-Snell y Nagelkerke obligan a recurrir


a alguna herramienta alternativa para poder valorar el ajuste. La tabla de clasificación (Tabla
12), también denominada matriz de confusión o matriz de clasificación correcta, ofrece una
clasificación de los casos basada en los pronósticos del modelo. Las filas de la tabla contienen
las categorías de la variable dependiente a las que realmente pertenecen los casos; las
columnas contienen las categorías pronosticadas por el modelo; en la diagonal principal se
encuentra el número de casos correctamente clasificados; la última columna ofrece el porcen-
taje de casos correctamente clasificados en cada fila.
Para obtener la tabla es necesario fijar un punto de corte con el que comparar las proba-
bilidades pronosticadas por el modelo. Este punto de corte es, por defecto, 0,5 (se indica en
una nota a pie de tabla). Los sujetos con probabilidades pronosticadas mayores que 0,5 son
clasificados en la categoría 1 («sí votó»); el resto, en la categoría 0 («no votó»).
La comparación entre estos porcentajes de clasificación correcta y los obtenidos a partir
del modelo nulo (ver Tabla 7) puede ayudar a valorar la calidad global del modelo: en el
ejemplo, la mejora obtenida en el porcentaje global es bastante pobre: 7 décimas porcentuales.
No obstante, estos porcentajes no son del todo útiles hasta que se consigue establecer el mejor
punto de corte posible para la clasificación. Aunque el punto de corte utilizado por defecto
(0,5) es apropiado en la mayoría de las situaciones (particularmente cuando el modelo incor-
pora un gran número de variables independientes y los grupos pronosticados son aproximada-
mente del mismo tamaño), no siempre es el mejor punto de corte. La determinación del mejor
punto de corte se estudia más adelante con detalle, en el apartado dedicado al problema de la
clasificación.

Tabla 12. Resultados de la clasificación en el paso 1 (matriz de confusión)


a
Pronosticado

¿Votó en 1992? Porcentaje


Observado No votó Sí votó correcto
Paso 1 ¿Votó en 1992? No votó 75 209 26,4
Sí votó 68 624 90,2
Porcentaje global 71,6
a. El valor de corte es ,500

Por último, la tabla de variables incluidas en la ecuación (Tabla 13) muestra las estimaciones
de los coeficientes de regresión del modelo (B) y los datos necesarios para valorar su sig-
nificación e interpretarlos. Para entender e interpretar todos estos resultados es conveniente
revisar brevemente los fundamentos matemáticos del modelo de regresión logística. Por ahora
basta con saber que el coeficiente de regresión asociado la covariable periódico es significati-
vo (Sig. < 0,0005) y que el hecho de que su signo sea positivo (B = 1,192) está indicando que
la probabilidad de acudir a votar (voto = «sí votó») es mayor entre los sujetos que sí leen el
periódico que entre los que no leen el periódico.

Tabla 13. Variables incluidas en la ecuación (estimaciones y significación de los coeficientes)


B E.T. Wald gl Sig. Exp(B)
Paso 1 a periódico 1,192 ,186 41,258 1 ,000 3,293
Constante -,098 ,167 ,342 1 ,558 ,907
a. Variable(s) introducida(s) en el paso 1: periódico.
10 Análisis de regresión logística

La curva logística
En el modelo de regresión lineal la relación entre dos variables se expresa mediante la ecua-
ción:

Su representación gráfica es una recta en el plano definido por las variables X e Y. El coefi-
ciente B0 define el origen de la recta (el punto en el que la recta corta el eje de ordenadas) y
el coeficiente B1 define la pendiente de la recta (su inclinación respecto del eje de abscisas).
La Figura 2 muestra una recta de regresión en el plano definido por las variables X e Y.

Figura 2. Representación gráfica de una recta de regresión lineal

Esta recta de regresión lineal puede extenderse ilimitadamente por cualquiera de sus dos ex-
tremos conforme los valores de la variable independiente (X) van aumentando o disminuyen-
do. Consecuentemente, las predicciones realizadas por la recta para la variable Y pueden al-
canzar valores inaceptables. Por ejemplo, si se intenta pronosticar los complementos salariales
que un empleado recibe por su edad (trienios, etc.), prolongar la recta por su parte inferior po-
dría llevar a pronosticar complementos salariales negativos. Aunque este problema no suele
darse si los pronósticos se limitan a los valores observados en la muestra, lo cierto es que los
pronósticos imposibles podrían aparecer incluso sin sobrepasar el rango de valores observa-
dos, particularmente si la variable dependiente no es cuantitativa sino dicotómica.
Por toro lado, una variable dependiente dicotómica no puede satisfacer el requerimiento
de normalidad implícito en el modelo de regresión lineal.
En estos casos es preferible utilizar funciones que permitan efectuar predicciones com-
prendidas entre un mínimo y un máximo. Por ejemplo, una curva con un suelo y un techo en
sus valores (aunque el inconveniente de este tipo de funciones es que su formulación matemá-
tica es algo más compleja que la formulación de una recta). Una de estas funciones, muy utili-
zada, es la curva logística, cuya formulación matemática es:
Análisis de regresión logística 11

La interpretación de esta función es muy parecida a la de una ecuación de regresión lineal (el
exponente, de hecho, no es más que una ecuación de regresión lineal). El gráfico de la Figura
3 muestra una curva logística. El coeficiente B0 representa la posición de la curva sobre el eje
horizontal o de abscisas (más hacia la izquierda o más hacia la derecha). Y el coeficiente B1
representa la pendiente de la curva medida en la zona de inflexión de la curva. Con estos dos
coeficientes se puede generar una familia de curvas más o menos desplazadas sobre el eje de
abscisas y más o menos inclinadas en su parte central (ver, más adelante, los gráficos de la
Figura 4).

Figura 3. Representación gráfica de una curva logística

La fórmula de la ecuación o curva logística permite asignar valores en la variable dependiente


(Y) a partir de los valores en la variable independiente (X) igual que una ecuación de regresión
lineal, pero con la particularidad de que los valores pronosticados nunca serán mayores que
1 ni menores que 0. Según se ha señalado ya, esta propiedad es especialmente útil cuando se
intenta pronosticar probabilidades.
Si se utiliza más de una variable independiente, la ecuación de la curva logística toma la
forma:

El exponente del número e es una ecuación lineal múltiple en la que cada variable indepen-
diente recibe una ponderación proporcional a su capacidad para predecir Y.

El modelo de regresión logística


Si dos sucesos son exclusivos entre sí (no se solapan) y exhaustivos (agotan el espacio mues-
tral de posibles sucesos), la probabilidad de aparición de cualquiera de ellos es igual a 1 me-
nos la probabilidad de aparición del otro.
Suponiendo que la variable Y puede tomar sólo dos valores (0 y1) y que tales valores son
exclusivos entre sí, y llamando P (Y = 1) a la probabilidad de que el la variable Y tome el valor
12 Análisis de regresión logística

1, la probabilidad de que Y tome el valor 0 será: P (Y = 0) = 1– P (Y = 1). Por tanto, si se conoce


la probabilidad de que la variable Y tome uno de sus dos valores, también se conocerá la pro-
babilidad de que tome el otro valor.
En el ejemplo propuesto en el apartado anterior el suceso que interesa estudiar es el voto,
es decir, el hecho de que una persona acuda a votar. Una buena estimación de la probabilidad
de este fenómeno es la frecuencia relativa de voto observada en la muestra. En las frecuencias
marginales de la Tabla 4 puede apreciarse que han votado el 70,9 % de los encuestados. La
estimación de la probabilidad del suceso «sí votó» será P (Y = 1) = 0,709. Por tanto, la proba-
bilidad del suceso «no votó» será P (Y = 0) = 0,291. Si bien estos valores ayudan a describir
apropiadamente el fenómeno que se está estudiando, tiene escaso valor predictivo: se sabe que
acuden a votar aproximadamente dos terceras partes de los sujetos encuestados y que, por
tanto, cabe esperar que 2 de cada tres personas acuda a las urnas; pero no se sabe nada acerca
de las características de las personas que se abstienen.
La pregunta que interesa responder en este momento es: ¿es posible utilizar alguna otra
variable, previa a la votación, que permita pronosticar adecuadamente la probabilidad de
que un sujeto acuda a votar? Es decir, ¿es posible construir un modelo de regresión que per-
mita pronosticar la probabilidad de acudir a votar a partir de una o varias variables indepen-
dientes? La respuesta a estas preguntas es afirmativa: si existen variables relacionadas con
el hecho de acudir o no a votar, entonces es posible incluirlas en un modelo de regresión y
utilizarlas para corregir las estimaciones de la proporción de votantes y no votantes.
El problema que surge en una situación de estas características es que, al tener que pro-
nosticar una probabilidad (es decir, un valor comprendido entre 0 y 1), un modelo de regre-
sión lineal puede plantear serios problemas de predicción por no tener máximo ni mínimo teó-
ricos en los pronósticos que arroja. Por esta razón es más apropiado recurrir a un modelo de
tipo logístico:

La curva que genera este modelo es similar a la de la Figura 3, con la única diferencia de que,
en lugar de llamar Y al eje de ordenadas, se le está llamando P (Y = 1).
Definida la ecuación que puede utilizarse, el objetivo consiste en encontrar una variable
que discrimine bien entre los dos posibles valores de Y. La Figura 4 muestra cuatro curvas
logísticas correspondientes a cuatro posibles variables independientes o predictoras. Las cur-
vas se encuentran ordenadas de forma creciente por su capacidad discriminativa. Puesto que
el coeficiente que controla la pendiente de la curva es B1 (ver apartado anterior), una buena
variable predictora será aquella que genere una curva con mucha pendiente (es decir, una
variable que tenga asociado un coeficiente B1 muy alto, en valor absoluto), mientras que una
mala variable predictora será aquella que genere una curva sin pendiente o con muy poca
pendiente (es decir, una variable que tenga asociado un coeficiente B1 próximo a 0, en valor
absoluto). El análisis de regresión logística permite encontrar las variables con mayor (en va-
lor absoluto) coeficiente asociado.
Supongamos, por simplicidad, que para clasificar a un sujeto como votante o abstencio-
nista se decide establecer como punto de corte el valor de probabilidad 0,5. Es decir, que los
sujetos con un pronóstico mayor que 0,5 son clasificados como abstencionistas y los sujetos
con un pronóstico menor o igual que 0,5 son clasificados como votantes. Una buena variable
predictora (podría decirse óptima) será aquella que permita obtener pronósticos (probabilida-
Análisis de regresión logística 13

des) iguales a 0 para el suceso Y = 0 y pronósticos iguales a 1 para el suceso Y = 1. La curva


que corresponde a una variable de este tipo tiene forma de escalón (ver Figura 4.d). Por el
contrario, una mala variable predictora (podría decirse pésima) será aquella que pronostique
a todos los sujetos la misma probabilidad, es decir, aquella que impida distinguir a los
abstencionistas de los votantes a partir de las probabilidades pronosticadas. La curva que
corresponde a una variable de este tipo tiene forma de línea paralela al eje de abscisas (ver
Figura 4.a).
Cuanto menor es la pendiente de una curva logística, peor es su capacidad para discri-
minar entre los dos valores de la variable dependiente. Una variable independiente es tanto
peor pronosticadora cuanto menores son las diferencias existentes entre pronósticos consecu-
tivos.

Figura 4. Curvas logísticas ordenadas de mínima a máxima discriminación

a b

c d

Cálculo de las probabilidades pronosticadas


Aunque la interpretación de los coeficientes de las variables independientes de un modelo de
regresión logística no es tan simple como la de los coeficientes de un modelo de regresión li-
neal (ver siguiente apartado), el cálculo de la probabilidad pronosticada para cada sujeto es
directo y fácilmente interpretable.
14 Análisis de regresión logística

Utilizando los datos del ejemplo propuesto en el primer apartado, la ecuación de regresión
logística toma la forma (ver Tabla 13):

La variable dependiente (Y) del ejemplo es la variable voto (¿votó en 1992?), una variable
dicotómica que puede tomar los valores: Y = 0 = « no votó» e Y = 1 = «sí votó». Y la variable
independiente (X) del ejemplo es la variable periódico (¿lee el periódico?), una variable
dicotómica que puede tomar los valores: X = 0 = «no lee» y X = 1 = «sí lee». En el caso de que
un encuestado lea el periódico (X = 1), la probabilidad pronosticada por la ecuación de regre-
sión logística para la categoría «sí votó» vale:

Y en el caso de que un encuestado no lea el periódico (X = 0), la probabilidad pronosticada


para la categoría «sí votó» vale:

Por tanto, a partir de los pronósticos derivados de la ecuación de regresión logística, se puede
afirmar que, entre los sujetos que manifiestan leer el periódico, la probabilidad de votar en
las elecciones es mayor (aproximadamente un 60 % mayor) que entre los sujetos que mani-
fiestan no leer el periódico.
Es muy importante tener en cuenta que los pronósticos obtenidos con la ecuación de re-
gresión logística siempre se refieren a una de las dos categorías de la variable dependiente:
aquella codificada con el valor mayor y que es la que el procedimiento Regresión logística co-
difica internamente con el valor 1. En el ejemplo, la categoría Y = 1 = «sí votó».

Interpretación de los coeficientes


En una ecuación de regresión lineal, el valor del coeficiente de regresión asociado a una varia-
ble independiente representa la cantidad de cambio en los pronósticos por unidad de cambio
en la variable independiente. En un modelo de regresión logística no ocurre esto. En el ejem-
plo, el valor del coeficiente de la variable independiente es 1,192, mientras que la diferencia
entre las dos probabilidades pronosticadas vale 0,524 – 0,251 = 0,273. El significado de los
coeficientes de regresión no es el mismo en ambos modelos.
¿Cómo interpretar los coeficientes de un modelo de regresión logística? Ya se ha dicho
que P (Y = 1) = 1– P (Y = 0). Dividiendo la probabilidad de uno de los sucesos por su probabili-
dad complementaria y simplificando se obtiene:
Análisis de regresión logística 15

Este cociente se conoce como la ventaja (odds) del suceso Y = 1 frente al suceso Y = 0. La ven-
taja de un suceso es el cociente entre la probabilidad de que el suceso ocurra y la probabilidad
de que no ocurra. Tomando el logaritmo natural de la ventaja se obtiene:

A este logaritmo se le denomina transformación logit. Y, como se ve, toma la forma de un


modelo de regresión lineal. Por tanto, el coeficiente de regresión de un modelo logístico pue-
de interpretarse como el cambio que se produce en la transformación logit (en el logaritmo
de la ventaja del suceso Y = 1 frente al suceso Y = 0) por cada unidad de cambio que se produ-
ce en la variable independiente.
Con los datos del ejemplo, la transformación logit del suceso «sí votó», (Y = 1), cuando
el encuestado «lee el periódico», (X = 1), vale:

Y la trasformación logit del suceso «sí votó», (Y = 1), cuando el encuestado «no lee el perió-
dico», (X = 0), vale:

Por tanto, B0 = –0,098 (ver Tabla 13). La diferencia entre ambos logaritmos permite obtener
el valor del coeficiente B1 (ver Tabla 13):
B1 = 1,094 – (–0,098) = 1,192

Este valor permite afirmar que el logaritmo de la ventaja del suceso Y = 1 frente al suceso Y
= 0 es 1,192 veces mayor entre los sujetos que leen el periódico (periódico = 1) que entre los
que no lo leen (periódico = 0).
Ahora bien, razonar en términos de cambios en los logaritmos resulta poco intuitivo. Es
preferible interpretar directamente el cambio en las ventajas y no en los logaritmos de las ven-
tajas. Volviendo a la expresión de la ventaja:

Lo que significa que ventaja se puede expresar como potencias del número e. Esta es la razón
por la que se suele informar del valor exponencial de los coeficientes de regresión. En los re-
sultados de la regresión logística se incluye tanto el valor del coeficiente de regresión (B) co-
mo el de Exp(B) o eB. En el ejemplo, la ventaja del suceso «sí votó» cuando el encuestado «sí
lee el periódico» vale e1,094 = 2,986, mientras que la ventaja de ese mismo suceso cuando el
encuestado «no lee el periódico» vale e–0,098 = 0,907. Si se expresa el cambio proporcional de
la ventaja en términos de un cociente (como una razón) se obtiene 2,986/0,907 = 3,293, que
es justamente el valor de e1,192 (ver Exp(B) en la Tabla 13). A este cambio proporcional se le
16 Análisis de regresión logística

denomina razón de las ventajas (odds ratio en inglés), dado que es el resultado de dividir dos
ventajas. Y se interpreta en términos del cambio proporcional (ya sea aumento o disminución)
que se produce en la ventaja del suceso o evento de interés (Y = 1) por cada unidad de cambio
que se produce en la variable independiente (VI).
En el ejemplo, pasar de 0 a 1 en la covariable periódico hace que la razón de las ventajas
de «sí votó» frente a «no votó» valga 3,293. Lo cual significa que la ventaja del suceso votar
es 3,293 veces mayor entre los sujetos que leen el periódico que entre los sujetos que no lo
leen. Pa interpretar correctamente un coeficiente de regresión logística hay que tener en cuen-
ta que:
• La razón de las ventajas vale 1 (y su correspondiente coeficiente de regresión vale
cero) cuando la VI no produce ningún efecto sobre la ventaja de un suceso.
• La razón de las ventajas es mayor que 1 (y su correspondiente coeficiente de regre-
sión es mayor que 0) cuando un aumento en la VI lleva asociado un aumento de la
ventaja del suceso.
• La razón de las ventajas es menor que 1 (y su correspondiente coeficiente de regre-
sión es menor que 0) cuando un aumento en la VI conlleva una disminución de la
ventaja del suceso.

El valor 1 es, por tanto el referente para la interpretación. Si la probabilidad de un suceso bajo
la condición A vale, por ejemplo, 0,60, la ventaja de ese suceso vale 0,60/0,40 = 1,5; y si la
probabilidad de ese suceso bajo la condición B vale 0,80, su ventaja vale 0,80/0,20 = 4. Es de-
cir, cuando la probabilidad de un suceso pasa de 0,60 a 0,80, su ventaja pasa de 1,5 a 4. Y la
razón de las ventajas expresa este aumento adoptando un valor de 4/1,5 = 2,67, el cual indica
que la ventaja del suceso ha aumentado 2,67 veces, pues 2,67(1,5) = 4. La ventaja de un suce-
so no debe confundirse con su probabilidad: es la ventaja del suceso la que aumenta 2,67 ve-
ces, es decir, un 167 %, y no su probabilidad, que sólo aumenta un 33 %.
Otro ejemplo. Si la probabilidad de un suceso bajo la condición A vale 0,60, su ventaja
vale 0,60/0,40 = 1,5; si la probabilidad de ese suceso bajo la condición B vale 0,40, su ventaja
vale 0,40/0,60 = 0,67. Es decir, cuando la probabilidad de un suceso pasa de 0,60 a 0,40, su
ventaja pasa de 1,5 a 0,67 (disminuye 0,83 puntos). La razón de las ventajas expresa esta dis-
minución adoptando un valor de 0,67/1,5 = 0,44, el cual indica que la ventaja del suceso ha
disminuido un 100–44 = 56 % (pues 0,56(1,5) = 0,83).
En contextos relacionados con la salud, cuando el evento de interés se refiere a la apari-
ción de una enfermedad o algún desenlace fatal, a las variables independientes cuya razón de
las ventajas es mayor que 1 se les suele llamar factores de riesgo y a la variables independien-
tes cuya razón de las ventajas es menor que 1, factores de protección. Por supuesto, una razón
de las ventajas distinta de 1 no implica relación causal entre las variables.

El problema de la clasificación

Una ecuación de regresión logística raramente arroja pronósticos con valores 0 y 1, es decir,
raramente genera una curva en forma de escalón (Figura 4). Lo habitual es encontrar que las
probabilidades pronosticadas adoptan valores comprendidos entre 0 y 1. Este es el motivo que
obliga a tener que establecer un punto de corte para poder tomar la decisión de clasificar a los
sujetos en uno u otro grupo a partir de las probabilidades pronosticadas.
Análisis de regresión logística 17

Cuando la variable independiente es dicotómica, como en el ejemplo, establecer el punto


de corte es una tarea bastante sencilla. Puesto que una variable dicotómica sólo adopta dos
valores (en el ejemplo:0 = «no lee el periódico» y 1 = «sí lee el periódico»), sólo es posible
obtener dos pronósticos. Ya se ha visto que esos dos pronósticos son 0,7491 y 0,4755. Y tam-
bién se ha visto que la probabilidad del suceso «sí votó» vale 0,709 (ver la Tabla 4). Así las
cosas, parece razonable pensar que el punto de corte debería encontrarse entre las dos proba-
bilidades pronosticadas; ese punto de corte bien podría ser, por ejemplo 0,50.
Una vez determinado el punto de corte, los sujetos con probabilidades pronosticadas ma-
yores que el punto de corte son clasificados en el grupo al que corresponde el código interno
1 (en el ejemplo, el grupo de los sujetos que sí votan); y los sujetos con probabilidades pro-
nosticadas iguales o menores que el punto de corte son clasificados en el grupo al que corres-
ponde el código interno 0 (en el ejemplo, el grupo de los sujetos que no votan). Recuérdese
que el punto de corte utilizado por defecto es 0,50.
En los modelos con más de una variable independiente se incrementa el número de valo-
res distintos que es posible pronosticar. Si el modelo contiene más de una variable indepen-
diente significativa, probablemente su capacidad discriminativa será mayor, pero ésta es una
cuestión distinta del problema relativo a dónde situar el punto de corte para clasificar a los
sujetos de la mejor manera posible.
Existen dos caminos alternativos para determinar el punto de corte óptimo, es decir, para
encontrar cuál es el valor (la probabilidad) a partir del cual se consigue diferenciar al máximo
a los sujetos de uno y otro grupo y, consecuentemente, para efectuar la mejor clasificación
posible. El primero de estos caminos consiste en generar múltiples tablas de clasificación va-
riando en cada una de ellas el punto de corte hasta optimizar el porcentaje de casos correcta-
mente clasificados. La tabla de clasificación puede obtenerse directamente con el procedi-
miento Regresión logística binaria (de hecho, ya se ha descrito como parte de los resultados del
primer ejemplo; ver Tabla 12). El segundo camino para determinar el punto de corte óptimo
consiste en utilizar la curva COR. La curva COR puede obtenerse en el SPSS mediante el
procedimiento Curva COR del menú Gráficos. Más adelante, cuando se haya estudiado el mo-
delo de regresión logística con más de una variable independiente, se explicará cómo utilizar
ambos procedimientos.

Ejemplo: Regresión logística múltiple


Hasta ahora, por motivos didácticos, se han descrito los aspectos básicos de la regresión logís-
tica utilizado una sola variable independiente. Sin embargo, lo habitual es intentar que un mo-
delo alcance la mayor capacidad discriminativa posible incluyendo en él más de una variable
independiente. Este ejemplo muestra cómo ejecutar e interpretar un análisis de regresión lo-
gística utilizando más de una variable independiente. Se sigue utilizando el archivo GSS93
reducido, la misma variable dependiente que en el primer ejemplo (voto) y, además de la va-
riable independiente allí utilizada (periódico), otras cuatro nuevas:
' En el cuadro de diálogo principal (ver Figura 1), seleccionar la variable voto (¿votó
en 1992?) y trasladarla al cuadro Dependiente.
' Seleccionar las variables periódico (¿lee el periódico?), edad (edad del encuestado),
hijos (número de hijos), educ (años de escolarización) e ingfam91 (ingresos familia-
res en 1991), y trasladarlas a la lista Covariables.
18 Análisis de regresión logística

Aceptando estas elecciones, el Visor ofrece, entre otros, los resultados que muestran las Ta-
blas 14 a la 18. La Tabla 14 contiene los valores del estadístico de puntuación de Rao (1973).
Este estadístico mide la contribución individual de cada variable a la mejora del ajuste global
del modelo. El nivel crítico (Sig.) asociado a cada estadístico indica qué variables contribuyen
significativamente al ajuste. Puede verse que, exceptuando la variable hijos, todas las varia-
bles incluidas en el análisis son significativas; por tanto, buenas candidatas para formar parte
del modelo de regresión. La última línea, Estadísticos globales, contiene una valoración glo-
bal de todas las variables independientes tomadas juntas.

Tabla 14. Variables no incluidas en la ecuación en el paso 0


Puntuación gl Sig.
Paso 0 Variables periódico 45,137 1 ,000
edad 20,956 1 ,000
hijos ,188 1 ,664
educ 60,910 1 ,000
ingfam91 53,935 1 ,000
Estadísticos globales 136,954 5 ,000

La Tabla 15 ofrece la información necesaria para valorar el ajuste global del modelo. Esta in-
formación se basa en el cambio experimentado por la razón de verosimilitudes (–2LL). Este
cambio aparece en la tabla con el nombre chi-cuadrado y permite contrastar la hipótesis de
que, en la población, todos los coeficientes de regresión (excepto la constante) valen cero. Por
tanto, el estadístico chi-cuadrado permite determinar si, al introducir en el modelo las cinco
covariables del ejemplo (paso 1), se consigue un incremento significativo del ajuste en com-
paración con el ajuste obtenido con el modelo que sólo incluye la constante (paso 0).
Puesto que el modelo se construye en un único paso (pues se está utilizando el método
introducir; ver siguiente apartado), todas las entradas de la tabla (ver primer ejemplo) infor-
man del mismo valor: la mejora respecto al modelo nulo, es decir, respecto al modelo del paso
0 (Chi-cuadrado = 143,754). En el ejemplo, esta mejora es significativa: Sig. < 0,0005.

Tabla 15. Pruebas ómnibus sobre los coeficientes del modelo (contrastes de ajuste global)
Chi-cuadrado gl Sig.
Paso 1 Paso 143,754 5 ,000
Bloque 143,754 5 ,000
Modelo 143,754 5 ,000

La Tabla 16 ofrece un resumen del modelo. Contiene tres estadísticos que permiten valorar
el ajuste global del modelo en el paso 1, es decir, del modelo que incluye todas las variables.
Comparando estos resultados con los de la Tabla 11 se puede apreciar que los estadísticos de
Cox y Snell y de Nagelkerke toman valores sensiblemente mejores (más altos), si bien siguen
siendo bajos si se piensa en términos de un modelo de regresión lineal.

Tabla 16. Resumen del modelo (estadísticos de ajuste global)


-2 log de la R cuadrado de R cuadrado de
Paso verosimilitud Cox y Snell Nagelkerke
1 970,392 ,143 ,205
Análisis de regresión logística 19

La Tabla 17 muestra la matriz de confusión con los resultados de la clasificación. Compa-


rando estos resultados con los del modelo que únicamente incluye la variable periódico (ver
Tabla 12), puede apreciarse que el porcentaje global de clasificación correcta ha aumentado
ligeramente: ha pasado del 71,6 % al 74,0 %. Sin embargo, el porcentaje de clasificación co-
rrecta sigue siendo mucho mayor en el grupo de votantes que en el de no votantes (91,9 frente
a 28,7). Según se explicará más adelante, aunque no es posible mejorar el porcentaje global
de clasificación correcta sin incluir nuevas variables independientes, sí es posible equilibrar
la tasa de aciertos en los dos grupos manipulando el punto de corte utilizado en la clasifica-
ción.

Tabla 17. Resultados de la clasificación (matriz de confusión)


a
Pronosticado

¿Votó en 1992? Porcentaje


Observado No votó Sí votó correcto
Paso 1 ¿Votó en 1992? No votó 76 189 28,7
Sí votó 54 615 91,9
Porcentaje global 74,0
a. El valor de corte es ,500

La tabla de variables incluidas en la ecuación (ver Tabla 18) muestra las estimaciones de los
coeficientes del modelo (B) y los datos necesarios para valorar su significación e interpretar-
los. La significación de cada coeficiente se evalúa a partir del estadístico de Wald. Este esta-
dístico permite contrastar la hipótesis nula de que el coeficiente vale cero en la población y
con variables cuantitativas y dicotómicas se obtiene elevando al cuadrado el cociente entre
el valor del coeficiente (B) y su error típico (Error típ.). Es un estadístico similar a una t 2.
Cuando el nivel crítico (Sig.) asociado al estadístico de Wald es menor que 0,05, se puede re-
chazar la hipótesis nula y, por tanto, concluir que la correspondiente covariable está relaciona-
da con la VD.
Un inconveniente de este estadístico es que es demasiado sensible al tamaño de los coefi-
cientes; en general, cuando el valor de un coeficiente es muy grande (en valor absoluto) el es-
tadístico de Wald es poco fiable. En estos casos es preferible evaluar la significación de las
variables utilizando un método por pasos (ver siguiente apartado).
El coeficiente asociado a la variable hijos no es significativo (Sig. = 0,723) por lo que, en
principio, no parece que sea necesario incluir esta variable en el modelo final. El resto de coe-
ficientes son significativos, por lo que puede afirmarse que todas las variables excepto hijos
contribuyen significativamente a mejorar el ajuste del modelo.
Puesto que todos los coeficientes significativos (Sig. < 0,05) tienen signo positivo, ya se
puede anticipar que todas las razones de las ventajas tendrán valores mayores que uno: el vo-
to (voto = 1) es más probable entre los sujetos que leen el periódico (periódico = 1), entre los
de más edad, entre los que tienen mayor nivel educativo y entre los que tienen mayores ingre-
sos familiares. La columna de la razón de las ventajas, Exp(B), permite cuantificar en qué gra-
do aumenta la ventaja del voto cuando cada una de las covariables aumenta una unidad (y se
mantienen constantes las restantes variables). Así, puesto que el punto de comparación es el
valor 1 y el Exp(B) de la variable periódico vale 1,956, se puede concluir que la ventaja del
voto entre los sujetos que leen el periódico es aproximadamente el doble (1,956 veces mayor)
que entre los que no lo leen.
20 Análisis de regresión logística

Tabla 18. Variables incluidas en la ecuación (estimaciones y significación de los coeficientes)


B E.T. Wald gl Sig. Exp(B)
Paso 1a periódico ,671 ,207 10,468 1 ,001 1,956
edad ,034 ,006 36,188 1 ,000 1,034
hijos -,018 ,051 ,125 1 ,723 ,982
educ ,192 ,032 35,276 1 ,000 1,212
ingfam91 ,056 ,016 12,722 1 ,000 1,058
Constante -4,308 ,511 71,191 1 ,000 ,013
a. Variable(s) introducida(s) en el paso 1: periódico, edad, hijos, educ, ingfam91.

Del mismo modo, la razón de las ventajas de, por ejemplo, la variable educ (años de escolari-
zación) vale Exp(B) = 1,212; como de nuevo el valor de comparación es 1, se puede afirmar
que por cada año más de escolarización la ventaja del voto aumenta 1,212 veces; lo que signi-
fica que cada año adicional de escolarización aumenta la ventaja del voto en un 21,2 %.
Con variables cuantitativas como la edad suele resultar más conveniente interpretar la ra-
zón de las ventajas asociada a un lustro o a una década en lugar de la razón de las ventajas
asociada a un solo año. En ese caso, la razón de las ventajas asociada a un cambio de k unida-
des se obtiene mediante ekB, siendo B el coeficiente de regresión correspondiente al cambio
de una unidad. En el ejemplo, la razón de las ventajas asociada a una década vale e10(0,034) =
1,405, lo que significa que por cada diez años que aumenta la edad de los sujetos, la ventaja
del voto aumenta un 40,5 %.
Conviene señalar que los coeficientes del modelo de regresión logística están expresados
en la métrica original de las variables (puntuaciones directas). A diferencia de lo que ocurre
en el modelo de regresión lineal múltiple, aquí no es posible tipificar los coeficientes para va-
lorar la importancia relativa de las variables. A pesar de esto, la interpretación de la razón de
las ventajas se realiza en términos del cambio producido en la ventaja del suceso de interés
por unidad de cambio producido en la variable independiente. Sin embargo, no parece que su-
ponga el mismo esfuerzo cumplir un año más de edad que superar un año más de estudios. Pa-
ra superar este inconveniente es habitual transformar la escala original de las variables inde-
pendientes: cuando se utilizan variables tipificadas es más fácil interpretar la importancia
relativa de una variable.

Análisis de regresión logística por pasos


Hasta ahora sólo se ha explicado cómo construir modelos de regresión logística en un único
paso, es decir, forzando la inclusión en el modelo de todas las variables independientes selec-
cionadas para el análisis. Pero esta no es la única ni, muchas veces, la mejor manera de proce-
der. Cuando, como es habitual, se dispone de más de una variable independiente, existen va-
rios métodos para seleccionar la variable o variables que deben formar parte del modelo de
final: la introducción forzosa, la selección por pasos y la selección por bloques.
El método de introducción forzosa hace que el modelo de regresión incluya todas las va-
riables independientes seleccionadas. Tiene la doble ventaja de que permite establecer el efec-
to conjunto de todas las variables y de que el modelo obtenido contiene las variables que se
consideran relevantes desde el punto de vista teórico. Como contrapartida, puede darse el caso
de que un modelo incluya variables que no contribuyen al ajuste.
Análisis de regresión logística 21

Los métodos de selección por pasos permiten utilizar criterios estadísticos para, de forma
automática, incluir en el modelo las variables que son significativas y dejar fuera las que no
lo son. Estos métodos dan lugar a modelos que sólo incluyen variables significativas, pero tie-
nen el inconveniente de que pueden dejar fuera del modelo variables teórica o conceptualmen-
te relevantes. En este sentido, es conveniente recordar que las variables cuya importancia para
predecir un resultado ha sido repetidamente puesta de manifiesto en investigaciones previas
deberían ser incluidas en el modelo de regresión sin prestar demasiada atención a su significa-
ción observada.
Los métodos de selección por bloques permiten manipular la inclusión y/o exclusión de
conjuntos de variables (bloques de variables) en combinación con la opción Introducir (ver
más abajo). La principal ventaja de esta estrategia radica en la posibilidad de generar modelos
jerárquicos y, de este modo, valorar la significación de conjuntos de variables.

Métodos de selección de variables

Las opciones del menú desplegable Método (ver Figura 1) permiten decidir qué método de
selección de variables se desea utilizar para construir el modelo de regresión logística. En los
métodos de selección por pasos, la inclusión (y la exclusión) de variables se basa en criterios
estadísticos: sólo se incluyen las variables que contribuyen al ajuste global del modelo, es de-
cir, las variables que ayudan a mejorar la capacidad predictiva del modelo. Para decidir qué
variables contribuyen al ajuste del modelo, todos los métodos de selección de variables utili-
zan el estadístico de puntuación de Rao. Para la exclusión de variables se puede elegir entre
el estadístico de Wald, el cambio en la razón de verosimilitudes y el estadístico condicional
(Lawless y Singhal, 1978).
Los métodos hacia adelante parten del modelo nulo (modelo que no incluye ninguna va-
riable independiente) y van incluyendo variables paso a paso hasta que no quedan variables
significativas por incluir. Los métodos hacia atrás parten del modelo saturado (modelo que
incluye todas las variables seleccionadas por el usuario) y van excluyendo variables paso a
paso hasta que no quedan variables no-significativas por excluir.
Introducir. Es el método que actúa por defecto. Construye el modelo de regresión en un
solo paso y con todas las variables independientes seleccionadas en la lista Covariables.
Es el método que actúa por defecto y el que se ha utilizado en los ejemplos propuestos
hasta ahora.
Adelante: Condicional. Método de selección por pasos hacia adelante que, partiendo del
modelo nulo, va incorporando aquellas variables cuyo estadístico de puntuación, siendo
significativo (0,05 por defecto), posee la probabilidad asociada más pequeña. Tras incor-
porar al modelo una nueva variable, todas las variables incluidas hasta ese momento son
revisadas mediante el estadístico condicional para determinar si existe alguna que debe
ser excluida, es decir, para determinar si, como consecuencia de la nueva incorporación,
el coeficiente de regresión asociado a alguna variable ha dejado de ser significativo (0,10
por defecto). El proceso se detiene cuando entre las variables no incluidas en el modelo
no queda ninguna cuyo estadístico de puntuación sea significativo.
Adelante: RV. Método similar al condicional pero que difiere en el estadístico utilizado pa-
ra evaluar la exclusión de variables: en lugar del estadístico de puntuación se utiliza la
22 Análisis de regresión logística

razón de verosimilitudes (RV). Con este método se van eliminando por turno cada una
de las variables del modelo y evaluando si la variable eliminada hace o no perder ajuste.
El estadístico RV contrasta la hipótesis nula de que la variable eliminada tiene un coefi-
ciente igual a 0. El valor de RV para una variable se obtiene dividiendo el valor de RV pa-
ra el modelo sin esa variable entre el valor de RV para el modelo con esa variable. Este
método de eliminación de variables basado en el estadístico RV debe ser el preferido
siempre que la complejidad de los datos constituyan una barrera computacional.
Adelante: Wald. Método similar al condicional en el que, para excluir variables del modelo,
en lugar del estadístico condicional se utiliza el estadístico de Wald. Una variable es ex-
cluida del modelo cuando la significación asociada al estadístico de Wald es mayor que
0,10.
Atrás: Condicional. Método de selección por pasos hacia atrás en el que, partiendo del mo-
delo saturado y utilizando el estadístico condicional se van eliminando variables no sig-
nificativas una a una hasta que no es posible seguir eliminando variables porque todas las
que permanecen en el modelo son significativas. Cada vez que se elimina una variable,
las previamente eliminadas son reevaluadas para determinar si alguna de ellas debe ser
nuevamente incorporada.
Atrás: RV. Método de selección por pasos hacia atrás en el que la exclusión de variables
se basa en el estadístico razón de verosimilitudes.
Atrás: Wald. Método de selección por pasos hacia atrás en el que la exclusión de variables
se basa en el estadístico de Wald.

Ejemplo: Regresión logística por pasos

Este ejemplo muestra cómo ejecutar e interpretar un análisis de regresión logística utilizando
un método de selección por pasos (en concreto, el método adelante: condicional). Se siguen
utilizando las mismas variables del ejemplo anterior:
' En el cuadro de diálogo principal (ver Figura 1), seleccionar la variable voto (¿votó
en 1992?) y trasladarla al cuadro Dependiente.
' Seleccionar las variables periódico (¿lee el periódico?), edad (edad del encuestado),
hijos (número de hijos), educ (años de escolarización) e ingfam91 (ingresos familia-
res en 1991), y trasladarlas a la lista de Covariables.
' Pulsar el botón de menú desplegable del recuadro Método y seleccionar el método
Adelante: Condicional.

Aceptando estas selecciones, el Visor ofrece, entre otros, los resultados que muestran las Ta-
blas 19 a la 24.
Los estadísticos de puntuación de la Tabla 19 ofrecen una valoración de lo que ocurriría
con cada una de las covariables utilizadas en el análisis si fueran incluidas en el modelo, cada
una por separado, en el primer paso. Esta valoración inicial sirve para elegir la variable que
será incorporada al modelo en el primer paso. Puesto que la variable educ es la que tiene aso-
ciado el mayor estadístico de puntuación al tiempo que un nivel crítico menor que 0,05, es la
variable elegida para ser incorporada al modelo en el primer paso.
Análisis de regresión logística 23

El estadístico de puntuación de la última fila (Estadísticos globales) permite contrastar


la hipótesis de que los coeficientes de todas las variables seleccionadas para el análisis valen
cero. Si no puede rechazarse esta hipótesis, las covariables incluidas en el análisis no permiti-
rán pronosticar correctamente los valores de la variable dependiente y, en consecuencia, no
podrá construirse un modelo que ofrezca un buen ajuste a los datos..

Tabla 19. Variables no incluidas en la ecuación en el paso 0


Puntuación gl Sig.
Paso 0 Variables periódico 45,137 1 ,000
hijos ,188 1 ,664
edad 20,956 1 ,000
educ 60,910 1 ,000
ingfam91 53,935 1 ,000
Estadísticos globales 136,954 5 ,000

La Tabla 20 ofrece una prueba de ajuste global. Recuérdese que el estadístico chi-cuadrado
permite contrastar la hipótesis de que la mejora obtenida en el ajuste es nula. La tabla infor-
ma, paso a paso, de las variaciones producidas en el ajuste como consecuencia de la incorpo-
ración (o eliminación) de cada nueva variable.
En cada paso se muestran tres tipos de información: la entrada Paso informa sobre la me-
jora en el ajuste debida a la variable recién incorporada (la mejora se evalúa respecto al ajuste
obtenido en el paso previo); la fila Bloque se refiere a la mejora en el ajuste debida al bloque
de variables recién incorporado (sólo útil si se utiliza un método de selección de variables por
bloques); la fila Modelo informa sobre la mejora en el ajuste debida al total de variables in-
cluidas (la mejora del modelo en cada paso se evalúa respecto a la obtenida en el paso 0).
En el primer paso se incluye la variable educ (ver Tabla 22); y la inclusión de esta varia-
ble supone una mejora significativa del ajuste (Sig. < 0,0005). En el segundo paso se incluye
la variable edad (ver Tabla 22); su inclusión (Paso) supone una mejora significativa del ajuste
respecto al paso anterior, y el modelo resultante (Modelo), que en este segundo paso incluye
el término constante y las variables edad y educ, también ofrece una mejora significativa del
ajuste. Etc. El método de ajuste por pasos ofrece 4 pasos y, como es lógico esperar, es en el
último donde se consigue el mejor ajuste.

Tabla 20. Pruebas ómnibus sobre los coeficientes del modelo (contrastes de ajuste global)
Chi-cuadrado gl Sig.
Paso 1 Paso 61,826 1 ,000
Bloque 61,826 1 ,000
Modelo 61,826 1 ,000
Paso 2 Paso 55,422 1 ,000
Bloque 117,248 2 ,000
Modelo 117,248 2 ,000
Paso 3 Paso 15,904 1 ,000
Bloque 133,152 3 ,000
Modelo 133,152 3 ,000
Paso 4 Paso 10,477 1 ,001
Bloque 143,629 4 ,000
Modelo 143,629 4 ,000
24 Análisis de regresión logística

En los estadísticos de ajuste global de la Tabla 21 también se puede apreciar que el ajuste glo-
bal del modelo va mejorando en cada paso, mientras que el valor de la razón de verosimilitu-
des (–2 log de la verosimilitud) va disminuyendo paulatinamente.

Tabla 21. Resumen de los modelos (estadísticos de ajuste global)


-2 log de la R cuadrado de R cuadrado de
Paso verosimilitud Cox y Snell Nagelkerke
1 1052,320 ,064 ,092
2 996,899 ,118 ,169
3 980,995 ,133 ,191
4 970,518 ,143 ,205

La Tabla 22 informa sobre las variables incorporadas al modelo en cada uno de los pasos.
También informa sobre las estimaciones de los coeficientes y su significación. Generalmente,
el paso que interesa valorar es el último, pues es el que contiene el modelo final. De las cinco
variables independientes seleccionadas para el análisis, el método por pasos utilizado ha se-
leccionado cuatro. En el ejemplo anterior, en el que el modelo construido incluía las cinco va-
riables, la variable hijos tenía asociado un coeficiente no significativo. Ahora, al proceder por
pasos, la variable hijos ha quedado fuera. El modelo final sólo incluye variables cuyos coefi-
cientes son significativamente distintos de cero.

Tabla 22. Variables incluidas en el modelo (estimaciones y significación de los coeficientes)


B E.T. Wald gl Sig. Exp(B)
Paso 1a educ ,190 ,025 55,734 1 ,000 1,209
Constante -1,474 ,323 20,829 1 ,000 ,229
Paso 2b edad ,036 ,005 49,291 1 ,000 1,036
educ ,262 ,029 81,079 1 ,000 1,300
Constante -3,976 ,497 64,098 1 ,000 ,019
Paso 3c edad ,035 ,005 48,098 1 ,000 1,036
educ ,211 ,031 45,555 1 ,000 1,235
ingfam91 ,062 ,016 15,821 1 ,000 1,064
Constante -4,171 ,501 69,170 1 ,000 ,015
Paso 4d periódico ,675 ,207 10,623 1 ,001 1,964
edad ,033 ,005 41,045 1 ,000 1,033
educ ,194 ,032 37,042 1 ,000 1,214
ingfam91 ,056 ,016 12,597 1 ,000 1,058
Constante -4,329 ,507 72,881 1 ,000 ,013
a. Variable(s) introducida(s) en el paso 1: educ.
b. Variable(s) introducida(s) en el paso 2: edad.
c. Variable(s) introducida(s) en el paso 3: ingfam91.
d. Variable(s) introducida(s) en el paso 4: periódico.

La Tabla 23 ofrece, para cado paso, una evaluación de la pérdida de ajuste que se produciría
en el modelo si se eliminaran, una a una, las variables ya incluidas. Esto sirve para valorar la
pertinencia de excluir en un paso dado alguna de las variables previamente incluidas. Recuér-
dese que los métodos de selección de variables por pasos hacia adelante permiten la exclu-
sión de una variable previamente incluida si se aprecia una pérdida en su significación como
Análisis de regresión logística 25

consecuencia de la incorporación de nuevas variables. Lo que ha ocurrido en el ejemplo es


que no se ha excluido ninguna de las variables previamente incluidas (cosa, por otra parte,
bastante habitual).

Tabla 23. Pérdida de ajuste del modelo al excluir variables


Log Cambio en -2
verosimilitud log de la Sig. del
Variable del modelo verosimilitud gl cambio
Paso 1 educ -557,366 62,413 1 ,000
Paso 2 edad -526,576 56,254 1 ,000
educ -547,402 97,906 1 ,000
Paso 3 edad -517,851 54,708 1 ,000
educ -516,008 51,021 1 ,000
ingfam91 -498,482 15,969 1 ,000
Paso 4 periódico -490,503 10,488 1 ,001
edad -508,231 45,944 1 ,000
educ -505,730 40,943 1 ,000
ingfam91 -491,586 12,654 1 ,000

La Tabla 24 muestra información sobre las variables todavía no incluidas en el modelo en


cada paso. La variable incluida en el siguiente paso es aquella que tiene asociado el estadísti-
co de puntuación más alto (siempre que éste sea significativo). La tabla muestra que, de las
variables no incluidas en el primer paso, la edad es la que tiene un estadístico de puntuación
más alto (52,000); como además es significativo (Sig. < 0,0005), ésa es la variable incorpora-
da al modelo en el siguiente paso. En el resto de los pasos se aplica el mismo criterio. Al lle-
gar al cuarto paso, la única variable todavía no incluida en el modelo es hijos; pero como no
cumple el criterio de entrada (pues Sig. = 723 > 0,05), la selección de variables se detiene.
La información de la Tabla 24 permite apreciar cómo por efecto de la presencia de coli-
nealidad algunas variables van perdiendo significación antes de ser incorporadas al modelo.
La variable hijos, por ejemplo, podría haber entrado en el paso 1, pero la información que
comparte con la variable edad impide que pueda entrar en pasos sucesivos.

Tabla 24. Variables no incluidas en el modelo


Puntuación gl Sig.
Paso 1 Variables periódico 24,618 1 ,000
hijos 6,976 1 ,008
edad 52,000 1 ,000
ingfam91 17,686 1 ,000
Estadísticos globales 80,186 4 ,000
Paso 2 Variables periódico 14,238 1 ,000
hijos ,035 1 ,851
ingfam91 16,116 1 ,000
Estadísticos globales 26,902 3 ,000
Paso 3 Variables periódico 10,780 1 ,001
hijos ,274 1 ,601
Estadísticos globales 10,911 2 ,004
Paso 4 Variables hijos ,126 1 ,723
Estadísticos globales ,126 1 ,723
26 Análisis de regresión logística

Variables categóricas
El modelo de regresión logística admite la posibilidad de utilizar variables independientes
categóricas, pero es necesario definirlas como tales y darles un tratamiento especial. Puesto
que los códigos de una variable nominal (raza, tipo de tratamiento, etc.) no tienen significado,
es necesario transformarlos para que tenga sentido incluirlos en un análisis de regresión. El
procedimiento permite identificar y definir variables categóricas y decidir qué tratamiento
deben recibir.
Las variables dicotómicas (dos categorías) codificadas como variables indicador, es de-
cir, con códigos 0 y 1 (uno de ellos indicando la ausencia de la característica y el otro indican-
do la presencia de la característica), pueden introducirse directamente en el análisis sin necesi-
dad de ninguna aclaración adicional; de hecho, ya se ha utilizado una variable indicador en
los ejemplos previos. Sin embargo, las variables politómicas (más de dos categorías) deben
ser definidas como categóricas antes de ser incluidas en un modelo de regresión. Para decidir
qué variables deben ser tratadas como categóricas:
' Pulsar el botón Categórica... del cuadro de diálogo principal (ver Figura 1) para acceder
al subcuadro de diálogo Regresión logística: Definir variables categóricas que muestra
la Figura 5.

Figura 5. Subcuadro de diálogo Regresión logística: Definir variables categóricas

' En la lista Covariables, seleccionar la(s) variable(s) que debe(n) ser tratada(s) como cate-
górica(s) y trasladarla(s) a la lista Covariables categóricas.
' En la lista Covariables categóricas, seleccionar la variable que se desea definir (o todas las
que se desea definir de la misma manera) y utilizar el menú desplegable Contraste para
seleccionar un tipo de contraste (en el caso de que se desee aplicar un contraste distinto
del contraste Indicador, que es el que se aplica por defecto).
' Pulsar el botón Cambiar para hacer efectivos los cambios y el botón Continuar para volver
al cuadro de diálogo principal.
Cambiar contraste. Las opciones de este recuadro permiten decidir qué tratamiento se desea
dar a las variables categóricas. El menú desplegable Contraste contiene varios tipos de con-
Análisis de regresión logística 27

trastes. Un contraste se refiere al esquema de codificación que recibirán las categorías de la


variable durante el análisis. Cuando se define una variable como categórica, el procedimiento
genera tantos contrastes como categorías tiene la variable menos uno. Cada uno de estos con-
trastes permite estimar un coeficiente de regresión para cada una de las categorías de la va-
riable, excepto para una de ellas (la categoría de referencia). En algunos contrastes existe la
posibilidad de elegir entre las categorías primera y última como categoría de referencia.
A continuación se ofrece una descripción de los contrastes disponibles (todos ellos gene-
ran una matriz de códigos –de dimensiones k(k–1), siendo k el número de categorías de la va-
riable– en la que cada categoría adquiere un significado particular que depende de las caracte-
rísticas del contraste elegido):
Indicador. Cada categoría se compara con la categoría de referencia. A la categoría de re-
ferencia, que puede ser la primera o la última, se le asignan ceros.
Simple. Cada categoría se compara con la categoría de referencia (la primera o la última).
A la categoría de referencia se le asignan unos.
Diferencia. Cada categoría, excepto la primera, se compara con el promedio de las catego-
rías anteriores a ella. También se conocen como contrastes de Helmert inversos.
Helmert. Cada categoría, excepto la última, se compara con el promedio de las categorías
posteriores a ella.
Repetido. Cada categoría, excepto la primera, se compara con la categoría inmediatamente
anterior.
Polinómico. Contrastes polinómicos ortogonales en los que el primer contraste define una
tendencia lineal, el segundo una tendencia cuadrática, el tercero una tendencia cúbica,
etc. Estos contrastes sólo tienen sentido si la variable es de naturaleza cuantitativa y sus
categorías se encuentran igualmente espaciadas (puede utilizarse la sintaxis para definir
categorías desigualmente espaciadas).
Desviación. Cada categoría, excepto la categoría de referencia, se compara con el prome-
dio de todas las categorías. La categoría de referencia puede ser la primera o la última.

Para cambiar el tipo de contraste de una variable, una vez en el cuadro de diálogo Regresión
logística: Definir variables categóricas (ver Figura 5):
' En la lista Covariables categóricas, seleccionar la covariable categórica cuyo esquema
de codificación se desea cambiar (es posible seleccionar un conjunto de covariables
para cambiar el tipo de contraste a todas ellas simultáneamente).
' Pulsar en la lista desplegable Contraste para obtener una lista de todos los contrastes
disponibles; seleccionar el contraste deseado.
' Cambiar la categoría de referencia a Última o Primera según convenga (puede utili-
zarse la sintaxis para definir una categoría de referencia distinta).
' Pulsar el botón Cambiar para actualizar las elecciones hechas (en la lista Covariables
categóricas se reflejarán las elecciones efectuadas) y el botón Continuar para volver
al cuadro de diálogo principal.
Las variables definidas como categóricas aparecen, en el cuadro de diálogo principal, marca-
das con el sufijo Cat (añadido entre paréntesis detrás del nombre de la variable).
28 Análisis de regresión logística

Ejemplo: Regresión logística > Variables categóricas

Este ejemplo muestra cómo definir una variable categórica e interpretar los resultados relacio-
nados con ella. Se sigue utilizando la misma variable dependiente que en los ejemplos anterio-
res (voto) y, como variable independiente, se utiliza la variable sitlab (situación laboral), una
variable categórica con 8 niveles o categorías.
' En el cuadro de diálogo principal (ver Figura 1), seleccionar la variable voto (¿votó
en 1992?) y trasladarla al cuadro Dependiente.
' Seleccionar la variable sitlab (situación laboral) y trasladarla a la lista Covariables.
' Pulsar el botón Categórica... para acceder al subcuadro de diálogo Regresión logísti-
ca: Definir variables categóricas (ver Figura 5).
' Seleccionar la variable sitlab en la lista Covariables y trasladarla a la lista Covariables
categóricas. Dejar Indicador como opción del recuadro Contraste y pulsar el botón Con-
tinuar para volver al cuadro de diálogo principal.

Aceptando estas selecciones, el Visor ofrece, entre otros, los resultados que muestran las Ta-
blas 25 y 26 (sólo se explican los resultados relacionados con el hecho de haber incluido una
variable categórica en el análisis).
La Tabla 25 muestra la codificación asignada a las categorías de la variable sitlab. La va-
riable se ha descompuesto en 7 variables indicador. A todas las categorías (excepto a la últi-
ma) se les ha asignado el valor 1 en la columna correspondiente al parámetro que la va a re-
presentar en las estimaciones del modelo. El resto de valores en la misma fila y columna son
ceros. Esta información sirve para saber que, más adelante, la categoría «a tiempo completo»
va a estar representada por el parámetro o coeficiente 1, la categoría «a tiempo parcial» por
el parámetro o coeficiente 2, etc. Por supuesto, cambiando el esquema de codificación (con-
traste) en el correspondiente cuadro de diálogo, cambiarán los códigos asignados a cada cate-
goría.

Tabla 25. Códigos tipo «indicador» asignados a las categorías de la variable sitlab (situación laboral)
Codificación de parámetros
Frecuencia (1) (2) (3) (4) (5) (6) (7)
Situación A tiempo completo 724 1,000 ,000 ,000 ,000 ,000 ,000 ,000
laboral A tiempo parcial 159 ,000 1,000 ,000 ,000 ,000 ,000 ,000
Temp. desempleado 28 ,000 ,000 1,000 ,000 ,000 ,000 ,000
Desempleado 50 ,000 ,000 ,000 1,000 ,000 ,000 ,000
Retirado 224 ,000 ,000 ,000 ,000 1,000 ,000 ,000
Estudiante 38 ,000 ,000 ,000 ,000 ,000 1,000 ,000
Ama de casa 195 ,000 ,000 ,000 ,000 ,000 ,000 1,000
Otro 34 ,000 ,000 ,000 ,000 ,000 ,000 ,000

La Tabla 26 ofrece las estimaciones de los coeficientes del modelo y su significación (Sig.).
Estos coeficientes corresponden a la variable sitlab, a los parámetros categóricos definidos
al codificar las categorías de la variable sitlab en la Tabla 25 y a la constante del modelo.
La primera fila, encabezada con el nombre de la variable, ofrece un contraste del efecto
de la variable sitlab globalmente considerada. Si este contraste del efecto global no fuera sig-
Análisis de regresión logística 29

nificativo, carecería de sentido seguir inspeccionando los contrastes en los que se ha descom-
puesto el efecto global de la variable.
A continuación se muestran las estimaciones de los parámetros y su significación. La in-
terpretación que debe hacerse de esta información depende del tipo de codificación asignada
(es decir, del tipo de contraste elegido). En el ejemplo, dado que se ha asignado una codifica-
ción tipo indicador, cada uno de los coeficientes B representa una categoría de la variable
sitlab. Un coeficiente significativo (es decir, un coeficiente con Sig. < 0,05) indica que la cate-
goría representada difiere significativamente de la categoría de referencia (en el ejemplo, la
última). Los coeficientes 4, 6 y 7 no son significativos, por lo que se puede afirmar que los
sujetos de las categorías «desempleado», «estudiante» y «ama de casa» no difieren significati-
vamente de los sujetos de la categoría «otro». Es decir, que la probabilidad de acudir a votar
(voto = 1) entre los sujetos que pertenecen a estas tres categorías no difiere de la probabilidad
de acudir a votar entre los sujetos que pertenecen a la categoría de referencia.
Los coeficientes 1, 2, 3 y 5 son significativamente distintos de cero (Sig. < 0,05) y con
una razón de las ventajas o Exp(B) mayor que 1 en todos los casos. Se puede afirmar, por tan-
to, que entre los sujetos que pertenecen a las categorías «a tiempo completo», «a tiempo par-
cial», «temporalmente desempleado» y «retirado», la probabilidad de acudir a votar (voto =
1) es mayor que entre los sujetos que pertenecen a la categoría de referencia «otro».

Tabla 26. Variables incluidas en la ecuación (estimaciones y significación de los coeficientes)


B E.T. Wald gl Sig. Exp(B)
Paso 1 a sitlab 36,819 7 ,000
sitlab(1) 1,019 ,353 8,327 1 ,004 2,771
sitlab(2) 1,193 ,391 9,312 1 ,002 3,297
sitlab(3) 1,526 ,601 6,449 1 ,011 4,600
sitlab(4) -,323 ,447 ,522 1 ,470 ,724
sitlab(5) 1,052 ,375 7,847 1 ,005 2,862
sitlab(6) ,773 ,489 2,497 1 ,114 2,167
sitlab(7) ,580 ,374 2,403 1 ,121 1,786
Constante ,000 ,343 ,000 1 1,000 1,000
a. Variable(s) introducida(s) en el paso 1: sitlab.

Un contraste de gran utilidad con variables categóricas es el de Desviación. En este contraste


se evalúa el efecto de la desviación de cada categoría de la variable respecto del promedio de
todas las categorías. Este tipo de contraste difiere del contraste Indicador en que la última cate-
goría recibe códigos de –1 en todas las nuevas variables. A continuación se repite el análisis
cambiando la opción Indicador del menú desplegable Contraste por la opción Desviación y se-
leccionando la primera categoría como categoría de referencia:
' En el cuadro de diálogo principal (ver Figura 1), seleccionar la variable voto (¿votó
en 1992?)y trasladarla al cuadro Dependiente; seleccionar la variable sitlab y trasla-
darla a la lista Covariables.
' Pulsar el botón Categórica... para acceder al subcuadro de diálogo Regresión logís-
tica: Definir variables categóricas (ver Figura 5); seleccionar la variable sitlab en
la lista Covariables y trasladarla a la lista Covariables categóricas.
' Pulsar el botón de menú desplegable Contraste, seleccionar la opción Desviación y
pulsar el botón Cambiar.
30 Análisis de regresión logística

Aceptando estas selecciones, se obtienen, entre otros, los resultados que muestran las Tablas
27 y 28. La Tabla 27 ofrece la codificación utilizada en los contrastes de desviación. Esta
nueva codificación, recordemos, permite comparar cada categoría con el promedio de todas
ellas*. Obsérvese que ahora existen 3 códigos distintos por columna: el valor 1 indica a qué
categoría corresponde cada parámetro; el valor –1 identifica a la categoría de referencia; al
resto de las categorías se les asigna el valor 0.

Tabla 27. Códigos de «desviación» asignados a las categorías de la variable sitlab (situación laboral)
Codificación de parámetros
Frecuencia (1) (2) (3) (4) (5) (6) (7)
Situación A tiempo completo 724 1,000 ,000 ,000 ,000 ,000 ,000 ,000
laboral A tiempo parcial 159 ,000 1,000 ,000 ,000 ,000 ,000 ,000
Temp. desempleado 28 ,000 ,000 1,000 ,000 ,000 ,000 ,000
Desempleado 50 ,000 ,000 ,000 1,000 ,000 ,000 ,000
Retirado 224 ,000 ,000 ,000 ,000 1,000 ,000 ,000
Estudiante 38 ,000 ,000 ,000 ,000 ,000 1,000 ,000
Ama de casa 195 ,000 ,000 ,000 ,000 ,000 ,000 1,000
Otro 34 -1,000 -1,000 -1,000 -1,000 -1,000 -1,000 -1,000

La Tabla 28 ofrece las estimaciones de los coeficientes y su significación. Para interpretar es-
tos resultados puede comenzarse calculando el valor de desviación de la categoría de referen-
cia (que no se ofrece). Este valor es igual a la suma de los coeficientes de las restantes catego-
rías, cambiada de signo. Por tanto, el coeficiente de la categoría de referencia («otro») valdrá:
– (–0,466 – 0,798 + 1,050 +...+ 0,727) = – 0,728, y Exp(B) = 0,483. Se puede afirmar que, entre
los sujetos de la categoría «otro», la ventaja de acudir a votar es un 100–48,3 = 51,7 % menor
que en el conjunto de sujetos. Pero no se sabe si esta reducción es significativa; para poder
concluir en este sentido hay que repetir el análisis tomando la primera categoría como catego-
ría de referencia y , de este modo, poder observar la significación de la última categoría.

Tabla 28. Variables incluidas en la ecuación (estimaciones y significación de los coeficientes)


B E.T. Wald gl Sig. Exp(B)
Paso 1 a sitlab 36,819 7 ,000
sitlab(1) ,292 ,125 5,481 1 ,019 1,339
sitlab(2) ,466 ,191 5,920 1 ,015 1,593
sitlab(3) ,799 ,439 3,307 1 ,069 2,222
sitlab(4) -1,050 ,268 15,368 1 ,000 ,350
sitlab(5) ,324 ,166 3,797 1 ,051 1,383
sitlab(6) ,046 ,319 ,021 1 ,886 1,047
sitlab(7) -,148 ,164 ,810 1 ,368 ,863
Constante ,728 ,101 51,883 1 ,000 2,070
a. Variable(s) introducida(s) en el paso 1: sitlab.

*
Cuando se definen contrastes ortogonales, los códigos reflejan cómo se están comparando las categorías. Pero, dado que
los contrastes de desviación no son ortogonales, los códigos asignados no reflejan cómo se están comparando las categorías,
sino cómo deben transformarse los datos para obtener las predicciones del modelo. Los códigos de un contraste de desvia-
ción indican, de hecho, cómo se están transformando los datos para estimar los parámetros.
Análisis de regresión logística 31

Puesto que los coeficientes 3, 5, 6 y 7 («temporalmente desempleado», «retirado», «estu-


diante» y «ama de casa») no son significativos, se puede concluir que los sujetos que pertene-
cen a esas categorías acuden a votar en proporción similar a la proporción en que acude a vo-
tar toda la muestra. Los sujetos que pertenecen a las categorías «a tiempo completo» y «a
tiempo parcial» (coeficientes 1 y 2) acuden a votar significativamente más de lo que lo hace
toda la muestra (en concreto, un 33,9 % y un 59,3 % más, respectivamente). Y los sujetos per-
tenecientes a la categoría «desempleado» (coeficiente 4) acuden a votar significativamente
menos de lo que lo hace toda la muestra (en concreto, un 65 % menos).
Con los contrastes de desviación puede suceder que, siendo significativo el efecto global
de la variable, no lo sea ninguno de los coeficientes estimados. En ese caso, suele ocurrir que
el único coeficiente significativo es el asociado a la categoría de referencia (que es justamente
el coeficiente que el procedimiento no estima). Este coeficiente puede obtenerse restando de
cero la suma del resto de coeficientes. Pero no es necesario hacer este cálculo. Si se repite el
análisis cambiando la categoría de referencia, no sólo se obtendrá una estimación de ese coefi-
ciente, sino su significación.
Debe tenerse en cuenta que, aunque con los distintos contrastes se obtienen diferentes
coeficientes de regresión, las conclusiones a las que se llega son equivalentes. Con los con-
trastes indicador y desviación del ejemplo se han obtenido diferentes coeficientes de regre-
sión, pero en el primer caso se están comparando una a una las distintas categorías con una
de ellas que se toma como referente de la comparación, y en el segundo caso se está compa-
rando cada categoría con el promedio de todas ellas.

Guardar pronósticos y residuos


En ocasiones puede interesar llevar a cabo un estudio pormenorizado de los casos que compo-
nen la muestra utilizada en el análisis, o utilizar en otros procedimientos los resultados de la
clasificación realizada por la regresión logística. El SPSS permite guardar en el archivo de
datos algunos de los resultados generados por el procedimiento Regresión logística. Para guar-
dar como variables estos resultados:
' Pulsar el botón Guardar... del cuadro de diálogo principal (ver Figura 1) para acceder al
subcuadro de diálogo Regresión logística: Guardar nuevas variables que muestra la
Figura 6.

Figura 6. Subcuadro de diálogo Regresión logística: Guardar nuevas variables


32 Análisis de regresión logística

Valores pronosticados. Las opciones de este recuadro permiten crear variables nuevas basadas
en los pronósticos del modelo:
“ Probabilidades (PRE_A#). Crea una variable en la que, a cada caso del archivo de da-
tos, se le asigna la probabilidad pronosticada por el modelo (la probabilidad de perte-
necer a la categoría de la variable dependiente codificada con un 1).
“ Grupo de pertenencia (PGR_A#). Crea una variable en la que, a cada caso del archivo
de datos, se le asigna el grupo (categoría de la variable dependiente) en el que ha si-
do clasificado por el modelo a partir del punto de corte seleccionado en el cuadro de
diálogo Opciones (ver Figura 9). El punto de corte por defecto es 0,5.

Influencia. Las opciones de este recuadro permiten crear variables con información sobre la
influencia (peso, importancia) de cada caso en el modelo de regresión:
“ De Cook (COO_#). Distancia de Cook (1977). Mide el cambio que se produce en las
estimaciones de los coeficientes de regresión al ir eliminando cada caso de la ecua-
ción: COOi = (RESi2×LEVi)/(1–LEVi). Una distancia de Cook grande indica que el
caso tiene un peso considerable en la estimación de los coeficientes. En general, un
caso con una distancia de Cook superior a 1 debe ser revisado.
“ Valores de influencia (LEV_#). Representan la influencia potencial de cada caso en el
modelo de regresión. Un valor de influencia es una medida normalizada del grado
de distanciamiento de un caso respecto del centro de su distribución. Los casos muy
alejados pueden influir de forma muy importante en la ecuación de regresión, pero
no necesariamente tienen por qué hacerlo. Los valores de influencia se encuentran
entre 0 y 1, y su valor promedio es p/n, donde p es el número de parámetros estima-
dos (incluida la constante) y n es el tamaño de la muestra. Cuando el pronóstico asig-
nado a un caso es muy extremo (menor que 0,10 o mayor que 0,90), el valor de in-
fluencia podría ser pequeño aun tratándose de un caso muy influyente.
“ DfBetas (DFB#_#). Diferencia en los coeficientes de regresión. Mide el cambio que
se produce en los coeficientes de regresión al ir eliminando cada caso de la ecuación
de regresión. El SPSS crea en el Editor de datos tantas variables nuevas como coefi-
cientes beta tiene la ecuación de regresión, incluida la constante.

Residuos. Las opciones de este recuadro permiten crear variables que contienen información
relacionada con los residuos:
“ No tipificados (RES_#). A cada caso le corresponde un residuo no tipificado o bruto
resultado de restar la probabilidad pronosticada por el modelo a la probabilidad ob-
servada: RESi = Pi – Pi’ (estas probabilidades se refieren al evento de interés, es decir
a la categoría de la variable dependiente codificada internamente con un 1; así, Pi se
refiere a la probabilidad observada de que el caso i pertenezca a la categoría 1).
“ Logit (LRE_#). Residuo en escala logit. Residuos no tipificados divididos por la va-
rianza de sus correspondientes pronósticos LREi = RESi / [Pi’(1– Pi’ )].
“ Método de Student (SRE_#). Residuos estudentizados. Raíz cuadrada del cambio ob-
servado en las desvianzas (ver más abajo) al ir excluyendo cada caso de la ecuación
de regresión. Una fuerte discrepancia entre un residuo estudentizado y su desvianza
puede estar delatando la presencia de un caso atípico.
Análisis de regresión logística 33

“ Tipificados (ZRE_#). Los residuos tipificados se obtienen dividiendo los residuos no


tipificados por una estimación de su error típico. En el caso de la regresión logística,
un residuo se tipifica dividiéndolo por la raíz cuadrada de Pi (1– Pi). Con muestras
grandes, los residuos tipificados, también denominados residuos de Pearson, se
distribuyen de forma aproximadamente normal con media 0 y desviación típica 1.
“ Desvianza (DEV_#). La desvianza se define como la raíz cuadrada de –2 loge( P’’), i
siendo P’’i la probabilidad pronosticada para el grupo real (es decir, la probabilidad
pronosticada de que un caso pertenezca al grupo –categoría de la variable dependien-
te– que realmente pertenece).
El procedimiento calcula la desvianza asignando la raíz cuadrada positiva si el
caso pertenece a la categoría codificada con un 1, y asignando la raíz cuadrada nega-
tiva si el caso pertenece a la categoría codificada con un 0. Con muestras grandes,
las desvianzas se distribuyen de forma aproximadamente normal.

Ejemplo: Regresión logística > Guardar pronósticos y residuos


Este ejemplo muestra cómo crear y almacenar, en el Editor de datos, nuevas variables con in-
formación relativa a algunos resultados del análisis de regresión logística.
Al igual que en los ejemplos anteriores, se sigue utilizando la variable voto (¿votó en
1992?) como variable dependiente y, como variables independientes, las variables periódico
(¿lee el periódico?), edad (edad del encuestado), titestud (título escolar), indsocec (índice
socioeconómico) y telenov (frecuencia de visualización de comedias y dramas):
' En el cuadro de diálogo principal (ver Figura 1), seleccionar la variable voto y tras-
ladarla al cuadro Dependiente.
' Seleccionar las variables periódico, edad, titestud, indsocec y telenov, y trasladarlas
a la lista de Covariables.
' Pulsar el botón Guardar... para acceder al subcuadro de diálogo Regresión logística:
Guardar nuevas variables (ver Figura 6).
' Marcar las opciones Probabilidades y Grupo de pertenencia del recuadro Valores pronos-
ticados, la opción De Cook del recuadro Influencia y la opción Tipificados del recuadro
Residuos. Pulsar el botón Continuar para volver al cuadro de diálogo principal.

Aceptando estas selecciones, el Visor ofrece, entre otros, los resultados que muestran las Ta-
blas 29. Además, el Editor de datos genera estas cuatro nuevas variables:
• PRE_1, con etiqueta «probabilidad pronosticada».
• PGR_1, con etiqueta «grupo pronosticado».
• COO_1, con etiqueta «análogo del estadístico de influencia de Cook».
• ZRE_1, con etiqueta «residuo normalizado».
La Tabla 29 muestra las estimaciones de los coeficientes del modelo y su significación. Al
igual que en un modelo de regresión lineal, estos coeficientes pueden utilizarse para construir
una ecuación lineal y, de esta forma, obtener los pronósticos:
Pr = –2,309 + 0,894 periódico + 0,030 edad + 0,576 titestud + 0,017 indsocec – 0,137 telenov
34 Análisis de regresión logística

Así, por ejemplo, el pronóstico que corresponde a un sujeto que lee el periódico (1), con 44
años de edad, con diploma universitario (3), con un índice socioeconómico de 63,5 y que ve
comedias y dramas varios días al mes (3), le corresponde un pronóstico de:

Pr = –2,309 + 0,894 (1) + 0,030 (44) + 0,576 (3) + 0,017 (63,5) – 0,137 (3) = 2,3015

Transformando Pr a escala logística se obtienen las probabilidades pronosticadas por el mo-


delo. Es decir, las probabilidades que el modelo pronostica y que se acaban de almacenar en
la variable PRE_1 se obtienen transformando Pr (los pronósticos lineales) a escala logística
mediante:

Éste es justamente el pronóstico que ha generado el procedimiento en la variable PRE_1 para


el segundo caso del archivo.

Tabla 29. Variables incluidas en la ecuación (estimaciones y significación de los coeficientes)


B E.T. Wald gl Sig. Exp(B)
Paso 1a periódico ,894 ,210 18,125 1 ,000 2,445
edad ,030 ,005 37,196 1 ,000 1,031
titestud ,576 ,104 30,461 1 ,000 1,780
indsocec ,017 ,006 8,698 1 ,003 1,017
telenov -,137 ,068 4,115 1 ,043 ,872
Constante -2,309 ,384 36,255 1 ,000 ,099
a. Variable(s) introducida(s) en el paso 1: periódico, edad, titestud, indsocec, telenov.

La Figura 7 muestra un diagrama de dispersión que expresa la relación existente entre la va-
riable dependiente y el conjunto de variables independientes. En el eje de abscisas están re-
presentadas las puntuaciones Pr (las cuales, en tanto que pronósticos lineales, representan al
conjunto de variables independientes). En el eje de ordenadas están representados los pronós-
ticos del modelo en escala logística.

Figura 7. Representación de las probabilidades pronosticadas respecto de los pronósticos lineales


1,00 Grupo pronosticado
No votó
Sí votó
Probabilidad pronosticada

0,80

0,60

0,40

0,20

-2,00 -1,00 0,00 1,00 2,00 3,00 4,00 5,00


Pronóstico lineal
Análisis de regresión logística 35

La figura muestra con claridad que la nube de puntos adopta forma de curva logística. Mien-
tras que las puntuaciones resultantes de la combinación lineal de las variables independientes
(Pr) no poseen mínimo o máximo establecidos, la probabilidades pronosticadas por el modelo
muestran claros umbrales en la parte inferior y superior de la curva.
El gráfico incluye una línea horizontal que representa el punto de corte utilizado para la
clasificación (0,50). Este punto de corte es el que utiliza el programa para asignar los casos
a uno u otro grupo (a una u otra categoría de la variable dependiente): los casos cuya probabi-
lidad pronosticada es mayor que el punto de corte son clasificados en el grupo internamente
codificado con un 1 («sí votó»); los casos cuya probabilidad pronosticada es menor que el
punto de corte son clasificados en el otro grupo o categoría («no votó»).
Una vez obtenidos los pronósticos puede cambiarse el punto de corte ensayando valores
hasta encontrar el mejor equilibrio entre las proporciones de clasificación correcta en ambos
grupos (esto se hace desde el cuadro de diálogo Opciones; ver siguiente apartado). Y, por su-
puesto, siempre existe la posibilidad de recurrir al procedimiento Curva COR para determinar
el mejor punto de corte. Con este procedimiento se obtendría un punto de corte óptimo situado
en torno al valor 0,70; este es el valor que se utilizará en el próximo ejemplo como punto de
corte.
La Tabla 30 muestra algunos estadísticos descriptivos referidos a las nuevas variables que
el procedimiento ha creado en el Editor de datos. Estos descriptivos se han obtenido con la
opción Estadísticos descriptivos > Descriptivos... del menú Analizar. Observando la tabla se
aprecia, por ejemplo, que las probabilidades pronosticadas oscilan entre 0,193 y 0,985 y que
la proporción de casos clasificados en el grupo o categoría 1, es decir, la media del grupo pro-
nosticado, vale 0,715: el procedimiento, utilizando el punto de corte establecido por defecto
(0,5), ha clasificado en el grupo de no votantes al 71,5 % de los casos.
Por otro lado, el valor más alto obtenido para la distancia de Cook es de 0,105, lo cual
permite confiar en que no existen casos con demasiada influencia en el modelo (con dema-
siado peso en los pronósticos obtenidos).

Tabla 30. Descriptivos de las variables creadas por el procedimiento


N Mínimo Máximo Suma Media Desv. típ.
Probabilidad pronosticada 953 ,193 ,985 681,114 ,715 ,177
Grupo pronosticado 953 ,000 1,000 831,000 ,872 ,334
E estadísticos de influencia de Cook 925 ,000 ,105 6,393 ,007 ,012
Residuo normalizado 925 -6,012 1,837 -5,017 -,005 1,017
N válido (según lista) 925

En relación con los residuos tipificados (el SPSS les coloca la etiqueta normalizados), se ob-
serva, en primer lugar, que su media vale aproximadamente 0 y su desviación típica aproxi-
madamente 1. Existe al menos un caso con un residuo tipificado considerablemente alto (Má-
ximo = 6,012); es decir, al menos un caso presenta un residuo que se aleja más de 6 desviacio-
nes típicas por encima de la media. El significado de los residuos en un modelo de regresión
logística no es muy distinto del de los residuos en un modelo de regresión lineal: un residuo
alto (generalmente, un residuo situado a más de 3 desviaciones típicas por encima de la me-
dia) permite identificar a un sujeto que ha votado a pesar de que sus puntuaciones en el con-
junto de las variables independientes definen el perfil típico de los sujetos que se abstienen;
por el contrario, un residuo bajo (generalmente, un residuo situado a más de 3 desviaciones
36 Análisis de regresión logística

típicas por debajo de la media) permite identificar a un sujeto que no ha votado a pesar de que
sus puntuaciones en el conjunto de las variables independientes definen el perfil típico de los
sujetos que votan.
Un diagrama de dispersión de los residuos tipificados puede ayudar a identificar casos
atípicos, es decir, casos cuyo comportamiento no es similar al resto de casos y, consecuente-
mente, casos que el modelo no es capaz de pronosticar correctamente. La Figura 8 muestra
un diagrama de dispersión con el número de identificación de caso en el eje horizontal y los
residuos tipificados en el vertical. El gráfico muestra con claridad que los residuos positivos
(los cuales corresponden a los votantes: voto = «sí votó») no se alejan en ningún caso más de
dos desviaciones típicas de la media (de hecho, oscilan entre 0,12 y 1,84). Mientras que los
residuos negativos (los que corresponden a los no votantes: voto = «no votó») tienen un rango
de variación sensiblemente mayor (de hecho, oscilan entre –0,49 y –6,01): hay más de 30 ca-
sos que se alejan de la media más de dos desviaciones típicas, y 13 casos que se alejan más
de tres desviaciones típicas. Esto significa que el modelo ofrece mejores pronósticos en el
grupo de votantes que en el de no votantes. Los casos cuyos residuos se alejan de la media
más de 4 desviaciones típicas aparecen identificados en el gráfico por su número de caso en
el archivo de datos (esto puede hacerse en el Editor de gráficos mediante la herramienta de
identificación de puntos).

Figura 8. Diagrama de dispersión de los residuos tipificados (normalizados)


2,00

0,00
Residuo normalizado

-2,00

-4,00 788

1.408
285

284
-6,00

0 500 1000 1500 2000


Número de identificación del encuestado

Opciones
El cuadro de diálogo Opciones ofrece la posibilidad de obtener algunos estadísticos y gráficos
que el procedimiento no ofrece por defecto. También permite controlar las probabilidades de
entrada y salida utilizadas en los métodos de selección de variables por pasos, establecer el
número máximo de iteraciones en el algoritmo de estimación, decidir si el modelo debe o no
incluir el término constante y cambiar el punto de corte que el procedimiento utiliza para cla-
sificar los casos. Para seleccionar estas opciones:
' Pulsar el botón Opciones... del cuadro de diálogo principal (ver Figura 1) para acceder al
subcuadro de diálogo Regresión logística: Opciones que muestra la Figura 9.
Análisis de regresión logística 37

Figura 9. Subcuadro de diálogo Regresión logística: Opciones

Estadísticos y gráficos. Las opciones de este recuadro permiten seleccionar algunos estadísticos
y gráficos:
“ Gráficos de clasificación. Genera un histograma apilado de las probabilidades pronosti-
cadas por el modelo. En este histograma se distinguen los casos de cada uno de los
dos grupos utilizados en el análisis, el punto de corte utilizado en la clasificación y
los territorios de clasificación.
“ Bondad de ajuste de Hosmer-Lemeshow. Este índice es útil para evaluar el ajuste global
del modelo, particularmente cuando se dispone de muchas variables independientes
o cuando algunas de las variables independientes son continuas.
“ Listado de residuos por caso. Genera un listado de los residuos no tipificados, de las
probabilidades pronosticadas, del grupo observado y del grupo pronosticado:
 Valores atípicos a más de k desv. típicas. Limita el listado a los casos cuyo residuo
tipificado se aleja de la media de los residuos más de k desviaciones típicas (en
valor absoluto).
 Todos los casos. Lista todos los casos incluidos en el análisis.
“ Correlaciones de estimaciones. Ofrece la matriz de correlaciones entre las estimaciones
de los parámetros del modelo.
“ Historial de iteraciones. Genera un listado con los valores de los coeficientes estimados
y del logaritmo de la función de verosimilitud en cada iteración del proceso de esti-
mación.
“ IC para Exp(B): __ %. Incluye en la tabla de estimaciones de los coeficientes (tabla de
variables incluidas en el modelo) el intervalo de confianza correspondiente al valor
exponencial de cada coeficiente (eB). Este intervalo se construye, por defecto, con
una confianza del 95 %, pero es posible cambiar el nivel de confianza introduciendo
un valor entre 1 y 99.
38 Análisis de regresión logística

Mostrar. Las opciones de este recuadro permiten controlar el detalle con el que se generan los
resultados:
“ En cada paso. Se muestran los estadísticos, tablas y gráficos correspondientes a cada
paso de la estimación. No se muestra el resumen de los pasos.
“ En el último paso. Se muestran los estadísticos, tablas y gráficos correspondientes al
modelo final correspondiente a cada bloque. En estos resultados se resumen los pasos
intermedios.
Probabilidades para los casos. Las opciones de este cuadro permiten modificar los niveles de
significación utilizados en los métodos de selección por pasos. La probabilidad de Entrada
(0,05 por defecto) se refiere al nivel de significación utilizado para considerar que el coefi-
ciente asociado a una variable todavía no incluida en el modelo es distinto de cero y, por tan-
to, para decidir que la variable debe ser incluida en el modelo. Este valor es necesario para
garantizar que el modelo final sólo incluya variables que contribuyan significativamente al
ajuste global.
La probabilidad de Salida (0,10 por defecto) se refiere al nivel de significación utilizado
para considerar que el coeficiente asociado a una variable ya incluida en el modelo ha dejado
de ser significativo (como consecuencia de la incorporación de nuevas variables) y, por tanto,
que la variable debe ser excluida del modelo. Este valor es necesario para garantizar que el
modelo final no incluya variables que no contribuyan significativamente al ajuste global. La
probabilidad de salida debe ser mayor que la de entrada.
Punto de corte para la clasificación. El punto de corte es el valor que se utiliza para clasificar a
los casos en uno u otro grupo o categoría de la variable dependiente: los casos cuya probabili-
dad pronosticada es mayor que el punto de corte son clasificados en el grupo o categoría codi-
ficada con un 1; los casos cuya probabilidad pronosticada es menor que el punto de corte son
clasificados en el otro grupo o categoría. Esta opción permite cambiar el valor del punto de
corte utilizado en la clasificación. El valor por defecto es 0,5.
Nº máximo de iteraciones. Controla el número máximo de iteraciones que el algoritmo de esti-
mación puede llegar a recorrer en el proceso de estimación de los coeficientes. El valor por
defecto es 20, lo que suele ser suficiente en la mayoría de los casos para alcanzar la solución.
“ Incluir constante en el modelo. Esta opción (que se encuentra activa por defecto) permite
determinar si el modelo estimado debe o no incluir el término constante. No debe desactivarse
hasta comprobar que la constante del modelo no es significativa.

Ejemplo: Regresión logística > Opciones


Este ejemplo muestra cómo personalizar las opciones del procedimiento Regresión logística
(tales como el punto de corte para la clasificación) y cómo obtener e interpretar algunos resul-
tados adicionales a los que el procedimiento ofrece por defecto.
Al igual que en los ejemplos anteriores, se va a seguir utilizando la variable voto (¿votó
en 1992?) como variable dependiente; y, como variables independientes, las variables leer
(¿lee el periódico?), edad (edad del encuestado), titestud (título escolar), indsocec (índice so-
cioeconómico del encuestado) y telenov (frecuencia de visualización de comedias y dramas):
Análisis de regresión logística 39

' En el cuadro de diálogo principal (ver Figura 1), seleccionar la variable voto y tras-
ladarla al cuadro Dependiente.
' Seleccionar las variables leer, edad, titestud, indsocec y telenov y trasladarlas a la
lista Covariables.
' Pulsar el botón Opciones... para acceder al subcuadro de diálogo Regresión logística:
Opciones (ver Figura 9) y marcar todas las opciones del recuadro Estadísticos y
gráficos.
' Cambiar el Punto de corte para la clasificación introduciendo el valor 0,70. Pulsar el bo-
tón Continuar para volver al cuadro de diálogo principal.

Aceptando estas selecciones, el Visor ofrece, entre otros, los resultados que muestran las Ta-
blas 31 a la 38 y la Figura 10.
La Tabla 31 contiene, para cada una de las iteraciones del proceso de estimación, el valor
del estadístico –2LL (–2 por el logaritmo de la verosimilitud) y el valor estimado para el
término constante del modelo en el paso 0. Según se ha señalado ya, el valor de –2LL aso-
ciado al modelo nulo (el modelo en el paso 0) se utiliza como punto de referencia para valorar
el incremento en el ajuste que se produce al incorporar al modelo las variables independientes.

Tabla 31. Historial de iteraciones en el paso 0 (modelo nulo: sólo incluye la constante)

-2 log de la Coeficientes
Iteración verosimilitud Constante
Paso 0a,b 1 1106,947 ,858
2 1106,275 ,917
3 1106,275 ,918
a. El modelo incluye la constante.
b. -2 log de la verosimilitud inicial: 1106,275

La Tabla 32 muestra las variaciones producidas en el valor del estadístico –2LL y en las
estimaciones de los coeficientes del modelo en cada iteración del paso 1, es decir, del paso
en el que, además de la constante, el modelo incorpora todas las variables independientes
seleccionadas para el análisis. La información de esta tabla resulta útil cuando existen proble-
mas en la estimación de algún coeficiente, ya que muestra la evolución experimentada por ca-
da estimación en su trayectoria hacia el valor de convergencia final.

Tabla 32. Historial de iteraciones en el paso 1 (modelo completo: constante y covariables)

-2 log de la Coeficientes
Iteración verosimilitud Constante periódico edad titestud indsocec telenov
Paso 1 a,b,c 1 975,662 -1,478 ,802 ,020 ,326 ,011 -,101
2 956,413 -2,143 ,885 ,029 ,514 ,016 -,133
3 955,563 -2,301 ,894 ,030 ,572 ,017 -,137
4 955,560 -2,309 ,894 ,030 ,576 ,017 -,137
5 955,560 -2,309 ,894 ,030 ,576 ,017 -,137
a. Método: Introducir
b. El modelo incluye la constante.
c. -2 log de la verosimilitud inicial: 1106,275
40 Análisis de regresión logística

Las Tablas 33 y 34 muestran los resultados del contraste de bondad de ajuste de Hosmer-
Lemeshow (1980, 2000). La Tabla 33 contiene el estadístico chi-cuadrado y su significación;
la Tabla 34 ofrece los detalles necesarios para realizar el contraste. Este contraste es especial-
mente útil cuando el modelo contiene un gran número de variables independientes y el núme-
ro de pautas de variación existente entre ellas es tan elevado que puede invalidar la utilidad
de los estadísticos de bondad de ajuste clásicos.

Tabla 33. Contraste de Hosmer-Lemeshow


Paso Chi-cuadrado gl Sig.
1 5,703 8 ,680

Para calcular el estadístico chi-cuadrado de Hosmer-Lemeshow se comienza dividiendo la


muestra en 10 grupos tomando como criterio los deciles de las probabilidades pronosticadas
(a los 10 grupos resultantes de esta división se les denomina deciles de riesgo). En cada decil
de riesgo se calcula el número de casos que pertenecen a cada categoría de la variable depen-
diente (número observado de casos) y el número de casos que el modelo pronostica que perte-
necen a cada categoría de la variable dependiente (número esperado de casos). A continua-
ción se compara el número de casos observado con el número de casos esperado (esta compa-
ración entre frecuencias observadas y esperadas se realiza en cada una de las 20 casillas
definidas por la combinación de las 2 categorías de la variable dependiente con los 10 deciles
de riesgo) mediante el estadístico chi-cuadrado:

(i = 1, 2, se refiere a los niveles de la variable dependiente y j = 1, 2, ..., 10, a los deciles de


riesgo). Este estadístico, que se distribuye según chi-cuadrado con 8 grados de libertad, per-
mite contrastar la hipótesis nula de igualdad de distribuciones, es decir, la hipótesis de que
la variable dependiente se distribuye de la misma manera en los 10 deciles de riesgo; o, lo que
es equivalente, que no existen diferencias entre las frecuencias observadas y las esperadas.
En el ejemplo, el estadístico chi-cuadrado toma el valor 5,703 y tiene asociado un nivel crítico
(Sig.) de 0,680. Por tanto, no se puede rechazar la hipótesis nula de igualdad de distribuciones
y, en consecuencia, se puede asumir que el modelo ofrece un buen ajuste a los datos.
La Tabla 34 ofrece el número de casos observado y esperado en cada decil de riesgo y
en cada categoría de la variable dependiente. La columna Total recoge el número de casos de
cada decil de riesgo, que es aproximadamente el mismo en todos ellos. Las frecuencias de la
tabla muestran con claridad que, a medida que van aumentando los deciles de riesgo, el nú-
mero de casos (tanto el observado como el esperado) de la categoría «no votó» va disminu-
yendo, mientras que el de la categoría «sí votó» va aumentando. Tal como cabía esperar tras
conocer el valor del estadístico chi-cuadrado y su significación, no parece existir gran discre-
pancia entre las frecuencias observadas y las esperadas.
Un inconveniente de esta prueba es que requiere la utilización de muestras de gran tama-
ño, pues es necesario que cada decil de riesgo contenga un número suficiente de casos de ca-
da tipo. Además, el valor del estadístico chi-cuadrado es sensible al tamaño muestral, por lo
que, con tamaños muestrales grandes, podría tomar un valor demasiado grande incluso cuando
el ajuste es bueno. No obstante, tiene la ventaja de que el comportamiento de la prueba es in-
dependiente del punto de corte utilizado para la clasificación.
Análisis de regresión logística 41

Tabla 34. Deciles de la prueba de Hosmer-Lemeshow


¿Votó en 1992? = No votó ¿Votó en 1992? = Sí votó
Observado Esperado Observado Esperado Total
Paso 1 1 58 59,516 35 33,484 93
2 45 44,234 48 48,766 93
3 45 37,071 48 55,929 93
4 26 31,852 67 61,148 93
5 25 27,034 68 65,966 93
6 22 22,378 71 70,622 93
7 18 17,342 75 75,658 93
8 11 12,669 82 80,331 93
9 9 8,268 84 84,732 93
10 5 3,635 83 84,365 88

La Tabla 35 muestra el resultado de la clasificación basada en un punto de corte de 0,70. Si


se hubiera utilizado el punto de corte que le procedimiento aplica por defecto (que, es re-
cordemos, 0,50) se habría clasificado correctamente al 74,1 % de los casos. Con un punto de
corte de 0,70 se obtiene un 67,7 % de clasificación correcta. No obstante, aunque el porcentaje
total de clasificación correcta ha disminuido, los porcentajes de clasificación correcta de los
dos grupos se han equilibrado: 68,9 % en el grupo de no votantes y 67,2 % en el grupo de
votantes (frente a un 26,9 % y un 92,9 %, respectivamente, si se utiliza un punto de corte de
0,50).
Si no se desea recurrir a técnicas como la curva COR para determinar del punto de corte
óptimo, siempre es posible variar manualmente el punto de corte ensayando distintos valores
hasta conseguir que ambos porcentajes de acierto se igualen.

Tabla 35. Resultados de la clasificación (matriz de confusión)


a
Pronosticado

¿Votó en 1992? Porcentaje


Observado No votó Sí votó correcto
Paso 1 ¿Votó en 1992? No votó 182 82 68,9
Sí votó 217 444 67,2
Porcentaje global 67,7
a. El valor de corte es ,700

La Tabla 36 muestra las estimaciones de los coeficientes del modelo y su significación. En


esta ocasión, la tabla incluye, como novedad, los límites del intervalo de confianza calculados
al 95 % para cada valor Exp(B). Cada intervalo de confianza permite contrastar la hipótesis
nula de que la correspondiente razón de las ventajas vale 1 en la población (lo cual es equiva-
lente a contrastar con el estadístico de Wald la hipótesis de que el correspondiente coeficiente
de regresión vale cero en la población): cuando el intervalo de confianza no incluye el valor
1, se puede rechazar esa hipótesis y concluir que la correspondiente variable independiente
posee un efecto significativo.
Observando los valores de la tabla se ve que las cinco variables independientes incluidas
en el análisis poseen un efecto significativo: todos los niveles críticos (Sig.) son menores que
0,05. De forma equivalente, ningún intervalo de confianza incluye el valor 1. Puesto que todas
42 Análisis de regresión logística

las variables, a excepción de telenov, tienen asociados coeficientes B positivos y, consecuen-


temente, valores Exp(B) mayores que 1, puede afirmarse que los sujetos que leen el periódico,
los de más edad, los que tienen un título académico más alto y mayor índice socioeconómico
(es decir, los sujetos a los que corresponden los códigos más altos en esas variables) tienden
a votar más que los sujetos que no leen el periódico, los que tienen menos edad, un título aca-
démico más bajo y un menor índice socioeconómico. Por otro lado, la variable telenov tiene
asociado un coeficiente negativo y, consecuentemente, un valor Exp(B) menor que 1; por tan-
to, puede afirmarse que l os sujetos que ven comedias y dramas (es decir, los sujetos a los que
corresponde un código mayor en la variable telenov) tienden a votar menos que los que no ven
comedias y dramas.

Tabla 36. Variables incluidas en la ecuación (estimaciones y significación de los coeficientes)


I.C. 95,0% para EXP(B)
B E.T. Wald gl Sig. Exp(B) Inferior Superior
Paso 1 a periódico ,894 ,210 18,125 1 ,000 2,445 1,620 3,691
edad ,030 ,005 37,196 1 ,000 1,031 1,021 1,041
titestud ,576 ,104 30,461 1 ,000 1,780 1,450 2,184
indsocec ,017 ,006 8,698 1 ,003 1,017 1,006 1,028
telenov -,137 ,068 4,115 1 ,043 ,872 ,763 ,995
Constante -2,309 ,384 36,255 1 ,000 ,099
a. Variable(s) introducida(s) en el paso 1: periódico, edad, titestud, indsocec, telenov.

La Tabla 37 muestra las correlaciones entre las estimaciones de los coeficientes del modelo.
Al valorar estas correlaciones, suele ocurrir que el término constante correlaciona con las esti-
maciones correspondientes a las variables independientes (pues el término constante no es
más que un factor de escala que refleja la métrica del conjunto de variables independientes).
Esto no constituye un problema. Sin embargo, debe vigilarse que las correlaciones entre las
estimaciones de los coeficientes asociados a las variables independientes sean pequeñas, pues
una correlación elevada entre dos coeficientes puede estar delatando la presencia de
colinealidad. Y cuando existe colinealidad, la estimación del coeficiente relativo a una varia-
ble puede estar demasiado afectada (sesgada) por la presencia de la(s) otra(s) variable(s). En
el ejemplo, la matriz de correlaciones entre los coeficientes no contiene correlaciones ele-
vadas.

Tabla 37. Matriz de correlaciones entre los coeficientes


Constant periódico edad titestud indsocec telenov
Paso 1 Constant 1,000 -,416 -,542 -,044 -,513 -,298
periódico -,416 1,000 -,044 -,145 ,074 -,029
edad -,542 -,044 1,000 ,240 -,008 -,164
titestud -,044 -,145 ,240 1,000 -,461 -,077
indsocec -,513 ,074 -,008 -,461 1,000 -,010
telenov -,298 -,029 -,164 -,077 -,010 1,000

El gráfico de la Figura 10 muestra un histograma de las probabilidades pronosticadas. Los


casos se encuentran identificados por una letra; la base del gráfico incluye una leyenda que
informa de los símbolos utilizados para diferenciar los casos (N = «no votó», S = «sí votó»),
Análisis de regresión logística 43

del número de casos que representa cada símbolo (Each Symbol Represents 2,5 Cases) y del
punto de corte utilizado (The Cut Value is 0,70). Debajo del eje de abscisas se indica el terri-
torio que corresponde a cada pronóstico (la secuencia de símbolos del territorio cambia en el
valor del punto de corte). En una situación ideal (clasificación perfecta), todos los símbolos
del interior del gráfico estarían situados en la vertical de su propio territorio. Los casos no si-
tuados en la vertical de su territorio son casos mal clasificados por el modelo.

Figura 10. Histograma de las probabilidades pronosticadas


Observed Groups and Predicted Probabilities

40 ô ô
ó S S ó
ó S S S S ó
F ó S SS S S S S SSS S ó
R 30 ô SS SSS S S SSSSSSSSS ô
E ó SSS SSS SSS SSSSSSSSS ó
Q ó S SSSSSSSSSSSS SSSSSSSSSS ó
U ó S SS SSSSSSSSSSSS SSSSSSSSSS ó
E 20 ô S SSSSSSSSSSSSSSSSSSSSSSSSSS ô
N ó S SSSSSSSSSSSSSSSSSSSSSSSSSS ó
C ó S SSSNSSSNSSSSSSSSSSSSSSSSSSSS ó
Y ó SS SSSNSSSNSSSSSSSSSSSSSSSSSSSS ó
10 ô S S SS NNNNNNSNSSSNNSSSSSSSSSSSSSSS ô
ó SS SSNSS NN NNNNNNNNSNNNNNSSNSSSSSSSSSSS ó
ó N NNNSSNNNS SNNSNNNNNNNNNNNNNNNNNNNNSNSNSSSS ó
ó N N NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNSSó
Predicted òòòòòòòòòòòòòòôòòòòòòòòòòòòòòôòòòòòòòòòòòòòòôòòòòòòòòòòòòòòò
Prob: 0 ,25 ,5 ,75 1
Group: NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS

Predicted Probability is of Membership for Sí votó


The Cut Value is ,50
Symbols: N - No votó
S - Sí votó
Each Symbol Represents 2,5 Cases.

La Tabla 38 muestra un listado con los casos cuyo valor pronosticado difiere en más de dos
desviaciones típicas del valor observado, es decir, los casos cuyo residuo tipificado es mayor
que 2 o menor que –2. La tabla ofrece, para cada uno de estos casos: el número de registro
que ocupa en el Editor de datos (Caso), si el caso ha sido seleccionado o no para estimar el
modelo (Estado de la selección; en el siguiente apartado se explica cómo utilizar una variable
de selección), la categoría de la variable dependiente a la que pertenece (Observado) con una
marca de dos asteriscos si el caso ha sido mal clasificado, la probabilidad pronosticada por
el modelo (Pronosticado), el grupo en el que ha sido clasificado (Grupo pronosticado) y los
residuos en bruto (Resid.) y tipificados (ZResid.)
Siempre es conveniente detenerse a estudiar con detalle los casos con residuos grandes
(en valor absoluto) pues, generalmente, corresponden a casos atípicos que, justamente porque
44 Análisis de regresión logística

no se parecen a los demás, pueden estar influyendo desproporcionadamente en la estimación


de los coeficientes del modelo (influencia que podría estar incrementando artificialmente el
ajuste o que podría estar provocando una seria pérdida de ajuste). En ocasiones, incluso, pue-
de ser recomendable excluir estos casos del análisis y volver a estimar los coeficientes del
modelo sin ellos para comprobar en qué grado varían las estimaciones.

Tabla 38. Listado de los casos atípicos

Estado de la Observado Grupo Variable temporal


Caso b seleccióna ¿Votó en 1992? Pronosticado pronosticado Resid ZResid
11 S N** .121 S .879 2.701
194 S N** .137 S .863 2.507
284 S N** .027 S .973 6.012
285 S N** .039 S .961 4.987
316 S N** .087 S .913 3.248
378 S N** .107 S .893 2.887
450 S N** .061 S .939 3.933
511 S N** .083 S .917 3.321
718 S N** .131 S .869 2.579
759 S N** .066 S .934 3.760
772 S N** .112 S .888 2.809
787 S N** .090 S .910 3.189
788 S N** .052 S .948 4.277
875 S N** .096 S .904 3.061
1091 S N** .130 S .870 2.589
1096 S N** .114 S .886 2.794
1167 S N** .123 S .877 2.664
1172 S N** .068 S .932 3.713
1186 S N** .069 S .931 3.677
1239 S N** .096 S .904 3.062
1408 S N** .041 S .959 4.857
a. S = Seleccionados, N = Casos no seleccionados y ** = Casos mal clasificados.

Valoración del modelo de regresión logística


Al igual que ocurre en regresión lineal, para que el modelo de regresión logística funcione co-
rrectamente es necesario que se den una serie de condiciones. Estas condiciones son, básica-
mente, dos: independencia y linealidad.
Los residuos del modelo de regresión logística deben ser independientes entre sí. Quizá
convenga recordar que la mayor parte de los procedimientos estadísticos asumen indepen-
dencia entre los residuos. En general, la independencia viene garantizada por el muestreo: si
el muestreo es aleatorio, los residuos también mostrarán una pauta aleatoria.
El supuesto de linealidad viene impuesto por la naturaleza de la ecuación utilizada en la
regresión logística:
Análisis de regresión logística 45

De la ecuación se desprende que la transformación logística (parte izquierda de la ecuación)


se relaciona linealmente con la covariable X.
Para contrastar este supuesto pueden utilizarse diversas estrategias (ver Harrell, 2001).
Una elemental consiste en dividir la covariable en categorías igualmente espaciadas y estimar
los coeficientes asociados a cada categoría. Si la relación entre la transformación logística y
la covariable categorizada es lineal, los coeficientes estimados para las categorías deberán
aumentar o disminuir de forma más o menos lineal.
La Tabla 39 muestra los coeficientes obtenidos con la variable edad dividida en 7 catego-
rías (con puntos de corte en 25, 35, 45, 55, 65 y 75 años). Para obtener estos coeficientes, se
ha incluido en el análisis la nueva variable (edad_categ) definiéndola como variable cate-
górica y asignándole una codificación de tipo indicador (dejando la última categoría como ca-
tegoría de referencia). La Figura 11 ofrece un gráfico de líneas en el que están representados
los coeficientes de regresión obtenidos.
Tanto en la tabla como en el gráfico se aprecia una relación lineal hasta la cuarta catego-
ría de la edad (55 años); pero esta relación se pierde a partir de esa categoría (recuérdese que
la categoría omitida tiene un coeficiente de cero). No parece, por tanto, que la relación entre
la variable edad y la transformación logística de la variable voto sea de tipo lineal.
Por supuesto, una categorización distinta de la variable edad podría arrojar resultados
ligeramente diferentes.

Tabla 39. Variables incluidas en la ecuación (estimaciones y significación de los coeficientes)


B E.T. Wald gl Sig. Exp(B)
Paso
a
edad_categ 42,852 7 ,000
1 edad_categ(1) -,836 ,510 2,689 1 ,101 ,433
edad_categ(2) -,281 ,498 ,320 1 ,572 ,755
edad_categ(3) ,073 ,498 ,021 1 ,884 1,075
edad_categ(4) ,405 ,510 ,633 1 ,426 1,500
edad_categ(5) ,341 ,520 ,429 1 ,512 1,406
edad_categ(6) ,134 ,515 ,067 1 ,796 1,143
edad_categ(7) ,320 ,552 ,337 1 ,562 1,378
Constante ,916 ,483 3,598 1 ,058 2,500
a. Variable(s) introducida(s) en el paso 1: edad_categ.

Figura 11. Coeficientes asicados a las categorías de la variable edad


A
A
A

0,25
Coeficientes de regresión

A
A

0,00

-0,25 A

-0,50

-0,75
A

Categorías de la variable edad


46 Análisis de regresión logística

Además de inspeccionar el cumplimiento de las condiciones en las que se basa el modelo de


regresión logística (independencia, linealidad), una correcta valoración del mismo exige dete-
nerse en, al menos tres aspectos:
1. La precisión con la que el modelo consigue discriminar entre los casos de ambos grupos.
El grado de discriminación puede establecerse siguiendo varias estrategias. La primera
de ellas consiste en valorar el porcentaje de clasificación correcta que arroja la tabla de
clasificación o matriz de confusión (ver Tabla 12). Cuanto mayor es este porcentaje,
mejor discrimina el modelo. Por supuesto, el porcentaje de clasificación correcta que se
consigue con el modelo debe ser valorado tomando como referencia el porcentaje de cla-
sificación correcta que se consigue simplemente clasificando los casos en el grupo más
numeroso, si lo hay, o clasificándolos al azar (si el tamaño de ambos grupos es el mismo).
Y debe tenerse en cuenta que este porcentaje no depende de la calidad del ajuste del mo-
delo: es posible encontrarse con que al añadir al modelo una variable que mejora su ajus-
te, el porcentaje de clasificación correcta disminuye.
El histograma de las probabilidades pronosticadas (ver Figura 10) también da pistas
sobre el grado de discriminación del modelo: la clasificación es tanto mejor cuanto menos
solapamiento existe entre los casos de ambos grupos. Además, este histograma ayuda a
decidir sobre la ubicación idónea del punto de corte.
Por último, también puede utilizarse el área comprendida bajo la curva COR. El valor
de esta área oscila entre 0,5 y 1. Un valor de 1 indica discriminación perfecta; un valor
de 0,5 indica que la clasificación no es mejor que la que se obtendría clasificando los ca-
sos al azar.
2. El grado de parecido (ajuste) existente entre los valores observados y los pronosticados
por el modelo. De las diferentes pruebas de bondad de ajuste disponibles (ver Hosmer,
Hosmer, Le Cessie y Lemeshow, 1997), el SPSS ofrece el estadístico de Hosmer-Leme-
show (ver Tablas 33 y 34). Aunque ciertamente este estadístico ofrece pistas sobre la ca-
lidad del ajuste del modelo, debe tenerse en cuenta que su valor está fuertemente condi-
cionado por el tamaño muestral (se trata de un estadístico chi-cuadrado): con muestras
pequeñas puede tomar valores pequeños incluso cuando el modelo no ofrece un buen
ajuste; con muestras grandes puede tomar valores grandes incluso cuando el modelo ofre-
ce un buen ajuste.
3. La posible presencia de valores atípicos. El procedimiento incluye un buen número de
estadísticos diseñados para diagnosticar la presencia de casos atípicos. Un caso atípico
es aquel que no se parece al resto de los casos, es decir, un caso que manteniendo valores
similares a otros casos en el conjunto de covariables incluidas en el análisis, tiene un
valor distinto en la variable dependiente.
Estos casos pueden detectarse fácilmente porque el modelo no es capaz de pronos-
ticarlos correctamente y, consecuentemente, tienen asociados residuos muy grandes (ver
más arriba, en el ejemplo Regresión logística > Guardar pronósticos y residuos, la
Figura 8).
Algunos de estos casos pueden tener excesivo peso en la ecuación, contribuyendo
de esta manera a mejorar o empeorar el ajuste del modelo de forma artificial. Estos valo-
res demasiado influyentes pueden detectarse mediante algunas de las variable que permite
generar el procedimiento: distancias de Cook, valores de influencia, etc.
Una forma muy sencilla de detectar casos excesivamente influyentes consiste en ob-
tener un diagrama de dispersión de los valores DfBetas, es decir, de los valores que repre-
Análisis de regresión logística 47

sentan el cambio que se produce en los coeficientes de regresión al ir eliminando cada


caso de la ecuación de regresión. La Figura 12 muestra el número de identificación de
caso en el eje horizontal y los cambios obtenidos en los coeficientes de la covariable
edad.
La nube de puntos muestra con claridad que los casos más influyentes se sitúan en
la parte inferior de diagrama (un caso es tanto más influyente cuanto mayor es el cambio
–en valor absoluto– que produce su eliminación en el coeficiente de la covariable). Sin
embargo, no basta con observar qué casos se alejan más del centro (valor cero). Es nece-
sario prestar atención al tamaño de los valores representados. Y los valores representados
reflejan cambios que en ningún caso superan las 5 diezmilésimas. No parece, por tanto,
que, en este caso, haya que preocuparse por la presencia de valores excesivamente influ-
yentes.

Figura 12. Diagrama de dispersión: cambios experimentados por el coeficiente de la variable edad
2,00E-4

1,00E-4
DFBETA para edad

-2,71E -20

-1,00E-4

-2,00E-4

-3,00E-4

-4,00E-4

-5,00E-4

0 500 1000 1500 2000


Número de identificación del encuestado

Una forma adicional de valorar la calidad de un modelo de regresión consiste en obtener las
estimaciones con la mitad de la muestra (o con un porcentaje cualquiera de casos) y, con el
modelo así estimado, efectuar pronósticos para los casos no incluidos en la estimación. Puesto
que los algoritmos de estimación capitalizan las características de la muestra concreta utiliza-
da, esta práctica puede ofrecer pistas muy interesantes. En el siguiente apartado se explica có-
mo utilizar esta estrategia.

Seleccionar casos
El cuadro de diálogo Regresión logística incluye la posibilidad de utilizar una variable de se-
lección, es decir, una variable cuyos valores determinan qué casos van a ser incluidos en el
análisis y qué casos van a ser excluidos (una variable de selección produce un efecto similar
al que produce una variable de filtro impuesta con el procedimiento Seleccionar casos, aunque,
según se verá enseguida, existen importantes diferencias). Para utilizar una variable de selec-
ción:
' En el cuadro de diálogo principal (ver Figura 1), seleccionar la variable que se desea uti-
lizar como variable de selección y trasladarla al cuadro Variable de selección.
48 Análisis de regresión logística

' Pulsar el botón Regla... para acceder al subcuadro de diálogo Regresión logística: Estable-
cer regla que muestra la Figura 13.

Figura 13. Subcuadro de diálogo Regresión logística: Establecer regla

' Utilizar los cuadros de definición de la regla de selección para seleccionar un operador
relacional (con el botón de menú desplegable del primer cuadro) y para introducir el valor
de comparación en el cuadro de texto Valor. Pulsar el botón Continuar para volver al cua-
dro de diálogo principal.

Los casos del archivo de datos que cumplan el criterio de selección serán incluidos en el aná-
lisis; los que no cumplan el criterio de selección serán excluidos. Sin embargo, esta exclusión
sólo afecta al proceso de estimación del modelo, pues cuando el procedimiento crea nuevas
variables (pronósticos, residuos, etc.), cuando construye la tabla de clasificación (la matriz
de confusión) y cuando ofrece información particular sobre los casos (tal como el gráfico de
clasificación o el listado de valores atípicos), incluye todos los casos válidos, distinguiendo
entre los casos incluidos en el análisis (los utilizados en la estimación del modelo) y los no
incluidos. De este modo es posible valorar en qué medida el modelo estimado a partir de una
muestra concreta (los casos seleccionados) se ajusta a los casos de una muestra distinta (los
casos no seleccionados).
Análisis de regresión logística 49

Referencias bibliográficas
Cook, R. D. (1977). Detection of influential observations in linear regression. Technometrics,
19, 15-18.
Cox, D. R. y Snell, E. J. (1989). Analysis of binary data (2ª ed.). London: Chapman and Hall.
Harrell, F. E. (2001). Regression modeling strategies: With applications to linear models,
logistic regression and survival analysis. New York: Springer.
Hosmer, D. W., Hosmer, T., Le Cessie, S. y Lemeshow, S. (1997). A comparison of good-
ness-of-fit tests for the logistic regression model. Statistics in Medicine, 16, 965-980.
Hosmer, D. W. y Lemeshow, S. (1980). A goodness-of-fit test for the multiple logistic regres-
sion model. Communications in Statistics, A10, 1043-1069.
Hosmer, D. W. y Lemeshow, S. (2000). Applied logistic regression (2ª ed.). New York: Wiley.
Kleinbaum, D. G. y Klein, M. (2002). Logistic regression: A self-learning text. New York:
Springer.
Lawless, J. F. y Singhal, K. (1978). Efficient screening of nonnormal regression models.
Biometrics, 34, 318-327.
Menard, S. (2002). Applied logistic regression analysis (2ª ed.). Thousand Oaks: Sage.
Nagelkerke, N. J. D. (1991). A note on the general definition of the coefficient of determina-
tion. Biometrika, 78, 691-692.
Rao, C. R. (1973). Linear statistical inference and its application (2ª ed.). New York: Wiley.

Você também pode gostar