Escolar Documentos
Profissional Documentos
Cultura Documentos
REGRESIÓN LOGÍSTICA
Antonio Pardo
Miguel Ángel Ruiz
El análisis de regresión logística binaria (regresión logística en adelante) tiene como finali-
dad principal pronosticar los valores de una variable dicotómica a partir de una o más varia-
bles independientes. El análisis de regresión logística requiere, en primer lugar, una variable
dicotómica que defina dos grupos: los pacientes que tienen una determinada enfermedad y
los que no, los que abandonan un tratamiento y los que no, los clientes que devuelven un cré-
dito y los que no, los ciudadanos que votan y los que no, etc.; esta variable dicotómica es la
variable dependiente del análisis, es decir, la variable cuyos valores se desea pronosticar. Y
para poder efectuar los pronósticos es necesario disponer, en segundo lugar, de la información
(cuantificada en un conjunto de variables) en la que se supone que se diferencian los dos gru-
pos definidos por los niveles de la variable dicotómica; estas variables en las que se supone
que se diferencian los grupos se utilizan como variables independientes o predictoras del aná-
lisis (generalmente llamadas covariables en el contexto de la regresión logística).
Como resultado de un análisis de regresión logística se obtienen una serie de pesos o coe-
ficientes que: (1) informan sobre la capacidad individual de cada variable independiente para
diferenciar entre los dos grupos y (2) permiten obtener pronósticos (probabilidades) que sir-
ven para clasificar a los sujetos.
En este sentido, el análisis de regresión logística se parece al análisis discriminante. Pero,
a diferencia de éste, el modelo de regresión logística permite incluir covariables tanto cuanti-
tativas como categóricas y los supuestos en los que se basa son menos exigentes que los del
análisis discriminante; únicamente es necesario asumir que las observaciones son indepen-
dientes y que las covariables incluidas en el modelo se relacionan linealmente con una fun-
ción de la variable dependiente llamada transformación logit.
Este capítulo ofrece una descripción del procedimiento Regresión logística binaria. Para
profundizar en los aspectos tratados aquí pueden consultarse los excelentes textos de Hosmer
y Lemeshow (2000), Kleinbaum y Klein (2002), y Menard (2002).
1
2 Análisis de regresión logística
La selección de las variables puede realizarse a partir de criterios teóricos (en cuyo caso
se utilizará una estrategia de inclusión forzosa de variables) o a partir de criterios estadísticos
(en cuyo caso se utilizará algún método de selección por pasos). La estimación de los pesos
o coeficientes asociados a cada variable se basa en el método de máxima verosimilitud y se
realiza mediante una algoritmo iterativo. La clasificación de los casos se lleva a cabo a partir
de las probabilidades pronosticadas por el modelo. El análisis de los residuos permite detectar
posibles casos atípicos o predicciones anómalas.
La lista de variables del archivo de datos contiene todas las variables del archivo que poseen
formato numérico o de cadena corta. Las variables de cadena corta pueden introducirse en
cualquiera de las listas de variables del procedimiento, si bien su comportamiento dependerá
del papel que desempeñen en el análisis. Aunque el cuadro de diálogo no establece restric-
ciones en la selección de variables independientes o covariables, la variable dependiente debe
ser una variable dicotómica (es decir, una variable con sólo dos valores). Si se selecciona una
variable dependiente con más de dos valores válidos no es posible llevar a cabo el análisis.
Para obtener un análisis de regresión logística binaria con las especificaciones que el procedi-
miento tiene establecidas por defecto:
' Seleccionar la variable dicotómica que se desea utilizar como variable dependiente
del análisis y trasladarla al cuadro Dependiente.
' Seleccionar la(s) variable(s) que se desea utilizar como variable(s) independiente(s)
del análisis y trasladarlas a la lista Covariables.
Análisis de regresión logística 3
Este ejemplo muestra cómo ejecutar el procedimiento Regresión logística binaria con las espe-
cificaciones que el programa tiene establecidas por defecto y cómo interpretar los resultados
obtenidos. En esta primera aproximación al estudio de la regresión logística se utiliza una sola
variable independiente o covariable.
Todos los ejemplos incluidos en este capítulo se basan en el archivo GSS93 reducido, que
se encuentra en la misma carpeta en la que está instalado el SPSS. El archivo contiene varia-
bles socio-demográficas y de opinión correspondientes a la General Social Survey del año
1993. Estos datos se van a utilizar para a intentar pronosticar el voto en las elecciones de 1992
a partir de un conjunto de características socio-demográficas y de opinión.
La variable que distingue a los sujetos que manifiestan haber votado de los que manifies-
tan no haber votado es la variable voto92. Para conocer el comportamiento de esta variable,
la Tabla 1 ofrece su distribución de frecuencias.
La variable voto92 presenta más de dos categorías. Si se utiliza como variable dependiente
tal como se encuentra en el archivo de datos, el Visor emitirá una advertencia comunicando
que la variable dependiente seleccionada tiene más de dos categorías y que no es posible lle-
var a cabo el análisis. Para poder utilizar una variable politómica como variable dependiente
en un análisis de regresión logística binaria, es necesario filtrar previamente las dos categorías
con las que se desea trabajar o, alternativamente, recodificar la variable original haciéndole
tomar sólo dos valores, cuando esto tenga sentido.
En el ejemplo que nos ocupa se ha utilizado el procedimiento Recodificar > En distintas va-
riables... del menú Transformar para crear una nueva variable denominada voto, con etiqueta
«¿votó en 1992». En esta nueva variable, se ha asignado el código 1 (con etiqueta «sí votó»)
a los casos con valor 1 en la variable voto92, y el código 0 (con etiqueta «no votó») a los ca-
sos con valor 2 en la variable voto92. Según se tendrá ocasión de comprobar más adelante,
la categoría a la que corresponde el código más alto (voto = 1 = «sí votó») va a desempeñar
un importante rol en el análisis; aunque los códigos asignados a las categorías de la variable
dependiente no afectan al proceso de estimación del modelo, condicionan por completo la in-
terpretación de los resultados.
La Tabla 2 muestra la distribución de frecuencias de la nueva variable voto. El dato que
interesa destacar de estos resultados es que el 71,1 % de las personas encuestadas manifiesta
haber votado en las elecciones de 1992.
4 Análisis de regresión logística
Antes de iniciar el análisis de regresión logística se han cruzado en una tabla de contingencias
las dos variables que se tiene intención de incluir en el análisis. La opción Estadísticos descrip-
tivos > Tablas de contingencias... del menú Analizar permite obtener las frecuencias que muestra
la Tabla 4.
La tabla contiene las frecuencias observadas y los porcentajes de columna. El porcentaje
de sujetos que manifiesta haber votado es del 74,9 % entre los sujetos que leen el periódico
y del 47,6 % entre los sujetos que no lo leen. Los resultados de la tabla también indican que,
de los 1.500 casos del archivo original, únicamente 976 poseen respuestas válidas en ambas
variables. Hay, por tanto, 524 sujetos que tienen valor perdido en al menos una de las dos va-
riables. El estadístico chi-cuadrado de Pearson aplicado a estos datos vale 44,275 con un nivel
crítico Sig. < 0,0005 que indica que las variables voto y periódico están relacionadas.
Tabla 4. Tabla de contingencias de las variables voto (¿votó en 1992?) y periódico (¿lee el periódico?)
¿Lee el periódico?
No lee Sí lee Total
¿Votó en 1992? No votó Recuento 75 209 284
% de ¿Lee el periódico? 52,4% 25,1% 29,1%
Sí votó Recuento 68 624 692
% de ¿Lee el periódico? 47,6% 74,9% 70,9%
Total Recuento 143 833 976
% de ¿Lee el periódico? 100,0% 100,0% 100,0%
Análisis de regresión logística 5
Para pronosticar el resultado de la variable voto a partir de la variable periódico mediante una
ecuación de regresión logística:
' En el cuadro de diálogo principal (ver Figura 1), seleccionar la variable voto y tras-
ladarla al cuadro Dependiente.
' Seleccionar la variable periódico y trasladarla a la lista Covariables.
Aceptando estas elecciones, el Visor de resultados ofrece la información que muestran las Ta-
blas 5 a la 13.
La Tabla 5 informa sobre el número de casos válidos incluidos en el análisis y sobre el
número de casos excluidos del análisis por tener algún valor perdido (ya sea en la variable
dependiente, en la independiente, o en ambas).
La Tabla 6 muestra la codificación interna utilizada por el procedimiento para distinguir los
casos en cada una de las categorías de la variable dependiente. El procedimiento asigna el
valor interno 0 a los casos con el código menor en la variable dependiente (sea éste numérico
o de cadena) y asigna el valor interno 1 a los casos con el código mayor. En el ejemplo, los
códigos originales de la variable dependiente y los códigos internos asignados por el proce-
dimiento coinciden. Como se verá más adelante, la categoría con el valor interno 1 juega un
papel especial en la interpretación de los resultados.
incluye la variable independiente, todos los casos son clasificados en la misma categoría:
aquélla a la que pertenecen más casos. Por tanto, el porcentaje de casos correctamente clasifi-
cados coincide con el porcentaje de casos pertenecientes a esa categoría más numerosa.
Los datos de la matriz de confusión en el paso 0 coinciden con las frecuencias marginales
de la variable voto tal como aparecen en la Tabla 4; pero, debido a la presencia de valores per-
didos, no coinciden con las frecuencias de su distribución univariante (ver Tabla 2).
La Tabla 9 contiene información sobre lo que ocurrirá cuando la covariable sea incorporada
al modelo: ofrece, para cada covariable, un contraste de la hipótesis de que el efecto de la co-
variable es nulo (mediante el estadístico de puntuación de Rao, 1973). Puesto que en este
ejemplo únicamente es está utilizando una covariable (periódico), la tabla sólo muestra infor-
mación sobre esa covariable. Si el nivel crítico asociado al estadístico de puntuación (Sig.)
es menor que 0,05, se puede rechazar la hipótesis nula y afirmar que la covariable contribuye
significativamente a explicar el comportamiento de la variable dependiente; o, de otro modo,
a mejorar el ajuste del modelo. Esta tabla tiene, según se verá más adelante, un interés espe-
cial cuando se utiliza una estrategia de ajuste por pasos.
Las Tablas 10 a la 13 aparecen en el Visor bajo el título Bloque 1: Método = Introducir y con-
tienen los resultados del modelo estimado. La Tabla 10 ofrece la información necesaria para
valorar el ajuste global del modelo. Esta información se basa en la razón de verosimilitudes.
Análisis de regresión logística 7
Este estadístico se distribuye según el modelo de probabilidad chi-cuadrado con los grados
de libertad resultantes de restar el número de parámetros independientes* de ambos modelos.
El valor de –2LL en el paso 1 se encuentra en la tabla 11 en la columna –2 log de la vero-
similitud. Pero en los resultados que se ofrecen por defecto no aparece el valor de –2LL en
el paso 0; no obstante, este valor puede obtenerse marcando la opción Historial de iteraciones
en el subcuadro de diálogo Regresión logística: Opciones (ver Figura 8). Así:
Este estadístico permite contrastar la hipótesis nula de que el modelo del paso 1 (el modelo
que incluye la covariable periódico) no mejora el ajuste obtenido con el modelo del paso 0
(el modelo que no incluye la covariable periódico). O, lo que es lo mismo, la hipótesis de que,
en la población, el coeficiente de regresión correspondiente a la variable periódico (único coe-
ficiente en el que se diferencian los modelos del paso 0 y del paso 1) vale cero. Es decir, el
estadístico chi-cuadrado permite determinar si, al introducir en el modelo la variable indepen-
diente periódico (paso 1), se consigue un incremento significativo del ajuste en comparación
con el ajuste obtenido con el modelo que únicamente incluye el término constante (paso 0).
El nivel crítico asociado al estadístico (Sig. < 0,0005) permite rechazar la hipótesis nula y con-
cluir que la covariable periódico contribuye significativamente al ajuste del modelo.
El cambio que se produce en la razón de verosimilitudes es conceptualmente similar al
que se produce en el coeficiente de determinación R2 al ajustar por pasos un modelo de regre-
sión lineal. En éste, se considera que una variable contribuye al ajuste del modelo si su incor-
poración va acompañada de un incremento significativo de R2. En un modelo de regresión lo-
gística se considera que una variable contribuye al ajuste del modelo si su presencia va acom-
pañada de una disminución significativa de la razón de verosimilitudes.
Tabla 10. Pruebas ómnibus sobre los coeficientes del modelo (contrastes de ajuste global)
Chi-cuadrado gl Sig.
Paso 1 Paso 40,723 1 ,000
Bloque 40,723 1 ,000
Modelo 40,723 1 ,000
*
El número de parámetros independientes de un modelo depende de la presencia de variables categóricas. Los modelos
que únicamente incluyen variables cuantitativas y dicotómicas tienen tantos parámetros como variables más uno (el corres-
pondiente al término constante). En los modelos que incluyen variables categóricas hay que añadir (J–1) + (K–1) + AAA +(P–1)
parámetros, siendo J, K, ..., P el número de categorías de la primera, segunda, ..., p-ésima variable categórica.
8 Análisis de regresión logística
La Tabla 10 incluye tres entradas: paso, bloque y modelo. Esto permite contrastar distintas
hipótesis cuando se utiliza una estrategia secuencial de selección de variables (más adelante
se explican los métodos de selección de variables por pasos). Paso: indica el cambio experi-
mentado en el estadístico –2LL entre un paso y el siguiente cuando se utiliza una estrategia
de selección de variables por pasos; permite contrastar la hipótesis de que el efecto correspon-
diente a la covariable incluida en un determinado paso es nulo. Bloque: recoge el cambio ex-
perimentado en el estadístico –2LL entre un bloque y el siguiente cuando se solicita el ajuste
de varios modelos formados por distintos bloques de variables; permite contrastar la hipótesis
de que el(los) efecto(s) correspondiente(s) a la(s) covariable(s) añadida(s) en el último bloque
son nulos. Modelo: informa del cambio experimentado en el estadístico –2LL entre el paso
0 y el paso 1, es decir, entre el valor del estadístico –2LL correspondiente al modelo que úni-
camente incluye el término constante y el valor del estadístico –2LL correspondiente al mode-
lo que incluye todas las covariables.
Puesto que el modelo del ejemplo se ha construido en un único paso (se está utilizando
el método introducir; ver, más adelante, el apartado Regresión logística por pasos), todas las
entradas de la tabla informan del mismo valor: la mejora respecto al modelo nulo, es decir,
respecto al modelo del paso 0 (Chi-cuadrado = 40,723).
La Tabla 11 ofrece, además del estadístico –2LL asociado al modelo que se está ajus-
tando, dos estadísticos R2 que permiten valorar el ajuste global del modelo estimado. Estos
estadísticos son parecidos al coeficiente de determinación R2 del análisis de regresión lineal
(que indica proporción de varianza explicada), pero dado que la variable dependiente es dico-
tómica, el concepto de varianza explicada debe ser interpretado con cautela. Además, debe
tenerse muy presente que estos dos estadísticos suelen adoptar valores moderados o incluso
bajos aun cuando el modelo estimado pueda ser apropiado y útil. El estadístico de Cox y Snell
(1989) se obtiene mediante:
donde L(0) se refiere a la verosimilitud del modelo nulo (paso 0) y L(1) a la verosimilitud del
modelo que se está ajustando (paso 1). El valor mínimo de este estadístico es cero (ajuste
nulo), pero en caso de ajuste perfecto su valor máximo no es 1. Por esta razón, Nagelkerke
(1991) ha propuesto una modificación del estadístico de Cox y Snell que le permite alcanzar
el valor 1 en caso de ajuste perfecto:
(con )
Los resultados de la Tabla 11 muestran que el modelo de regresión logística que incluye la
variable periódico únicamente consigue explicar en torno al 5 % de la variabilidad del voto
(un 4,1 % según Cox-Snell y 5,8 % según Nagelkerke).
Por último, la tabla de variables incluidas en la ecuación (Tabla 13) muestra las estimaciones
de los coeficientes de regresión del modelo (B) y los datos necesarios para valorar su sig-
nificación e interpretarlos. Para entender e interpretar todos estos resultados es conveniente
revisar brevemente los fundamentos matemáticos del modelo de regresión logística. Por ahora
basta con saber que el coeficiente de regresión asociado la covariable periódico es significati-
vo (Sig. < 0,0005) y que el hecho de que su signo sea positivo (B = 1,192) está indicando que
la probabilidad de acudir a votar (voto = «sí votó») es mayor entre los sujetos que sí leen el
periódico que entre los que no leen el periódico.
La curva logística
En el modelo de regresión lineal la relación entre dos variables se expresa mediante la ecua-
ción:
Su representación gráfica es una recta en el plano definido por las variables X e Y. El coefi-
ciente B0 define el origen de la recta (el punto en el que la recta corta el eje de ordenadas) y
el coeficiente B1 define la pendiente de la recta (su inclinación respecto del eje de abscisas).
La Figura 2 muestra una recta de regresión en el plano definido por las variables X e Y.
Esta recta de regresión lineal puede extenderse ilimitadamente por cualquiera de sus dos ex-
tremos conforme los valores de la variable independiente (X) van aumentando o disminuyen-
do. Consecuentemente, las predicciones realizadas por la recta para la variable Y pueden al-
canzar valores inaceptables. Por ejemplo, si se intenta pronosticar los complementos salariales
que un empleado recibe por su edad (trienios, etc.), prolongar la recta por su parte inferior po-
dría llevar a pronosticar complementos salariales negativos. Aunque este problema no suele
darse si los pronósticos se limitan a los valores observados en la muestra, lo cierto es que los
pronósticos imposibles podrían aparecer incluso sin sobrepasar el rango de valores observa-
dos, particularmente si la variable dependiente no es cuantitativa sino dicotómica.
Por toro lado, una variable dependiente dicotómica no puede satisfacer el requerimiento
de normalidad implícito en el modelo de regresión lineal.
En estos casos es preferible utilizar funciones que permitan efectuar predicciones com-
prendidas entre un mínimo y un máximo. Por ejemplo, una curva con un suelo y un techo en
sus valores (aunque el inconveniente de este tipo de funciones es que su formulación matemá-
tica es algo más compleja que la formulación de una recta). Una de estas funciones, muy utili-
zada, es la curva logística, cuya formulación matemática es:
Análisis de regresión logística 11
La interpretación de esta función es muy parecida a la de una ecuación de regresión lineal (el
exponente, de hecho, no es más que una ecuación de regresión lineal). El gráfico de la Figura
3 muestra una curva logística. El coeficiente B0 representa la posición de la curva sobre el eje
horizontal o de abscisas (más hacia la izquierda o más hacia la derecha). Y el coeficiente B1
representa la pendiente de la curva medida en la zona de inflexión de la curva. Con estos dos
coeficientes se puede generar una familia de curvas más o menos desplazadas sobre el eje de
abscisas y más o menos inclinadas en su parte central (ver, más adelante, los gráficos de la
Figura 4).
El exponente del número e es una ecuación lineal múltiple en la que cada variable indepen-
diente recibe una ponderación proporcional a su capacidad para predecir Y.
La curva que genera este modelo es similar a la de la Figura 3, con la única diferencia de que,
en lugar de llamar Y al eje de ordenadas, se le está llamando P (Y = 1).
Definida la ecuación que puede utilizarse, el objetivo consiste en encontrar una variable
que discrimine bien entre los dos posibles valores de Y. La Figura 4 muestra cuatro curvas
logísticas correspondientes a cuatro posibles variables independientes o predictoras. Las cur-
vas se encuentran ordenadas de forma creciente por su capacidad discriminativa. Puesto que
el coeficiente que controla la pendiente de la curva es B1 (ver apartado anterior), una buena
variable predictora será aquella que genere una curva con mucha pendiente (es decir, una
variable que tenga asociado un coeficiente B1 muy alto, en valor absoluto), mientras que una
mala variable predictora será aquella que genere una curva sin pendiente o con muy poca
pendiente (es decir, una variable que tenga asociado un coeficiente B1 próximo a 0, en valor
absoluto). El análisis de regresión logística permite encontrar las variables con mayor (en va-
lor absoluto) coeficiente asociado.
Supongamos, por simplicidad, que para clasificar a un sujeto como votante o abstencio-
nista se decide establecer como punto de corte el valor de probabilidad 0,5. Es decir, que los
sujetos con un pronóstico mayor que 0,5 son clasificados como abstencionistas y los sujetos
con un pronóstico menor o igual que 0,5 son clasificados como votantes. Una buena variable
predictora (podría decirse óptima) será aquella que permita obtener pronósticos (probabilida-
Análisis de regresión logística 13
a b
c d
Utilizando los datos del ejemplo propuesto en el primer apartado, la ecuación de regresión
logística toma la forma (ver Tabla 13):
La variable dependiente (Y) del ejemplo es la variable voto (¿votó en 1992?), una variable
dicotómica que puede tomar los valores: Y = 0 = « no votó» e Y = 1 = «sí votó». Y la variable
independiente (X) del ejemplo es la variable periódico (¿lee el periódico?), una variable
dicotómica que puede tomar los valores: X = 0 = «no lee» y X = 1 = «sí lee». En el caso de que
un encuestado lea el periódico (X = 1), la probabilidad pronosticada por la ecuación de regre-
sión logística para la categoría «sí votó» vale:
Por tanto, a partir de los pronósticos derivados de la ecuación de regresión logística, se puede
afirmar que, entre los sujetos que manifiestan leer el periódico, la probabilidad de votar en
las elecciones es mayor (aproximadamente un 60 % mayor) que entre los sujetos que mani-
fiestan no leer el periódico.
Es muy importante tener en cuenta que los pronósticos obtenidos con la ecuación de re-
gresión logística siempre se refieren a una de las dos categorías de la variable dependiente:
aquella codificada con el valor mayor y que es la que el procedimiento Regresión logística co-
difica internamente con el valor 1. En el ejemplo, la categoría Y = 1 = «sí votó».
Este cociente se conoce como la ventaja (odds) del suceso Y = 1 frente al suceso Y = 0. La ven-
taja de un suceso es el cociente entre la probabilidad de que el suceso ocurra y la probabilidad
de que no ocurra. Tomando el logaritmo natural de la ventaja se obtiene:
Y la trasformación logit del suceso «sí votó», (Y = 1), cuando el encuestado «no lee el perió-
dico», (X = 0), vale:
Por tanto, B0 = –0,098 (ver Tabla 13). La diferencia entre ambos logaritmos permite obtener
el valor del coeficiente B1 (ver Tabla 13):
B1 = 1,094 – (–0,098) = 1,192
Este valor permite afirmar que el logaritmo de la ventaja del suceso Y = 1 frente al suceso Y
= 0 es 1,192 veces mayor entre los sujetos que leen el periódico (periódico = 1) que entre los
que no lo leen (periódico = 0).
Ahora bien, razonar en términos de cambios en los logaritmos resulta poco intuitivo. Es
preferible interpretar directamente el cambio en las ventajas y no en los logaritmos de las ven-
tajas. Volviendo a la expresión de la ventaja:
Lo que significa que ventaja se puede expresar como potencias del número e. Esta es la razón
por la que se suele informar del valor exponencial de los coeficientes de regresión. En los re-
sultados de la regresión logística se incluye tanto el valor del coeficiente de regresión (B) co-
mo el de Exp(B) o eB. En el ejemplo, la ventaja del suceso «sí votó» cuando el encuestado «sí
lee el periódico» vale e1,094 = 2,986, mientras que la ventaja de ese mismo suceso cuando el
encuestado «no lee el periódico» vale e–0,098 = 0,907. Si se expresa el cambio proporcional de
la ventaja en términos de un cociente (como una razón) se obtiene 2,986/0,907 = 3,293, que
es justamente el valor de e1,192 (ver Exp(B) en la Tabla 13). A este cambio proporcional se le
16 Análisis de regresión logística
denomina razón de las ventajas (odds ratio en inglés), dado que es el resultado de dividir dos
ventajas. Y se interpreta en términos del cambio proporcional (ya sea aumento o disminución)
que se produce en la ventaja del suceso o evento de interés (Y = 1) por cada unidad de cambio
que se produce en la variable independiente (VI).
En el ejemplo, pasar de 0 a 1 en la covariable periódico hace que la razón de las ventajas
de «sí votó» frente a «no votó» valga 3,293. Lo cual significa que la ventaja del suceso votar
es 3,293 veces mayor entre los sujetos que leen el periódico que entre los sujetos que no lo
leen. Pa interpretar correctamente un coeficiente de regresión logística hay que tener en cuen-
ta que:
• La razón de las ventajas vale 1 (y su correspondiente coeficiente de regresión vale
cero) cuando la VI no produce ningún efecto sobre la ventaja de un suceso.
• La razón de las ventajas es mayor que 1 (y su correspondiente coeficiente de regre-
sión es mayor que 0) cuando un aumento en la VI lleva asociado un aumento de la
ventaja del suceso.
• La razón de las ventajas es menor que 1 (y su correspondiente coeficiente de regre-
sión es menor que 0) cuando un aumento en la VI conlleva una disminución de la
ventaja del suceso.
El valor 1 es, por tanto el referente para la interpretación. Si la probabilidad de un suceso bajo
la condición A vale, por ejemplo, 0,60, la ventaja de ese suceso vale 0,60/0,40 = 1,5; y si la
probabilidad de ese suceso bajo la condición B vale 0,80, su ventaja vale 0,80/0,20 = 4. Es de-
cir, cuando la probabilidad de un suceso pasa de 0,60 a 0,80, su ventaja pasa de 1,5 a 4. Y la
razón de las ventajas expresa este aumento adoptando un valor de 4/1,5 = 2,67, el cual indica
que la ventaja del suceso ha aumentado 2,67 veces, pues 2,67(1,5) = 4. La ventaja de un suce-
so no debe confundirse con su probabilidad: es la ventaja del suceso la que aumenta 2,67 ve-
ces, es decir, un 167 %, y no su probabilidad, que sólo aumenta un 33 %.
Otro ejemplo. Si la probabilidad de un suceso bajo la condición A vale 0,60, su ventaja
vale 0,60/0,40 = 1,5; si la probabilidad de ese suceso bajo la condición B vale 0,40, su ventaja
vale 0,40/0,60 = 0,67. Es decir, cuando la probabilidad de un suceso pasa de 0,60 a 0,40, su
ventaja pasa de 1,5 a 0,67 (disminuye 0,83 puntos). La razón de las ventajas expresa esta dis-
minución adoptando un valor de 0,67/1,5 = 0,44, el cual indica que la ventaja del suceso ha
disminuido un 100–44 = 56 % (pues 0,56(1,5) = 0,83).
En contextos relacionados con la salud, cuando el evento de interés se refiere a la apari-
ción de una enfermedad o algún desenlace fatal, a las variables independientes cuya razón de
las ventajas es mayor que 1 se les suele llamar factores de riesgo y a la variables independien-
tes cuya razón de las ventajas es menor que 1, factores de protección. Por supuesto, una razón
de las ventajas distinta de 1 no implica relación causal entre las variables.
El problema de la clasificación
Una ecuación de regresión logística raramente arroja pronósticos con valores 0 y 1, es decir,
raramente genera una curva en forma de escalón (Figura 4). Lo habitual es encontrar que las
probabilidades pronosticadas adoptan valores comprendidos entre 0 y 1. Este es el motivo que
obliga a tener que establecer un punto de corte para poder tomar la decisión de clasificar a los
sujetos en uno u otro grupo a partir de las probabilidades pronosticadas.
Análisis de regresión logística 17
Aceptando estas elecciones, el Visor ofrece, entre otros, los resultados que muestran las Ta-
blas 14 a la 18. La Tabla 14 contiene los valores del estadístico de puntuación de Rao (1973).
Este estadístico mide la contribución individual de cada variable a la mejora del ajuste global
del modelo. El nivel crítico (Sig.) asociado a cada estadístico indica qué variables contribuyen
significativamente al ajuste. Puede verse que, exceptuando la variable hijos, todas las varia-
bles incluidas en el análisis son significativas; por tanto, buenas candidatas para formar parte
del modelo de regresión. La última línea, Estadísticos globales, contiene una valoración glo-
bal de todas las variables independientes tomadas juntas.
La Tabla 15 ofrece la información necesaria para valorar el ajuste global del modelo. Esta in-
formación se basa en el cambio experimentado por la razón de verosimilitudes (–2LL). Este
cambio aparece en la tabla con el nombre chi-cuadrado y permite contrastar la hipótesis de
que, en la población, todos los coeficientes de regresión (excepto la constante) valen cero. Por
tanto, el estadístico chi-cuadrado permite determinar si, al introducir en el modelo las cinco
covariables del ejemplo (paso 1), se consigue un incremento significativo del ajuste en com-
paración con el ajuste obtenido con el modelo que sólo incluye la constante (paso 0).
Puesto que el modelo se construye en un único paso (pues se está utilizando el método
introducir; ver siguiente apartado), todas las entradas de la tabla (ver primer ejemplo) infor-
man del mismo valor: la mejora respecto al modelo nulo, es decir, respecto al modelo del paso
0 (Chi-cuadrado = 143,754). En el ejemplo, esta mejora es significativa: Sig. < 0,0005.
Tabla 15. Pruebas ómnibus sobre los coeficientes del modelo (contrastes de ajuste global)
Chi-cuadrado gl Sig.
Paso 1 Paso 143,754 5 ,000
Bloque 143,754 5 ,000
Modelo 143,754 5 ,000
La Tabla 16 ofrece un resumen del modelo. Contiene tres estadísticos que permiten valorar
el ajuste global del modelo en el paso 1, es decir, del modelo que incluye todas las variables.
Comparando estos resultados con los de la Tabla 11 se puede apreciar que los estadísticos de
Cox y Snell y de Nagelkerke toman valores sensiblemente mejores (más altos), si bien siguen
siendo bajos si se piensa en términos de un modelo de regresión lineal.
La tabla de variables incluidas en la ecuación (ver Tabla 18) muestra las estimaciones de los
coeficientes del modelo (B) y los datos necesarios para valorar su significación e interpretar-
los. La significación de cada coeficiente se evalúa a partir del estadístico de Wald. Este esta-
dístico permite contrastar la hipótesis nula de que el coeficiente vale cero en la población y
con variables cuantitativas y dicotómicas se obtiene elevando al cuadrado el cociente entre
el valor del coeficiente (B) y su error típico (Error típ.). Es un estadístico similar a una t 2.
Cuando el nivel crítico (Sig.) asociado al estadístico de Wald es menor que 0,05, se puede re-
chazar la hipótesis nula y, por tanto, concluir que la correspondiente covariable está relaciona-
da con la VD.
Un inconveniente de este estadístico es que es demasiado sensible al tamaño de los coefi-
cientes; en general, cuando el valor de un coeficiente es muy grande (en valor absoluto) el es-
tadístico de Wald es poco fiable. En estos casos es preferible evaluar la significación de las
variables utilizando un método por pasos (ver siguiente apartado).
El coeficiente asociado a la variable hijos no es significativo (Sig. = 0,723) por lo que, en
principio, no parece que sea necesario incluir esta variable en el modelo final. El resto de coe-
ficientes son significativos, por lo que puede afirmarse que todas las variables excepto hijos
contribuyen significativamente a mejorar el ajuste del modelo.
Puesto que todos los coeficientes significativos (Sig. < 0,05) tienen signo positivo, ya se
puede anticipar que todas las razones de las ventajas tendrán valores mayores que uno: el vo-
to (voto = 1) es más probable entre los sujetos que leen el periódico (periódico = 1), entre los
de más edad, entre los que tienen mayor nivel educativo y entre los que tienen mayores ingre-
sos familiares. La columna de la razón de las ventajas, Exp(B), permite cuantificar en qué gra-
do aumenta la ventaja del voto cuando cada una de las covariables aumenta una unidad (y se
mantienen constantes las restantes variables). Así, puesto que el punto de comparación es el
valor 1 y el Exp(B) de la variable periódico vale 1,956, se puede concluir que la ventaja del
voto entre los sujetos que leen el periódico es aproximadamente el doble (1,956 veces mayor)
que entre los que no lo leen.
20 Análisis de regresión logística
Del mismo modo, la razón de las ventajas de, por ejemplo, la variable educ (años de escolari-
zación) vale Exp(B) = 1,212; como de nuevo el valor de comparación es 1, se puede afirmar
que por cada año más de escolarización la ventaja del voto aumenta 1,212 veces; lo que signi-
fica que cada año adicional de escolarización aumenta la ventaja del voto en un 21,2 %.
Con variables cuantitativas como la edad suele resultar más conveniente interpretar la ra-
zón de las ventajas asociada a un lustro o a una década en lugar de la razón de las ventajas
asociada a un solo año. En ese caso, la razón de las ventajas asociada a un cambio de k unida-
des se obtiene mediante ekB, siendo B el coeficiente de regresión correspondiente al cambio
de una unidad. En el ejemplo, la razón de las ventajas asociada a una década vale e10(0,034) =
1,405, lo que significa que por cada diez años que aumenta la edad de los sujetos, la ventaja
del voto aumenta un 40,5 %.
Conviene señalar que los coeficientes del modelo de regresión logística están expresados
en la métrica original de las variables (puntuaciones directas). A diferencia de lo que ocurre
en el modelo de regresión lineal múltiple, aquí no es posible tipificar los coeficientes para va-
lorar la importancia relativa de las variables. A pesar de esto, la interpretación de la razón de
las ventajas se realiza en términos del cambio producido en la ventaja del suceso de interés
por unidad de cambio producido en la variable independiente. Sin embargo, no parece que su-
ponga el mismo esfuerzo cumplir un año más de edad que superar un año más de estudios. Pa-
ra superar este inconveniente es habitual transformar la escala original de las variables inde-
pendientes: cuando se utilizan variables tipificadas es más fácil interpretar la importancia
relativa de una variable.
Los métodos de selección por pasos permiten utilizar criterios estadísticos para, de forma
automática, incluir en el modelo las variables que son significativas y dejar fuera las que no
lo son. Estos métodos dan lugar a modelos que sólo incluyen variables significativas, pero tie-
nen el inconveniente de que pueden dejar fuera del modelo variables teórica o conceptualmen-
te relevantes. En este sentido, es conveniente recordar que las variables cuya importancia para
predecir un resultado ha sido repetidamente puesta de manifiesto en investigaciones previas
deberían ser incluidas en el modelo de regresión sin prestar demasiada atención a su significa-
ción observada.
Los métodos de selección por bloques permiten manipular la inclusión y/o exclusión de
conjuntos de variables (bloques de variables) en combinación con la opción Introducir (ver
más abajo). La principal ventaja de esta estrategia radica en la posibilidad de generar modelos
jerárquicos y, de este modo, valorar la significación de conjuntos de variables.
Las opciones del menú desplegable Método (ver Figura 1) permiten decidir qué método de
selección de variables se desea utilizar para construir el modelo de regresión logística. En los
métodos de selección por pasos, la inclusión (y la exclusión) de variables se basa en criterios
estadísticos: sólo se incluyen las variables que contribuyen al ajuste global del modelo, es de-
cir, las variables que ayudan a mejorar la capacidad predictiva del modelo. Para decidir qué
variables contribuyen al ajuste del modelo, todos los métodos de selección de variables utili-
zan el estadístico de puntuación de Rao. Para la exclusión de variables se puede elegir entre
el estadístico de Wald, el cambio en la razón de verosimilitudes y el estadístico condicional
(Lawless y Singhal, 1978).
Los métodos hacia adelante parten del modelo nulo (modelo que no incluye ninguna va-
riable independiente) y van incluyendo variables paso a paso hasta que no quedan variables
significativas por incluir. Los métodos hacia atrás parten del modelo saturado (modelo que
incluye todas las variables seleccionadas por el usuario) y van excluyendo variables paso a
paso hasta que no quedan variables no-significativas por excluir.
Introducir. Es el método que actúa por defecto. Construye el modelo de regresión en un
solo paso y con todas las variables independientes seleccionadas en la lista Covariables.
Es el método que actúa por defecto y el que se ha utilizado en los ejemplos propuestos
hasta ahora.
Adelante: Condicional. Método de selección por pasos hacia adelante que, partiendo del
modelo nulo, va incorporando aquellas variables cuyo estadístico de puntuación, siendo
significativo (0,05 por defecto), posee la probabilidad asociada más pequeña. Tras incor-
porar al modelo una nueva variable, todas las variables incluidas hasta ese momento son
revisadas mediante el estadístico condicional para determinar si existe alguna que debe
ser excluida, es decir, para determinar si, como consecuencia de la nueva incorporación,
el coeficiente de regresión asociado a alguna variable ha dejado de ser significativo (0,10
por defecto). El proceso se detiene cuando entre las variables no incluidas en el modelo
no queda ninguna cuyo estadístico de puntuación sea significativo.
Adelante: RV. Método similar al condicional pero que difiere en el estadístico utilizado pa-
ra evaluar la exclusión de variables: en lugar del estadístico de puntuación se utiliza la
22 Análisis de regresión logística
razón de verosimilitudes (RV). Con este método se van eliminando por turno cada una
de las variables del modelo y evaluando si la variable eliminada hace o no perder ajuste.
El estadístico RV contrasta la hipótesis nula de que la variable eliminada tiene un coefi-
ciente igual a 0. El valor de RV para una variable se obtiene dividiendo el valor de RV pa-
ra el modelo sin esa variable entre el valor de RV para el modelo con esa variable. Este
método de eliminación de variables basado en el estadístico RV debe ser el preferido
siempre que la complejidad de los datos constituyan una barrera computacional.
Adelante: Wald. Método similar al condicional en el que, para excluir variables del modelo,
en lugar del estadístico condicional se utiliza el estadístico de Wald. Una variable es ex-
cluida del modelo cuando la significación asociada al estadístico de Wald es mayor que
0,10.
Atrás: Condicional. Método de selección por pasos hacia atrás en el que, partiendo del mo-
delo saturado y utilizando el estadístico condicional se van eliminando variables no sig-
nificativas una a una hasta que no es posible seguir eliminando variables porque todas las
que permanecen en el modelo son significativas. Cada vez que se elimina una variable,
las previamente eliminadas son reevaluadas para determinar si alguna de ellas debe ser
nuevamente incorporada.
Atrás: RV. Método de selección por pasos hacia atrás en el que la exclusión de variables
se basa en el estadístico razón de verosimilitudes.
Atrás: Wald. Método de selección por pasos hacia atrás en el que la exclusión de variables
se basa en el estadístico de Wald.
Este ejemplo muestra cómo ejecutar e interpretar un análisis de regresión logística utilizando
un método de selección por pasos (en concreto, el método adelante: condicional). Se siguen
utilizando las mismas variables del ejemplo anterior:
' En el cuadro de diálogo principal (ver Figura 1), seleccionar la variable voto (¿votó
en 1992?) y trasladarla al cuadro Dependiente.
' Seleccionar las variables periódico (¿lee el periódico?), edad (edad del encuestado),
hijos (número de hijos), educ (años de escolarización) e ingfam91 (ingresos familia-
res en 1991), y trasladarlas a la lista de Covariables.
' Pulsar el botón de menú desplegable del recuadro Método y seleccionar el método
Adelante: Condicional.
Aceptando estas selecciones, el Visor ofrece, entre otros, los resultados que muestran las Ta-
blas 19 a la 24.
Los estadísticos de puntuación de la Tabla 19 ofrecen una valoración de lo que ocurriría
con cada una de las covariables utilizadas en el análisis si fueran incluidas en el modelo, cada
una por separado, en el primer paso. Esta valoración inicial sirve para elegir la variable que
será incorporada al modelo en el primer paso. Puesto que la variable educ es la que tiene aso-
ciado el mayor estadístico de puntuación al tiempo que un nivel crítico menor que 0,05, es la
variable elegida para ser incorporada al modelo en el primer paso.
Análisis de regresión logística 23
La Tabla 20 ofrece una prueba de ajuste global. Recuérdese que el estadístico chi-cuadrado
permite contrastar la hipótesis de que la mejora obtenida en el ajuste es nula. La tabla infor-
ma, paso a paso, de las variaciones producidas en el ajuste como consecuencia de la incorpo-
ración (o eliminación) de cada nueva variable.
En cada paso se muestran tres tipos de información: la entrada Paso informa sobre la me-
jora en el ajuste debida a la variable recién incorporada (la mejora se evalúa respecto al ajuste
obtenido en el paso previo); la fila Bloque se refiere a la mejora en el ajuste debida al bloque
de variables recién incorporado (sólo útil si se utiliza un método de selección de variables por
bloques); la fila Modelo informa sobre la mejora en el ajuste debida al total de variables in-
cluidas (la mejora del modelo en cada paso se evalúa respecto a la obtenida en el paso 0).
En el primer paso se incluye la variable educ (ver Tabla 22); y la inclusión de esta varia-
ble supone una mejora significativa del ajuste (Sig. < 0,0005). En el segundo paso se incluye
la variable edad (ver Tabla 22); su inclusión (Paso) supone una mejora significativa del ajuste
respecto al paso anterior, y el modelo resultante (Modelo), que en este segundo paso incluye
el término constante y las variables edad y educ, también ofrece una mejora significativa del
ajuste. Etc. El método de ajuste por pasos ofrece 4 pasos y, como es lógico esperar, es en el
último donde se consigue el mejor ajuste.
Tabla 20. Pruebas ómnibus sobre los coeficientes del modelo (contrastes de ajuste global)
Chi-cuadrado gl Sig.
Paso 1 Paso 61,826 1 ,000
Bloque 61,826 1 ,000
Modelo 61,826 1 ,000
Paso 2 Paso 55,422 1 ,000
Bloque 117,248 2 ,000
Modelo 117,248 2 ,000
Paso 3 Paso 15,904 1 ,000
Bloque 133,152 3 ,000
Modelo 133,152 3 ,000
Paso 4 Paso 10,477 1 ,001
Bloque 143,629 4 ,000
Modelo 143,629 4 ,000
24 Análisis de regresión logística
En los estadísticos de ajuste global de la Tabla 21 también se puede apreciar que el ajuste glo-
bal del modelo va mejorando en cada paso, mientras que el valor de la razón de verosimilitu-
des (–2 log de la verosimilitud) va disminuyendo paulatinamente.
La Tabla 22 informa sobre las variables incorporadas al modelo en cada uno de los pasos.
También informa sobre las estimaciones de los coeficientes y su significación. Generalmente,
el paso que interesa valorar es el último, pues es el que contiene el modelo final. De las cinco
variables independientes seleccionadas para el análisis, el método por pasos utilizado ha se-
leccionado cuatro. En el ejemplo anterior, en el que el modelo construido incluía las cinco va-
riables, la variable hijos tenía asociado un coeficiente no significativo. Ahora, al proceder por
pasos, la variable hijos ha quedado fuera. El modelo final sólo incluye variables cuyos coefi-
cientes son significativamente distintos de cero.
La Tabla 23 ofrece, para cado paso, una evaluación de la pérdida de ajuste que se produciría
en el modelo si se eliminaran, una a una, las variables ya incluidas. Esto sirve para valorar la
pertinencia de excluir en un paso dado alguna de las variables previamente incluidas. Recuér-
dese que los métodos de selección de variables por pasos hacia adelante permiten la exclu-
sión de una variable previamente incluida si se aprecia una pérdida en su significación como
Análisis de regresión logística 25
Variables categóricas
El modelo de regresión logística admite la posibilidad de utilizar variables independientes
categóricas, pero es necesario definirlas como tales y darles un tratamiento especial. Puesto
que los códigos de una variable nominal (raza, tipo de tratamiento, etc.) no tienen significado,
es necesario transformarlos para que tenga sentido incluirlos en un análisis de regresión. El
procedimiento permite identificar y definir variables categóricas y decidir qué tratamiento
deben recibir.
Las variables dicotómicas (dos categorías) codificadas como variables indicador, es de-
cir, con códigos 0 y 1 (uno de ellos indicando la ausencia de la característica y el otro indican-
do la presencia de la característica), pueden introducirse directamente en el análisis sin necesi-
dad de ninguna aclaración adicional; de hecho, ya se ha utilizado una variable indicador en
los ejemplos previos. Sin embargo, las variables politómicas (más de dos categorías) deben
ser definidas como categóricas antes de ser incluidas en un modelo de regresión. Para decidir
qué variables deben ser tratadas como categóricas:
' Pulsar el botón Categórica... del cuadro de diálogo principal (ver Figura 1) para acceder
al subcuadro de diálogo Regresión logística: Definir variables categóricas que muestra
la Figura 5.
' En la lista Covariables, seleccionar la(s) variable(s) que debe(n) ser tratada(s) como cate-
górica(s) y trasladarla(s) a la lista Covariables categóricas.
' En la lista Covariables categóricas, seleccionar la variable que se desea definir (o todas las
que se desea definir de la misma manera) y utilizar el menú desplegable Contraste para
seleccionar un tipo de contraste (en el caso de que se desee aplicar un contraste distinto
del contraste Indicador, que es el que se aplica por defecto).
' Pulsar el botón Cambiar para hacer efectivos los cambios y el botón Continuar para volver
al cuadro de diálogo principal.
Cambiar contraste. Las opciones de este recuadro permiten decidir qué tratamiento se desea
dar a las variables categóricas. El menú desplegable Contraste contiene varios tipos de con-
Análisis de regresión logística 27
Para cambiar el tipo de contraste de una variable, una vez en el cuadro de diálogo Regresión
logística: Definir variables categóricas (ver Figura 5):
' En la lista Covariables categóricas, seleccionar la covariable categórica cuyo esquema
de codificación se desea cambiar (es posible seleccionar un conjunto de covariables
para cambiar el tipo de contraste a todas ellas simultáneamente).
' Pulsar en la lista desplegable Contraste para obtener una lista de todos los contrastes
disponibles; seleccionar el contraste deseado.
' Cambiar la categoría de referencia a Última o Primera según convenga (puede utili-
zarse la sintaxis para definir una categoría de referencia distinta).
' Pulsar el botón Cambiar para actualizar las elecciones hechas (en la lista Covariables
categóricas se reflejarán las elecciones efectuadas) y el botón Continuar para volver
al cuadro de diálogo principal.
Las variables definidas como categóricas aparecen, en el cuadro de diálogo principal, marca-
das con el sufijo Cat (añadido entre paréntesis detrás del nombre de la variable).
28 Análisis de regresión logística
Este ejemplo muestra cómo definir una variable categórica e interpretar los resultados relacio-
nados con ella. Se sigue utilizando la misma variable dependiente que en los ejemplos anterio-
res (voto) y, como variable independiente, se utiliza la variable sitlab (situación laboral), una
variable categórica con 8 niveles o categorías.
' En el cuadro de diálogo principal (ver Figura 1), seleccionar la variable voto (¿votó
en 1992?) y trasladarla al cuadro Dependiente.
' Seleccionar la variable sitlab (situación laboral) y trasladarla a la lista Covariables.
' Pulsar el botón Categórica... para acceder al subcuadro de diálogo Regresión logísti-
ca: Definir variables categóricas (ver Figura 5).
' Seleccionar la variable sitlab en la lista Covariables y trasladarla a la lista Covariables
categóricas. Dejar Indicador como opción del recuadro Contraste y pulsar el botón Con-
tinuar para volver al cuadro de diálogo principal.
Aceptando estas selecciones, el Visor ofrece, entre otros, los resultados que muestran las Ta-
blas 25 y 26 (sólo se explican los resultados relacionados con el hecho de haber incluido una
variable categórica en el análisis).
La Tabla 25 muestra la codificación asignada a las categorías de la variable sitlab. La va-
riable se ha descompuesto en 7 variables indicador. A todas las categorías (excepto a la últi-
ma) se les ha asignado el valor 1 en la columna correspondiente al parámetro que la va a re-
presentar en las estimaciones del modelo. El resto de valores en la misma fila y columna son
ceros. Esta información sirve para saber que, más adelante, la categoría «a tiempo completo»
va a estar representada por el parámetro o coeficiente 1, la categoría «a tiempo parcial» por
el parámetro o coeficiente 2, etc. Por supuesto, cambiando el esquema de codificación (con-
traste) en el correspondiente cuadro de diálogo, cambiarán los códigos asignados a cada cate-
goría.
Tabla 25. Códigos tipo «indicador» asignados a las categorías de la variable sitlab (situación laboral)
Codificación de parámetros
Frecuencia (1) (2) (3) (4) (5) (6) (7)
Situación A tiempo completo 724 1,000 ,000 ,000 ,000 ,000 ,000 ,000
laboral A tiempo parcial 159 ,000 1,000 ,000 ,000 ,000 ,000 ,000
Temp. desempleado 28 ,000 ,000 1,000 ,000 ,000 ,000 ,000
Desempleado 50 ,000 ,000 ,000 1,000 ,000 ,000 ,000
Retirado 224 ,000 ,000 ,000 ,000 1,000 ,000 ,000
Estudiante 38 ,000 ,000 ,000 ,000 ,000 1,000 ,000
Ama de casa 195 ,000 ,000 ,000 ,000 ,000 ,000 1,000
Otro 34 ,000 ,000 ,000 ,000 ,000 ,000 ,000
La Tabla 26 ofrece las estimaciones de los coeficientes del modelo y su significación (Sig.).
Estos coeficientes corresponden a la variable sitlab, a los parámetros categóricos definidos
al codificar las categorías de la variable sitlab en la Tabla 25 y a la constante del modelo.
La primera fila, encabezada con el nombre de la variable, ofrece un contraste del efecto
de la variable sitlab globalmente considerada. Si este contraste del efecto global no fuera sig-
Análisis de regresión logística 29
nificativo, carecería de sentido seguir inspeccionando los contrastes en los que se ha descom-
puesto el efecto global de la variable.
A continuación se muestran las estimaciones de los parámetros y su significación. La in-
terpretación que debe hacerse de esta información depende del tipo de codificación asignada
(es decir, del tipo de contraste elegido). En el ejemplo, dado que se ha asignado una codifica-
ción tipo indicador, cada uno de los coeficientes B representa una categoría de la variable
sitlab. Un coeficiente significativo (es decir, un coeficiente con Sig. < 0,05) indica que la cate-
goría representada difiere significativamente de la categoría de referencia (en el ejemplo, la
última). Los coeficientes 4, 6 y 7 no son significativos, por lo que se puede afirmar que los
sujetos de las categorías «desempleado», «estudiante» y «ama de casa» no difieren significati-
vamente de los sujetos de la categoría «otro». Es decir, que la probabilidad de acudir a votar
(voto = 1) entre los sujetos que pertenecen a estas tres categorías no difiere de la probabilidad
de acudir a votar entre los sujetos que pertenecen a la categoría de referencia.
Los coeficientes 1, 2, 3 y 5 son significativamente distintos de cero (Sig. < 0,05) y con
una razón de las ventajas o Exp(B) mayor que 1 en todos los casos. Se puede afirmar, por tan-
to, que entre los sujetos que pertenecen a las categorías «a tiempo completo», «a tiempo par-
cial», «temporalmente desempleado» y «retirado», la probabilidad de acudir a votar (voto =
1) es mayor que entre los sujetos que pertenecen a la categoría de referencia «otro».
Aceptando estas selecciones, se obtienen, entre otros, los resultados que muestran las Tablas
27 y 28. La Tabla 27 ofrece la codificación utilizada en los contrastes de desviación. Esta
nueva codificación, recordemos, permite comparar cada categoría con el promedio de todas
ellas*. Obsérvese que ahora existen 3 códigos distintos por columna: el valor 1 indica a qué
categoría corresponde cada parámetro; el valor –1 identifica a la categoría de referencia; al
resto de las categorías se les asigna el valor 0.
Tabla 27. Códigos de «desviación» asignados a las categorías de la variable sitlab (situación laboral)
Codificación de parámetros
Frecuencia (1) (2) (3) (4) (5) (6) (7)
Situación A tiempo completo 724 1,000 ,000 ,000 ,000 ,000 ,000 ,000
laboral A tiempo parcial 159 ,000 1,000 ,000 ,000 ,000 ,000 ,000
Temp. desempleado 28 ,000 ,000 1,000 ,000 ,000 ,000 ,000
Desempleado 50 ,000 ,000 ,000 1,000 ,000 ,000 ,000
Retirado 224 ,000 ,000 ,000 ,000 1,000 ,000 ,000
Estudiante 38 ,000 ,000 ,000 ,000 ,000 1,000 ,000
Ama de casa 195 ,000 ,000 ,000 ,000 ,000 ,000 1,000
Otro 34 -1,000 -1,000 -1,000 -1,000 -1,000 -1,000 -1,000
La Tabla 28 ofrece las estimaciones de los coeficientes y su significación. Para interpretar es-
tos resultados puede comenzarse calculando el valor de desviación de la categoría de referen-
cia (que no se ofrece). Este valor es igual a la suma de los coeficientes de las restantes catego-
rías, cambiada de signo. Por tanto, el coeficiente de la categoría de referencia («otro») valdrá:
– (–0,466 – 0,798 + 1,050 +...+ 0,727) = – 0,728, y Exp(B) = 0,483. Se puede afirmar que, entre
los sujetos de la categoría «otro», la ventaja de acudir a votar es un 100–48,3 = 51,7 % menor
que en el conjunto de sujetos. Pero no se sabe si esta reducción es significativa; para poder
concluir en este sentido hay que repetir el análisis tomando la primera categoría como catego-
ría de referencia y , de este modo, poder observar la significación de la última categoría.
*
Cuando se definen contrastes ortogonales, los códigos reflejan cómo se están comparando las categorías. Pero, dado que
los contrastes de desviación no son ortogonales, los códigos asignados no reflejan cómo se están comparando las categorías,
sino cómo deben transformarse los datos para obtener las predicciones del modelo. Los códigos de un contraste de desvia-
ción indican, de hecho, cómo se están transformando los datos para estimar los parámetros.
Análisis de regresión logística 31
Valores pronosticados. Las opciones de este recuadro permiten crear variables nuevas basadas
en los pronósticos del modelo:
“ Probabilidades (PRE_A#). Crea una variable en la que, a cada caso del archivo de da-
tos, se le asigna la probabilidad pronosticada por el modelo (la probabilidad de perte-
necer a la categoría de la variable dependiente codificada con un 1).
“ Grupo de pertenencia (PGR_A#). Crea una variable en la que, a cada caso del archivo
de datos, se le asigna el grupo (categoría de la variable dependiente) en el que ha si-
do clasificado por el modelo a partir del punto de corte seleccionado en el cuadro de
diálogo Opciones (ver Figura 9). El punto de corte por defecto es 0,5.
Influencia. Las opciones de este recuadro permiten crear variables con información sobre la
influencia (peso, importancia) de cada caso en el modelo de regresión:
“ De Cook (COO_#). Distancia de Cook (1977). Mide el cambio que se produce en las
estimaciones de los coeficientes de regresión al ir eliminando cada caso de la ecua-
ción: COOi = (RESi2×LEVi)/(1–LEVi). Una distancia de Cook grande indica que el
caso tiene un peso considerable en la estimación de los coeficientes. En general, un
caso con una distancia de Cook superior a 1 debe ser revisado.
“ Valores de influencia (LEV_#). Representan la influencia potencial de cada caso en el
modelo de regresión. Un valor de influencia es una medida normalizada del grado
de distanciamiento de un caso respecto del centro de su distribución. Los casos muy
alejados pueden influir de forma muy importante en la ecuación de regresión, pero
no necesariamente tienen por qué hacerlo. Los valores de influencia se encuentran
entre 0 y 1, y su valor promedio es p/n, donde p es el número de parámetros estima-
dos (incluida la constante) y n es el tamaño de la muestra. Cuando el pronóstico asig-
nado a un caso es muy extremo (menor que 0,10 o mayor que 0,90), el valor de in-
fluencia podría ser pequeño aun tratándose de un caso muy influyente.
“ DfBetas (DFB#_#). Diferencia en los coeficientes de regresión. Mide el cambio que
se produce en los coeficientes de regresión al ir eliminando cada caso de la ecuación
de regresión. El SPSS crea en el Editor de datos tantas variables nuevas como coefi-
cientes beta tiene la ecuación de regresión, incluida la constante.
Residuos. Las opciones de este recuadro permiten crear variables que contienen información
relacionada con los residuos:
“ No tipificados (RES_#). A cada caso le corresponde un residuo no tipificado o bruto
resultado de restar la probabilidad pronosticada por el modelo a la probabilidad ob-
servada: RESi = Pi – Pi’ (estas probabilidades se refieren al evento de interés, es decir
a la categoría de la variable dependiente codificada internamente con un 1; así, Pi se
refiere a la probabilidad observada de que el caso i pertenezca a la categoría 1).
“ Logit (LRE_#). Residuo en escala logit. Residuos no tipificados divididos por la va-
rianza de sus correspondientes pronósticos LREi = RESi / [Pi’(1– Pi’ )].
“ Método de Student (SRE_#). Residuos estudentizados. Raíz cuadrada del cambio ob-
servado en las desvianzas (ver más abajo) al ir excluyendo cada caso de la ecuación
de regresión. Una fuerte discrepancia entre un residuo estudentizado y su desvianza
puede estar delatando la presencia de un caso atípico.
Análisis de regresión logística 33
Aceptando estas selecciones, el Visor ofrece, entre otros, los resultados que muestran las Ta-
blas 29. Además, el Editor de datos genera estas cuatro nuevas variables:
• PRE_1, con etiqueta «probabilidad pronosticada».
• PGR_1, con etiqueta «grupo pronosticado».
• COO_1, con etiqueta «análogo del estadístico de influencia de Cook».
• ZRE_1, con etiqueta «residuo normalizado».
La Tabla 29 muestra las estimaciones de los coeficientes del modelo y su significación. Al
igual que en un modelo de regresión lineal, estos coeficientes pueden utilizarse para construir
una ecuación lineal y, de esta forma, obtener los pronósticos:
Pr = –2,309 + 0,894 periódico + 0,030 edad + 0,576 titestud + 0,017 indsocec – 0,137 telenov
34 Análisis de regresión logística
Así, por ejemplo, el pronóstico que corresponde a un sujeto que lee el periódico (1), con 44
años de edad, con diploma universitario (3), con un índice socioeconómico de 63,5 y que ve
comedias y dramas varios días al mes (3), le corresponde un pronóstico de:
Pr = –2,309 + 0,894 (1) + 0,030 (44) + 0,576 (3) + 0,017 (63,5) – 0,137 (3) = 2,3015
La Figura 7 muestra un diagrama de dispersión que expresa la relación existente entre la va-
riable dependiente y el conjunto de variables independientes. En el eje de abscisas están re-
presentadas las puntuaciones Pr (las cuales, en tanto que pronósticos lineales, representan al
conjunto de variables independientes). En el eje de ordenadas están representados los pronós-
ticos del modelo en escala logística.
0,80
0,60
0,40
0,20
La figura muestra con claridad que la nube de puntos adopta forma de curva logística. Mien-
tras que las puntuaciones resultantes de la combinación lineal de las variables independientes
(Pr) no poseen mínimo o máximo establecidos, la probabilidades pronosticadas por el modelo
muestran claros umbrales en la parte inferior y superior de la curva.
El gráfico incluye una línea horizontal que representa el punto de corte utilizado para la
clasificación (0,50). Este punto de corte es el que utiliza el programa para asignar los casos
a uno u otro grupo (a una u otra categoría de la variable dependiente): los casos cuya probabi-
lidad pronosticada es mayor que el punto de corte son clasificados en el grupo internamente
codificado con un 1 («sí votó»); los casos cuya probabilidad pronosticada es menor que el
punto de corte son clasificados en el otro grupo o categoría («no votó»).
Una vez obtenidos los pronósticos puede cambiarse el punto de corte ensayando valores
hasta encontrar el mejor equilibrio entre las proporciones de clasificación correcta en ambos
grupos (esto se hace desde el cuadro de diálogo Opciones; ver siguiente apartado). Y, por su-
puesto, siempre existe la posibilidad de recurrir al procedimiento Curva COR para determinar
el mejor punto de corte. Con este procedimiento se obtendría un punto de corte óptimo situado
en torno al valor 0,70; este es el valor que se utilizará en el próximo ejemplo como punto de
corte.
La Tabla 30 muestra algunos estadísticos descriptivos referidos a las nuevas variables que
el procedimiento ha creado en el Editor de datos. Estos descriptivos se han obtenido con la
opción Estadísticos descriptivos > Descriptivos... del menú Analizar. Observando la tabla se
aprecia, por ejemplo, que las probabilidades pronosticadas oscilan entre 0,193 y 0,985 y que
la proporción de casos clasificados en el grupo o categoría 1, es decir, la media del grupo pro-
nosticado, vale 0,715: el procedimiento, utilizando el punto de corte establecido por defecto
(0,5), ha clasificado en el grupo de no votantes al 71,5 % de los casos.
Por otro lado, el valor más alto obtenido para la distancia de Cook es de 0,105, lo cual
permite confiar en que no existen casos con demasiada influencia en el modelo (con dema-
siado peso en los pronósticos obtenidos).
En relación con los residuos tipificados (el SPSS les coloca la etiqueta normalizados), se ob-
serva, en primer lugar, que su media vale aproximadamente 0 y su desviación típica aproxi-
madamente 1. Existe al menos un caso con un residuo tipificado considerablemente alto (Má-
ximo = 6,012); es decir, al menos un caso presenta un residuo que se aleja más de 6 desviacio-
nes típicas por encima de la media. El significado de los residuos en un modelo de regresión
logística no es muy distinto del de los residuos en un modelo de regresión lineal: un residuo
alto (generalmente, un residuo situado a más de 3 desviaciones típicas por encima de la me-
dia) permite identificar a un sujeto que ha votado a pesar de que sus puntuaciones en el con-
junto de las variables independientes definen el perfil típico de los sujetos que se abstienen;
por el contrario, un residuo bajo (generalmente, un residuo situado a más de 3 desviaciones
36 Análisis de regresión logística
típicas por debajo de la media) permite identificar a un sujeto que no ha votado a pesar de que
sus puntuaciones en el conjunto de las variables independientes definen el perfil típico de los
sujetos que votan.
Un diagrama de dispersión de los residuos tipificados puede ayudar a identificar casos
atípicos, es decir, casos cuyo comportamiento no es similar al resto de casos y, consecuente-
mente, casos que el modelo no es capaz de pronosticar correctamente. La Figura 8 muestra
un diagrama de dispersión con el número de identificación de caso en el eje horizontal y los
residuos tipificados en el vertical. El gráfico muestra con claridad que los residuos positivos
(los cuales corresponden a los votantes: voto = «sí votó») no se alejan en ningún caso más de
dos desviaciones típicas de la media (de hecho, oscilan entre 0,12 y 1,84). Mientras que los
residuos negativos (los que corresponden a los no votantes: voto = «no votó») tienen un rango
de variación sensiblemente mayor (de hecho, oscilan entre –0,49 y –6,01): hay más de 30 ca-
sos que se alejan de la media más de dos desviaciones típicas, y 13 casos que se alejan más
de tres desviaciones típicas. Esto significa que el modelo ofrece mejores pronósticos en el
grupo de votantes que en el de no votantes. Los casos cuyos residuos se alejan de la media
más de 4 desviaciones típicas aparecen identificados en el gráfico por su número de caso en
el archivo de datos (esto puede hacerse en el Editor de gráficos mediante la herramienta de
identificación de puntos).
0,00
Residuo normalizado
-2,00
-4,00 788
1.408
285
284
-6,00
Opciones
El cuadro de diálogo Opciones ofrece la posibilidad de obtener algunos estadísticos y gráficos
que el procedimiento no ofrece por defecto. También permite controlar las probabilidades de
entrada y salida utilizadas en los métodos de selección de variables por pasos, establecer el
número máximo de iteraciones en el algoritmo de estimación, decidir si el modelo debe o no
incluir el término constante y cambiar el punto de corte que el procedimiento utiliza para cla-
sificar los casos. Para seleccionar estas opciones:
' Pulsar el botón Opciones... del cuadro de diálogo principal (ver Figura 1) para acceder al
subcuadro de diálogo Regresión logística: Opciones que muestra la Figura 9.
Análisis de regresión logística 37
Estadísticos y gráficos. Las opciones de este recuadro permiten seleccionar algunos estadísticos
y gráficos:
“ Gráficos de clasificación. Genera un histograma apilado de las probabilidades pronosti-
cadas por el modelo. En este histograma se distinguen los casos de cada uno de los
dos grupos utilizados en el análisis, el punto de corte utilizado en la clasificación y
los territorios de clasificación.
“ Bondad de ajuste de Hosmer-Lemeshow. Este índice es útil para evaluar el ajuste global
del modelo, particularmente cuando se dispone de muchas variables independientes
o cuando algunas de las variables independientes son continuas.
“ Listado de residuos por caso. Genera un listado de los residuos no tipificados, de las
probabilidades pronosticadas, del grupo observado y del grupo pronosticado:
Valores atípicos a más de k desv. típicas. Limita el listado a los casos cuyo residuo
tipificado se aleja de la media de los residuos más de k desviaciones típicas (en
valor absoluto).
Todos los casos. Lista todos los casos incluidos en el análisis.
“ Correlaciones de estimaciones. Ofrece la matriz de correlaciones entre las estimaciones
de los parámetros del modelo.
“ Historial de iteraciones. Genera un listado con los valores de los coeficientes estimados
y del logaritmo de la función de verosimilitud en cada iteración del proceso de esti-
mación.
“ IC para Exp(B): __ %. Incluye en la tabla de estimaciones de los coeficientes (tabla de
variables incluidas en el modelo) el intervalo de confianza correspondiente al valor
exponencial de cada coeficiente (eB). Este intervalo se construye, por defecto, con
una confianza del 95 %, pero es posible cambiar el nivel de confianza introduciendo
un valor entre 1 y 99.
38 Análisis de regresión logística
Mostrar. Las opciones de este recuadro permiten controlar el detalle con el que se generan los
resultados:
“ En cada paso. Se muestran los estadísticos, tablas y gráficos correspondientes a cada
paso de la estimación. No se muestra el resumen de los pasos.
“ En el último paso. Se muestran los estadísticos, tablas y gráficos correspondientes al
modelo final correspondiente a cada bloque. En estos resultados se resumen los pasos
intermedios.
Probabilidades para los casos. Las opciones de este cuadro permiten modificar los niveles de
significación utilizados en los métodos de selección por pasos. La probabilidad de Entrada
(0,05 por defecto) se refiere al nivel de significación utilizado para considerar que el coefi-
ciente asociado a una variable todavía no incluida en el modelo es distinto de cero y, por tan-
to, para decidir que la variable debe ser incluida en el modelo. Este valor es necesario para
garantizar que el modelo final sólo incluya variables que contribuyan significativamente al
ajuste global.
La probabilidad de Salida (0,10 por defecto) se refiere al nivel de significación utilizado
para considerar que el coeficiente asociado a una variable ya incluida en el modelo ha dejado
de ser significativo (como consecuencia de la incorporación de nuevas variables) y, por tanto,
que la variable debe ser excluida del modelo. Este valor es necesario para garantizar que el
modelo final no incluya variables que no contribuyan significativamente al ajuste global. La
probabilidad de salida debe ser mayor que la de entrada.
Punto de corte para la clasificación. El punto de corte es el valor que se utiliza para clasificar a
los casos en uno u otro grupo o categoría de la variable dependiente: los casos cuya probabili-
dad pronosticada es mayor que el punto de corte son clasificados en el grupo o categoría codi-
ficada con un 1; los casos cuya probabilidad pronosticada es menor que el punto de corte son
clasificados en el otro grupo o categoría. Esta opción permite cambiar el valor del punto de
corte utilizado en la clasificación. El valor por defecto es 0,5.
Nº máximo de iteraciones. Controla el número máximo de iteraciones que el algoritmo de esti-
mación puede llegar a recorrer en el proceso de estimación de los coeficientes. El valor por
defecto es 20, lo que suele ser suficiente en la mayoría de los casos para alcanzar la solución.
“ Incluir constante en el modelo. Esta opción (que se encuentra activa por defecto) permite
determinar si el modelo estimado debe o no incluir el término constante. No debe desactivarse
hasta comprobar que la constante del modelo no es significativa.
' En el cuadro de diálogo principal (ver Figura 1), seleccionar la variable voto y tras-
ladarla al cuadro Dependiente.
' Seleccionar las variables leer, edad, titestud, indsocec y telenov y trasladarlas a la
lista Covariables.
' Pulsar el botón Opciones... para acceder al subcuadro de diálogo Regresión logística:
Opciones (ver Figura 9) y marcar todas las opciones del recuadro Estadísticos y
gráficos.
' Cambiar el Punto de corte para la clasificación introduciendo el valor 0,70. Pulsar el bo-
tón Continuar para volver al cuadro de diálogo principal.
Aceptando estas selecciones, el Visor ofrece, entre otros, los resultados que muestran las Ta-
blas 31 a la 38 y la Figura 10.
La Tabla 31 contiene, para cada una de las iteraciones del proceso de estimación, el valor
del estadístico –2LL (–2 por el logaritmo de la verosimilitud) y el valor estimado para el
término constante del modelo en el paso 0. Según se ha señalado ya, el valor de –2LL aso-
ciado al modelo nulo (el modelo en el paso 0) se utiliza como punto de referencia para valorar
el incremento en el ajuste que se produce al incorporar al modelo las variables independientes.
Tabla 31. Historial de iteraciones en el paso 0 (modelo nulo: sólo incluye la constante)
-2 log de la Coeficientes
Iteración verosimilitud Constante
Paso 0a,b 1 1106,947 ,858
2 1106,275 ,917
3 1106,275 ,918
a. El modelo incluye la constante.
b. -2 log de la verosimilitud inicial: 1106,275
La Tabla 32 muestra las variaciones producidas en el valor del estadístico –2LL y en las
estimaciones de los coeficientes del modelo en cada iteración del paso 1, es decir, del paso
en el que, además de la constante, el modelo incorpora todas las variables independientes
seleccionadas para el análisis. La información de esta tabla resulta útil cuando existen proble-
mas en la estimación de algún coeficiente, ya que muestra la evolución experimentada por ca-
da estimación en su trayectoria hacia el valor de convergencia final.
-2 log de la Coeficientes
Iteración verosimilitud Constante periódico edad titestud indsocec telenov
Paso 1 a,b,c 1 975,662 -1,478 ,802 ,020 ,326 ,011 -,101
2 956,413 -2,143 ,885 ,029 ,514 ,016 -,133
3 955,563 -2,301 ,894 ,030 ,572 ,017 -,137
4 955,560 -2,309 ,894 ,030 ,576 ,017 -,137
5 955,560 -2,309 ,894 ,030 ,576 ,017 -,137
a. Método: Introducir
b. El modelo incluye la constante.
c. -2 log de la verosimilitud inicial: 1106,275
40 Análisis de regresión logística
Las Tablas 33 y 34 muestran los resultados del contraste de bondad de ajuste de Hosmer-
Lemeshow (1980, 2000). La Tabla 33 contiene el estadístico chi-cuadrado y su significación;
la Tabla 34 ofrece los detalles necesarios para realizar el contraste. Este contraste es especial-
mente útil cuando el modelo contiene un gran número de variables independientes y el núme-
ro de pautas de variación existente entre ellas es tan elevado que puede invalidar la utilidad
de los estadísticos de bondad de ajuste clásicos.
La Tabla 37 muestra las correlaciones entre las estimaciones de los coeficientes del modelo.
Al valorar estas correlaciones, suele ocurrir que el término constante correlaciona con las esti-
maciones correspondientes a las variables independientes (pues el término constante no es
más que un factor de escala que refleja la métrica del conjunto de variables independientes).
Esto no constituye un problema. Sin embargo, debe vigilarse que las correlaciones entre las
estimaciones de los coeficientes asociados a las variables independientes sean pequeñas, pues
una correlación elevada entre dos coeficientes puede estar delatando la presencia de
colinealidad. Y cuando existe colinealidad, la estimación del coeficiente relativo a una varia-
ble puede estar demasiado afectada (sesgada) por la presencia de la(s) otra(s) variable(s). En
el ejemplo, la matriz de correlaciones entre los coeficientes no contiene correlaciones ele-
vadas.
del número de casos que representa cada símbolo (Each Symbol Represents 2,5 Cases) y del
punto de corte utilizado (The Cut Value is 0,70). Debajo del eje de abscisas se indica el terri-
torio que corresponde a cada pronóstico (la secuencia de símbolos del territorio cambia en el
valor del punto de corte). En una situación ideal (clasificación perfecta), todos los símbolos
del interior del gráfico estarían situados en la vertical de su propio territorio. Los casos no si-
tuados en la vertical de su territorio son casos mal clasificados por el modelo.
40 ô ô
ó S S ó
ó S S S S ó
F ó S SS S S S S SSS S ó
R 30 ô SS SSS S S SSSSSSSSS ô
E ó SSS SSS SSS SSSSSSSSS ó
Q ó S SSSSSSSSSSSS SSSSSSSSSS ó
U ó S SS SSSSSSSSSSSS SSSSSSSSSS ó
E 20 ô S SSSSSSSSSSSSSSSSSSSSSSSSSS ô
N ó S SSSSSSSSSSSSSSSSSSSSSSSSSS ó
C ó S SSSNSSSNSSSSSSSSSSSSSSSSSSSS ó
Y ó SS SSSNSSSNSSSSSSSSSSSSSSSSSSSS ó
10 ô S S SS NNNNNNSNSSSNNSSSSSSSSSSSSSSS ô
ó SS SSNSS NN NNNNNNNNSNNNNNSSNSSSSSSSSSSS ó
ó N NNNSSNNNS SNNSNNNNNNNNNNNNNNNNNNNNSNSNSSSS ó
ó N N NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNSSó
Predicted òòòòòòòòòòòòòòôòòòòòòòòòòòòòòôòòòòòòòòòòòòòòôòòòòòòòòòòòòòòò
Prob: 0 ,25 ,5 ,75 1
Group: NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNSSSSSSSSSSSSSSSSSSSSSSSSSSSSSS
La Tabla 38 muestra un listado con los casos cuyo valor pronosticado difiere en más de dos
desviaciones típicas del valor observado, es decir, los casos cuyo residuo tipificado es mayor
que 2 o menor que –2. La tabla ofrece, para cada uno de estos casos: el número de registro
que ocupa en el Editor de datos (Caso), si el caso ha sido seleccionado o no para estimar el
modelo (Estado de la selección; en el siguiente apartado se explica cómo utilizar una variable
de selección), la categoría de la variable dependiente a la que pertenece (Observado) con una
marca de dos asteriscos si el caso ha sido mal clasificado, la probabilidad pronosticada por
el modelo (Pronosticado), el grupo en el que ha sido clasificado (Grupo pronosticado) y los
residuos en bruto (Resid.) y tipificados (ZResid.)
Siempre es conveniente detenerse a estudiar con detalle los casos con residuos grandes
(en valor absoluto) pues, generalmente, corresponden a casos atípicos que, justamente porque
44 Análisis de regresión logística
0,25
Coeficientes de regresión
A
A
0,00
-0,25 A
-0,50
-0,75
A
Figura 12. Diagrama de dispersión: cambios experimentados por el coeficiente de la variable edad
2,00E-4
1,00E-4
DFBETA para edad
-2,71E -20
-1,00E-4
-2,00E-4
-3,00E-4
-4,00E-4
-5,00E-4
Una forma adicional de valorar la calidad de un modelo de regresión consiste en obtener las
estimaciones con la mitad de la muestra (o con un porcentaje cualquiera de casos) y, con el
modelo así estimado, efectuar pronósticos para los casos no incluidos en la estimación. Puesto
que los algoritmos de estimación capitalizan las características de la muestra concreta utiliza-
da, esta práctica puede ofrecer pistas muy interesantes. En el siguiente apartado se explica có-
mo utilizar esta estrategia.
Seleccionar casos
El cuadro de diálogo Regresión logística incluye la posibilidad de utilizar una variable de se-
lección, es decir, una variable cuyos valores determinan qué casos van a ser incluidos en el
análisis y qué casos van a ser excluidos (una variable de selección produce un efecto similar
al que produce una variable de filtro impuesta con el procedimiento Seleccionar casos, aunque,
según se verá enseguida, existen importantes diferencias). Para utilizar una variable de selec-
ción:
' En el cuadro de diálogo principal (ver Figura 1), seleccionar la variable que se desea uti-
lizar como variable de selección y trasladarla al cuadro Variable de selección.
48 Análisis de regresión logística
' Pulsar el botón Regla... para acceder al subcuadro de diálogo Regresión logística: Estable-
cer regla que muestra la Figura 13.
' Utilizar los cuadros de definición de la regla de selección para seleccionar un operador
relacional (con el botón de menú desplegable del primer cuadro) y para introducir el valor
de comparación en el cuadro de texto Valor. Pulsar el botón Continuar para volver al cua-
dro de diálogo principal.
Los casos del archivo de datos que cumplan el criterio de selección serán incluidos en el aná-
lisis; los que no cumplan el criterio de selección serán excluidos. Sin embargo, esta exclusión
sólo afecta al proceso de estimación del modelo, pues cuando el procedimiento crea nuevas
variables (pronósticos, residuos, etc.), cuando construye la tabla de clasificación (la matriz
de confusión) y cuando ofrece información particular sobre los casos (tal como el gráfico de
clasificación o el listado de valores atípicos), incluye todos los casos válidos, distinguiendo
entre los casos incluidos en el análisis (los utilizados en la estimación del modelo) y los no
incluidos. De este modo es posible valorar en qué medida el modelo estimado a partir de una
muestra concreta (los casos seleccionados) se ajusta a los casos de una muestra distinta (los
casos no seleccionados).
Análisis de regresión logística 49
Referencias bibliográficas
Cook, R. D. (1977). Detection of influential observations in linear regression. Technometrics,
19, 15-18.
Cox, D. R. y Snell, E. J. (1989). Analysis of binary data (2ª ed.). London: Chapman and Hall.
Harrell, F. E. (2001). Regression modeling strategies: With applications to linear models,
logistic regression and survival analysis. New York: Springer.
Hosmer, D. W., Hosmer, T., Le Cessie, S. y Lemeshow, S. (1997). A comparison of good-
ness-of-fit tests for the logistic regression model. Statistics in Medicine, 16, 965-980.
Hosmer, D. W. y Lemeshow, S. (1980). A goodness-of-fit test for the multiple logistic regres-
sion model. Communications in Statistics, A10, 1043-1069.
Hosmer, D. W. y Lemeshow, S. (2000). Applied logistic regression (2ª ed.). New York: Wiley.
Kleinbaum, D. G. y Klein, M. (2002). Logistic regression: A self-learning text. New York:
Springer.
Lawless, J. F. y Singhal, K. (1978). Efficient screening of nonnormal regression models.
Biometrics, 34, 318-327.
Menard, S. (2002). Applied logistic regression analysis (2ª ed.). Thousand Oaks: Sage.
Nagelkerke, N. J. D. (1991). A note on the general definition of the coefficient of determina-
tion. Biometrika, 78, 691-692.
Rao, C. R. (1973). Linear statistical inference and its application (2ª ed.). New York: Wiley.