Escolar Documentos
Profissional Documentos
Cultura Documentos
1.1 Introducción
Los datos cualitativos son los que se obtienen mediante investigaciones o
registros a partir de variables cualitativas o que expresan cualidad.
Estos datos son representados generalmente por frecuencias que “caen” dentro
de ciertas categorías o clases.
A veces por conveniencia o necesidad se agrupan variables cuantitativas en
categorías, se discretizan las variables y se tratan como categorizadas con las
mismas características de las cualitativas.
Análisis de Datos Cualitativos se ocupa de analizar los problemas entre las
categorías de dos o más variables cualitativas o categóricas.
No se trata de categorizar variables para aplicar los procedimientos que aquí se
abordarán porque estas técnicas no sustituyen las propias del análisis de
variables cuantitativas. Los procedimientos de este módulo sirven entonces para
tratar variables cualitativas, discretas o cuantitativas continuas que se hayan
discretizado, son procederes muy útiles para analizar de manera conjunta
variables cuantitativas y cualitativas de cualquier tipo.
Se necesita clasificar a un grupo de individuos según edad, sexo y hábito de
fumar. La edad es una variable cuantitativa continua, entonces hay que diseñar
una escala de clasificación conveniente. El sexo es una variable cualitativa
nominal y dicotómica, por lo que no tiene dificultad y hábito de fumar puede ser
cualitativa dicotómica si se considera con dos categorías: Fuma y no Fuma pero
también puede ser tratada como una variable cuantitativa ordinal si el hábito de
fumar se mide de acuerdo al número de cajetillas por día: Menos de 1, 1 a 2
cajetillas y tres o más cajetillas.
El Análisis de Datos Cualitativos resuelva también el caso de que las variables
estudiadas sean el resultado de dos o más observadores.
El número de variables que puede estudiarse de manera conjunta va desde dos
hasta infinito, por supuesto que la lógica y la razón nos limitan.
La Tabla de Contingencia más sencilla es la de Dos Dimenciones R*C en las
que se resumen dos variables cualitativas o categóricas; cuando cada variable
tiene solo dos categorías se les denomina de 2x2.
La Tabla de Contingencia de Dos Dimenciones se conoce además como
Bidimencional o de Dos Entradas.
Existen Tablas de Contingencia de Tres Entradas o Tres Dimenciones o de i*j*k;
Tablas de Contingencia de cuatro Entradas, etc.
Estas técnicas son novedosas, antes de la década del 60 casi no se conocían
porque requieren del auxilio de las computadoras para poderlas utilizar.
Precedencias:
Sumatorias
Algebra de matrices
Inferencia Estadística
Anova y Regresión
Notación
En otros módulos de la residencia se estudiaran los procedimientos que en la
práctica se utilizan para tratar los problemas de investigación donde los
individuos se clasifican de acuerdo a las categorías de dos variables.
En este módulo el abordaje de las Tablas de Contingencia de Dos Dimensiones
servirá para conocer la notación que se va a utilizar y temer una visión de los
procedimiento partiendo de las Tablas de Contingecia más sencillas.
Veamos un esquema general de una tabla de R*C.
La variable A tiene de I = 1 a i=I categorías y la variable B tiene de j=1 a j=J categorías.
B
1 2 ...... J T
.
1 f11 f12 ...... f1J f1A
2 f21 f22 ...... f2J f2A
3 f31 f32 ...... f3J f3A
. . .
A . . .
. . .
. . .
I fI1 fI2 ...... fIJ fIA
T f1B f2B ...... fJ B N
Se denota como:
fijAB a los individuos que clasifican en la celda que tiene la categoría iésima de la
variable A y la característica jotaésima de la variable B.
fiA : Es el total de individuos que tienen los atributos de la categoría iésima de la
variable A.
fjB: Es el total de individuos que poseen los atributos jotaésimo de la variable B.
fiA y fjB son los totales marginales, así:
J I
A AB B AB
fi = fij y fj = fij
j=1 I=1
I J
y N = fijAB
I=1 j=1
j=1 I=1
Siempre los subíndices indican las categorías y los supraíndices indican las
variables correspondientes.
El modelo completo sería el producto de los modelos para cada suceso por
separado que es el Modelo Multinomial cuya Función de Probabilidad es:
J J J
P*1j = 1 , P *
2j = 1 P*Ij y = 1 y también, P* ij 0 ij de cada muestra.
J=1 J=1 J=1
i= 1. . . . . I y j = 1. . . . . J
donde:
: es la gran media
iA: Es el efecto principal de la variable A
jB: Es el efecto principal de la variable B
ijAB: Es el efecto de asociación conjunta de A y B
I
.j = ij / I
I=1
I J
= .. = ij / IJ
j=1 I=1
iA = i. - .. , jB = .j - .. ijAB = ij - i. - .j + ..
De esta forma se han logrado expresar los parámetros del modelo en función
del logaritmo neperiano de las probabilidades.
El modelo saturado corresponde al total anterior o sea al que tiene todos sus
términos al que no se le impuso ninguna restricción a ij y tiene la forma
ij = + iA + jB + ijAB.
Hasta ahora todo se ha explicado en función de las P ij que nunca pueden ser
conocidas en la práctica por ser probabilidades poblacionales. Pero se dice que
las fij = mij, es decir que las frecuencias observadas de la celda ij son los
estimadores de las frecuencias esperadas de la celda ij.
Aplicando las propiedades de las Probabilidades
mijAB = N Pij (1)
mijAB = N fij /N
mijAB = fij
Se trata de buscar siempre el modelo que ajuste y que sea el más sencillo.
Las estimaciones de los parámetros se hará a través de estimadores máximo
verosímiles (EMV) que son aquellos que hacen máxima la función de
verosimilitud que no es más que la Función de Densidad evaluada en el
verdadero valor del parámetro.
Aunque este no es el único método de estimar las frecuencias esperadas, los
EMV son:
Insesgados
Eficientes
Suficientes
Consistentes
Fácil cálculo
Unicos
Permiten su estimación en celdas cuyas f ij = 0 siempre y cuando los totales
marginales sean diferentes de 0 y exista un Pij 0.
Primera Hipótesis
Ho ijAB = 0 ij
Si no se rechaza, hay independencia entre las variables A y B y el modelo que
ajusta es el aditivo Yij = + iA + jB.
Si se rechaza, el modelo que ajusta es el saturado Yij = + iA + jB + ijAB.
Segunda Hipótesis
Ho ijAB = 0 iA = 0 i
Si no se rechaza significa que el efecto principal de la variable A no existe. A es
equiprobable para todas las categorías de B.
o
Ho ijAB = 0 jB = 0 j
Si no se rechaza significa que no hay efecto principal de B. B es equiprobable
para todas las categorías de A.
Las dos últimas hipótesis no se prueban en la práctica, se parte del hecho de
que el efecto principal de las variables existe y lo que se prueba es la
asociación conjunta entre las variables o sea la Primera Hipótesis.
Sustituyendo en la ecuación 1:
mij /N = (miA/N) (mjB /N)
mij = (miA/N) (mjB /N) (N)
mij = (miA) (mjB) / N
Si las frecuencias observadas son los estimadores de las frecuencias esperadas
la expresión anterior puede ser:
mij = (fiA) (fjB) / N.
El estadígrafo de prueba es el X2 de Pearson
I J
X =
2
__( fijAB - m ij)2____
i=1 j=1 mij
con (I-1) (J-1) grados de libertad.
2.1 Introducción
2.2 Situaciones que originan una tabla de Contingencia de tres dimensiones.
2.3 El modelo logáritmico lineal.
2.4 Principio de Jerarquía.
2.5 Hipótesis y su interpretación
2.6 Conjunto Mínimo de Márgenes Ajustados
2.7 Estimadores de las frecuencias esperadas
2.8 Estadígrafos de bondad de ajuste y grados de libertad
2.9 Selección de modelos
2.1 Introducción
CLINICA A
Supervivencia
Cantidad Murió No murió Total Tasas
de
cuidados
Mucho 3 173 176 1.7
Poco 4 263 267 1.5
Total 7 436 443
CLINICA B
Supervivencia
Cantidad Murió No murió Total Tasas
de
cuidados
Mucho 17 197 214 7.9
Poco 2 23 25 8.0
Total 19 220 239
Supervivencia
Cantidad Murió No murió Total Tasas
de
cuidados
Mucho 20 370 390 5.1
Poco 6 286 292 2.0
Total 26 656 682
f AC =
f ABC fA =
f ABC = f AC = f AB
ik j ijk i kj ijk j ik k ij
f BC = f ABC f B = f ABC = f AB = f BC *
jk i ijk j ik ijk I ij k jk
f AB
=f ABC
* f C
= f ABC
= f AC
= f BC
ij k ijk k ij ijk I ik j jk
El procedimiento se hace mucho mas complejo la muestra tiene que ser mucho mayor
para tratar de eliminar celdas con o y la interpretación de los resultados se torna
mucho más dificil
Hay totales marginales que no puedo representar en un plano porque al ser una Tabla
de Contingencia i x j x k ; tridimencional, pero si puedo obtener esos totales marginales
Existen dos situaciones básicas que originan las Tablas de Contingencia de Tres
Dimensiones dependiendo del diseño muestral.
a) Seleccionar una muestra de tamaño N y clasificar los individuos según las tres
variables.
En este caso, se tienen las f ijkABC si se tiene el iésimo atributo de A, el jotaésimo de B y el
késimo de C.
Cada individuo de la muestra posee una probabilidad asociada de clasificado en una
celda (Pijk).
Se tiene que cumplir que: Pijk > 0 y que Pijk = 1
La función de probabilidad que explica el comportamiento de la tabla de se denomina
Función Multinomial.
N!
f ijk
Pijk ( Pijk )
ijk
i jk f ijk !
b1) Se pueden fijar los márgenes de dos de las variables y clasificar los individuos
respecto a la tercera variable. En este caso se tendrán tantas Multinomiales como el
producto de las categorías de las variables prefijadas.
Si se supone que se fijan los márgenes de las variables A y B, la probabilidad asociada
tendrá las características siguientes: Pijk**= 1, ij
k
C 1 2
B 1 2 1 2
A 1 f111ABC f121ABC f112ABC f122ABC
2 f211ABC f221ABC f212ABC f222ABC
Se tienen las fijkABC y las probabilidades de clasificar en cada una de las celdas p ijk,
donde: Ln pijk = ijk
Con analogía con el Análisis de la Varianza se puede llegar al modelo que
denominaremos Ecuación A de la siguiente forma:
Para llegar al modelo I * j * k único se puede tomar el promedio de los dos modelos y
definir los parámetros de la siguiente forma:
2
= k/2
k=1
2
i = ikA/2
A
k=1
2
j = jkB/2
B
k=1
2
ij = ijk AB/2
AB
k=1
Faltan los efectos de C que se definen a través de las diferencias de los efectos que
conocemos:
2
kC = k - = k - k/2
k=1
2
ik = ik - i = ik - ikA/2
AC A A A
k=1
2
jkBC = jkB - jB = ikA - jkB/2
k=1
2
ijkABC = ijk AB - ij AB = ijkAB - ijk AB/2
k=1
ijk = + iA +jB + kC + ijAB + jkBC + ikAC + ijkABC ; i= 1,2; j= 1,2; k= 1,2
ijkABC = 0
ijk
Estas tablas también tienen las f ijkABC que son las frecuencias observadas y las mijk que
son las frecuencias esperadas de cada celda.
Los modelos jerárquicos son aquellos que están compuestos por términos relacionados.
En el Modelo Logarítmico Lineal de Tres Dimensiones ijkABC tiene familiares de orden
inferior mientras los términos de primer orden ijAB , jkBC y ikAC , tiene familiares de
orden superior e inferior.
Resumiendo: Si un término de mayor orden está presente en el modelo, tendrán que
estar presente los términos familiares de orden inferior.
El Modelo Logarítmico Lineal trabaja siempre con modelos jerárquicos.
2.5 Hipótesis del modelo y su interpretación
Se trata de buscar el modelo más sencillo que mejor ajuste y que explique el
comportamiento de la tabla.
Lo primero que hay que hacer es estimar las frecuencias esperadas m ijk. El proceder
para ello se verá en un capítulo posterior, pero suponiendo que ya contamos con los
mijkABC.
Primera Hipótesis
H0 ijkABC = 0 ijk
Cuando se cumple el modelo saturado hay asociación conjunta entre las 3 variables.
2da Hipótesis :
Hipótesis 2 a :
H0 ijkABC = 0 ikAC = 0 ijk
Hipótesis 2 b :
H0 ijkABC = 0 jkBC = 0 ijk
3ra Hipótesis :
H0 ijkABC = 0 jkBC = 0 ikAC = 0 ijk
En este caso decimos que C es completamente independiente del resto de las variables
y se puede colapsar la tabla por C, que es como obviar a C.
Hipótesis 4
H0 ijkABC = 0 ijAB = 0 ikAC = 0 iA =0 ijk
Si no se rechaza H0, el modelo que queda es:
Hipótesis 5
H0 ijkABC = 0 jkBC = 0 ikAC = 0 ijAB =0 ijk
Se el denomina así porque son los márgenes mínimos necesarios para estimar las
frecuencias esperadas mijkABC.
Todo es necesario porque para ajustar el mejor modelo hay que aplicar las Pruebas de
Hipótesis pero, para ello, se tienen que haber estimado previamente las frecuencias
esperadas mijkABC , este procedimiento se complejiza cundo se realiza en tablas de tres
dimenciones porque no todos los estimadores son directos como se verá más adelante.
H0 ijkABC = 0 ijk
Asociación parcial de cada variable en las categorías de la tercera variable.
Para constituir estadígrafos de Bondad de Ajuste hay que estimar las frecuencias
esperadas mijk para cada una de la Hipótesis a provar que son diferentes
Directos Son únicos. Tienen una expresión que permiten su cálculo a partir de los
totales marginales y el total de la muestra
Indirectos Son únicos. No se calculan a partir de fórmulas sino hay que utilizar
Métodos Interativos para acercarnos al valor del mijkABC
Son reglas que permiten precisar si para determinadas hipótesis existen estimadores
directos o no.
Paso 1 - Redefina cualquier grupo de variables que aparescan siempre juntas como
una sola variable. (ABC) (ABL)
(A’C) (A’L)
Paso 2 - Suprima las variables que aparescan en todos los margenes del CMMA
(C) (L)
Paso 3 - Suprima las variables que aparescan en un solo margen
Teorema 1 Si el CMMA de un modelo termina los pasos con dos márgenes o menos
existen estimadores directos.
Teorema 2 Si el CMMA obtenido al aplicar los pasos termina con tres o más márgenes,
no existen estimadores directos.
Existen dos fórmulas explícita de los estimadores directos en dependencia de los casos
de los CMMA.
Caso 1 No existen variables contenidas en mas de 1 márgen, por ejemplo:
(A) (B) (C)
(AB) (C)
t=1
donde T, G, N y Z se definieron con anterioridad
h es el número de elementos del CMMA que no contiene a Z
h’ es el complemento de h
Ventajas:
Primer Ciclo En cada paso del ciclo se utiliza la información de los márgenes ajustados
del modelo y a partir de ellos se estiman las frecuencias esperadas. En el ejemplo hay
tres márgenes, entonces hay que hacer tres pasos.
Primer Paso
1 0 0
mijk = mijk fij / mijAB
ABC ABC AB
Segundo Paso
2 1 1
mijk = mijk fik / mijAC
ABC ABC AC
Tercer Paso
3 2 2
mijkABC = mijkABC fjk BC / mjkBC
Primer Paso
(3r-2) (3r-3) (3r-3)
mijkABC = mijkABC fij AB / mijAB
Segundo Paso
Tercer Paso
3r (3r-1) (3r-1)
mijkABC = mijkABC fjk BC / mjkBC
Partición Condicional de G2
Se tienen dos modelos jerárquicos a y b, tales que los términos de b están incluidos en
a, es decir, son un subconjunto de a:
En el caso anterior se define como mi y miB a los estimadores de las frecuencias
A
H0 El modelo b es suficiente
Se estudiará este método porque es el más utilizado. Entre sus ventajas está que
explora casi todos los modelos posibles y contempla una sucesión de jerarquías
anidadas de modelos.
Se ha generado el modelo:
(LS)(LC) gl= 12 G2b = 14.45 p= 0.65
Este resultado responde a la hipótesis
H0 El modelo b ajusta
Estadígrafo utilizado es la G2 Razón de Verosimilitud
Como H0 no se rechazó el procedimiento continúa eliminando términos del modelo
hasta que en el paso anterior todos los G 2 condicionales sean significativos es decir,
que no se cumpla que el modelo más pequeño ajusta dado que ajusta el mayor si se
elimina el término que tenga la p más alta.
Tema 3 Tablas de Contingencia Incompleta
Tablas Incompletas
Son tablas que tienen celdas con ceros estructurales. Dichas celdas deben
permanecer vacías para culaquier modelo que se ajuste a los datos, por ejemplo, en
una investigación se trata de identificar asociación entre la efectividad de
procedimientos quirúrgicos y el sexo, para ello se construyen tablas de contingencia de
dos dimensiones, no tiene sentido ninguno que hayan valores diferentes de cero en la
celda correspondiente a los atributos hombre e hicteréctomia. Por tanto no tiene lógica
ajustar un modelo que introduzca valores esperados diferentes de cero en esas celdas.
Los ceros estructurales se representan por una - .
Desde esta definición, también se consideran ceros estructurales a cualquier
celda que tenga fijada a prioni algún valor positivo y no un cero ya que desde el punto
de vista del ajuste del modelo su valor siempre será el mismo.
La diferencia con las tablas completas está en los grados de libertad porque en las
tablas incompletas hay celdas que siempre tienen que ser nulas y sus parámetros se
igualarán a cero .
Se le llama quasi independencia porque se excluyen las celdas con ceros estructurales.
= 0 en otro caso
j = 1 Si ijAB = 1 i
A
= 0 en otro caso
B
A 1 2 3
1 f11AB - f13AB
2 f21AB f22AB f23AB
3 f31AB f32AB f33AB
Se dice que dos celdas están conectadas si se puede llegar de una a otra a través de
una cadena de celdas asociadas entre si. En la tabla anterior, f 32AB y f13AB están
conectadas.
Cuando todas las celdas de una tabla están asociadas, la tabla está conectada
totalmente, entonces se dice que es una tabla no separable .
Siempre que en una Tabla Incompleta se encuentre una celda no conectada con las
demás entonces la tabla es separable, no se cumple el principio de conectividad de la
tabla. Para determinar la separabilidad se pueden hacer permutaciones de filas y
columnas y si son separables se tratan las semitablas de forma independientes y se
analizan como las completas.
Teorema de Savage
Se dice que los estimadores máximo verosímiles de las frecuencias esperadas m ijAB
de las Tablas de Contingencia Incompleta siempre existen y son únicos bajo el modelo
de quasi - independencia si y solo si :
Luego la única diferencia estuvo que el conjunto de valores iniciales esta compuesto
por “unos” y “ceros”.
Está demostrado que si las condiciones anteriores existen, el método iterativo de ajuste
proporcional converge a los estimadores máximo verosímiles y estos son únicos.
Existen algunas Tablas Incompletas en las que la distribución de los ceros estructurales
permite la estimación de las frecuencias esperadas por métodos directos. Al igual que
en las Tablas Completas existen reglas que permiten la identificación de dichas tablas.
Si ijAB = 1 para alguna celda (i, j) pero el resto de los ijAB en la misma fila o columna
son todos ceros, entonces el estimador de mijAB = fijAB
B
A 1 2 3
1 f11AB f12AB f13AB
2 f21AB f22AB -
3 - - f33AB
Regla 2 o de semiseparabilidad
Una tabla incompleta es semiseparable, si puede ser hecha separable en dos o mas
subtablas quitándole una única fila o columna. En este caso se pueden separar las
tablas de la forma que mas convenga para que el cálculo de los estimadores tenga
solución.
Una tabla es semiseparable quitándole una columna y dividiéndose en conjuntos de
filas perteneciendo cada fila sólo a una de las subtablas separables que resultan de la
eliminación de la columna, entonces se pueden estimar los frecuencias esperadas de
cada celda en cada una de esas partes de la tabla, bajo el modelo de quasi-
independencia, de la misma manera que se haría si cada conjunto después de eliminar
columnas vacías fuese una subtabla separable.
B
A 1 2 3 4 5
1 f11AB f12AB - - -
2 f21AB f22AB - - f25AB
AB AB
3 - - f
33 f
34 f35AB
AB AB
4 - - f
43 f
44 -
AB AB
5 - - f
53 f
54 f55AB
B
A 1 2 3 4 5
1 f11AB f12AB - - -
2 f21AB f22AB - - f25AB
En la subtabla anterior, la celda (2,5) es aislada por lo que se elimina por la Regla 1 y
se encuentra una tabla de 2x2 cuyas frecuencias esperadas pueden ser estimadas
directamente.
B
A 3 4 5
3 f33AB f34AB f35AB
4 f43AB f44AB -
5 f53AB f54AB f55AB
B
A 1 2 3 4
AB AB AB
1 f11 f12 f
13 f14AB
2 f21AB f22
AB
f
23
AB
-
3 f31AB f32
AB
- -
4 f41AB - - -
B
A 1 2 3 4
AB
1 - - f
13 f14AB
AB AB
2 - f22 f
23 f14AB
3 f31AB f32
AB
f
33
AB
f34AB
4 f41AB f41
AB
f
43
AB
f44AB
J1 J2 J3
I1
I2
I3
.I = I1 + I2 + I3
J = J1 + J 2 + J3
Los ceros estructurales quedan ubicados en dos bloques de celda tales como :
ij =0 para i I1 + 1; j J1 + J2 +1
para I I1 + I2 +1; j J1 +1
Una tabla incompleta se dice que es de Bloque - Escalera si después de realizar las
permutaciones de filas y columnas se puede dividir la tabla en conjunto de filas cada
una de las cuales contiene un arreglo rectangular de celdas diferentes de cero y cada
tal rectángulo comparte columnas solo con aquellos arreglos inmediatamente por
encima y debajo de él.
Siempre hay que restar a los grados de libertad de los términos que se eliminan en las
hipótesis las celdas con ceros estructurales porque sus parámetros no aportan nada.
Tema 4 Regresión Logística
4.1 Introducción
4.2 Modelo de Regresión Logística
4.3 Utilidad de la Regresión Logística
4.4 Interpretación de los coeficientes de regresión
4.5 Cuidados que hay que considerar para aplicar la Regresión Logística
4.6 Estimación de Parámetros
4.7 Pruebas de Hipótesis
4.8 Selección de Modelos
4.9 Bondad de Ajuste
4.10 Regresión Logística Politómica
4.1 Introducción
Se diseña un estudio caso control donde los casos son una muestra de niños que
nacieron con malformaciones congénitas y los controles una muestra de niños que
nacieron sin esas afecciones. Se estudia en ambos grupos los siguientes variables
relacionadas con la madre: si se le administró drogas durante el embarazo, paridad,
edad, hábito de fumar y abortos anteriores.
100
Se puede observar que hay mayor número de individuos con la enfermedad, es decir
con valor de 1, a medida que la edad aumenta y mayor número de individuos con 0, es
decir que no padecen la enfermedad en las edades mnás jóvenes. Lo que es difícil es
probar una dependencia entre las variables.
Si se distribuye la información de la siguiente forma:
Al llevar a un gráfico donde por el eje de las X está la edad y en el eje de las Y la
proporción de enfermos se produce lo siguiente:
Se puede apreciar de manera más clara la relación entre las variables porque a medida
que aumenta la edad, aumenta la proporción de enfermos.
1 + e - (ß0 + ß X)
I
Que quiere decir que la probabilidad de que ocurra un evento, en el caso que se sigue
de padecer de enfermadad coronaria del corazón, está en función de las variables
independientes.
Lo que resulta muy difícil con esta fórmula e la interpretación de los parámetros si se
tiene en cuenta que los ß está. en un exponencial de un termino del denominador. Se
ha tratado de linaelizar la función a través del uso de transformaciones matemáticas
como la Logit.
P
Logit P = ln _____________
1-P
Después de sustituir en cada P de la transformación anterior la función de Regresión
Logística y de hacer todas las operaciones algebraicas se obtiene que
Logit P(y=1) = ß0 + ßI x
donde los parámetros ß están en función lineal con la probabilidad de ocurrencia del
evento.
Se ha tratadon de utilizar otras funciones que den respuesta a la relación entre una
variable de respuesta cualitativa y una o un grupo de variables explicativas, así como
otras transformaciones para linealizar la función como por ejemplo la Probit.
No tiene sentido aplicar una Regresión Logística Múltiple, es decir con dos o más
variables explicativas, sin haber realizado previamente el nálisis univariado buscando
asosiación entre cada variable y la considerada como de respuesta porque se corre el
riesgo de introducir en el modelo variables que no son necesarias.
Veamos el caso más simple de Regresión Logística para facilitar la comprensión que se
pudiera expresar
Logit P (y=1) = ß0 + ßx
Se estiman los parámetros ß0 y ß así como sus errores estándar.
la interpretación de los parámetros es:
ß0 : Se interpreta como el logaritmo natural de desarrollar el evento para un individuo
no expuesto.
ß: Expresa cuantas veces varía el logaritmo natural de la probabilidad de que ocurra el
evento para una unidad de cambio de la variable independiente .
Se puede probar la siguiente hipótesis que tienen similar significado que para la
Regresión Lineal, solo hay que tener en cuenta que los parámetros están expresado en
función del logaritmo natural:
H0 ß = 0
H0 ß ╬ 0
Se puede entonces aplicar el Estadígrafo de Wald:
ß
______ que se distribuye Normal (0,1)
EE ß
La estimación de los odds ratio se logra a través del e ß . Si en este problema hubiera
dado 2 indica que la probabilidad de padecer de cáncer es el doble en los que fuman
que en los que no fuman. Hay que tener en cuenta la asignación de los codigos para la
interpretación.
Los parámetros ß están influenciados por las unidades de medida de cada una de las
variables por lo que no sirven para compararlas entre si. Se hace necesario para ello
utilizar los ß estandarizados (ß*I).
Individuo 1 Individuo 2
X1= 45 X1= 45
X2= 210 X2= 210
X3= 130 X3= 130
X4= 100 X4= 100
X5= 120 X5= 120
X6= 0 X6= 3
X7= 0 X7= 0
La interpretación sería que por cada 1 000 individuos que no fuman, manteniendose las
otras variables constantes, el riesgo de enfermar es de 48 personas y que el riesgo de
enfermar por cada 1 000 personas que fuman, manteniendose las otras variables
constantes, es de 153.
P* (Y=1) 0.153
_______ = __________ = 3.16
P (Y=1) 0.048
Esta expresión:
P* (Y=1)
_______ = eß (X*i - Xi) Por ello se interpreta sin tomar en cuenta el l n.
P (Y=1)
4.5 Cuidados que hay que considerar cuando se utiliza la Regresión Logística
Cuando alguna de las variables explicativas es cualitativa nominal por ejemplo, raza,
grupo sanguíneo y cuenta con más de dos categorías para incluirla entre las
covariables hay que darle un tratamiento especial esto es debido a que la Regresión
Logística está enmarcada en un ámbito cuantitativo, de hecho como hemos visto se
trabaja con los valores que se asignan a las categorías, los códigos antes
mencionados.
Variables Dummy
Grupos Z1 Z2 Z3
Sanguíneos
A 1 0 0
B 0 1 0
AB 0 1
O 0 0 0
En el modelo de Regresión Logística dará el parámetro correspondiente a cada variable dummy y la interpretación
de cada uno se hace con relación a la categoría de referencia.
Parámetros ß eß
ß0 0.456
Z1 0.359 1.43
Z2 0.315 1.37
Z3 0.078 1.08
Cuando se estudian variables continuas, muchas veces hay que discretizarlas porque
las variaciones entre una unidad y otras no son importantes, por ejemplo, si se estudia
la relación entre el riesgo de morir y la edad, es evidente que el riesgo no varía mucho
de una edad a la siguiente y los resultados serían mucho más ricos si se agrupa la
edad en grupos quinquenales, decenales o con otra escala de clasificación apropiada.
4.5.4 Colinealidad
Cuando las variables independientes analizadas están muy asosiadas, la Regresión
Logística puede dar resultados insospechados, hay programas computacionales que
abortan, otros cambian los datos, otros concluyen el proceso con estimaciones
absurdas de los ß.
4.5.5 Monotonía
Para que la regresión Logística tenga un sentido claro, las variables explicativas deben
tener relación monótona con la dependiente. Es decir, la relación entre X i y Y tiene que
ser directa cuando los valores de ambas suben o bajan a lo largo de toda la función o
indirecta cuando los valores de una suben mientras la de la otra disminuyen a lo largo
de toda la función.
En estos casos se corrige la variable edad para mejorar el ajuste de forma tal que se
obtienen nuevos valores de X:
4.5.5 Temporalidad
4.5.6 Interacciones
Si existen dos covariables X1 y X2 que influyen en la P(Y=1) pero además el efecto de
ambas actuando conjuntamente potencializan la P (Y=1), se hace necesario incluir en el
modelo otra variable de interacción que contenga el efecto de las dos.
1
P(y=1) = _____________________________
1 + e - (ß0 + ß1 x1 + ß2 x2 + ß3 x3 + 3 x1 x2)
En este caso P(y=1) sería la probabilidad de tener un bajo peso. X 1 consumo de calcio y
X2 hábito de fumar. Las dos variables explicativas influyen sobre el bajo peso pero la
multiplicación del efecto de ellas es potenciadora de la Y.
I = pi, si Y = 1
Sustituyendo en la ecuación 1 Y = 1:
n
V = pi 1 (1 - pi ) 1-1
I=1
n
V = pi (Ecuación 2)
I=1
Sustituyendo en la ecuación 1 Y = 0:
n
V = pi 0 (1 - pi ) 1- 0
I=1
n
V = (1 - pi ) (Ecuación 3)
i=1
Los valores de las ecuaciones 2 y 3 dependen de los valores que se vayan asignando a
los y los 0 en el proceso de iteración.
EE
que se distribuye Normal (0,1) e identifica aquellas variables que influyen de forma
marcada en la variable de respuesta, es decir que son en definitiva los factores de
riesgo.
Vi
R = - 2 Ln
Vf
que se distribuye X2 con k grados de libertad.
Por propiedad de los Ln, el Cociente de Verosimilitud (R) se puede expresar:
Otro caso de pruebas de hipótesis trata evaluar el efecto conjunto de todas las
variables:
- se tiene un modelo A con k variable que ajustó.
- se tiene un modelo B con k variable, subconjunto del anterior que ajustó.
Se trataría de probar la hipótesis siguiente:
V fB
R = -2 Ln
VfA
que se distribuye X2 con (ka - kb grados de libertad).
Por propiedad del Ln , el estadígrafo se puede expresar:
R = -2 Ln VfB - (-2 Ln VfA)
Donde VfA y VfB son las Razones de Verosimilitud final para cada modelo.
Muchas veces es importantes buscar un modelo que tenga las variables que sean
verdaderamente importantes en su influencia sobre la P (y=1). Esto es esencial cuando se
utiliza la Regresión Logística con fines pronósticos. Las ventajas que esto conlleva en
un modelo mas pequeño, mas operativo, con menos parámetros que estimar y por tanto
menos peligro de error.
Adicionando variables :
Paso 1 : Se ajustan 4 modelos de Regresión Logística diferentes cada uno con cada
una de las 4 variables.
Vi
R = -2 Ln
Vf
Se obtienen entonces R1 , R2 , R3 , R4
Se identifica el mayor de ellos, que es el que ajustó mejor, digamos que fue R2.
Se identifica en cual el -2L n Vf es menor. Supongamos que sucede para el que tiene
X2X4
Paso 5 : Se ajustan todos los modelos con tres variables que contengan X 2 y X4
X1 , X2 , X4
X3 , X2 , X4
Se observa el que tenga menor valor su -2 ln V f , supongamos que sea el que tiene X 1,
X2, X4.
Se utiliza el estadígrafo
V124
-2 Ln
V24
Si es mayor que el percentil 95 de la X 2 con 3-2= 1 grados de libertad, entonces se
incluye X1
Paso 7: Se ajusta el modelo con las cuatro variables.
Ho= El modelo que contiene X124 ajusta dado que ajusta el que tiene X 1234.
Se utiliza el estadígrafo:
V1234
-2 Ln
V124
Si es mayor que 3.84, percentil 95 de la X 2 con 4-3=1 grados de libertad, se incluye en
el modelo la variable X3.
La variante (b) Step Down, eliminando terminos es similar, pero se comienza con el
modelo con todas las variables y se van eliminando las que no son importantantes
durante el proceso.
Paso 2 : Se utiliza el Estadígrafo de Wald para identificar las variables que sean
significativamente diferentes de O. Si todas están en ese caso, se concluye el proceso,
si no, se va al Paso 3
Paso 3 : Se ajusta el modelo con las variables que resultaron significativas en el paso
anterio y se vuelve al punto inicial.
Lo que se persigue en este acápite es evaluar la calidad del ajuste ya que se parte del
hecho de trabajar con modelos que ajusten, sería ilógico, lo contrario.
Paso 4: Sumar los valores de p dentro de cada cuartil, decil u otra división que se
haya utilizado y serían los valores esperados.
E1 , E2 ........ E10. Si se hubieran utilizado deciles.
Paso 5: Contar en cada los individos que tuvieron Y = 1 y serán los valores
observados. O1 , O2 , ................O 10. Si se hubieran utilizado deciles.
Paso 6: Computar el estadígrafo de Hosmer y Lemeshow.
H0: El modelo de Regresión Logística ajusta
H1: El modelo de Regresión Logística no ajusta
Estadígrafo de Lemeshow y Hosmer:
10 (Oi - Ei)2 10 (Oi* - Ei*)2
X2 = __________ + _____________
i=1 Ei i=1 Ei
Donde:
Ei* = ni - Ei
Oi* = ni - Oi
El estadígrafo se distribuye X2 con 8 grados de libertad.
Hay autores que aconsejan prudente cotejar los valores de las E i y las Oi, sin obligación
de utilizar el estadígrafo.
Ejemplo : r = 3
Y tiene tres categoráias r = 1
r=2
r= 3
Se estudian k = 4 variables
Se encontrarán dos modelos:
1 11 12 13 14
2 21 22 23 24
Teniendo el valor de los parámetros se pueden evaluar:
E1
P(Y=1) = _______________
1 + E1 + E2
E2
P(Y=2) = _______________
1 + E1 + E2
Donde:
E1 = e (1+ 11 + 12 + 13 + 14)
E2 = e (2 + 21 + 22 + 23 + 24)
P(Y=3) = 1 - P(Y=1) - P(Y=2)
No hay un método estricto para probar la bondad de ajuste, ni una prueba global ideal.
n
Ei: = pij Valor esperado de pertenecer a la categoría iésima.
i=1
r (Ei - Oi )2
C=
I=1 Ei
Esta expresión no tiene una distribución conocida. Es un método descriptivo. Da una
medida global de la concordancia.
Bibliografía
1. Jiménez R. Análisis de datos Cualitativos en Medicina. Estudio de métodos no
tradicionales y situaciones complejas. La Habana: IDS, 1982
2. Lozares C y col. La complementariedad del log lineal y el análisis de
correspondencia en la elaboración y análisis de tipologías. Barcelona: Universidad
Autónoma. (Visto 11 de octubre 2002). (20 pantallas). Disponible en URL:
http://selene.aab.es/_cs_quit/P55.4pdf.
3. Silva Ayzcaguer L C. Excursión a la Regresión Logística. Editorial Díaz de Santos:
Madrid, 1998.
4. Hosmer D y Lemeshow S. Applied Logistic Regresion. Wiey and Sons: Estados
Unidos, 1989.
5. Schelesselman J. Case Control Studies. Conduct. Analysis, 1982.