Você está na página 1de 50

Escuela Nacional de Salud Pública

ANÁLISIS DE DATOS CUALITATIVOS


MONOGRAFÍA

Dra. C. Ileana Elena Castañeda Abascal


Tema 1 Tablas de Contingencia de Dos Dimensiones, Dos Entradas o
Bidimensionales
1.1 Introducción
1.2 Origen de las tablas de contingencia
1.3 Modelo Logarítmico Lineal
1.4 Pruebas de Hipótesis

1.1 Introducción
Los datos cualitativos son los que se obtienen mediante investigaciones o
registros a partir de variables cualitativas o que expresan cualidad.
Estos datos son representados generalmente por frecuencias que “caen” dentro
de ciertas categorías o clases.
A veces por conveniencia o necesidad se agrupan variables cuantitativas en
categorías, se discretizan las variables y se tratan como categorizadas con las
mismas características de las cualitativas.
Análisis de Datos Cualitativos se ocupa de analizar los problemas entre las
categorías de dos o más variables cualitativas o categóricas.
No se trata de categorizar variables para aplicar los procedimientos que aquí se
abordarán porque estas técnicas no sustituyen las propias del análisis de
variables cuantitativas. Los procedimientos de este módulo sirven entonces para
tratar variables cualitativas, discretas o cuantitativas continuas que se hayan
discretizado, son procederes muy útiles para analizar de manera conjunta
variables cuantitativas y cualitativas de cualquier tipo.
Se necesita clasificar a un grupo de individuos según edad, sexo y hábito de
fumar. La edad es una variable cuantitativa continua, entonces hay que diseñar
una escala de clasificación conveniente. El sexo es una variable cualitativa
nominal y dicotómica, por lo que no tiene dificultad y hábito de fumar puede ser
cualitativa dicotómica si se considera con dos categorías: Fuma y no Fuma pero
también puede ser tratada como una variable cuantitativa ordinal si el hábito de
fumar se mide de acuerdo al número de cajetillas por día: Menos de 1, 1 a 2
cajetillas y tres o más cajetillas.
El Análisis de Datos Cualitativos resuelva también el caso de que las variables
estudiadas sean el resultado de dos o más observadores.
El número de variables que puede estudiarse de manera conjunta va desde dos
hasta infinito, por supuesto que la lógica y la razón nos limitan.
La Tabla de Contingencia más sencilla es la de Dos Dimenciones R*C en las
que se resumen dos variables cualitativas o categóricas; cuando cada variable
tiene solo dos categorías se les denomina de 2x2.
La Tabla de Contingencia de Dos Dimenciones se conoce además como
Bidimencional o de Dos Entradas.
Existen Tablas de Contingencia de Tres Entradas o Tres Dimenciones o de i*j*k;
Tablas de Contingencia de cuatro Entradas, etc.
Estas técnicas son novedosas, antes de la década del 60 casi no se conocían
porque requieren del auxilio de las computadoras para poderlas utilizar.

Precedencias:
 Sumatorias
 Algebra de matrices
 Inferencia Estadística
 Anova y Regresión

Notación
En otros módulos de la residencia se estudiaran los procedimientos que en la
práctica se utilizan para tratar los problemas de investigación donde los
individuos se clasifican de acuerdo a las categorías de dos variables.
En este módulo el abordaje de las Tablas de Contingencia de Dos Dimensiones
servirá para conocer la notación que se va a utilizar y temer una visión de los
procedimiento partiendo de las Tablas de Contingecia más sencillas.
Veamos un esquema general de una tabla de R*C.
La variable A tiene de I = 1 a i=I categorías y la variable B tiene de j=1 a j=J categorías.
B
1 2 ...... J T
.
1 f11 f12 ...... f1J f1A
2 f21 f22 ...... f2J f2A
3 f31 f32 ...... f3J f3A
. . .
A . . .
. . .
. . .
I fI1 fI2 ...... fIJ fIA
T f1B f2B ...... fJ B N
Se denota como:
fijAB a los individuos que clasifican en la celda que tiene la categoría iésima de la
variable A y la característica jotaésima de la variable B.
fiA : Es el total de individuos que tienen los atributos de la categoría iésima de la
variable A.
fjB: Es el total de individuos que poseen los atributos jotaésimo de la variable B.
fiA y fjB son los totales marginales, así:
J I
A AB B AB
fi = fij y fj = fij
j=1 I=1
I J
y N =   fijAB
I=1 j=1

En forma particular, por ejemplo:


J I
f1 =  f1j
A AB
, f2 =  fi2
B AB

j=1 I=1
Siempre los subíndices indican las categorías y los supraíndices indican las
variables correspondientes.

1.2 Origen de las Tablas de Contingencia de Dos Dimensiones


Las tablas de contingencia tiene una distribución de probabilidad subyacente ya
que se pueden relacionar los sucesos posibles en función de la probabilidad
asociada con ellos. Se trata de una o varias muestras aleatorias de una
población, por tanto existe una probabilidad diferente de 0 para cada individuo
de la población de clasificar en una sola de las celdas de la tabla debido a que:
- La muestra es aleatoria
- Las variables son independientes
- Las categorías de las variables son excluyentes

Origen de las tablas de Contingencia con una sola muestra


Consideremos una muestra aleatoria de tamaño N que se clasifica de
acuerdo a las variables A y B como la tabla de contingencia mostrada
anteriormente que se corresponde con una tabla de contingencia de R*C.
Si se denota Pij a la probabilidad que tiene cada elemento de la población de
clasificar en una celda ij, entonces Pij es igual para todos los individuos de la
población y Pij  0. Esto pudiera asociarse a un modelo con tantos eventos
simples como celdas tiene la tabla.

P11 P12 ....... P1J


P21 P22 ....... P2j
. . .
. . .
. . .
. . .
PI1 PI2 ....... PIJ

El modelo completo sería el producto de los modelos para cada suceso por
separado que es el Modelo Multinomial cuya Función de Probabilidad es:

Pij = ____ N!___________  Pij (fij AB)


 fijAB ! ij
ij

Pij tiene que cumplir las restricciones siguientes:


I J
  Pij = 1 y Pij  0  ij
I=1 J=1

Consideremos más de una muestra aleatoria de forma tal que se forman


tantas muestras aleatorias como totales marginales tenga una de las variables y
los individuos se clasifican de acuerdo a la otra. Por ejemplo, se seleccionan I
muestras distintas y los individuos de la mustra se clasifican dentro de cada una
según posean los atributos de la variable B. Dicho de otro modo se fijan los
totales marginales de la variable A. En estos casos la distribución de
probabilidad subyacente es el Producto de Multinomiales:
I N! J
Pij =  __________________  Pij* (fijAB)
I=1 J j=1
 fijAB
j=1

Pij tiene que cumplir las restricciones siguientes:

J J J
 P*1j = 1 ,  P *
2j = 1  P*Ij y = 1 y también, P* ij 0  ij de cada muestra.
J=1 J=1 J=1

1.3 Modelo Logarítmico Lineal


Estos modelos tratan de buscar las relaciones que existen entre las categorías
de las diferentes variables, lo cual tiene aanalogía con el Análisis de la
Varianza, con la diferencia que en este caso la variable de respuesta es
cualitativa. Se puede entonces buscar un modelo similar al ANOVA. Se ha
demostrado que el Ln Pij al que le denominaremos ij tiene la siguiente
expresión:

ij =  + iA + jB + ijAB

i= 1. . . . . I y j = 1. . . . . J

donde:
: es la gran media
iA: Es el efecto principal de la variable A
jB: Es el efecto principal de la variable B
ijAB: Es el efecto de asociación conjunta de A y B

Restricciones del modelo:


I J I J
i = j = ij = ijAB = 0
A B AB

I=1 j=1 I=1 J=1

Por analogía con el ANOVA se puede hablar también que


J
i. =  ij / J
J=1

I
.j =  ij / I
I=1
I J
 = .. =   ij / IJ
j=1 I=1

A partir de aquí se obtiene:

iA = i. - .. , jB = .j - .. ijAB = ij - i. - .j + ..
De esta forma se han logrado expresar los parámetros del modelo en función
del logaritmo neperiano de las probabilidades.

Grados de libertad de cada término del modelo


Cada uno de los términos del modelo posee sus grados de libertad. Las
restricciones de los parámetros del modelo indican los grados de libertad, hay
un parámetro que no es independiente ya que existe una combinación lineal con
los otros parámetros.

Términos Grados de Libertad


iA I-1
jB J-1
ijAB (I-1) (J-1)
Total IJ

El modelo saturado corresponde al total anterior o sea al que tiene todos sus
términos al que no se le impuso ninguna restricción a ij y tiene la forma
ij =  + iA + jB + ijAB.

Hasta ahora todo se ha explicado en función de las P ij que nunca pueden ser
conocidas en la práctica por ser probabilidades poblacionales. Pero se dice que
las fij = mij, es decir que las frecuencias observadas de la celda ij son los
estimadores de las frecuencias esperadas de la celda ij.
Aplicando las propiedades de las Probabilidades
mijAB = N Pij (1)
mijAB = N fij /N
mijAB = fij

Entonces, aplicando l n a la ecuación (1):


Ln mij = Ln N + Ln Pij
Ln mij = Ln N +  + iA + jB + ijAB
Ln mij =  * + iA + jB + ijAB
Esto quiere decir que el Modelo Logarítmico Lineal se puede poner en función
de las frecuencias observadas, que se se tienen en la práctica, como
estimadores de las frecuencias esperadas. De esta forma Y ij = Ln fij y el modelo
se puede expresar:
Yij =  + iA + jB + ijAB.

1.4 Pruebas de Hipótesis del Modelo Logarítmico Lineal

Se trata de buscar siempre el modelo que ajuste y que sea el más sencillo.
Las estimaciones de los parámetros  se hará a través de estimadores máximo
verosímiles (EMV) que son aquellos que hacen máxima la función de
verosimilitud que no es más que la Función de Densidad evaluada en el
verdadero valor del parámetro.
Aunque este no es el único método de estimar las frecuencias esperadas, los
EMV son:
 Insesgados
 Eficientes
 Suficientes
 Consistentes
 Fácil cálculo
 Unicos
Permiten su estimación en celdas cuyas f ij = 0 siempre y cuando los totales
marginales sean diferentes de 0 y exista un Pij  0.

Primera Hipótesis
Ho ijAB = 0 ij
Si no se rechaza, hay independencia entre las variables A y B y el modelo que
ajusta es el aditivo Yij =  + iA + jB.
Si se rechaza, el modelo que ajusta es el saturado Yij =  + iA + jB + ijAB.

Segunda Hipótesis
Ho ijAB = 0 iA = 0 i
Si no se rechaza significa que el efecto principal de la variable A no existe. A es
equiprobable para todas las categorías de B.
o
Ho ijAB = 0 jB = 0 j
Si no se rechaza significa que no hay efecto principal de B. B es equiprobable
para todas las categorías de A.
Las dos últimas hipótesis no se prueban en la práctica, se parte del hecho de
que el efecto principal de las variables existe y lo que se prueba es la
asociación conjunta entre las variables o sea la Primera Hipótesis.

Estimación de las Frecuencias Esperadas


En la hipótesis Ho ijAB = 0 iA = 0 ij bajo el modelo de independencia
Pij = Pi. P.j (ecuación 1)
Pij = mij /N
Luego es lógico pensar que:
Pi. = miA/N y P.j = mjB /N

Sustituyendo en la ecuación 1:
mij /N = (miA/N) (mjB /N)
mij = (miA/N) (mjB /N) (N)
mij = (miA) (mjB) / N
Si las frecuencias observadas son los estimadores de las frecuencias esperadas
la expresión anterior puede ser:
mij = (fiA) (fjB) / N.
El estadígrafo de prueba es el X2 de Pearson
I J
X =
2
 __( fijAB - m ij)2____
i=1 j=1 mij
con (I-1) (J-1) grados de libertad.

Los grados de libertad se obtienen de sumar los grados de libertad de los


términos que se anulan en cada una de las hipótesis que se va a probar, por
ejemplo:

Ho ijAB = 0 iA = 0 ij


Se suma (I-1) (J-1) + (I-1) = J (I-1)

Resumen de los grados de libertad y estimadores de las frecuencias


esperadas en Tablas de Contingencia de R*C

Hipótesis Grados de Libertad Estimadores de las


frecuencias esperadas
Ho ijAB = 0 ij (I-1) (J-1) fiA fjB / N

Ho ijAB = 0 iA = 0 i J (I-1) fjB/ I

Ho ijAB = 0 jB = 0 j I(J-1) fiA /J


Tema 2

Tablas de contingencias de tres dimensiones :

2.1 Introducción
2.2 Situaciones que originan una tabla de Contingencia de tres dimensiones.
2.3 El modelo logáritmico lineal.
2.4 Principio de Jerarquía.
2.5 Hipótesis y su interpretación
2.6 Conjunto Mínimo de Márgenes Ajustados
2.7 Estimadores de las frecuencias esperadas
2.8 Estadígrafos de bondad de ajuste y grados de libertad
2.9 Selección de modelos

2.1 Introducción

Las Tablas de Contingencia de 3 dimenciones se obtiene de clasificar individuos


de acuerdo a tres variables cualitativas o categorizadas. ej : niños según :

Lugar de atención ( variable A )


Cantidad de Cuidados ( variable B )
Supervivencia ( variable C )

Esta situación se pudiera analizar utilizando tablas de r x c de la forma


siguiente.

CLINICA A
Supervivencia
Cantidad Murió No murió Total Tasas
de
cuidados
Mucho 3 173 176 1.7
Poco 4 263 267 1.5
Total 7 436 443

CLINICA B
Supervivencia
Cantidad Murió No murió Total Tasas
de
cuidados
Mucho 17 197 214 7.9
Poco 2 23 25 8.0
Total 19 220 239

Según el análisis de las Tasas de Mortalidad, no parece haber relación


entre la cantidad ofrecida de cuidado y la supervivencia dentro de cada clínica
por separado ya que en cada una el riesgo de morir es semejante aunque
tenga muchos o pocos cuidados, peor si existen diferencias en las tasas de
mortalidad entre ambas clínicas.

Haciendo el análisis de otra forma, es decir clasificando el total de niños de


ambas clínicas según cantidad de cuidados y supervivencias.

Supervivencia
Cantidad Murió No murió Total Tasas
de
cuidados
Mucho 20 370 390 5.1
Poco 6 286 292 2.0
Total 26 656 682

Aquí entonces se ve que hay diferncias en la supervivencia en relación a la


cantidad de cuidados ya que las tasas de mortalidad muestran diferencia mas
marcada que en los análisis anteriores y hace pensar que es necesario tomar
en consideración las tres variables en forma conjunta para ver como influyen
sobre la posibilidad de clasificar en una de las celdas.
TABLA DE CONTINGENCIA DE TRES DIMENSIONES. NOTACIÓN
C
1 2 K
B 1 2 .. J f 1 2 . J f . 1 2 . J f f
AC AC AC A
. . . .
i i i i
. . .
k k k
. .
1 fABC fABC . . fABC f f . f f
111 121 1J1 AC AC AC A
. .
1 1 1 1
.
1 2 k
.
ABC ABC ABC
A 2 f f .. f f f . f f
211 221 2J1 AC AC AC A
. .
2 2 2 2
.
1 2 k
.
ABC ABC ABC
3 f f .. f f f . f f
311 321 3J1 AC AC AC A
. .
3 3 3 3
.
1 2 k
.
. . . . . . . .
. . . . . . . .
. . . . . . . .

I fABC fABC . . fABC f f . f f


I11 I21
. . IJ1 AC AC
. AC A
I1 I2 ik i
.
.
f f BC f BC . . f BC f f f . f f . f f . f f
BC 11 21
. . J1 C BC BC
. BC C
. BC BC
. BC C
j 1 1 2 j 2 Ik 2 j k
. . .
k 2 2 2 k k
. . .

f AC =
 f ABC fA =
 f ABC =  f AC =  f AB
ik j ijk i kj ijk j ik k ij

f BC =  f ABC f B =  f ABC =  f AB =  f BC *
jk i ijk j ik ijk I ij k jk

f AB
=f ABC
* f C
= f ABC
= f AC
=  f BC
ij k ijk k ij ijk I ik j jk
El procedimiento se hace mucho mas complejo la muestra tiene que ser mucho mayor
para tratar de eliminar celdas con o y la interpretación de los resultados se torna
mucho más dificil

Hay totales marginales que no puedo representar en un plano porque al ser una Tabla
de Contingencia i x j x k ; tridimencional, pero si puedo obtener esos totales marginales

Var A con niveles i = 1 . . . . . . . I


Var B con niveles j = 1 . . . . . . . J
Var C con niveles k = 1 . . . . . . . K

2.2 Origen de las tablas de Contingencia de Tres Dimensiones

Existen dos situaciones básicas que originan las Tablas de Contingencia de Tres
Dimensiones dependiendo del diseño muestral.
a) Seleccionar una muestra de tamaño N y clasificar los individuos según las tres
variables.
En este caso, se tienen las f ijkABC si se tiene el iésimo atributo de A, el jotaésimo de B y el
késimo de C.
Cada individuo de la muestra posee una probabilidad asociada de clasificado en una
celda (Pijk).
Se tiene que cumplir que: Pijk > 0 y que  Pijk = 1
La función de probabilidad que explica el comportamiento de la tabla de se denomina
Función Multinomial.

N!

f ijk
Pijk  ( Pijk )

ijk
i jk f ijk !

b) Se pueden fijar dos márgenes correspondientes a una de las variables y clasificar


los individuos respecto a las otras dos.
En este caso habrán tantas Funciones Multinomiales como categorías tenga la variable
a la que se le fijaron los márgenes, lo que es lo mismo habrán tantas multinomiales
como muestras existan.
Si se supone que se fijaron los márgenes de la variable A,
entonces:  Pijk* = 1, I jk
La distribución será un Producto de Multinomiales.

b1) Se pueden fijar los márgenes de dos de las variables y clasificar los individuos
respecto a la tercera variable. En este caso se tendrán tantas Multinomiales como el
producto de las categorías de las variables prefijadas.
Si se supone que se fijan los márgenes de las variables A y B, la probabilidad asociada
tendrá las características siguientes: Pijk**= 1, ij
k

2.3 Modelo Logarítmico Lineal


Se tienen tres variables en estudio:
A filas
B columnas
C tercera variable a controlar

C 1 2
B 1 2 1 2
A 1 f111ABC f121ABC f112ABC f122ABC
2 f211ABC f221ABC f212ABC f222ABC

Se tienen las fijkABC y las probabilidades de clasificar en cada una de las celdas p ijk,
donde: Ln pijk = ijk
Con analogía con el Análisis de la Varianza se puede llegar al modelo que
denominaremos Ecuación A de la siguiente forma:

ijk = k +ikA + jkB + ijkAB para k = 1, 2, donde:


k: Es la media dado el valor de C
ikA : Es el efecto de A dado C
jkB: Es el efecto de B dado C
ijkAB: Es el efecto conjunto de AB dado C.
La restricción del modelo sería:

ikA = jkB = ijkAB = ijkAB = 0, para que no aparezca un sistema de


i j i j
ecuaciones incompatibles.

Para llegar al modelo I * j * k único se puede tomar el promedio de los dos modelos y
definir los parámetros de la siguiente forma:
2
 =  k/2
k=1

2
i =  ikA/2
A

k=1

2
j =  jkB/2
B

k=1

2
ij =  ijk AB/2
AB

k=1
Faltan los efectos de C que se definen a través de las diferencias de los efectos que
conocemos:
2
kC = k -  = k -  k/2
k=1

2
ik = ik - i = ik -  ikA/2
AC A A A

k=1

2
jkBC = jkB - jB = ikA -  jkB/2
k=1

2
ijkABC = ijk AB - ij AB = ijkAB -  ijk AB/2
k=1

A partir de tablas de contingencias de dos dimenciones y el efecto de una tercera


variable se llegar al Modelo Logarítmico Lineal de tres dimenciones con el análisis
anterior, en función del l n de las probabilidades.

ijk =  + iA +jB + kC + ijAB + jkBC + ikAC + ijkABC ;  i= 1,2; j= 1,2; k= 1,2

Las restricciones del modelo son:

iA =  jB = kC = 0


I j k

ijAB = jkBC =  ikAC = 0


ij jk ik

 ijkABC = 0
ijk

Diferencias entre el Modelo Bidimencional y el Tridimensional

Modelo Bidimensional Modelo Tridimensional


4 Términos 8 Términos
2 Efectos Principales 3 Efectos Principales
1 Efecto de Primer Orden 3 Efectos de Primer Orden
No tiene Efectos de Segundo Orden 1 Efecto de Segundo Orden

Ambos tienen un parámetro , la gran media

Grados de libertad asociado a cada término

Téminos Grados de Libertad


 1
i A I-1
j B J-1
k C K-1
ij AB (I - 1) (J - 1)
jk BC (J - 1) (K - 1)
ik AC (I - 1) (K - 1)
ijk ABC (I - 1) (J - 1) (K - 1)
Total IJK
En las Tablas de Contingencia de Tres Dimensiones aparece el término ijkABC que
expresa la asociación conjunta de las tres variables categorizadas.

Estas tablas también tienen las f ijkABC que son las frecuencias observadas y las mijk que
son las frecuencias esperadas de cada celda.

Como se vio en el capítulo anterior, si se multiplica la probabilidad de ocurrencia de un


evento entre el total de la muestra se obtienen las frecuencias esperadas.
mijk = N Pijk
Aplicando Ln a la expresión anterior
Ln mijk = Ln N + Ln Pijk
De manera similar al modelo de Dos Dimensiones, este se puede expresar en función
del Ln mijk:
Ln mijk =  iA +jB + kC + ijAB + jkBC + ikAC + ijkABC
Como las frecuencias observadas f ijk son los Estimadores Máximi Verosímiles de las
frecuencias esperadas mijk , el Modelo Logarítmico Lineal de Tres Dimensiones se
puede expresar:
Ln fijk = Yijk =  iA +jB + kC + ijAB + jkBC + ikAC + ijkABC
2.4 Jerarquía de los Modelos. Principios de Jerarquía

Si se consideran dos términos cualesquiera de un Modelo Logarítmico Lineal de Tres


Dimensiones r y s donde r  s y r y s representan el conjunto de subíndices del los
términos, r contiene todos los elementos de s, por ejemplo,
si r = ij, entonces s = I ó s = j.
Se dice entonces que  r es un familiar de orden superior que  s.
La familia de un modelo jerárquico se define de forma tal que si:

s = 0, entonces r = 0, por ejemplo, jB = 0 entonces , ij AB = 0

Los modelos jerárquicos son aquellos que están compuestos por términos relacionados.
En el Modelo Logarítmico Lineal de Tres Dimensiones ijkABC tiene familiares de orden
inferior mientras los términos de primer orden ijAB , jkBC y ikAC , tiene familiares de
orden superior e inferior.
Resumiendo: Si un término de mayor orden está presente en el modelo, tendrán que
estar presente los términos familiares de orden inferior.
El Modelo Logarítmico Lineal trabaja siempre con modelos jerárquicos.
2.5 Hipótesis del modelo y su interpretación

Se trata de buscar el modelo más sencillo que mejor ajuste y que explique el
comportamiento de la tabla.
Lo primero que hay que hacer es estimar las frecuencias esperadas m ijk. El proceder
para ello se verá en un capítulo posterior, pero suponiendo que ya contamos con los
mijkABC.

Primera Hipótesis

H0 ijkABC = 0  ijk

Cuando se cumple el modelo saturado hay asociación conjunta entre las 3 variables.

Si no se rechaza Ho : Existe asociación conjunta de cada par de variables pero esta es


igual para cualquier categoría de la 3ra variable. Se dice que hay asociación parcial en
cada par de variables,. y el modelo quedará así :
Yijk =  iA +jB + kC + ijAB + jkBC + ikAC

2da Hipótesis :

H0 ijkABC = 0 jkBC  ijk

Si no se rechaza Ho, se dice que la asociación parcial de B y C no existe. Que B y C


son independientes para cualquier categoría de la variable A, que está condicionada a
los niveles de la variable A.
Se dice que B y C son condicionalmente independientes.
Hay independencia de B y C pero por separado cada variable está asociada a A

Hipótesis 2 a :
H0 ijkABC = 0 ikAC = 0  ijk

Hipótesis 2 b :
H0 ijkABC = 0 jkBC = 0  ijk

3ra Hipótesis :
H0 ijkABC = 0 jkBC = 0 ikAC = 0 ijk

Yijk =  + iA +jB + kC + ijAB


Si no se rechaza H0 estamos ante un modelo de independencia multiple.

En este caso decimos que C es completamente independiente del resto de las variables
y se puede colapsar la tabla por C, que es como obviar a C.

Hipótesis 4
H0 ijkABC = 0 ijAB = 0 ikAC = 0 iA =0  ijk
Si no se rechaza H0, el modelo que queda es:

Yijk =  + jB + kC + jkBC


Que sería el modelo de independencia total de A y habría decididamente que valoral el
diseño de una tabla 2 x 2.

Hipótesis 5
H0 ijkABC = 0 jkBC = 0 ikAC = 0 ijAB =0  ijk

Si no se rechaza H0, el modelo que queda es:


Yijk =  + iA +jB + kC

Que es el modelo de independencia total de las variables.

2.6 Conjunto mínimo de Margenes Ajustados (CMMA)

Se el denomina así porque son los márgenes mínimos necesarios para estimar las
frecuencias esperadas mijkABC.

En el caso que existan estimadores directos también también se les llama


Configuraciones Eficientes.

Todo es necesario porque para ajustar el mejor modelo hay que aplicar las Pruebas de
Hipótesis pero, para ello, se tienen que haber estimado previamente las frecuencias
esperadas mijkABC , este procedimiento se complejiza cundo se realiza en tablas de tres
dimenciones porque no todos los estimadores son directos como se verá más adelante.

( ABC ) Modelo saturado . Siempre ajusta


Tiene estimadores directos de las frecuencias esperadas
Yijk =  + iA +jB + kC + ijAB + jkBC + ikAC + ijkABC
( AB ) (AC) (BC) Modelo con todas las asociaciones parciales
Yijk =  + iA +jB + kC + ijAB + jkBC + ikAC

H0 ijkABC = 0  ijk
Asociación parcial de cada variable en las categorías de la tercera variable.

( AB ) ( AC ) Modelo con dos asociaciones parciales


Yijk =  + i +j + k + ijAB + ikAC
A B C

H0 ijkABC = 0 jkBC = 0  ijk


B y C son condicionalmente independientes para cualquier categoría de A.
Se puede encontrar las otras combinaciones:
( AB ) ( BC )
( AC ) ( BC )

( AB ) ( C ) Modelo con todos los efectos principales y una asociación


parcial
Yijk =  + i +j +  + ijAB
A B
k
C

H0 ijkABC = 0 jkBC = 0 ikAC = 0  ijk

Las otras combinaciones pueden ser:


( AC ) ( B )
( BC ) ( A )

( AB ) Modelo Independencia total de C

Yijk =  + iA +jB + ijAB

(A)(B)(C) Modelo Aditivo


Yijk =  + i +j + k
A B C

H0 ijkABC = 0 ijAB= 0 jkBC = 0 ikAC = 0  ijk

2.7 Estimadores de las frecuencias esperadas :

Para constituir estadígrafos de Bondad de Ajuste hay que estimar las frecuencias
esperadas mijk para cada una de la Hipótesis a provar que son diferentes

Hay dos tipos de estimadores :

Directos Son únicos. Tienen una expresión que permiten su cálculo a partir de los
totales marginales y el total de la muestra

Indirectos Son únicos. No se calculan a partir de fórmulas sino hay que utilizar
Métodos Interativos para acercarnos al valor del mijkABC

El que vamos a utilizar en el Método Iteractivo de Ajuste Proporcional diseñado por


Fiemberg
Tiene la ventaja que si existen estimadores directos en el primer ciclo converge a él.

Reglas papa estimar la existencia de Estimadores Directos :

Son reglas que permiten precisar si para determinadas hipótesis existen estimadores
directos o no.

Las reglas tienen como base el CMMA. para cada modelo.

Paso 1 - Redefina cualquier grupo de variables que aparescan siempre juntas como
una sola variable. (ABC) (ABL)
(A’C) (A’L)
Paso 2 - Suprima las variables que aparescan en todos los margenes del CMMA
(C) (L)
Paso 3 - Suprima las variables que aparescan en un solo margen

Paso 4 - Suprima todos los margenes redundantes repetidos

Paso 5 - Repita todos los pasos del 1 al 4 hasta que :


a) No quedan más de dos márgenes, lo que indica que existen
Estimadores Directos.
b) No se pueden dar mas pasos lo que indica que no existen Estimadores
Directos.

Ejemplo: Modelo (AB) (AC) H0 ijkABC = 0 jkBC = 0  ijk


Por Paso 2, el modelo queda en el CMMA (B) (C)
Se llega a dos márgenes finales, eso quiere decir que hay estimadores directos de
las frecuencias esperadas.

Ejemplo: (AB) (BC) (AC) H0 ijkABC = 0  ijk


Cuando se aplican todos los pasos se quedan los tres márgenes, lo que indica que
este modelo no tiene estimadores directos.

Teorema 1 Si el CMMA de un modelo termina los pasos con dos márgenes o menos
existen estimadores directos.

Teorema 2 Si el CMMA obtenido al aplicar los pasos termina con tres o más márgenes,
no existen estimadores directos.

En el caso de tablas de contingencia de tres dimenciones, sólo hay un modelo que no


tiene estimadores directos de las mijkABC, pero sucede que es el primer modelo que hay
que probar (AB) (AC) (BC) por lo que hay que recurrir al método iteractivo.

Fórmulas generales para buscar la expreción de los Estimadores Directos.

Existen dos fórmulas explícita de los estimadores directos en dependencia de los casos
de los CMMA.
Caso 1 No existen variables contenidas en mas de 1 márgen, por ejemplo:
(A) (B) (C)
(AB) (C)

Fórmula del Estimador Máximo Verosimil de las frecuencias esperadas


T
mYt = ( f Yt)/ G N t-1
t=1
donde:
T es el total elementos del CMMA
N es el total de la muestra
G es el producto del número de categorías de cada una de las variables no contenidas
en el CMMA. Si este conjunto es vacio G = 1.
Aplicando en el modelo (AB) (C)
mijkABC = (fijAB) (fkC) / 1 N (2-1)
mijkABC = (fijAB) (fkC) / N
Aplicando en el modelo (A) (B) (C)
mijkABC = (fiA) (fjC) (fkC) / N
Caso 2 Existe sólo un conjunto de variables Z incluidas en dos o más de las Y t.
Fórmula del Estimador Máximo Verosimil de las frecuencias esperadas
T
m t = ( f Yt)/ G Nh (fZ) h’-1
Y

t=1
donde T, G, N y Z se definieron con anterioridad
h es el número de elementos del CMMA que no contiene a Z
h’ es el complemento de h

Aplicando al modelo (AB) (AC)


G= 1
Z= A
h1= 2
T= 2
h=0

m ijkABC = (fijAB ) (fikAC )/1 N0 (fiA)2-1

Método Iterativo de Ajuste Proporcional


 Es iterativo porque utiliza en el procedimiento un método de iteración
 De ajuste porque se va acercando al valor del parámetro
 Es proporcional porque utiliza la información del Conjunto Mínimo de Márgenes
Ajustados

Ventajas:

1. Cuando se utiliza en modelos que tienen estimadores directos, convergen a ellos en


la primera iteración.
2. Siempre convergen a un conjunto único de estimadores máximo verosímiles.
3. Se puede construir una regla de parada que garantice una exactitud determinada de
los estimadores de las mikkABC. La precisión se fija de antemano, mientras más precisos
se desee ser, más iteraciones se tendrán que hacer. Generalmente se necesitan de seis
a ocho iteraciones para ser suficientemente precisos.
4. Al igual que los estimadores directos dependen del Conjunto Mínimo de Márgenes
Ajustados, es decir, pueden haber celdas con frecuencias observadas con ceros
muestrales que de todas formas se pueden estimar las frecuencias esperadas.

Descripción del método

No se conocen de antemano la cantidad de ciclos necesarios. Dentro de cada ciclo se


dan varios pasos que dependen del Conjunto Mínimo de Márgenes Ajustados.
A continuación se verá el método a través de un modelo: (AB)(AC)(BC)

Ciclo Inicial 0. Se estiman a priori las frecuencias esperadas mijkABC. Generalmente se
hace a través de la expresión:
0
mijkABC = 1,  ijk
En este paso se necesita un valor arbitrario diferente de 0. Se construye una tabla
donde todas las mijkABC son iguales a 1.

Primer Ciclo En cada paso del ciclo se utiliza la información de los márgenes ajustados
del modelo y a partir de ellos se estiman las frecuencias esperadas. En el ejemplo hay
tres márgenes, entonces hay que hacer tres pasos.

Primer Paso
1 0 0
mijk = mijk fij / mijAB
ABC ABC AB

Segundo Paso

2 1 1
mijk = mijk fik / mijAC
ABC ABC AC

Tercer Paso
3 2 2
mijkABC = mijkABC fjk BC / mjkBC

En todos los ciclos se repiten los mismos pasos.


Generalizando,
R ciclos
r pasos

Primer Paso
(3r-2) (3r-3) (3r-3)
mijkABC = mijkABC fij AB / mijAB

Segundo Paso

(3r-1) (3r-2) (3r-2)


mijkABC = mijkABC fik AC / mikAC

Tercer Paso
3r (3r-1) (3r-1)
mijkABC = mijkABC fjk BC / mjkBC

El número de pasos es inviolable. El orden del Conjunto Mínimo de Márgenes Ajustados


que se escoja en el primer paso es intrascendente, pero a la vez que se elige, es
inviolable para el resto de los ciclos.
Regla de convergencia para finalizar las iteraciones.
Sea  un valor cualquiera entre 0 y 1, 0 1. Se dice que el método iterativo alcanzó la
convergencia cuando todas las diferencias entre las estimaciones alcanzadas en el
último paso del último ciclo menos el último paso del penúltimo ciclo se mantienen
menores que . Se dice que  es muchas veces 0.01, pero el SPSS tiene el default en
0.25.

2.9 Estadígrafos de Bondad de Ajuste y Grados de Libertad


Se utlizan los estadígrafos conocidos para Tablas de Contingencia de Dos
Dimensiones.

X2 de Pearson = (fijk - m ijk)2 / mijk


ijk
Otros estadígrafos que prueban la Bondad de Ajuste es la Razón de Verosimilitud G 2.

G2 = 2  (fijkABC) ( Ln fijkABC / mijkABC)
ijk
G se distribuye X2 en el límite. Posteriormente se estudiarán los grados de libertad que
2

sirven para ambos estadígrafos.


Los valores de estos dos estadígrafos no coinciden pero cuando X 2 se rechaza, G2
también se rechaza. Cuando los valores de los estadígrafos están muy cercanos al
valor crítico y uno rechaza y el otro no, es conveniente utilizar el Análisis de Residuos o
la Razón de Productos Cruzados para tomar la decisión.
El G2 utiliza toda la información y posee la Propiedad de Partición que es útil para la
Selección de Modelos.

Grados de Libertad para Tablas de i*j*k

Modelo Grados de Libertad


(AB)(AC)(BC) (I-1)(J-1)(K-1)
(AB)(AC) I (J-1)(K-1)
(AB)(BC) J(I-1)(K-1)
(AC)(BC) K(I-1)(J-1)
(AB)(C) (IJ-1)(K-1)
(AC)(B) (IK-1)(J-1)
(BC)(A) (JK-1)(I-1)
(A)(B)(C) IJK - (I+J+K) +2
Recordando, los grados de libertad de cada modelo que se ajuste se obtendrán
sumando los grados de libertad de cada término que se anula.

2.9 Selección de modelos


El mejor modelo sera aquel que:
 Ajuste
 Más sencillo
 De una explicación práctica de lo que ocurre
La selección de modelos se realiza sólo en modelos jerárquicos.
En Tablas de Contingencia de Tres Entradas hay que escoger entre ocho modelos
diferentes, sin embargo en Tablas de Contingencia de Cuatro Entradas hay que
escoger entre 113 modelos. Al elevarse la dimensión de la tabla, se eleva el número de
modelos.
El método de Selección de Modelos tiene varios pasos:
1. Se hacen un conjunto de cálculos rutinarios y los datos y estadígrafos resultantes se
usan como guías del próximo paso.
2. Partiendo del modelo determinado en el primer paso, se ajustan una serie de
modelos cercanos.
3. Se continúa el procedimiento

Propiedades del Estadígrafo G2 Razón de Verosimilitud

Partición Condicional de G2
Se tienen dos modelos jerárquicos a y b, tales que los términos de b están incluidos en
a, es decir, son un subconjunto de a:

b) YijkABC =  + iA +jB + kC + ijAB


H0 ijkABC = 0, ikAC = 0, jkBC =0  ijk
a) YijkABC =  + iA +jB + kC + ijAB + ikAC
H0 ijkABC = 0, jkBC =0  ijk

 
En el caso anterior se define como mi y miB a los estimadores de las frecuencias
A

esperadas de los modelos a y b.


No se varían las frecuencias observadas f ijkABC pero si, las mijkABC, porque dependen del
Conjunto Mínimo de Márgenes Ajustados de cada modelo.
Se prueba la siguiente hipótesis:

H0 El modelo más pequeño ajusta dado que ajusta el mayor

Se utiliza el estadígrafo G2 Condicional


 
G2 (b/a) = 2  (fijkABC) (Ln mia / mib),  ijk
ijk
G2 (b/a) se distribuye asintóticamente X 2 con los grados de libertad del modelo b menos
los grados de libertad del modelo a (gl b - gla)
Siempre los modelos que sean casos particulares de otros tienen más grados de
libertad porque tienen más restricciones, es decir, menos términos independientes.

Se pudiera también probar la hipótesis siguiente:

H0 El modelo b es suficiente

Aquí se aplica la Propiedad de Partición Condicional de G 2

G2 (b/a) = G2b - G2a


entonces:
G2b = G2 (b/a) + G2a
Esta descomposición del G2 (b/a) permite explicar G2b mediante:

1. Las discrepancias de las mijkABC en los modelos a y b.

2. Las discrepancias entre las mijkABC y las fijkABC en el modelo a.

La hipótesis H0 El modelo b ajusta dado que ajusta el modelo a


se podrá probar a través del estadígrafo G 2 (b/a) expresado de la siguiente forma:

G2 (b/a) = G2b - G2a


Si p  0.05, se rechaza H0, entonces nos quedamos con el modelo a, es decir, el
término a eliminar es importante. La probabilidad de clasificar en una celda está
condicionada también por el término que se iba a eliminar.

Si p  0.05. No se rechaza H0, no es significativa, el modelo que ajusta es el b. O sea


eliminar el término es intrascendente y no afecta en la probabilidad de clasificar en una
de las celdas de la tabla.

Hay varios procedimientos para la selección de modelos tales como la Jerarquía


Anidada de Modelos y el Método de Selección Paso a Paso.

Método de Selección Paso a Paso

Se estudiará este método porque es el más utilizado. Entre sus ventajas está que
explora casi todos los modelos posibles y contempla una sucesión de jerarquías
anidadas de modelos.

El Método de Selección Paso a Paso puede ser de dos formas:


 Añadiendo términos o forward
 Eliminando términos o backward
Veamos las diferencias entre ambas formas

Eliminando Efectos Añadiendo Efectos


Se parte del que ajusta y se comienza Se parte del que no ajusta y se van
a eliminar términos añadiendo términos
A cada modelo con un término menor A cada modelo con un término más del
del que ajustó se le hace un G 2 y se que no ajustó, se le hace un G 2 y se
elige el modelo que tenga un G 2 menor, separan los que ajustan, es decir los
o sea una p mayor que tengan un G2 menor, o sea una p
mayor
El que tuvo un G2 menor, o sea una p Se hacen con los modelos que ajustan
mayor se le hace un G 2 condicional un G2 condicional con el modelo de
con el modelo que le dió origen para origen que no ajustó y se queda el
ver si se queda el modelo o no. modelo de mayor valor.
No se quiere rechazar. Se seleccionan Se añade a este modelo el que siguió
los modelos cuyas p 0.05 y queda el en orden inferior en G 2 condicional y se
que tenga el G2 condicional menor hace un G2 condicional para ver cual
queda

A continuación se describe una parte del proceso de selección de modelos utilizando el


Método de Selección Paso a Paso, eliminando términos (backward) según el algoritmo
del SPSS.
El objetivo de una investigación de calidad de un hospital se trata de probar si hay
asociación entre:
Variable L: Lugar de Atención
Variable C: Calidad de Cuidados
Variable S: Supervivencia
Cada variable tiene tres categorías.

Lo primero que se hace es probar el ajuste del modelo saturado


(LCS) G2 = 0 gl= 0 p= 1.00

En el paso siguiente se trata de eliminar un término


lcsLCS = 0 gl= 8 G2 = 9.15 p= 0.745
En este caso, no se rechaza H 0, el modelo sin el término ajusta.
Se utilizó el estadígrafo Razón de Verosimilitud G 2A.

Después se van eliminando los términos al modelo que ajustó:


Modelo Término que grados de libertad G2(b/a) p
se elimina
(LC)(CS) (LS) 2 9.53 0.003
(LC)(LS) (CS) 2 2.26 0.49*****
(LS)(CS) (LC) 2 3.01 0.10

En este paso se tratan de probar las hipótesis


H0 b (el modelo más pequeño) ajusta dado que a (modelo más grande), ajustó.
Dicho de otra forma:
H0 lcsLCS = 0, cs = 0 lcs*****
H0 lcsLCS = 0, ls = 0 lcs
H0 lcsLCS = 0, lc = 0 lcs
Se elimina el modelo que tuvo la p más alta, el G 2 más bajo marcado con ****. Este paso
se interpreta como que b ajusta dado que ajusta a si se elimina el término CS.

Se ha generado el modelo:
(LS)(LC) gl= 12 G2b = 14.45 p= 0.65
Este resultado responde a la hipótesis
H0 El modelo b ajusta
Estadígrafo utilizado es la G2 Razón de Verosimilitud
Como H0 no se rechazó el procedimiento continúa eliminando términos del modelo
hasta que en el paso anterior todos los G 2 condicionales sean significativos es decir,
que no se cumpla que el modelo más pequeño ajusta dado que ajusta el mayor si se
elimina el término que tenga la p más alta.
Tema 3 Tablas de Contingencia Incompleta

3.1 Definición de Tablas Incompletas


3.2 El modelo Logarítmico Lineal
3.3 Métodos para el cálculo de las estimaciones de las frecuencias esperadas.
3.4 Determinacion de los grados de libertad

3.1 Definición de Tablas Incompletas

Cuando se realiza un analisis de Tablas de Contingencia podemos encontrar celdas


con ceros muestrales que se producen por la variabilidad de la muestra y la pequeñez
relativa de la probabilidad de clasificar en la celda en cuestión. Estos ceros pueden ser
evitados aumentando el tamaño de la muestra o agrupando categorías siempre que el
problema lo acepte.
problema lo acepte.

El otro tipo de celdas vacías es cuando poseen ceros estructurales y el


investigador conoce a priori que se van a producir, debido a las caraterísticas o
estructura de los datos. Por ejemplo, existe un orden subyacente en las categorías de
cada uno de las variables y los datos representan cambios que pueden ocurrir en una
sola dirección.

Tablas Incompletas

Son tablas que tienen celdas con ceros estructurales. Dichas celdas deben
permanecer vacías para culaquier modelo que se ajuste a los datos, por ejemplo, en
una investigación se trata de identificar asociación entre la efectividad de
procedimientos quirúrgicos y el sexo, para ello se construyen tablas de contingencia de
dos dimensiones, no tiene sentido ninguno que hayan valores diferentes de cero en la
celda correspondiente a los atributos hombre e hicteréctomia. Por tanto no tiene lógica
ajustar un modelo que introduzca valores esperados diferentes de cero en esas celdas.
Los ceros estructurales se representan por una - .
Desde esta definición, también se consideran ceros estructurales a cualquier
celda que tenga fijada a prioni algún valor positivo y no un cero ya que desde el punto
de vista del ajuste del modelo su valor siempre será el mismo.

El investigador tiene que conocer el problema de estudio profundamente para


poder saber cuando se trata de una tabla incompleta y no de una tabla que posee ceros
muestrales debido a que el tratamiento de los datos es diferente para cada una.

3.2 El Modelo Logarítmico Lineal

El Modelo Logarítmico Lineal es similar al descrito en Tablas Completas en:


- Se tiene PijAB la probabilidad asociada a cada celda.
- Se tiene fijAB la frecuencia observada en cada celda.
- Se trabaja con una muestra simple aleatoria de sujetos independientes unos de otro.
- Existe una función Multinomial.
- El algoritmo que se utiliza en las tablas incompletas para los estimadores máximo
verosímiles de las frecuencias esperadas es similar.

La diferencia con las tablas completas está en los grados de libertad porque en las
tablas incompletas hay celdas que siempre tienen que ser nulas y sus parámetros se
igualarán a cero .

Se denomina S al conjunto de subíndices ij, o sea, al conjunto de celdas que no tienen


ceros estructurales es decir:
Si (i, j)  S  fij  0 y Pij  0

Si Pij = Pi. P.j para (i,j)  S, entonces el estimador de la frecuencia esperada es


mij = mi. m.j. En este caso las variables A y B son quasi independientes en las celdas
que pertenecen a S y no se rechaza la hipótesis H0 ijAB = 0  ij  S

Se le llama quasi independencia porque se excluyen las celdas con ceros estructurales.

El Modelo Quasi Logarítmico Lineal será:

Yij =  + iA + jB + ijAB  ij  S

Las restricciones del modelo son:


iB iA = 0 jA jB = 0 ijAB ijAB = 0
I j ij
Donde:
ijAB = 1 (i,j)  S
= 0 en otro caso
i = 1 Si ijAB = 1  j
B

= 0 en otro caso
j = 1 Si ijAB = 1  i
A

= 0 en otro caso

3.3 Estimacion de las frecuencias esperadas mijAB.


Se dice que en una Tabla Incompleta dos celdas estan asociadas si no tienen un cero
estructural y además pertenecen a la misma fila o a la misma columna.
En la tabla siguiente las celdas f 13AB y f23AB están asociadas.

B
A 1 2 3
1 f11AB - f13AB
2 f21AB f22AB f23AB
3 f31AB f32AB f33AB

Se dice que dos celdas están conectadas si se puede llegar de una a otra a través de
una cadena de celdas asociadas entre si. En la tabla anterior, f 32AB y f13AB están
conectadas.

Cuando todas las celdas de una tabla están asociadas, la tabla está conectada
totalmente, entonces se dice que es una tabla no separable .

Siempre que en una Tabla Incompleta se encuentre una celda no conectada con las
demás entonces la tabla es separable, no se cumple el principio de conectividad de la
tabla. Para determinar la separabilidad se pueden hacer permutaciones de filas y
columnas y si son separables se tratan las semitablas de forma independientes y se
analizan como las completas.

Teorema de Savage

Se dice que los estimadores máximo verosímiles de las frecuencias esperadas m ijAB
de las Tablas de Contingencia Incompleta siempre existen y son únicos bajo el modelo
de quasi - independencia si y solo si :

1- Los totales marginales  0


2- Si la tabla de frecuencia observadas es en sí no separable.

Estimación de los valores esperados de las celdas.

Se puede utilizar una modificación del Método Iterativo de Ajuste Proporcional


estudiado en tablas completas para el cálculo de los mijAB.

La selección de los valores inciales es opcional siempre que se satisfagan las


condiciones del modelo de quasi - indenpedencia.

Por conveniencia y para facilitar y que se vea la equivalencia de los


procedimientos en ciclo incial:
0
mijAB =ijAB  ij

Entonces en el r - ésimo ciclo se tendrá:

(2r-1) (2r-2) (2r-2)


mij AB
= (mijAB / mi.A) fiA  ij

2r (2r-1) (2r-1)


mijAB = (mijAB / m.jA) fjB  ij

Luego la única diferencia estuvo que el conjunto de valores iniciales esta compuesto
por “unos” y “ceros”.

Está demostrado que si las condiciones anteriores existen, el método iterativo de ajuste
proporcional converge a los estimadores máximo verosímiles y estos son únicos.

Existen algunas Tablas Incompletas en las que la distribución de los ceros estructurales
permite la estimación de las frecuencias esperadas por métodos directos. Al igual que
en las Tablas Completas existen reglas que permiten la identificación de dichas tablas.

Reglas que ayudan a detectar celdas no interactivas.

La importancia de las celdas no interactivas en el modelo de quasi- independencia es


que los estimadores máximo verosímiles de las frecuencias esperadas son las
frecuencias observadas para dichas celdas, por tanto, una vez detectadas pueden ser
eliminadas de la subtabla incompleta que se está analizando y recuperar la información
al final del análisis luego de haber tratado las subtablas por separado.

Regla 1 o de las celdas aisladas

Si ijAB = 1 para alguna celda (i, j) pero el resto de los ijAB en la misma fila o columna
son todos ceros, entonces el estimador de mijAB = fijAB

La celda (i , j) es no interactiva y en tal caso se elimina la fila i o la columna j y se


continúa el procedimiento de estimación.

B
A 1 2 3
1 f11AB f12AB f13AB
2 f21AB f22AB -
3 - - f33AB

Al aplicar la regla 1, en la tabla anterior, se elimina la fila 3 y producto de esto la celda


(1, 3) también se hace no interactiva y se elimina la columna 3, se tendrá una tabla final
de 2 x 2 cuyos estimadores máximo verosímiles son directos y de fácil cálculo como se
estudió en tablas completas.

Regla 2 o de semiseparabilidad
Una tabla incompleta es semiseparable, si puede ser hecha separable en dos o mas
subtablas quitándole una única fila o columna. En este caso se pueden separar las
tablas de la forma que mas convenga para que el cálculo de los estimadores tenga
solución.
Una tabla es semiseparable quitándole una columna y dividiéndose en conjuntos de
filas perteneciendo cada fila sólo a una de las subtablas separables que resultan de la
eliminación de la columna, entonces se pueden estimar los frecuencias esperadas de
cada celda en cada una de esas partes de la tabla, bajo el modelo de quasi-
independencia, de la misma manera que se haría si cada conjunto después de eliminar
columnas vacías fuese una subtabla separable.

Se puede encontrar estimadores explícitos para toda la tabla, si y solo si hay


estimadores explícitos para cada conjunto de filas particionadas.

B
A 1 2 3 4 5
1 f11AB f12AB - - -
2 f21AB f22AB - - f25AB
AB AB
3 - - f
33 f
34 f35AB
AB AB
4 - - f
43 f
44 -
AB AB
5 - - f
53 f
54 f55AB

Esta tabla es semiseparable porque al quitar la columna 5 se encuentran dos tablas


separables.

B
A 1 2 3 4 5
1 f11AB f12AB - - -
2 f21AB f22AB - - f25AB

En la subtabla anterior, la celda (2,5) es aislada por lo que se elimina por la Regla 1 y
se encuentra una tabla de 2x2 cuyas frecuencias esperadas pueden ser estimadas
directamente.

B
A 3 4 5
3 f33AB f34AB f35AB
4 f43AB f44AB -
5 f53AB f54AB f55AB

La subtabla anterior, también tiene estimadores directos que se estudiarán en la Regla


siguiente

Regla 3 Tablas de Bloques Triangulares

Una Tabla Incompleta tiene la forma de bloque triangular si después de permutaciones


adecuadas de filas y columnas, ij = 0 implica kl = 0 para todo
k  i y l  j. Este tipo de tablas poseen fórmulas explícitas para los estimadores de las
frecuencias esperadas.

B
A 1 2 3 4
AB AB AB
1 f11 f12 f
13 f14AB
2 f21AB f22
AB
f
23
AB
-
3 f31AB f32
AB
- -
4 f41AB - - -

B
A 1 2 3 4
AB
1 - - f
13 f14AB
AB AB
2 - f22 f
23 f14AB
3 f31AB f32
AB
f
33
AB
f34AB
4 f41AB f41
AB
f
43
AB
f44AB

Por conveniencia siempre a las Tablas Incompletas de Bloque Triangular se les


colocan los ceros estructurales en la esquina inferior derecha

Supongamos que tenemos una tabla en Bloque Triangular de la siguiente forma :

J1 J2 J3
I1
I2
I3
.I = I1 + I2 + I3
J = J1 + J 2 + J3

Los ceros estructurales quedan ubicados en dos bloques de celda tales como :

ij =0 para i  I1 + 1; j  J1 + J2 +1
para I  I1 + I2 +1; j  J1 +1

Para esta tabla, mijAB están dados por la expresión:


I1+I2 J1 +J2
mijAB = (fiA) (fjB) /   fklAB
k=1 l=1
Para i = I1 +1, ...... I1 + I2, J= J1 +1,..... J1 + J2

Regla 4 Tabla de Bloque - Escalera

Una tabla incompleta se dice que es de Bloque - Escalera si después de realizar las
permutaciones de filas y columnas se puede dividir la tabla en conjunto de filas cada
una de las cuales contiene un arreglo rectangular de celdas diferentes de cero y cada
tal rectángulo comparte columnas solo con aquellos arreglos inmediatamente por
encima y debajo de él.

Cuando no se da ninguno de estos cuatro casos, lo que también se dice que no se


cumple el Teorema de Savage entonces hay que acudir al Método Iterativo para la
estimación de las frecuencias eperadas.

3.4 Grados de Libertad

El concepto de los grados de libertad en tablas Incompletas es similar al estudiado


enlas Tablas Completas pero tiene sus particularidades.
Si se le llama Zc al conjunto de celdas con ceros estructurales, en el modelo logarítmico
lineal de quasi independencia, en tablas de dos dimensiones, los grados de libertad
serían (I-1) (J-1) - Zc.

Siempre hay que restar a los grados de libertad de los términos que se eliminan en las
hipótesis las celdas con ceros estructurales porque sus parámetros no aportan nada.
Tema 4 Regresión Logística
4.1 Introducción
4.2 Modelo de Regresión Logística
4.3 Utilidad de la Regresión Logística
4.4 Interpretación de los coeficientes de regresión
4.5 Cuidados que hay que considerar para aplicar la Regresión Logística
4.6 Estimación de Parámetros
4.7 Pruebas de Hipótesis
4.8 Selección de Modelos
4.9 Bondad de Ajuste
4.10 Regresión Logística Politómica

Esta monografía docente brinda, de manera resumida, los elementos teóricos


escenciales de la Regresión Logística.
Los ejemplos y la línea de pensamiento se han logrado con el concurso de la
bibliografía señalada y con las notas y experiencias de la autora.
Se pretende que el estudiante cuente con la bibliografía básica para enfrentar este
contenido que debe ampliar con la ejercitación y la consulta a textos que abordan la
Regresión Logística con mayor profundidad.

4.1 Introducción

La Regresión Logística permite establecer la relación entre una variable de respuesta


dependiente cualitativa y una o varias variables independientes denominadas también
explicativas o covariables que pueden ser cualitativas, ordinales o nominales o
cuantitaticas, discretas o continuas. Por ello se considera dentro de métodos
multivariados en particular los clasificados como de dependencia.

La extención de la utilización de este prodedimiento estadístico se vio favorecido con el


desarrollo de la informática con las microcomputadoras personales debido a que el
cálculo manual de los parámetros es sumamente difícil porque se realiza a través de un
proceso de iteraciones.

Ejemplo de un problema de estudio donde sería útil la utilización de la Regresión


Logística:

Es conocido, que la administración de hormonas durante el embarazo junto a otras


variables, puede provocar malformaciones congénitas del recién nacido y se necesita
probar esta hipótesis.

Se diseña un estudio caso control donde los casos son una muestra de niños que
nacieron con malformaciones congénitas y los controles una muestra de niños que
nacieron sin esas afecciones. Se estudia en ambos grupos los siguientes variables
relacionadas con la madre: si se le administró drogas durante el embarazo, paridad,
edad, hábito de fumar y abortos anteriores.

4.2 Modelo de Regresión Logística


La comprensión del modelo será más sencilla si utilizamos un ejemplo que
consideramos muy didáctico de Hosmer y Lemeshow.

Se conoce que puede existir relación de dependencia entre la enfermedad coronaria


del corazón y la edad. Para probar esta hipótesis se estudiaron 100 personas a las que
les exploró la edad y si padecían de la enfermedad. Se cuenta con una base de datos
de la forma siguiente:

Paciente Edad Presencia de


Enfermedad
Coronaria
1 20 0
2 23 0
3 24 0
4 25 1
5 30 1
.
.
.
.

100

Se codificó como 0 cuando los pacientes no padecen de enfermedad coronaria y como


1 a los que padecen la enfermedad en el periodo del estudio. La edad es la variable
independiente y la enfermedad coronaria del corazón es la variable dependiente.

Si se llevan a un gráfico los datos recogidos se obtiene lo siguiente.

Se puede observar que hay mayor número de individuos con la enfermedad, es decir
con valor de 1, a medida que la edad aumenta y mayor número de individuos con 0, es
decir que no padecen la enfermedad en las edades mnás jóvenes. Lo que es difícil es
probar una dependencia entre las variables.
Si se distribuye la información de la siguiente forma:

Grupos de n Pacientes no Pacientes Proporción


Edad (col. 2) enfermos (0) enfermos (1) de enfermos
(col. 4) (col.4/col.2)
20 a 29 10 9 1 0.10
30 a 34 15 13 2 0.13
35 a 39 12 9 3 0.25
40 a 44 15 10 5 0.33
45 a 49 13 7 6 0.46
50 a 54 8 3 5 0.63
55 a 59 17 4 13 0.76
60 a 69 10 2 8 0.80
Total 100 57 43 0.43

Al llevar a un gráfico donde por el eje de las X está la edad y en el eje de las Y la
proporción de enfermos se produce lo siguiente:

Se puede apreciar de manera más clara la relación entre las variables porque a medida
que aumenta la edad, aumenta la proporción de enfermos.

La edad, Valores de X, se mueve entre - ∞ y +∞ mientras proporción de enfermos,


valores de Y, se mueven entre 0 y 1, precisamente en el rando de las probabilidades.
Entonces, el problema anterior puede ser explicado por una distribución de probabilidad
si existe una variable aleatoria. La función más apropiada es precisamente la Regresión
Logística que posee las siguientes características:
 Tiene forma de S estilizada.
 Se mueve entre 0 y 1.
 Si  es positivo, la función es creciente.
 Si  es negativo, la función es decreciente

La función se expresa de las diferentes formas, una de ellas es la siguiente:


1
P(y=1) = __________________

1 + e - (ß0 + ß X)
I

Que quiere decir que la probabilidad de que ocurra un evento, en el caso que se sigue
de padecer de enfermadad coronaria del corazón, está en función de las variables
independientes.

Lo que resulta muy difícil con esta fórmula e la interpretación de los parámetros si se
tiene en cuenta que los ß está. en un exponencial de un termino del denominador. Se
ha tratado de linaelizar la función a través del uso de transformaciones matemáticas
como la Logit.

P
Logit P = ln _____________
1-P
Después de sustituir en cada P de la transformación anterior la función de Regresión
Logística y de hacer todas las operaciones algebraicas se obtiene que

Logit P(y=1) = ß0 + ßI x
donde los parámetros ß están en función lineal con la probabilidad de ocurrencia del
evento.

Se ha tratadon de utilizar otras funciones que den respuesta a la relación entre una
variable de respuesta cualitativa y una o un grupo de variables explicativas, así como
otras transformaciones para linealizar la función como por ejemplo la Probit.

No obstante la más conveniente es la Regresión Logística debido a:

 El proceso de iteración para el cálculo de los parámetros de los Estimadores maximo


Verosímiles de los parámetros ß es mucho más sencillo.
 Se mueve en el rango de las probabilidades
 Brinda una explicación biológica, razonable y cuantitativa de la probabilidad de
ocurrir un evento en función de un grupo de variables que se corresponden con los
factores de riesgo.

4.3 Utilidad de la Regresión Logística

 El modelo brinda entonces una descripción simplificada y cuantitativa de las


características de la relación entre los factores de riesgo (X I ) y la probabilidad de
desarrollar el evento (Y).

 Es muy útil para la identificación de ecuaciones pronóstico luego de una adecuada


selección de variables explicativas.
4.4 Interpretación de los Coeficientes de Regresión

No tiene sentido aplicar una Regresión Logística Múltiple, es decir con dos o más
variables explicativas, sin haber realizado previamente el nálisis univariado buscando
asosiación entre cada variable y la considerada como de respuesta porque se corre el
riesgo de introducir en el modelo variables que no son necesarias.

En ocaciones en el análisis univariado hay variables que aportan un peso alto de


asosiación pero en el análisis multivariado, su importancia disminuye por la ccercanía
con otras variables.

Veamos el caso más simple de Regresión Logística para facilitar la comprensión que se
pudiera expresar

Logit P (y=1) = ß0 + ßx
Se estiman los parámetros ß0 y ß así como sus errores estándar.
la interpretación de los parámetros es:
ß0 : Se interpreta como el logaritmo natural de desarrollar el evento para un individuo
no expuesto.
ß: Expresa cuantas veces varía el logaritmo natural de la probabilidad de que ocurra el
evento para una unidad de cambio de la variable independiente .

Se puede probar la siguiente hipótesis que tienen similar significado que para la
Regresión Lineal, solo hay que tener en cuenta que los parámetros están expresado en
función del logaritmo natural:

H0 ß = 0
H0 ß ╬ 0
Se puede entonces aplicar el Estadígrafo de Wald:

ß
______ que se distribuye Normal (0,1)
EE ß

La interpretación de los parámetros es muy importante en los estudios epidemiológicos.


Es importante estimar la medida de la asosiación a través de los oddds ratio. Si se trata
de buscar la dependencia entre el cáncer de pulmón y el hábito de fumar se puede
definir la variable dependiente Y como presencia de cáncer, 1 si el individuo está
enfermo y 0 si no lo está ; la variable dependiente X sería hábito de fumar que se
pudiera categorizar en 1, si fumba antes de enfermar y 0 si no.

La estimación de los odds ratio se logra a través del e ß . Si en este problema hubiera
dado 2 indica que la probabilidad de padecer de cáncer es el doble en los que fuman
que en los que no fuman. Hay que tener en cuenta la asignación de los codigos para la
interpretación.

A continuación se expone un ejemplo del libro Aplicación de la Regresión Logística de


Schelesselman. Se trata de un estudio de cohorte en el cual se siguen durante 12 años
a 2 187 hombres y 2 669 mujeres que no padecían de enfermedad coronaria al inicio
del estudio.

Las variables estudiadas fueron las siguientes:


Y: Enfermedad Coronaria. 1 Presente, 0 no Presente
X1: Edad en años
X2: Colesterol (mg/dl)
X3: Presión Arterial Sistólica (mm Hg)
X4: Peso Relativo (Peso actual/Mediana del peso del grupo x 100)
X5: Hemoglobina (g/dl)
X6: Cigarros por día (0, 1, 2, 3 y más)
X7: Electrocardiograma (0 normal, 1 alterado)

Variables ßi EE ßi Estadígrafo eßi


de Wald
X0 -13.2573
X1 0.1216 0.0437 2.78 1.13
X2 0.0070 0.0025 2.80 1.01
X3 0.0068 0.0060 1.13 1.01
X4 0.0257 0.0091 2.82 1.03
X5 -0.0010 0.0098 -0.10 1.00
X6 0.4223 0.1031 4.10 1.53
X7 0.7206 0.4009 2.29 2.06

Los parámetros ß están influenciados por las unidades de medida de cada una de las
variables por lo que no sirven para compararlas entre si. Se hace necesario para ello
utilizar los ß estandarizados (ß*I).

(ß*I) = ß*I √ varx


Toda vez que se tiene identificadas las variables significativas y los parámetros de la
Regresión Logística se puede evaluar la función resultante para cualquier individuo que
no haya sido incuido en la muestra inicial. Por ejemplo, se necesita conocer la
probabilidad de enfermar de dos individuos con las siguientes condiciones:

Individuo 1 Individuo 2
X1= 45 X1= 45
X2= 210 X2= 210
X3= 130 X3= 130
X4= 100 X4= 100
X5= 120 X5= 120
X6= 0 X6= 3
X7= 0 X7= 0

P (Y=1) = 0.048 x 1 000= 48 P* (Y=1)= 0.153 x 1 000= 153

Si se observa detenidamente ambos individuos tuvieron iguales resultados para todas


las variables estudiadas excepto para la 6 (cigarros por día).

La interpretación sería que por cada 1 000 individuos que no fuman, manteniendose las
otras variables constantes, el riesgo de enfermar es de 48 personas y que el riesgo de
enfermar por cada 1 000 personas que fuman, manteniendose las otras variables
constantes, es de 153.

Entonces se puede utilizar la Razón de Odds.

P* (Y=1) 0.153
_______ = __________ = 3.16
P (Y=1) 0.048

P* (Y=1) Probabilidad de enfermar de los que fuman


P (Y=1) Probabilidad de enfermar de los que no fuman
Manteniendose el resto de las variables con los mismos resultados. La interpretación
de la Razón de Odds sería que es tres veces más probable enfermar los que fuman de
los que no fuman.

Esta expresión:
P* (Y=1)
_______ = eß (X*i - Xi) Por ello se interpreta sin tomar en cuenta el l n.
P (Y=1)
4.5 Cuidados que hay que considerar cuando se utiliza la Regresión Logística

4.5.1 Variables Dummy

Cuando alguna de las variables explicativas es cualitativa nominal por ejemplo, raza,
grupo sanguíneo y cuenta con más de dos categorías para incluirla entre las
covariables hay que darle un tratamiento especial esto es debido a que la Regresión
Logística está enmarcada en un ámbito cuantitativo, de hecho como hemos visto se
trabaja con los valores que se asignan a las categorías, los códigos antes
mencionados.

Si tuvieramos como variable explicativa el grupo sanguíneo, la primera idea fuera


asignar un número a cada grupo: A=1, B=2, AB=3 y O=4. Esta solución no es
conveniente porque el método interpretaría que la variación entre A y B, entre B y AB y
entre AB y O es de uno.

Construcción de variables dummy


Supongamos que se necesita conocer la dependencia entre el grupo sanguíneo (X) y la
presencia de una enfermedad alérgica (Y)
Como la variable grupo sanguíneo tiene C= 4 categorías habrá que crear C-1 variables
dummy (Z) y una de las categorías de la variable original será considerada como de
referencia y tendrá siempre valor 0 que en este caso se dispuso que era el grupo
sanguíneo O, de la siguiente forma:

Variables Dummy
Grupos Z1 Z2 Z3
Sanguíneos
A 1 0 0
B 0 1 0
AB 0 1
O 0 0 0

En el modelo de Regresión Logística dará el parámetro correspondiente a cada variable dummy y la interpretación
de cada uno se hace con relación a la categoría de referencia.
Parámetros ß eß
ß0 0.456
Z1 0.359 1.43
Z2 0.315 1.37
Z3 0.078 1.08

Si ajusta el modelo que incluye elgrupo sanguíneo, la interpretación de los parámetros


sería que es 1.43 veces más probable enfermar si se tiene el grupo A que el O, 1.37
veces si se tiene el grupo B que el O y 1.08 veces si se tiene el grupo AB que el O.

En ocasiones se construyen variables dummy para variables cualitativas ordinales


cuando se conoce que la velocidad de cambiop entre una categoría y otra no es
constante.

4.5.2 Tamaño de las muestras

El tamaño de la muestra tiene que ser lo suficientemente grande en correspondencia


con la cantidad de covariables que se estén estudiando. Freman, en 1 987 sugirió que
el tamaño la muestra debía ser mayor que
(10) (K+1), donde K es el número de covariables. Además hay autores que consideran
que el número de covariables no debe ser mayor que 15.

4.5.3 Velocidad de cambio de las covariables

Cuando se estudian variables continuas, muchas veces hay que discretizarlas porque
las variaciones entre una unidad y otras no son importantes, por ejemplo, si se estudia
la relación entre el riesgo de morir y la edad, es evidente que el riesgo no varía mucho
de una edad a la siguiente y los resultados serían mucho más ricos si se agrupa la
edad en grupos quinquenales, decenales o con otra escala de clasificación apropiada.

4.5.4 Colinealidad
Cuando las variables independientes analizadas están muy asosiadas, la Regresión
Logística puede dar resultados insospechados, hay programas computacionales que
abortan, otros cambian los datos, otros concluyen el proceso con estimaciones
absurdas de los ß.

Si se tienen como covariables, por ejemplo, nivel de escolaridad y ocupación y se


identificó a través del análisis univariado asosiación significativa y una medida de
asosiación muy elevada entre ambas; se aconseja llevar una de las dos variables a la
Regresión Logística ya que los cambios que se producen en una es capaz de explicar
los cambios de la otra en igual forma.

4.5.5 Monotonía

Para que la regresión Logística tenga un sentido claro, las variables explicativas deben
tener relación monótona con la dependiente. Es decir, la relación entre X i y Y tiene que
ser directa cuando los valores de ambas suben o bajan a lo largo de toda la función o
indirecta cuando los valores de una suben mientras la de la otra disminuyen a lo largo
de toda la función.

Este no es el caso de la relación entre el bajo peso al nacer y la edad de la madre,


como se sabe el bajo peso al nacer el más probable en las edades muy jóvenes (menos
de 15 años) o muy avanzadas ($0 años y más) de la etapa reproductiva de la madre.

En estos casos se corrige la variable edad para mejorar el ajuste de forma tal que se
obtienen nuevos valores de X:

Si X < 18, entonces X = 18- X


Si 18≤ X ≤ 34, entonces X = 0
Si X > 34, entonces X = 34 - X

4.5.5 Temporalidad

Es importante tener mucho cuidado a la hora del diseño de la recogida de la


información porque hay que considerar que el efecto, la variable de respuesta, siempre
se produce después de la influencia de las variables explicativas. Es posible que de
como factor de protección para el cáncer de pulmón, el hábito de fumar y una de las
razones puede haber sido la forma de preguntar, quizás el cuestionario decía en uno de
sus items - ¿Usted fuma?, para responder SI o No. Si el estudio es del tipo caso control
hay que entrevistar a enfermos y es posible que muchos de ellos hayan dejado el
hábito después por recomendación médica luego de enfermar.

Entonces, es importante redactar las preguntas garantizando la secuencia temporal de


los hechos, en este caso se pudiera recoger la fecha del diagnóstico y preguntar la
fecha en que abandonó el hábito, si lo tuvo alguna vez.

4.5.6 Interacciones
Si existen dos covariables X1 y X2 que influyen en la P(Y=1) pero además el efecto de
ambas actuando conjuntamente potencializan la P (Y=1), se hace necesario incluir en el
modelo otra variable de interacción que contenga el efecto de las dos.

El modelo de Regresión Logística quedaría así:

1
P(y=1) = _____________________________

1 + e - (ß0 + ß1 x1 + ß2 x2 + ß3 x3 +  3 x1 x2)
En este caso P(y=1) sería la probabilidad de tener un bajo peso. X 1 consumo de calcio y
X2 hábito de fumar. Las dos variables explicativas influyen sobre el bajo peso pero la
multiplicación del efecto de ellas es potenciadora de la Y.

4.6 Estimación de Parámetros

Los parámetros de la Regresión Logística son estimadores máximo verosímiles, es


decir que hacen máxima la función de verosimilitud que es V, a trávez de un proceso de
interación hay que partir de una matriz de x de la siguiente forma:

Individuos Edad Peso Hábito de Fumar


1 15 80 0
2 28 120 0
3 65 240 1
. . . .
. . . .
. . . .
Se define V como la función de verosimilitad de la forma siguiente:
n
V =  i
i=1
donde: i es el número del individuo
n es el total de individuos de la muestra
i es la prohabilidad que se obtiene de ir dándole valores a los parámetros
desde 0 hasta que el valor de la función de verosimilitud sea igual a 1 o lo mas próximo
posible a 1

Por eso se dice que i es la probabilidad que atribuye el método a la condición en


que realmente en que realmente se encuentra el sujeto iésimo
n
V =  pi Yi (1 - pi ) 1- Yi (Ecuación 1)
I=1

I = pi, si Y = 1
Sustituyendo en la ecuación 1 Y = 1:
n
V =  pi 1 (1 - pi ) 1-1
I=1

n
V =  pi (Ecuación 2)
I=1

Sustituyendo en la ecuación 1 Y = 0:

n
V =  pi 0 (1 - pi ) 1- 0
I=1

n
V =  (1 - pi ) (Ecuación 3)
i=1

Los valores de las ecuaciones 2 y 3 dependen de los valores que se vayan asignando a
los  y los 0 en el proceso de iteración.

Lo ideal es que pi = I  Yi = 1 El individo tiene la condición a


pi = o  Yi = 0 El individo tiene la condición b

El proceso de reiteración se inicia asignando a los parámetros los siguientes valores:


n
 Yi
i=1
o = Ln n , 1 , 2 , 3 ........k = 0
n -  Yi
i=1
El proceso de hacer máxima la función de verosimilitud V se realiza iterativamente a
través del algoritmo de Newton Ralphan que a su vez garantiza el ajuste al modelo de
Regresión Logística.

4.7 Pruebas de hipótesis sobre los parámetros

La estudiamos el caso en que Ho  = o


H1   0

Se cuenta con el Estadigrafo de Wald:

EE 
que se distribuye Normal (0,1) e identifica aquellas variables que influyen de forma
marcada en la variable de respuesta, es decir que son en definitiva los factores de
riesgo.

Existe otra probabilidad. Muchas veves no se requiere conocer la importancia del


efecto de una variable , manteniendo las otras constantes, sino que se necesita
conocer el ajuste al modelo con k covariables, por lo que se trata de probar las
hipótesis:

H0 : (1= 2= 3 = K = ) No se incluye ninguna variable al modelo


H1 : (1= 2= 3 = K  ) Se incluyen todas la variables en el modelo

Se utiliza el estadígrafo denominado Cociente de Verosimilitaud:

Vi
R = - 2 Ln
Vf
que se distribuye X2 con k grados de libertad.
Por propiedad de los Ln, el Cociente de Verosimilitud (R) se puede expresar:

R = (-2 Ln Vi) - ( -2 Ln Vf)

Los programas de computación no siempre brinan R, a veces dan - 2 Ln V i y el - 2 Ln Vf,


entonces solo hay que restarlos.

Otro caso de pruebas de hipótesis trata evaluar el efecto conjunto de todas las
variables:
- se tiene un modelo A con k variable que ajustó.
- se tiene un modelo B con k variable, subconjunto del anterior que ajustó.
Se trataría de probar la hipótesis siguiente:

H0 - El efecto de las varibles que tiene A y no tiene B no es importante.


H1 - El efecto de las variables que tiene A y no tiene B es importante.

El estadígrafo de prueba es:

V fB
R = -2 Ln
VfA
que se distribuye X2 con (ka - kb grados de libertad).
Por propiedad del Ln , el estadígrafo se puede expresar:
R = -2 Ln VfB - (-2 Ln VfA)
Donde VfA y VfB son las Razones de Verosimilitud final para cada modelo.

4.8 Selección de Modelos

Muchas veces es importantes buscar un modelo que tenga las variables que sean
verdaderamente importantes en su influencia sobre la P (y=1). Esto es esencial cuando se
utiliza la Regresión Logística con fines pronósticos. Las ventajas que esto conlleva en
un modelo mas pequeño, mas operativo, con menos parámetros que estimar y por tanto
menos peligro de error.

Hay dos variantes de Selección Paso a Paso :


a) Ir adicionando variables Step - up
b) Ir eliminando variables Step - dowm

Adicionando variables :

Se tiene 1 variable de respuesta cualitativas dicotomica y 4 variables independientes


x1
x2
x3
x4

Paso 1 : Se ajustan 4 modelos de Regresión Logística diferentes cada uno con cada
una de las 4 variables.
Vi
R = -2 Ln
Vf
Se obtienen entonces R1 , R2 , R3 , R4
Se identifica el mayor de ellos, que es el que ajustó mejor, digamos que fue R2.

Paso 2 : Se observa las variables X2 tiene una relación de dependencia con la


respuesta es decir se evalua con el Estadígrafo de Wald, Si el mismo es mayor que el
valor modular de 1.96, esa variable queda incorporada al modelo. También se puede
analizar el Estadígrafo X2 , si R2 es mayor que 3.84, queda en el modelo.
Paso 3 : Se ajustan todos los posibles modelos con dos variables que contengan la X 2
que serían entonces:
V21 para X2 y X1
V23 para X2 y X3
V24 para X2 y X4

Se identifica en cual el -2L n Vf es menor. Supongamos que sucede para el que tiene
X2X4

Paso 4: Se trata de probar la hipótesis:


H0: El modelo más pequeño ajusta dado que ajusta el mayor. X 4 no es importante
H1: X4 es importante
V24
Se evalua el estadígrafo R = -2Ln .
V2
Si es mayor que 3.84, percentil 95 de la X 2 con 2-1=1 grados de libertad, queda X4 en el
modelo si no, solo se incluye X2.

Paso 5 : Se ajustan todos los modelos con tres variables que contengan X 2 y X4
X1 , X2 , X4
X3 , X2 , X4

Se observa el que tenga menor valor su -2 ln V f , supongamos que sea el que tiene X 1,
X2, X4.

Paso 6: Se evalúa si X1 da un aporte significativo al que hacen X 2 y X4.


Se trata de probar la hipótesis:
H0: El modelo que contiene X24 ajusta dado que ajusta el que tiene X124.

Se utiliza el estadígrafo
V124
-2 Ln

V24
Si es mayor que el percentil 95 de la X 2 con 3-2= 1 grados de libertad, entonces se
incluye X1
Paso 7: Se ajusta el modelo con las cuatro variables.

Ho= El modelo que contiene X124 ajusta dado que ajusta el que tiene X 1234.

Se utiliza el estadígrafo:
V1234
-2 Ln

V124
Si es mayor que 3.84, percentil 95 de la X 2 con 4-3=1 grados de libertad, se incluye en
el modelo la variable X3.
La variante (b) Step Down, eliminando terminos es similar, pero se comienza con el
modelo con todas las variables y se van eliminando las que no son importantantes
durante el proceso.

Procedimiento de las Significaciones Sucesivas : Es otro método de selección de


variables, mucho más sencillo que el anterior.

Paso 1 : Se ajusta el modelo con todas las variables.

Paso 2 : Se utiliza el Estadígrafo de Wald para identificar las variables que sean
significativamente diferentes de O. Si todas están en ese caso, se concluye el proceso,
si no, se va al Paso 3

Paso 3 : Se ajusta el modelo con las variables que resultaron significativas en el paso
anterio y se vuelve al punto inicial.

4.9 Bondad de Ajuste

Lo que se persigue en este acápite es evaluar la calidad del ajuste ya que se parte del
hecho de trabajar con modelos que ajusten, sería ilógico, lo contrario.

Una vía para evaluar la calidad del ajuste sería:


Se ha realizado el ajuste a la Regresión Logística con una muestra del tamaño n.
Llamemos p , al valor que asume cada sujeto.
Cada individo tendra su p y su Y que podrá ser o 0 ó 1. La evaluación de la calidad del
ajuste se verifica con la información para cada n de (Y, p).

Si el ajuste es bueno --- un valor alto de p implica Y = 1


un valor bajo de p implica Y = 0

Pasos a seguir para evaluar la calidad del ajuste :

Paso 1: Calcular p1 , p2 ......... pn a partir del modelo ajustado.

Paso 2 : Ordenar de mayor a menor las p n.

Paso 3: Dividir esa secuencia en cuartiles, deciles u otra similar


Ejemplo, utilizando deciles

Paso 4: Sumar los valores de p dentro de cada cuartil, decil u otra división que se
haya utilizado y serían los valores esperados.
E1 , E2 ........ E10. Si se hubieran utilizado deciles.

Paso 5: Contar en cada los individos que tuvieron Y = 1 y serán los valores
observados. O1 , O2 , ................O 10. Si se hubieran utilizado deciles.
Paso 6: Computar el estadígrafo de Hosmer y Lemeshow.
H0: El modelo de Regresión Logística ajusta
H1: El modelo de Regresión Logística no ajusta
Estadígrafo de Lemeshow y Hosmer:
10 (Oi - Ei)2 10 (Oi* - Ei*)2
X2 =  __________ +  _____________
i=1 Ei i=1 Ei
Donde:
Ei* = ni - Ei
Oi* = ni - Oi
El estadígrafo se distribuye X2 con 8 grados de libertad.

Hay autores que aconsejan prudente cotejar los valores de las E i y las Oi, sin obligación
de utilizar el estadígrafo.

Existen otros procedimientos gráficos para comprobar la calidad del ajuste.


El SPSS brinda el por ciento de correspondencias entre las frecuencias observadas y
las frecuencias esperadas.

4.10 Regresión Logística Politómica


Y puede alcanzar valores de 1 al r, r  2. Donde r son las categorías de la variable de
respuesta Y: A1, A2, A3, ........... Ar
Si Y = 1, el individuo está en la categoría A1
Y = 2, el individuo está en la categoría A2
Y = 3, el individuo está en la categoría A3
.
.
.

Y = r, el individuo está en la categoría Ar

Hay k variables explicativas.


Hay que estimar r-1 juego de k+1 parámetros

Ejemplo : r = 3
Y tiene tres categoráias r = 1
r=2
r= 3
Se estudian k = 4 variables
Se encontrarán dos modelos:
1 11 12 13 14
2 21 22 23 24
Teniendo el valor de los parámetros se pueden evaluar:
E1
P(Y=1) = _______________
1 + E1 + E2
E2
P(Y=2) = _______________
1 + E1 + E2
Donde:
E1 = e (1+ 11 + 12 + 13 + 14)
E2 = e (2 + 21 + 22 + 23 + 24)
P(Y=3) = 1 - P(Y=1) - P(Y=2)

La verosimilitud es igual al producto de la probabilidad que el método otorga a cada


individo de que se encuentre en la clase a la cual pertenece realmente.

Se obtienen los valores del estadígrafo


Vi
R = -2 Ln _______ que se distribuye X2 con (k)(r-1) grados de libertad
Vf
y permite evaluar el valor predictivo de las k variables estudiadas.

No hay un método estricto para probar la bondad de ajuste, ni una prueba global ideal.

pij : Es la probabilidad que le corresponde al sujeto j de estar en la categoria i.

n
Ei: =  pij Valor esperado de pertenecer a la categoría iésima.
i=1

r (Ei - Oi )2
C= 
I=1 Ei
Esta expresión no tiene una distribución conocida. Es un método descriptivo. Da una
medida global de la concordancia.

Bibliografía
1. Jiménez R. Análisis de datos Cualitativos en Medicina. Estudio de métodos no
tradicionales y situaciones complejas. La Habana: IDS, 1982
2. Lozares C y col. La complementariedad del log lineal y el análisis de
correspondencia en la elaboración y análisis de tipologías. Barcelona: Universidad
Autónoma. (Visto 11 de octubre 2002). (20 pantallas). Disponible en URL:
http://selene.aab.es/_cs_quit/P55.4pdf.
3. Silva Ayzcaguer L C. Excursión a la Regresión Logística. Editorial Díaz de Santos:
Madrid, 1998.
4. Hosmer D y Lemeshow S. Applied Logistic Regresion. Wiey and Sons: Estados
Unidos, 1989.
5. Schelesselman J. Case Control Studies. Conduct. Analysis, 1982.

Você também pode gostar