Tema2Cate PDF

Tema 2: Tablas de Contingencia
Introducci
on
Una tabla de contingencia es una de las formas mas comunes de resumir datos categoricos. En general, el interes se centra en estudiar si existe alguna asociacion entre
una variable fila y otra variable columna y/o calcular la intensidad de dicha asociacion.
Sean X e Y dos variables categoricas con I y J categoras respectivamente. Un
sujeto puede venir clasificado en una de las I J categoras, que es el n
umero posible
de categoras que existe.
Cuando las casillas de la tabla contienen las frecuencias observadas, la tabla se denomina tabla de contingencia, termino que fue introducido por Pearson en 1904.
Una tabla de contingencia (o tabla de clasificacion cruzada), con I filas y J columnas
se denomina una tabla I J.
Por ejemplo, se considera la distribucion conjunta de dos variables y la correspondiente tabla de contingencia en una muestra de pacientes de un hospital. Se tiene la
siguiente tabla:
X Se toma aspirina o placebo (I = 2)
Y Se sufre ataque cardaco o no (J = 2).
Ataque mortal Ataque no mortal

Placebo
18
171
Aspirina
5
99
No ataque
10845
10933
Como resumen de la informacion que presenta la tabla, de los 11034 enfermos que
tomaron un placebo, 18 tuvieron un ataque al corazon, mientras que de los 11037 que
tomaron aspirina, 5 tuvieron ataques al corazon.
La distribucion conjunta de dos variables categoricas determina su relacion. Esta

distribucion tambien determina las distribuciones marginales y condicionales.
Distribucion conjunta
La distribucion conjunta viene dada por
ij = P (X = i, Y = j)
con i = 1, . . . , I y j = 1, , . . . , J.
Es la probabilidad de (X, Y ) en la casilla de la fila i y la columna j.
Distribucion marginal
Las distribuciones marginales son
i+ = P (X = i) =
J
X
P (X = i, Y = j) =
j=1
+j = P (Y = j) =
I
X
J
X
ij
j=1
P (X = i, Y = j) =
i=1
I
X
ij
i=1
es decir, el smbolo + indica la suma de las casillas correspondientes a un ndice dado.

Se cumple siempre que
X
j
+j =
i+ =
XX
i
ij = 1
Distribucion condicional
En la mayor parte de las tablas de contingencia, como en el ejemplo anterior, una
de las variables, digamos Y, es una variable respuesta y la otra variable X es una variable explicativa o predictora. En esta situacion no tiene sentido hablar de distribucion
conjunta.
Cuando se considera una categora fija de X, entonces Y tiene una distribucion de
probabilidad que se expresa como una probabilidad condicionada.
As, se puede estudiar el cambio de esta distribucion cuando van cambiando los
valores de X.
Distribuci
on condicionada de Y respecto de X
P (Y = j|X = i) = j|i =
2
ij
i+
Se tiene que
X
j|i = 1

y el vector de probabilidades 1|i , . . . , J|i forman la distribucion condicionada de Y
en la categora i de X.
La mayor parte de los estudios se centran en la comparacion de las distribuciones
condicionadas de Y para varios niveles de las variables explicativas.
Independencia y Homogeneidad
Cuando las variables que se consideran son de tipo respuesta, se pueden usar distribuciones conjuntas o bien distribuciones condicionales para describir la asociacion entre
ellas.
Dos variables son independientes si
ij = i+ +j
lo cual implica que la distribucion condicionada es igual a la marginal:
j|i = +j
para j = 1, . . . , J, dado que
j|i =
ij
i+
para todo i y j.
Si X e Y son variables respuesta entonces se habla de independencia
Si Y es variable respuesta y X es variable explicativa entonces se habla de homogeneidad.
Ejemplo con SAS
Muchas veces, los datos categoricos se presentan en forma de tablas como la anterior,
y otras veces se presentan en forma de matriz de datos.
Supongamos, por ejemplo, que los datos se presentan seg
un la siguiente tabla:
Tratamiento Favorable
Placebo
16
Test
40
En SAS el modo de introducir esta tabla sera:
Desfavorable
48
20
OPTIONS ls =70;
DATA respira ;
INPUT treat $ outcome $ count ;
datalines ;
placebo f 16
placebo u 48
test f 40
test u 20
;
proc freq ;
weight count ;
tables treat * outcome ;
RUN ;
Salida SAS
Procedimiento FREQ
Tabla de treat por outcome
treat
outcome
Frequencia |
Porcentaje |
Pct fila |
Pct col
|
|
| Total
----------------------------placebo
|
16 |
48 |
64
| 12.90 | 38.71 | 51.61
| 25.00 | 75.00 |
| 28.57 | 70.59 |
----------------------------test
|
40 |
20 |
60
| 32.26 | 16.13 | 48.39
| 66.67 | 33.33 |
| 71.43 | 29.41 |
----------------------------Total
56
68
124
45.16
54.84
100.00
Estos datos pueden estar grabados en forma de matriz de datos, es decir, cada individuo esta representado por una u
nica observacion.
En SAS el programa sera semejante al anterior, pero no se tiene que usar el comando
weight.
OPTIONS ls =70;
DATA respira ;
INPUT treat $ outcome $ @@ ;
datalines ;
placebo f placebo f placebo f
placebo f placebo f
placebo u placebo u placebo u
placebo u placebo u placebo u
placebo u
test f test f test f
test f test f
test u test u test u
test u test u
;
proc freq ;
tables treat * outcome ;
RUN ;
Salida SAS
Procedimiento FREQ
Tabla de treat por outcome
treat
outcome
Frequencia |
Porcentaje |
Pct fila |
Pct col
|
|
| Total
----------------------------placebo
|
5 |
7 |
12
| 17.86 | 25.00 | 42.86
| 41.67 | 58.33 |
| 50.00 | 38.89 |
----------------------------test
|
5 |
11 |
16
| 17.86 | 39.29 | 57.14
| 31.25 | 68.75 |
| 50.00 | 61.11 |
----------------------------Total
10
18
28
35.71
64.29
100.00
Cuando se consideran datos ordinales, es importante asegurase de que los niveles de

las filas y columnas se ordenen correctamente, ya que los datos en SAS se ordenan de
forma alfanumerica por defecto. Para ello se usa el comando order=data.
Por ejemplo, supongamos la siguiente tabla:
Sexo
Mujer
Mujer
Hombre
Hombre
Tratamiento
Activo
Placebo
Activo
Placebo
Alta
16
6
5
1
Mejora
Escasa Ninguna
5
6
7
19
2
7
0
10
El programa en SAS para introducir la tabla anterior es

OPTIONS ls =70;
DATA artritis ;
INPUT sex $ treat $ improve $ count @@ ;
datalines ;
female active marked 16 female active some 5 female active none 6
female placebo marked 6 female placebo some 7 female placebo none 19
male active marked 5 male active some 2 male active none 7
male placebo marked 1 male placebo some 0 male placebo none 10
;
RUN ;
PROC freq order = data ;
weight count ;
tables sex * treat * improve / nocol nopct ;
RUN ;
Se obtiene el siguiente resultado.
Salida SAS
Procedimiento FREQ
Tabla 1 de treat por improve
Controlando para sex = female
treat
improve
Frequencia |
Pct fila | marked | some
| none
|
-------------------------------------active
|
16 |
5 |
6 |
| 59.26 | 18.52 | 22.22 |
-------------------------------------placebo
|
6 |
7 |
19 |
| 18.75 | 21.88 | 59.38 |
-------------------------------------Total
22
12
25
Total
27
32
59
Tabla 2 de treat por improve

Controlando para sex = male
treat
improve
Frequencia |
Pct fila | marked | some
| none
|
-------------------------------------active
|
5 |
2 |
7 |
| 35.71 | 14.29 | 50.00 |
-------------------------------------placebo
|
1 |
0 |
10 |
|
9.09 |
0.00 | 90.91 |
-------------------------------------Total
6
2
17
Total
14
11
25
Distribuci
on multinomial en tablas 2 2
Cuando se considera muestras aleatorias, es habitual considerar que los recuentos de
las casillas en las tablas de contingencia se distribuyen como una multinomial.
En el muestreo multinomial, fijamos el tama
no total n pero no los totales de fila y
columna. As se modeliza la situacion de que las filas se refieren a diferentes grupos, los
tama
nos muestrales estan fijados previamente en el experimento, pero los totales por
filas y columnas no lo estan. Si se tienen I J casillas con observaciones, la distribucion
de probabilidad de los recuentos es
YY n
n!
ij .
n11 ! nIJ ! i j ij
A veces, las observaciones en una variable respuesta Y aparecen de manera separada
seg
un cada nivel de una variable explicativa X. En este caso se trata los totales por filas
como fijos.
Se simplifica la notacion de modo que ni+ = ni , y suponemos que las ni en Y , para
un nivel fijado de i of X, son independientes entre s y con distribucion de probabilidad

1|i , . . . , J|i .
P
Los recuentos {nij , j = 1, . . . , J} tal que j nij = ni , se distribuyen como
n ! Y nij
Qi
.
nij ! j j|i
(1)
Cuando las muestras que se toman en diferentes niveles de X son independientes, la

distribucion conjunta de todos los datos es el producto de distribuciones multinomiales [1]
para cada nivel i de X. Este esquema se denomina muestreo multinomial independiente
o muestreo de producto de multinomiales.
Ejemplos
Consideremos el estudio del n
umero de accidentes mortales y no mortales, con cinturon y sin cinturon.
Muestreo multinomial: Tomamos un muestra aleatoria de 200 accidentes que tuvieron
lugar el mes pasado y fijamos el tama
no total de la muestra.
Muestreo multinomial (binomial aqu) independiente: Tomamos una muestra de 100
accidentes donde hubo muertos y otros 100 en los que no hubo muertos. Fijamos los
totales por columna.
Comparaci
on de proporciones en tablas 2 2
Muchos estudios se dise
nan para comparar grupos basandonos en una respuesta Y
binaria. Con dos grupos tenemos una tabla de contingencia 2 2.
Exito
1|1
1|2
Grupo 1
Grupo 2
Fracaso
2|1
2|2
Se denota
1|i = i
2|i = 1 1|i = 1 i
de modo que la tabla se puede reescribir como
Exito
1
2
Grupo 1
Grupo 2
Fracaso
1 1
1 2
Se quiere comparar 1 con 2 . Para ello, se puede estudiar,
(i ) La diferencia de las proporciones

1 2
(ii ) El riesgo relativo
1
2
(iii) La razon de odds:
=
1 /(1 1 )
2 /(1 2 )
Ejemplo:
Influencia de la toma de aspirina respecto a los ataques cardacos:
Ataque No ataque
Placebo
189
10845
Aspirina
104
10933
Para contrastar H0 : p1 = p2 (igual probabilidades de ataque al corazon por grupo),

se puede usar el comando prop.test
Para contrastar una hipotesis unilateral, H0 : p1 p2 frente a H1 : p1 < p2 se hace
usando la opcion alternative.
x = c (104 , 189) # aspirina y placebo
n = c ((189+10845) , (104+10933))
prop.test (x , n )
prop.test (x , n , alt = " less " )
Se obtiene
Salida R

2 - sample test for equality of proportions with continuity correction
data : x out of n
X - squared = 24.3828 , df = 1 , p - value = 7.897 e -07
alternative hypothesis : two . sided
95 percent confidence interval :
-0.010807464 -0.004590148
sample estimates :
prop 1
prop 2
0.009425412 0.017124219
2 - sample test for equality of proportions with continuity correction
data : x out of n
alternative hypothesis : less
-1.000000000 -0.005075369
sample estimates :
prop 1
prop 2
0.009425412 0.017124219

Se pueden obtener las proporciones a partir del componente estimate que en este
caso es un vector numerico de longitud 2. As, la diferencia de las proporciones se calcula
como:
temp = prop.test (x , n )
names ( temp $ estimate ) = NULL
temp $ estimate [1] - temp $ estimate [2]
[1] -0 .007698806
Se puede calcular tambien el riesgo relativo y la razon de odds:
10
# Riesgo relativo
temp $ estimate [2] / temp $ estimate [1]
[1] 1 .816814
# Razon de odds
x [2] * ( n [1] - x [1]) / ( x [1] * ( n [2] - x [2]))
[1] 1 .831045
Para programar las razones de odds en SAS, se usa:

OPTIONS ls =70;
DATA riesgos ;
INPUT ataque $ medica $ cuenta ;
datalines ;
ataque placebo 189
ataque aspirina 104
NOataque placebo 10845
NOataque aspirina 10933
;
PROC freq order = data ;
weight cuenta ;
tables ataque * medica / nocol ;
exact or ;
RUN ;
Se obtiene el siguiente resultado.
11
Salida SAS
The FREQ Procedure

Table of ataque by medica
ataque
medica
Frequency |
Percent |
Row Pct | placebo | aspirina | Total
- - - - - - - - -. - - - - - - - -. - - - - - - - -.
ataque
|
189 |
104 |
293
|
0.86 |
0.47 |
1.33
| 64.51 | 35.49 |
- - - - - - - - -. - - - - - - - -. - - - - - - - -.
NOataque | 10845 | 10933 | 21778
| 49.14 | 49.54 | 98.67
| 49.80 | 50.20 |
- - - - - - - - -. - - - - - - - -. - - - - - - - -.
Total
11034
11037
22071
49.99
50.01
100.00
Statistics for Table of ataque by medica

Estimates of the Relative Risk ( Row1 / Row2 )
Type of Study
Value
95 % Confidence Limits
----------------------------------------------------------------Case - Control ( Odds Ratio )
1.8321
1.4400
2.3308
Cohort ( Col1 Risk )
1.2953
1.1886
1.4116
0.7070
0.6056
0.8255
Odds Ratio ( Case - Control Study )

----------------------------------Odds Ratio
1.8321
Asymptotic Conf Limits

95 % Lower Conf Limit
95 % Upper Conf Limit
1.4400
2.3308
Exact Conf Limits

1.4323
2.3539
Sample Size = 22071
12
Odds y raz
on de odds
Si es la probabilidad de exito entonces los odds se definen como
=
.
+1
o de modo equivalente
Se tiene que > 1 cuando un exito es mas probable que un fallo.

Por ejemplo, cuando = 0,75, entonces
=
0,75
=3
0,25
es decir un exito es tres veces mas probable que un fallo.

Si se tiene una tabla 2 2 se pueden definir los odds en la fila i:
i =
i
.
1 i
El cociente de los odds de las dos filas se denomina razon de odds:

=
1
1 / (1 1 )
=
2
2 / (1 2 )
y se obtiene de manera equivalente cuando se tiene distribuciones conjuntas ij que

=
11 22
12 21
por lo que tambien se denomina cociente de los productos cruzados.

Propiedades
Puede ser cualquier valor positivo.
= 1 significa que no hay asociacion entre X e Y .
Valores de alejados de 1 indican una asociacion mayor.
Se suele trabajar con log ya que el valor que se obtiene es simetrico respecto a
cero.
La razon de odds no cambia cuando se intercambian filas y columnas.
13
Raz
on de odds condicionales y marginales
Las asociaciones marginales y condicionales pueden ser descritas mediante la razon
de odds.
Supongamos una tabla 2 2 K, si denominamos ijk a la frecuencia esperada en
la celda correspondiente.
Fijamos Z = k, y se define la razon de odds condicional como
XY (k) =
11k 22k
12k 21k
y la razon de odds marginal como

11+ 22+
12+ 21+
XY =
Si se sustituyen los valores de ijk por las frecuencias observadas se obtienen las
razones de odds muestrales.
Un valor de igual a 1 en la razon de odds supone, o bien independencia marginal, o
bien condicionada a que Z = k, es decir, si XY (k) = 1.
Nota:
La independencia condicional a que Z = k es equivalente a que
P (Y = j|X = i, Z = k) = P (Y = j|Z = k)
para todo i, j.
Si se cumple para todo valor de la variable Z, entonces se dice que X e Y son
condicionalmente independientes dado Z y se obtiene que
i+k +jk
++k
ijk =
para cualquier i, j, k.
La independencia condicional no implica la independencia marginal.

Ejemplo
Consideramos un ejemplo famoso en USA sobre procesamientos por asesinatos m
ultiples en Florida entre los a
nos 1976 y 1987:
14
Raza
Victima
Blanca
Negro
Total
Raza
Acusado
Blanco
Negro
Blanco
Negro
Blanco
Negro
Pena de Muerte
Si
No
53
414
11
37
0
16
4
139
53
430
15
176
Porcentaje
Si
11.3
22.9
0
2.8
11
7.9
Esta es una tabla de contingencia 222 El ejemplo de la pena de muerte sirve para
ilustrar las razones de odds condicionales. Se estudia el efecto de la raza del acusado
(X) en el veredicto de culpabilidad (Y ), tratando a la raza de la vctima (Z) como si
fuera una variable control.
vic.raza = c ( " blanca " , " negra " )
def.raza = vic.raza
pena.muerte = c ( " SI " , " NO " )
datalabel = list ( acusado = def.raza , muerte = pena.muerte , victima = vic.raza )
tabla = expand.grid ( acusado = def.raza , muerte = pena.muerte , victima = vic.raza )
data = c (53 , 11 , 414 , 37 , 0 , 4 , 16 , 139)
tabla = cbind ( tabla , recuento = data )
xtabs ( recuento acusado + muerte + victima , data = tabla )
Se obtiene

, , victima = blanca
acusado
blanca
negra
Salida R
muerte
SI NO
53 414
11 37
, , victima = negra
acusado
blanca
negra

muerte
SI NO
0 16
4 139
Se calculan la razon de odds condicionales.

temp = xtabs ( recuento acusado + muerte + victima , data = tabla )
apply ( temp , 3 , function ( x ) x [1 ,1] * x [2 , 2] / ( x [2 ,1] * x [1 ,2]))
# Con el paquete vcd
library ( vcd )
summary ( oddsratio ( temp , log =F , stratum =3))
Se obtiene en ambos casos
15
Salida R
blanca
negra
0.4306105 0.0000000
blanca
negra

Odds Ratio
0.4306
0.9394
Se obtienen resultados diferentes en ambos casos, ya que la funcion oddsratio a

nade
0.5 a cada casilla de la tabla.
Asociaci
on Homog
enea
Una tabla 2 2 K tiene una asociacion XY homogenea cuando
XY (1) = XY (2) = = XY (K)
El tipo de asociacion entre X e Y es el mismo para las distintas categoras de Z.
La independencia condicional entre X e Y es un caso particular donde XY (K) = 1.
Si existe una asociacion XY homogenea entonces tambien tenemos una asociacion
XZ homogenea y una asociacion Y Z homogenea. Se dice tambien que no existe interaccion entre las dos variables con respecto a sus efectos en la otra variable.
Cuando existe interaccion, la razon de odds para cada par de variables cambia a lo
largo de las categoras de la tercera variable.
Ejemplo
X fumador (s, no)
Y cancer de pulmon (s, no)
Z = edad (< 45, 45 65, > 65)
Si las razones de odds observadas son
XY (1) = 1,2
XY (2) = 3,9
XY (3) = 8,8
El efecto de fumar se acent

ua conforme la edad es mayor. La edad se denomina efecto
modificador, dado que el efecto de fumar queda modificado por la edad de las personas.
16
Inferencia en tablas de contingencia

Intervalos de confianza para par
ametros de asociaci
on
Intervalo para la raz
on de odds
El estimador que se utiliza para la razon de odds es
n11 n22
b =
n12 n21
Este estimador puede ser 0 o (si alg
un nij = 0) o no estar definido (0/0) dependiendo
de los recuentos que se tengan.
Una posible opcion es trabajar con el estimador corregido:
(n11 + 0,5) (n22 + 0,5)
b =
(n12 + 0,5) (n21 + 0,5)
b
o bien con la transformacion log().
b es
Una estimacion del error estandar de log()

blog()
b =
1
1
1
1
+
+
+
n11 n12 n21 n22
12
de modo que el correspondiente intervalo de Wald es

b z
log()
b b
2 log()
Si se toman las exponenciales (antilogaritmo) de los extremos se obtiene el intervalo
correspondiente para .
El test es algo conservador (la probabilidad de cubrimiento es algo mayor que el nivel
nominal).
Intervalo de confianza para la diferencia de proporciones
Supongamos que tenemos muestras de binomiales independientes, de modo que en
el grupo i tenemos Yi Binom (ni , i ) de modo que el estimador es
bi =
Yi
ni
y la media y desviacion estandar son

E (b
1
b2 ) = 1 2

1/2
1 (1 1 ) 2 (1 2 )
(b1 b2 ) =
+
,
n1
n2
17
de modo que un estimador es

b(b1 b2 )
b1 (1
b1 )
b2 (1
b2 )
=
+
n1
n2
1/2
.
El intervalo de confianza de Wald es
b1
b2 z 2
b(b1 b2 )
Cuando los valores de 1 y 2 estan proximos a 0 o a 1 este intervalo tiene una probabilidad de cubrimiento menor que la teorica que se considera.
Intervalo de confianza para el riesgo relativo
El riesgo relativo muestral viene dado por
r=
b1
b2
Se prefiere usar mejor el logaritmo ya que converge mas rapido a la normal. El estimador
del correspondiente error estandar es

blog(r)
1
b1 1
b2
=
+
n1
b1
n2
b2
1/2
El intervalo de confianza de Wald para log( bb21 ) es

blog(r)
log(r) z 2
Ejemplo
Por ejemplo, en la tabla de contingencia sobre el uso de la aspirina y el infarto de
miocardio.
Placebo
Aspirina
Infarto Miocardio
SI
NO
28
656
18
658
Total
684
656
Se crea la tabla en R:
Medicina <- c ( " Placebo " , " Aspirina " )
Infarto <- c ( " SI " , " NO " )
tabla <- expand.grid ( Medicina = Medicina , Infarto = Infarto )
datos <- c (28 , 18 , 656 , 658)
tabla <- cbind ( tabla , count = datos )
temp = tapply ( tabla $ count , tabla [ , 1:2] , sum )
18
Para calcular los intervalos, se puede usar la funcion de R escrita por Laura A.
Thompson (R (and S-PLUS) Manual to Accompany Agrestis Categorical Data Analysis
(2009)):
# Function from Laura A. Thompson
Wald.ci <- function ( Table , aff.response , alpha = .05 ){
# Gives two - sided Wald CI s for odds ratio ,
# difference in proportions and relative risk.
# Table is a 2 x2 table of counts with rows giving
# the treatment populations
# aff.response is a string like " c (1 ,1)" giving the cell
# of the beneficial response and the treatment category
# alpha is significance level
pow <- function (x , a = -1) x ^ a
z.alpha <- qnorm (1 - alpha / 2)
if ( is.character ( aff.response )) where <- eval ( parse ( text = aff.response ))
else where <- aff.response
Next <- as.numeric ( where ==1) + 1
# OR
odds.ratio <- Table [ where [1] , where [2]] * Table [ Next [1] , Next [2]] /
( Table [ where [1] , Next [2]] * Table [ Next [1] , where [2]])
se.OR <- sqrt ( sum ( pow ( Table )))
ci.OR <- exp ( log ( odds.ratio ) + c ( -1 ,1) * z.alpha * se.OR )
# difference of proportions
p1 <- Table [ where [1] , where [2]] / ( n1 <- Table [ where [1] , Next [2]] +
Table [ where [1] , where [2]])
p2 <- Table [ Next [1] , where [2]] / ( n2 <- Table [ Next [1] , where [2]] +
Table [ Next [1] , Next [2]])
se.diff <- sqrt ( p1 * (1 - p1 ) / n1 + p2 * (1 - p2 ) / n2 )
ci.diff <-( p1 - p2 ) + c ( -1 ,1) * z.alpha * se.diff
# relative risk
RR <- p1 / p2
se.RR <- sqrt ((1 - p1 ) / ( p1 * n1 ) + (1 - p2 ) / ( p2 * n2 ))
ci.RR <- exp ( log ( RR ) + c ( -1 ,1) * z.alpha * se.RR )
list ( OR = list ( odds.ratio = odds.ratio , CI = ci.OR ) ,
p r o p o r t i o n . d i f f e r e n c e = list ( diff = p1 - p2 , CI = ci.diff ) ,
relative.risk = list ( relative.risk = RR , CI = ci.RR ))
}
As, aplicando la funcion anterior, se obtiene las estimaciones y los intervalos de

confianza para las razones de odds, la diferencia de proporciones y el riesgo relativo.
Wald.ci ( temp , c (1 , 1))
19
Se obtiene:
Salida R
odds . ratio
1.560298
odds . ratio - CI
0.8546703 2.8485020
proportion . difference
0.01430845
proportion . difference - CI
-0.004868983 0.033485890
relative . risk
1.537362
relative . risk - CI
0.858614 2.752671
Como el intervalo de confianza para es igual a (0,8546703; 2,8485020), y este contiene a 1, entonces es razonable pensar que la verdadera razon de odds para la muerte
por infarto de miocardio, es igual para los casos de toma de aspirina y placebo.
Quizas se necesitara tomar una muestra mayor, para comprobar el posible efecto
beneficioso de la aspirina, dado que con este ejemplo la razon de odds no es grande.
20
Contraste de independencia en tablas de doble entrada

Los contrastes de independencia se pueden aplicar tanto para muestreo multinomial
(con I J categoras) como para muestreo multinomial independiente (para las distintas
filas).
En el primer caso se contrasta independencia y en el segundo, homogeneidad.
El contraste que se plantea es
H0 : ij = i+ +j
para todo i, j.
H1 : ij 6= i+ +j
para alg
un i, j.
Se utiliza el contraste de Pearson.
Si es cierta H0 entonces el n
umero esperado de observaciones en cada casilla es
E (nij ) = ni+ +j = ij
y los estimadores de maxima verosimilitud son
bij = nb
i+
b+j = n
ni+ n+j
ni+ n+j
=
n n
n
Se utiliza el siguiente estadstico

X X (nij
bij )2
X =
bij
i
j
2
Si es cierta H0 , entonces
X 2 2(I1)(J1)
es decir un test de la chi cuadrado.
Otra alternativa es usar el test del cociente de verosimilitudes
G2 = 2
XX
i
nij log
nij
bij
que tambien se distribuye como 2(I1)(J1) cuando H0 es cierta.

Se rechaza para valores grandes de X 2 . La convergencia a la distribucion chi cuadrado
es mas rapida para X 2 que para G2 .
La aproximacion para X 2 puede ser razonablemente buena si las frecuencias esperadas son mayores que 1 y la mayor parte son mayores que 5.
Cunado no se pueden aplicar, se pueden utilizar metodos para muestras peque
nas.
21
Ejemplo
Educaci
on
< Secundaria
Secundaria
Graduado
Total
Creencias Religiosas
Fundamentalista Moderada Liberal
178
138
108
570
648
442
138
252
252
886
1038
802
Total
424
1660
642
2726
reli gion.r ecuent o <- c (178 , 138 , 108 , 570 , 648 , 442 , 138 , 252 , 252)
tabla = cbind ( expand.grid ( list ( Religiosidad = c ( " Fund " ,
" Mod " , " Lib " ) , Grado = c ( " < HS " , " HS o JH " , " Graduado " ))) ,
count = relig ion.re cuento )
tabla.array = tapply ( tabla $ count , tabla [ , 1:2] , sum )
( res = chisq.test ( tabla.array ))
# Recuentos esperados
res $ expected
Se obtiene
Salida R
Pearson s Chi - squared test

data : tabla . array
Grado
Religiosidad
< HS HS o JH Graduado
Fund 137.8078 539.5304 208.6618
Mod 161.4497 632.0910 244.4593
Lib 124.7425 488.3786 188.8789

Los contrastes y las frecuencias esperadas pueden obtenerse con el paquete vcd.
library ( vcd )
assocstats ( tabla.array )
Se obtiene
Salida R
X ^2 df
P ( > X ^2)
Likelihood Ratio 69.812 4 2.4869 e -14
Pearson
69.157 4 3.4195 e -14
Phi - Coefficient
: 0.159
Contingency Coeff .: 0.157
Cramer s V
: 0.113

22
Con la funcion chisq.test tambien se pueden hacer contrastes por simulacion Montecarlo, es decir, calculando el estadstico de la chi cuadrado para todas las posibles
tablas con las mismas sumas marginales por filas y columnas de la tabla original.
chisq.test ( tabla.array , sim =T , B =2000)
Se obtiene
Salida R
Pearson s Chi - squared test with simulated p - value

( based on 2000 replicates )
data : tabla . array
X - squared = 69.1568 , df = NA , p - value = 0.0004998

Ejemplo
Consideramos la siguiente tabla en relacion a las primarias del partido democrata en
2008, en una muestra de un distrito electoral.
G
enero
Hombre
Mujer
Total
Candidato
Clinton Obama
200
406
418
418
618
824
Total
606
836
1442
El programa en SAS sera

OPTIONS ls =70;
DATA primarias ;
INPUT genero $ candidato $ recuento ;
DATALINES ;
Hombre Clinton 200
Hombre Obama 406
Mujer Clinton 418
Mujer Obama 428
;
proc freq order = data ;
weight recuento ;
tables genero * candidato / expected deviation chisq relrisk ;
RUN ;
En la u
ltima lnea se pide la tabla de contingencia con las filas representadas por la
primera variable y las columnas por la segunda variable. Se pide, despues,
23
Las frecuencias esperadas suponiendo independencia (expected)

Discrepancia entre las frecuencias observadas y las esperadas (deviation)
Test chi cuadrado de independencia (chisq)
Razon de Odds (relrisk)
24
Salida SAS
Procedimiento FREQ
Tabla de genero por candidato
genero
candidato
Frecuencia |
Esperada |
Desviacion |
Porcentaje |
Pct fila |
Pct col
| Clinton | Obama
| Total
- - - - - - - - - -. - - - - - - - -. - - - - - - - -.
Hombre
|
200 |
406 |
606
| 257.93 | 348.07 |
| -57.93 | 57.926 |
| 13.77 | 27.96 | 41.74
| 33.00 | 67.00 |
| 32.36 | 48.68 |
- - - - - - - - - -. - - - - - - - -. - - - - - - - -.
Mujer
|
418 |
428 |
846
| 360.07 | 485.93 |
| 57.926 | -57.93 |
| 28.79 | 29.48 | 58.26
| 49.41 | 50.59 |
| 67.64 | 51.32 |
- - - - - - - - - -. - - - - - - - -. - - - - - - - -.
Total
618
834
1452
42.56
57.44
100.00
Estadisticos para Tabla de genero por candidato
Estadistico
DF
Valor
Probabilidad
---------------------------------------------------------------------Chi - cuadrado
1
38.8726
< .0001
Ratio chi - cuadrado de la verosimilitud
1
39.3080
< .0001
Adj . chi - cuadrado de continuidad
1
38.2044
< .0001
Chi - cuadrado Mantel - Haenszel
1
38.8458
< .0001
Coeficiente Phi
-0.1636
Coeficiente de contingencia
0.1615
V de Cramer
-0.1636

25
Salida SAS
Test exacto de Fisher

-----------------------------------Celda (1 ,1) Frecuencia ( F )
200
Left - sided Pr <= F
2.580 E -10
Right - sided Pr >= F
1.0000
Table Probability ( P )
Two - sided Pr <= P
1.300 E -10
4.029 E -10
Estimadores de riesgo relativo ( fila1 / fila2 )

Tipo de estudio
Valor
95 % Limites de confianza
-------------------------------------------------------------------Case - Control ( Odds Ratio )
0.5044
0.4062
0.6263
0.6680
0.5852
0.7625
1.3243
1.2140
1.4446
Tamano de la muestra = 1452
La salida presenta la tabla de contingencia, con

la frecuencia observada,
la frecuencia esperada (asumiendo independencia),
la desviacion entre las frecuencias observadas y esperadas,
la contribucion de la anterior desviacion al valor global del estadstico de la chicuadrado.
Los restantes valores representan la proporcion de casillas con respecto al n
umero
total de observaciones, la proporcion relativa de las observaciones totales de la fila, y la
proporcion relativa a las observaciones totales en la columna, respectivamente.
Finalmente, aparece la prueba de independencia (incluyendo la prueba chi-cuadrado,
y la prueba exacta de Fisher). De acuerdo a la salida, la chi cuadrado de Pearson es
igual a 41.44, con un p-valor menor que 0.0001, por lo que se rechaza la hipotesis nula
de independencia. El test de la razon de verosimilitudes presenta resultados similares:
41.92 y un valor de p-valor inferior a 0.0001.
26
Test de independencia con muestras peque

nas
Test exacto de Fisher para tablas 2 2
Todos los procedimientos vistos hasta ahora se basan en distribuciones asintoticas. Si
tenemos muestras grandes no hay problemas, pero con muestras peque
nas es preferible
usar contrastes exactos.
Consideramos una tabla 2 2 donde la hipotesis nula es de independencia entre las
dos variables. Esto corresponde a que la razon de odds es igual a uno, = 1.
Supongamos que los recuentos de las casillas {nij } provienen de dos muestras aleatorias independientes, o de una u
nica distribucion multinomial definida sobre las 4 casillas
de la tabla. Se consideran todas las posibles tablas, que tienen como totales por filas
y columnas los valores observados en los datos reales; entonces la distribucion de los
recuentos de las casillas es una hipergeometrica.
Si condicionamos a los totales por fila y columna, solamente nos queda libre o sin fijar
un recuento, por ejemplo n11 , de modo que este determina los otros tres recuentos de las
casillas. As, la distribucion hipergeometrica expresa la probabilidad de los recuentos, en
terminos de solo n11 :

p(t) = P (n11 = t) =
n1+
t

n2+
n t
+1

n
n+1
donde los posibles valores son

m n11 m+
con
m = max {0, n1+ + n+1 n}
m+ = mn {n1+ , n+1 }
Dados los valores totales de las marginales, las tablas que tienen mayores valores n11
tambien tienen mayores valores de la razon de odds
=
n11 n22
,
n12 n21
El contraste de independencia entre las dos variables se puede formular como

H0 : 1
H1 : > 1
27
El p-valor es igual a la probabilidad de la cola derecha de la distribucion hipergeometrica de que n11 sea al menos tan grande como el observado, digamos t0 ,
P (n11 t0 ) ,
de modo que se tiene una evidencia mas fuerte a favor de H1 .
Ejemplo
Consideramos un ejemplo clasico de Fisher. Un colega suyo afirmaba que era capaz
de distinguir en una taza de te con leche, que se haba echado primero, si la leche o
el te. Para comprobarlo dise
no un experimento donde se probaban 8 tazas de te. De
ellas, en 4 se haba echado primero la leche, y en las otras 4, primero el te. Se trataba
de adivinar en que orden se haba echado la leche y el te. Las tazas se presentaron de
manera aleatoria, y se obtuvo:
Primer Servicio
Leche
Te
Total
Predicci
on
Leche Te
Total
3
1
4
1
3
4
4
4
Evidentemente las distribuciones marginales estan fijadas en 4.

La distribucion nula de n11 es una hipergeometrica definida para todas las tablas
2 2 que tienen como marginales (4, 4).
Los posibles valores para n11 son (0, 1, 2, 3, 4).
En la tabla observada, si se adivinan 3 de las 4 tazas donde se ha echado primero
leche, la probabilidad es

4 4
16
3 1
P (3) = =
= 0,23
8
70
4
As, para que se apoye la hipotesis H1 : > 1 el u
nico valor extermo que se obtiene
es con n11 = 4, es decir que se adivinen todas.

4 4
1
4 0
P (4) = =
= 0,014
8
70
4
28
Alternativa bilateral
Lo que aparece habitualmente programado en el software estadstico es
p = P (p(n11 ) p(t0 ))
donde p(t0 ) = P (n11 = t0 )
Es decir, se suman las probabilidades de todas aquellas tablas que son menos o igual
de probables que la tabla observada.
En el ejemplo de las tazas de te, se tiene que
P (n11 = 0) = 0,014
P (n11 = 1) = 0,229
P (n11 = 2) = 0,514
P (n11 = 3) = 0,229
P (n11 = 4) = 0,014
Por tanto, se suman todas las probabilidades que son menores o iguales que la probabilidad P (3) = 0,229 de la tabla observada. Se obtiene,
P (0) + P (1) + P (3) + P (4) = 0,486
# Alternativa bilateral
( fisher.test ( matrix ( c (3 , 1 , 1 , 3) , byrow =T , ncol =2)))
# Alternativa unilateral
( fisher.test ( matrix ( c (3 , 1 , 1 , 3) , byrow =T , ncol =2) ,
alternative = " greater " ))
# Hipotesis nula : razon de odds ratio igual a 0 .2
( fisher.test ( matrix ( c (3 , 1 , 1 , 3) , byrow =T , ncol =2) ,
or =0 .2 ))
Se obtiene
Salida R
Fisher s Exact Test for Count Data
data : matrix ( c (3 , 1 , 1 , 3) , byrow = T , ncol = 2)

p - value = 0.4857
alternative hypothesis : true odds ratio is not equal to 1
0.2117329 621.9337505
29
sample estimates :
odds ratio
6.408309
.............................................................
p - value = 0.2429
alternative hypothesis : true odds ratio is greater than 1
0.3135693
Inf
sample estimates :
odds ratio
6.408309
.............................................................
p - value = 0.02246
alternative hypothesis : true odds ratio is not equal to 0.2
0.2117329 621.9337505
sample estimates :
odds ratio
6.408309

30
Categoras Ordinales
Es muy frecuente que las categoras en las tablas presenten una ordenacion entre las
categoras. Este hecho no lo tienen en cuenta los tests de la 2 .
Para tratar con variables ordinales, es mejor asignar rangos a las categoras de X
(u1 . . . un ) y a las categoras de Y (v1 . . . vn ) de modo que se conserve la
ordenacion original.
Si se denomina r al coeficiente de correlacion entre los rangos, entonces el estadstico
M 2 = (n 1)r2 21
para muestras grandes. Se rechaza la hipotesis de independencia para valores grandes
de M 2 .
La hipotesis alternativa es que existe una relacion lineal entre las variables X e Y .
Ejemplo
En la siguiente tabla las variables son ingresos y satisfacion en el trabajo en una
muestra dada. Ambas variables son ordinales, de modo que las categoras de satisfaccion
laboral son donde MI : muy insatisfecho, PI : un poco insatisfecho, S : satisfecho, MS :
muy satisfecho.
Satisfaci
on laboral
Ingresos (miles $) MI PI S
MS
< 15
1
3 10
6
15 25
2
3 10
7
25 40
1
6 14
12
> 40
0
1
9
11
income <- c ( " <15000 " , " 15000 -25000 " , " 25000 -40000 " , " >40000 " )
jobsat <- c ( " VD " , " LD " , " MS " , " VS " )
tabla <- expand.grid ( income = income , jobsat = jobsat )
data <- c (1 , 2 , 1 , 0 , 3 , 3 , 6 , 1 , 10 , 10 , 14 , 9 , 6 , 7 , 12 , 11)
tabla <- cbind ( tabla , count = data )
levels ( tabla $ income ) <- c (7 .5 , 20 , 32 .5 , 60)
levels ( tabla $ jobsat ) <- 1:4
res <- apply ( tabla [ , 1:2] , 2 , function ( x )
{ as.numeric ( rep (x , tabla $ count ))})
( cor ( res )[2 , 1]^2) * ( nrow ( res ) - 1)
1 - pchisq (3 .807461 , 1)
Se obtiene
31
Salida R

> ( cor ( res )[2 , 1]^2) * ( nrow ( res ) - 1)
[1] 3.807461
> 1 - pchisq (3.807461 , 1)
[1] 0.05102474

Se puede considerar una hipotesis alternativa mas debil: la relacion entre las variables
ordinales es monotona.
En ese caso se puede considerar el coeficiente de asociacion gamma de Goodman
y Kruskal. Se tiene que 1 < < 1, la independencia implica que = 0, aunque lo
contrario no es cierto.
Gamma2.f <- function (x , pr =0 .95 )
{
# Subrutina de L. Thompson
# x is a matrix of counts.
# You can use output of crosstabs or xtabs in R.
# A matrix of counts can be formed from a data frame
# by using design.table.
# Confidence interval calculation and output from Greg Rodd
# Check for using S - PLUS and output is from crosstabs
if ( is.null ( version $ language ) & & inherits (x , " crosstabs " ))
{ oldClass ( x ) <- NULL ; attr (x , " marginals " ) <- NULL }
n <- nrow ( x )
m <- ncol ( x )
pi.c <- pi.d <- matrix (0 , nr =n , nc = m )
row.x <- row ( x )
col.x <- col ( x )
for ( i in 1:( n )){
for ( j in 1:( m )){
pi.c [i , j ] <- sum ( x [ row.x < i & col.x < j ]) +
sum ( x [ row.x > i & col.x > j ])
pi.d [i , j ] <- sum ( x [ row.x < i & col.x > j ]) +
sum ( x [ row.x > i & col.x < j ])
}
}
C <- sum ( pi.c * x ) / 2
D <- sum ( pi.d * x ) / 2
psi <-2 * ( D * pi.c - C * pi.d ) / ( C + D )^2
sigma2 <- sum ( x * psi ^2) - sum ( x * psi )^2
gamma <- ( C - D ) / ( C + D )
pr2 <- 1 - (1 - pr ) / 2
CIa <- qnorm ( pr2 ) * sqrt ( sigma2 ) * c ( -1 , 1) + gamma
list ( gamma = gamma , C = C , D = D , sigma = sqrt ( sigma2 ) ,
32
Level = paste (100 * pr , " %" , sep = " " ) ,

CI = paste ( c ( " [ " , max ( CIa [1] , -1) ,
" , " , min ( CIa [2] , 1) , " ] " ) , collapse = " " ))
}
temp <- xtabs ( formula = count income + jobsat , data = tabla )

Gamma2.f ( temp )
Se obtiene

gamma
[1] 0.2211009
Salida R
C
[1] 1331
D
[1] 849
sigma
[1] 0.1171628
Level
[1] "95 %"
CI
[1] "[ -0.00853400851071168 , 0 . 45 0 7 35 8 4 33 7 3 09 7 ] "

Con una estimacion del error estandar igual a 0.117, el intervalo de confianza al 95 %
de la gamma es igual a (0,01; 0,45). As, el valor de la gamma no resulta significativamente distinto de 0.
33
Ejemplo
Los datos vienen de un estudio de enfermedades coronarias (Cornfield, 1962). Se consideran n = 1329 pacientes clasificados por el nivel de colesterol y si se han diagnosticado
con enfermedad coronaria (CHD).
0-199 200-219 220-259 260+
CHD
12
8
31
41
246
439
245
no CHD 307
Totales
319
254
470
286
Totales
92
1237
1329
OPTIONS nodate ls =70;

/ * Se graban los resultados en un fichero rtf
ODS rtf file = d :\ kk \ cosa . rtf style = minimal startpage = no ;
*/
DATA chd ;
INPUT CHD $ serum $ count @@ ;
DATALINES ;
chd 0 -199 12 chd 200 -199 8 chd 220 -259 31 chd 260+ 41
nochd 0 -199 307 nochd 200 -199 246 nochd 220 -259 439 nochd 260+ 245
;
proc freq ; weight count ;
tables CHD * serum / chisq expected deviation cmh measures ;
exact fisher or / alpha =.05;
tables CHD * serum / chm1 scores = ridits ;
RUN ;
34
Salida SAS
Procedimiento FREQ
Tabla de CHD por serum
CHD
serum
Frequencia |
Esperada |
Desviacion |
Porcentaje |
Pct fila |
Pct col
|0 -199
|200 -199 |220 -259 |260+
| Total
- - - - - - - - - -. - - - - - - - -. - - - - - - - -. - - - - - - - -. - - - - - - - -.
chd
|
12 |
8 |
31 |
41 |
92
| 22.083 | 17.583 | 32.536 | 19.798 |
| -10.08 | -9.583 | -1.536 | 21.202 |
|
0.90 |
0.60 |
2.33 |
3.09 |
6.92
| 13.04 |
8.70 | 33.70 | 44.57 |
|
3.76 |
3.15 |
6.60 | 14.34 |
- - - - - - - - - -. - - - - - - - -. - - - - - - - -. - - - - - - - -. - - - - - - - -.
nochd
|
307 |
246 |
439 |
245 |
1237
| 296.92 | 236.42 | 437.46 | 266.2 |
| 10.083 | 9.5831 | 1.5357 | -21.2 |
| 23.10 | 18.51 | 33.03 | 18.43 | 93.08
| 24.82 | 19.89 | 35.49 | 19.81 |
| 96.24 | 96.85 | 93.40 | 85.66 |
- - - - - - - - - -. - - - - - - - -. - - - - - - - -. - - - - - - - -. - - - - - - - -.
Total
319
254
470
286
1329
24.00
19.11
35.36
21.52
100.00
Estadisticos para Tabla de CHD por serum

Estadistico
DF
Valor
Probabilidad
---------------------------------------------------------------------Chi - cuadrado
3
35.0285
< .0001
Ratio chi - cuadrado de la verosimilitud
3
31.9212
< .0001
Chi - cuadrado Mantel - Haenszel
1
26.1475
< .0001
Coeficiente Phi
0.1623
Coeficiente de contingencia
0.1603
V de Cramer
0.1623
Test exacto de Fisher

---------------------------------Table Probability ( P )
2.232 E -10
Estimacion Monte Carlo para el test exacto
Pr <= P
Numero de muestras
Semilla inicial
35
0.0000
0.0000
2.995 E -04
10000
85206
Estadistico
Valor
ASE
-----------------------------------------------------Gamma
-0.4266
0.0764
Kendall s Tau - b
-0.1327
0.0250
Stuart s Tau - c
-0.0816
0.0167
Somers D C | R
Somers D R | C
-0.3167
-0.0556
0.0578
0.0114
Correlacion Pearson
Correlacion Spearman
-0.1403
-0.1448
0.0268
0.0273
Lambda Asymmetric C | R
Lambda Asymmetric R | C
Lambda Symmetric
0.0116
0.0000
0.0105
0.0098
0.0000
0.0089
Uncertainty Coefficient C | R
Uncertainty Coefficient R | C
Uncertainty Coefficient Symmetric
0.0089
0.0477
0.0149
0.0032
0.0168
0.0054
Estadisticos de Cochran - Mantel - Haenszel ( Basado

en puntuaciones de tabla )
Estadistico
Hipotesis alternativa
DF
---------------------------------------------------------------------1
Correlacion nonzero
1
2
Diferencia de puntuaciones de la media de la fila
1
3
Asociacion general
3
Estadistico
Valor
Probabilidad
----------------------------------------1
26.1475
< .0001
2
26.1475
< .0001
3
35.0021
< .0001
Tamano total de muestra = 1329
36
Salida SAS
Tabla de CHD por serum

CHD
serum
Frequencia |
Porcentaje |
Pct fila |
Pct col
|0 -199
|200 -199 |220 -259 |260+
| Total
- - - - - - - - - -. - - - - - - - -. - - - - - - - -. - - - - - - - -. - - - - - - - -.
chd
|
12 |
8 |
31 |
41 |
92
|
0.90 |
0.60 |
2.33 |
3.09 |
6.92
| 13.04 |
8.70 | 33.70 | 44.57 |
|
3.76 |
3.15 |
6.60 | 14.34 |
- - - - - - - - - -. - - - - - - - -. - - - - - - - -. - - - - - - - -. - - - - - - - -.
nochd
|
307 |
246 |
439 |
245 |
1237
| 23.10 | 18.51 | 33.03 | 18.43 | 93.08
| 24.82 | 19.89 | 35.49 | 19.81 |
| 96.24 | 96.85 | 93.40 | 85.66 |
- - - - - - - - - -. - - - - - - - -. - - - - - - - -. - - - - - - - -. - - - - - - - -.
Total
319
254
470
286
1329
24.00
19.11
35.36
21.52
100.00
Estadisticos de Cochran - Mantel - Haenszel ( Basado en puntuaciones Ridit )

Estadistico
Hipotesis alternativa
DF
---------------------------------------------------------------------1
Correlacion nonzero
1
Estadistico
Valor
Probabilidad
----------------------------------------1
27.8381
< .0001
Tamano total de muestra = 1329
37
Algunas medidas de asociaci

on para tablas que presenta SAS
Consideramos el estadstico de la chi cuadrado:
X2 =
X X (nij
bij )2
bij
i
j
Coeficiente phi ()
Se deriva del estadstico chi cuadrado y se define como
r
X2
=
n
Para tablas 2 2 se define como
n11 n22 n12 n21
.
=
n1+ n2+ n+1 n+2
toma como posibles valores
1 1
V de Cramer
Para tablas 2 2 coincide con el coeficiente phi. Para tablas generales se define como
s
X 2 /n
V =
mn (I 1, J 1)
toma como posibles valores
1 V 1
Estadstico de Mantel-Haenszel
Contrasta como hipotesis alternativa que existe una relacion lineal entre las variables
X e Y . Se define como
QM H = (n 1)r2
donde r2 es el coeficente de correlacion de Pearson calculado sobre los rangos de las dos
variables.
Para mas informacion sobre otros coeficiente se puede consultar en:
http://www2.stat.unibo.it/manualisas/stat/chap28.pdf
38

Tema2Cate PDF

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Tema2Cate PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Tema 2: Tablas de Contingencia

Ataque mortal Ataque no mortal

La distribucion conjunta de dos variables categoricas determina su relacion. Esta

es decir, el smbolo + indica la suma de las casillas correspondientes a un ndice dado.

Cuando se consideran datos ordinales, es importante asegurase de que los niveles de

El programa en SAS para introducir la tabla anterior es

Se obtiene el siguiente resultado.

Tabla 2 de treat por improve

Cuando las muestras que se toman en diferentes niveles de X son independientes, la

Se quiere comparar 1 con 2 . Para ello, se puede estudiar,

(i ) La diferencia de las proporciones

Para contrastar H0 : p1 = p2 (igual probabilidades de ataque al corazon por grupo),

Se puede calcular tambien el riesgo relativo y la razon de odds:

Para programar las razones de odds en SAS, se usa:

Se obtiene el siguiente resultado.

The FREQ Procedure

Statistics for Table of ataque by medica

Odds Ratio ( Case - Control Study )

Asymptotic Conf Limits

Exact Conf Limits

Sample Size = 22071

Se tiene que > 1 cuando un exito es mas probable que un fallo.

es decir un exito es tres veces mas probable que un fallo.

El cociente de los odds de las dos filas se denomina razon de odds:

y se obtiene de manera equivalente cuando se tiene distribuciones conjuntas ij que

por lo que tambien se denomina cociente de los productos cruzados.

y la razon de odds marginal como

La independencia condicional no implica la independencia marginal.

Se calculan la razon de odds condicionales.

Se obtiene en ambos casos

Se obtienen resultados diferentes en ambos casos, ya que la funcion oddsratio a

El efecto de fumar se acent

Inferencia en tablas de contingencia

de modo que el correspondiente intervalo de Wald es

y la media y desviacion estandar son

de modo que un estimador es

El intervalo de confianza de Wald es

El intervalo de confianza de Wald para log( bb21 ) es

As, aplicando la funcion anterior, se obtiene las estimaciones y los intervalos de

Contraste de independencia en tablas de doble entrada

Se utiliza el siguiente estadstico

que tambien se distribuye como 2(I1)(J1) cuando H0 es cierta.

Pearson s Chi - squared test

Pearson s Chi - squared test with simulated p - value

El programa en SAS sera

Las frecuencias esperadas suponiendo independencia (expected)

Test exacto de Fisher

Estimadores de riesgo relativo ( fila1 / fila2 )

La salida presenta la tabla de contingencia, con

Test de independencia con muestras peque

donde los posibles valores son

El contraste de independencia entre las dos variables se puede formular como

Evidentemente las distribuciones marginales estan fijadas en 4.

data : matrix ( c (3 , 1 , 1 , 3) , byrow = T , ncol = 2)

Level = paste (100 * pr , " %" , sep = " " ) ,

temp <- xtabs ( formula = count income + jobsat , data = tabla )

OPTIONS nodate ls =70;

Estadisticos para Tabla de CHD por serum

Test exacto de Fisher

Estadisticos de Cochran - Mantel - Haenszel ( Basado

Tamano total de muestra = 1329

Tabla de CHD por serum