Você está na página 1de 56

DEPARTAMENTP DE MEDICINA PREVENTIVA

Y SALUD PBLICA

EAP DE MEDICINA HUMANA -I


PRUEBAS DE ASOCIACIN DE VARIABLES


LIC. ESPERANZA GARCA C.

2013
Asociacin de variables Cualitativas:

Con frecuencia nos preguntamos s:
El hbito de fumar y el cncer de pulmn
se relacionan.
El peso y la estatura de los nios
preescolares se relacionan.
El rendimiento escolar y el afecto que
recibe el nio en casa se relacionan.
El rendimiento escolar y nivel de
nutricin se asocian.
Para determinar asociacin o no entre dos
variables cualitativas, se usan las pruebas
de Independencia y homogeneidad con
chi-cuadrada,
Para determinar la fuerza de la asociacin
entre dos variables cualitativas, donde una
de ellas es un factor de exposicin, se
calcula el RIESGO RELATIVO (RR) u ODDS
RATIO (OR) con sus respectivos intervalos
de confianza.

Para determinar el grado de asociacin
entre dos variables cuantitativas se usan
los modelos de regresin y correlacin.
Hay que tener en cuenta tres situaciones:
Pruebas Chi Cuadrado
Definicin: es una prueba estadstica
para evaluar hiptesis acerca de la
relacin de dos variables cualitativas.
Se simboliza como _
2

La prueba _
2
no considera relaciones
causales.

Definicin de algunos trminos:
Frecuencias observadas (Oi): Nmero de
objetos, individuos, en la muestra que caen
dentro de cada categoras de la variable de
inters.
Frecuencia esperada (Ei): Nmero de objetos, o
individuos en la muestra, que se espera
observar si una hiptesis nula es verdadera, es
decir, las variables no estn relacionadas. Se
calcula con la siguiente frmula:


general Total
columnas de Total filas de Total
E
i

=
Estadstica de prueba:
Chi cuadrado con n grados de libertad,
mide el nivel de concordancia entre lo
observado y lo esperado. Para rechazar Ho
es necesario que el grado de discordancia
entre las dos frecuencias sea grande, solo
as un chi cuadrado calculado ser
suficiente para rechazar Ho.
Grados de libertad: Gl=(f-1)(c-1) donde:
f=fila; c=columna.
i
2
i i
2
E
) E O (


= _

Tipo histolgico
Difuso Intestinal Total
Familiar + 13 12 25
Familiar - 35 72 107
Total 48 84 132
Nmero de familias con familiar + a cncer
gstrico entre familiares de primer grado.



Recomendaciones de Cochran:
No usar _
2
con muestras menores de 20
elementos
No usar _
2
cuando los datos estn en tablas
2x2 s, una o ms frecuencias esperadas tienen
un valor menor de 5.
Si las frecuencias estn en tablas con ms de 1
grado de libertad, se usa _
2
si menos del 20%
de las celdas tienen frecuencias esperadas
menores que 5 y ninguna celda tiene frecuencia
esperada menor que 1 (si estos requisitos no se
cumplen, el investigador puede combinar
categoras para aumentar las frecuencias en las
diferentes celdas).

...
37,16 34,81 31,53 28,87 25,99 18
35,72 33,41 30,19 27,59 24,77 17
34,27 32,00 28,85 26,30 23,54 16
32,80 30,58 27,49 25,00 22,31 15
31,32 29,14 26,12 23,68 21,06 14
29,82 27,69 24,74 22,36 19,81 13
28,30 26,22 23,34 21,03 18,55 12
26,76 24,73 21,92 19,68 17,28 11
25,19 23,21 20,48 18,31 15,99 10
23,59 21,67 19,02 16,92 14,68 9
21,95
20,09 17,53 15,51 13,36 8
20,28 18,48 16,01 14,07 12,02 7
18,55
16,81 14,45 12,59 10,64 6
16,75 15,09 12,83 11,07 9,24
5
14,86 13,28 11,14 9,49 7,78 4
12,84 11,34 9,35 7,81 6,25 3
10,60 9,21 7,38 5,99 4,61 2
7,88 6,63 5,02 3,84 2,71 1
0,995 0,99 0,975 0 ,95 0,90
Grados de
libertad
Probabilidad de un valor superior
DISTRIBUCIN JI-CUADRADA
21.03
3.84
Caractersticas:
1. Para cada grado de libertad hay una curva.
2. Curva asimtrica
3. Los valores chi-cuadrado se distribuyen desde 0 hacia
infinito.
1. Prueba de Independencia

Prueba Ho que dos criterios de clasificacin
son independientes, es decir, la distribucin
de uno, no afecta la distribucin del otro.
H
1
plantea dependencia entre los dos
variables.
Los datos corresponden a una sola
muestra, la cual, es aleatoria y se extrajo de
la poblacin antes que se agruparan de
acuerdo a las dos variables. Los totales
marginales son aleatorios.
La conclusin se hace para una poblacin.


Ejemplo:
Se realiz un estudio porque se tena la sospecha que el
hbito de fumar estaba asociado con la bronquitis
crnica. Se seleccion una muestra de 1750 a quienes
se les clasific de acuerdo a las dos variables, los
resultados se presentan en la siguiente tabla.
Es posible concluir que el hbito de fumar est
relacionado con la enfermedad? Use un o=0.05
Hbito de Bronquitis crnica Total
fumar S No
Fuma 140 110 250
No fuma 500 1000 1500
Total 640 1110 1750
Solucin:
1. Hiptesis: Ho: El hbito de fumar no se relaciona con la
bronquitis crnica.
H
1
: El hbito de fumar se relaciona con la
bronquitis crnica.
2. Nivel de significacin: o=0.05
3. Estadstica de prueba:

4. Regla de decisin: Ho se rechazar si, _
2
cuadrado calculado
es 3.84
5. Clculo: Se calculan las frecuencias esperadas para cada
frecuencia absoluta








3.841
Hbito de Bronquitis crnica Total
fumar S No
fumar 140 (91.43) 110 (158.57) 250
No fuma 500 (548.57) 1000 (951.43) 1500
Total 640 1110 1750
i
2
i i 2
E
) E O (


= _
46 . 47
43 . 951
) 43 . 951 1000 (
57 . 548
) 57 . 548 500 (
57 . 158
) 57 . 158 110 (
43 . 91
) 43 . 91 140 (
2 2 2 2
2
=

= _

5. Clculo



6. Decisin estadstica y conclusin:
Ho se rechaza.
Por tanto se concluye que, a un nivel de significacin de
0.05, existen suficientes indicios para afirmar que el
hbito de fumar est asociado con la bronquitis crnica.
2. Prueba de Homogeneidad
Se caracteriza porque uno de los totales
marginales es conocido antes que el grupo sea
clasificado, el otro es aleatorio. Esta prueba
compara dos o ms poblaciones.
Prueba la Ho de que dos o ms poblaciones son
homogneas respecto a un criterio de
clasificacin.
Prueba adems que dos o ms muestras fueron
extradas de poblaciones homogneas respecto a
un criterio
El muestreo es distinto al de la prueba de
independencia.

Ejemplo:
Se estudio una muestra de 404 enfermeras contratadas
por dos aos en 5 hospitales. El objetivo fue averiguar el
impacto en la operacin de la organizacin de la
conducta de separacin del empleado: ausentismo,
rotacin de personal y reduccin sistemtica de
participacin y el proceso por el que los empleados
escogen entre ellas. Con los datos que se presentan a
continuacin, pruebe si los 5 hospitales son homogneos
respecto al tipo de comportamiento de separacin
exhibidos por las enfermeras. Use =0.05
Comportamiento de separacin
Slo cambio Slo
Hospital de personal RSP Ambos Ninguno Total
1 35 41 24 26 126
2 14 8 10 5 37
3 13 4 1 17 35
4 29 16 19 19 83
5 54 9 29 31 123
Total 145 78 83 98 404
Muestras
(valores fijos
conocidos de
antemano)
RSP: Reduccin sistemtica de participacin
Solucin:
1. Ho: Los hospitales son homogneos respecto al
comportamiento de separacin.
H
1
:

Los hospitales no son homogneos respecto al
comportamiento de separacin.

2. =0.05

3. Regla de decisin: Ho se rechazar si
Chi cuadrado calculado es a 21.03

4. Estadstica de prueba:


5. Clculo:


i
2
i i
2
E
) E O (


= _
21.03
Comportamiento de separacin
Hospital Slo cambio Slo
de personal RSP Ambos Ninguno Total
1 35 45.22 41 24.33 24 25.89 26 30.56 126
2 14 13.28 8 7.14 10 7.60 5 8.98 37
3 13 12.56 4 6.76 1 7.59 17 8.49 35
4 29 29.79 16 16.02 19 17.05 19 20.13 83
5
54 44.15 9 23.75 29 25.17 31 29.84
123
Total 145 78 83 98 404
478 . 44
84 . 29
) 84 . 29 31 (
...
89 . 25
) 89 . 25 24 (
33 . 24
) 33 . 24 41 (
22 . 45
) 22 . 45 35 (
2 2 2 2
2
=

+ +

= _
6. Decisin estadstica y conclusin:
Ho se rechaza, por lo tanto:
A un nivel de significacin de 0.05 se puede afirmar que las
poblaciones no son homogneas respecto al
comportamiento de separacin.
CORRECCIN DE YATES
Se usa para corregir el clculo de
discreta calculado para frecuencias
observadas discretas, la cual es
semejante a continua.
Yates, en 1934, propuso un procedimiento
para corregir esto en tablas 2x2 que
consiste en restar la mitad de
observaciones del valor absoluto de ad-bc
antes de elevar al cuadrado se resta la
mitad del tamao de la muestra segn la
siguiente frmula:

Ejemplo:

En el hospital San Fernando se realiz un estudio
para determinar los factores asociados con la
diabetes. Se tom una muestra de 100 de
pacientes de ambos sexos . Se quiere probar si la
diabetes es independiente del sexo, con = 0.05.
Los datos se encuentran en la siguiente tabla.

Pacientes segn diabetes. Hospital San
Fernando, Lima-Per, 2011
Sexo Diabetes No diabetes Total
Masculino 36 28 64
Femenino 22 14 36
Total 58 42 100

Chi-Square contributions are printed below expected counts



Diabetes No diabetes Total
1 35 22 57
33.06 23.94
0.114 0.157

2 23 20 43
24.94 18.06
0.151 0.208

Total 58 42 100

Chi-Sq = 0.630, DF = 1, P-Value = 0.427


7. Se concluye con 0.05 de significacin que la
diabetes y el sexo son independientes

DEPARTAMENTP DE MEDICINA PREVENTIVA
Y SALUD PBLICA

EAP DE MEDICINA HUMANA -I


PRUEBAS DE ASOCIACIN DE VARIABLES
CUANTITATIVAS

LIC. ESPERANZA GARCA C.
2013
ASOCIACION ENTRE DOS VARIABLES
CUANTITATIVAS

CORRELACION LINEAL SIMPLE
Mediante el modelo de correlacin simple se
mide la intensidad (grado) y direccin de la
relacin entre dos variables aleatorias numricas,
X y Y, ambas tomadas de un mismo sujeto. Un
ejemplo tpico son las observaciones medidas
por encuesta en una muestra seleccionada al
azar.
45 35 25
110
100
90
80
70
60
50
Ansiedad
R
i
t
m
o

c
a
r
d
i
a
c
o
Correlacin negativa
12 7 2
20
15
10
Test2
T
e
s
t
1
Correlacin positiva perfecta
Interpretacin de
= 0, la correlacin es nula
0 > <30, la correlacin entre las
variables es dbil
30><70, la correlacin es moderada
= 70 a ms, la correlacin es fuerte.
Si = -1 1, la correlacin es perfecta.
90 80 70 60 50
110
100
90
80
70
60
X
Y
Correlacin positiva
( )( )
( ) ( )



=
2
2
2
2
i i i i
i i i i
y y n x x n
y x y x n
r
MEDICIN DEL GRADO DE CORRELACIN
LINEAL SIMPLE
Donde: x
i
e y
i
son valores de las variables X e Y
i = 1, 2, 3, n tamao de la muestra
Para probar Ho: =0, se usa la prueba t cuya
frmula es:
2
1
2
r
n
r t

=
SUPUESTOS A TENER EN CUENTA
Para cada valor X existe una sub poblacin de
valores Y que siguen una distribucin normal.
Para cada valor Y existe una sub poblacin X
que sigue una distribucin normal.
La distribucin X e Y es una distribucin normal
bivariada .
Todos las sub poblaciones de X tienen la misma
varianza.
Todas las sub poblaciones de Y tienen la misma
varianza.
Calcular r
Probar la hiptesis Ho: = 0
N de comidas servidas Costo por comidas
30 4,00
35 3,80
40 3,40
45 3,49
50 3,35
55 3,11
60 3,10
70 2,93
75 2,69
80 2,42
65 2,76
Ejemplo:
El administrador de un hospital reuni los siguientes
datos respecto al costo por comida de una comida
estndar a diferentes volmenes de preparacin
PASOS PARA CALCULAR EL COEFICIENTE DE
CORRELACIN
1. Construccin del grfico de dispersin
N DE COMIDAS
C
O
S
T
O

P
O
R

C
O
M
I
D
A
80 70 60 50 40 30
4,00
3,75
3,50
3,25
3,00
2,75
2,50
DIETAS SEGN N DE COMIDAS Y COSTO
0
1. Calcular r :
( )( )
( ) ( )



=
2 2 2 2
i i i i
i i i i
y y n x x n
y x y x n
r
Clculos previos:

45 . 1850 ) 76 . 2 65 ( ... ) 80 . 3 35 ( ) 00 . 4 30 ( = + + + =
i i
Y X



= + + + = 36025 65 ... 35 30
2 2 2 2
I
X


9797 . 113
2
=

Y



605 65 ... 35 30 = + + + =

i
X


05 . 35 =

i
Y



972 . 0
5025 . 1228 9797 . 113 11 366025 36025 11
05 . 35 605 45 . 1850 11
=


= r


PRUEBA DE HIPTESIS
1. H: = 0 H: 0
2. = 0.05
3. Estadstico de prueba:
4. Criterio de decisin: Ho se rechazar si,
5. Clculo:

6. Decisin estadstica y conclusin:
Se rechaza Ho, por lo tanto, con un nivel de
significacin de 0.05, se afirma que existe
relacin inversa entre las dos variables.
2
1
2
r
n
r t

=
262 . 2 262 . 2 s s
cal
t
( )
41 12
972 0 1
2 11
972 0
2
.
.
. t =


=
ANLISIS DE REGRESIN SIMPLE
En un modelo matemtico que se usa para
predecir y estimar el valor de una variable
dependiente (Y) en funcin de otra variable
individual, llamada independiente, predictiva o
explicativa (X).
La funcin es lineal porque mide la relacin
entre dos variables y es simple porque se usa
una sola variable explicativa. En la regresin, la
funcin entre dos variables es una recta dada
por la ecuacin:
Y = + |X + c

Es el valor de la ordenada donde la
lnea se intercepta con el eje Y.
Es el coeficiente de regresin
poblacional (pendiente de la recta).
Es el error
SUPUESTOS QUE FUNDAMENTAN LA REGRESIN
LINEAL SIMPLE
Los valores de la variable independiente son fijos, es
decir son manipulados por el investigador y por lo tanto
son medidos sin error.
La variable Y es aleatoria
Para cada X existe una sub poblacin de valores Y que
sigue una distribucin normal.
Las varianzas de todas las sub poblaciones y son
iguales (homocedasticidad).
Los valores Y siguen una distribucin normal y son
independientes.
Todas las medias de las sub poblaciones Y se ubican
sobre la recta.

ESTIMACIN DE LA RECTA DE LOS MNIMOS
CUADRADOS
La ecuacin de regresin describe la relacin real entre
la variable dependiente Y y la variable independiente X
en la poblacin.
Para obtener la recta que mejor describa la relacin
entre dos variables se usa el mtodo de mnimos
cuadrados y la recta resultante se llama recta de
mnimos cuadrados.


=
2
2
2
x n x
y x n y x
x x
y y x x
b
i
i i
i
i i
x b y a =

b indica el nmero de unidades que vara y


cuando se produce un cambio en una
unidad en x (pendiente e la recta de
regresin).
Un valor negativo de b, se interpreta como
la magnitud del decremento en y por cada
unidad de aumento en x.
PASOS EN EL ANLISIS DE REGRESIN

para predecir y estimar valores de y.


Ejemplo:
El administrador de un hospital reuni los siguientes
datos respecto al costo por comida de una comida
estndar a diferentes volmenes de preparacin
N de comidas servidas Costo por comidas
30 4,00
35 3,80
40 3,40
45 3,49
50 3,35
55 3,11
60 3,10
70 2,93
75 2,69
80 2,42
65 2,76
Construir un diagrama de dispersin
Calcular la ecuacin de regresin y luego probar la Ho: = 0
N DE COMIDAS
C
O
S
T
O

P
O
R

C
O
M
I
D
A
80 70 60 50 40 30
4,00
3,75
3,50
3,25
3,00
2,75
2,50
DIETAS SEGN N DE COMIDAS Y COSTO
PASOS PARA ESTIMAR LA RECTA
DE LOS MNIMOS CUADRADOS

1. Construir un grfico de dispersin
2. Clculos previos:
n = 11
55
36025
606
2
=
=
=

x
x
x

=
=
05 35
9797 113
2
. y
. y

=
=
45 . 1850
1864 . 3
xy
y
3. Calcular b:






0281 0
2750
322 77
2750 55 11 36025
322 77 1864 3 55 11 45 1850
2 2 2
.
.
b
) x ( n x ) x ( sc
. . . ) y )( x ( n y x ) xy ( CO
i i
=

=
= = =
= = =

4. Calculamos a y luego y
,

889 3 30 0281 0 732 4
327 3 50 0281 0 732 4
732 4 55 0281 0 1864 3
. ) . ( . y
. ) . ( . bx a y
. ) . ( . x b y a
,
,
= + =
= + = + =
= = =
( )( )
( )


=
2
2
2
x n x
y x n y x
x x
y y x x
b
i
i i
i
i i
x
80 70 60 50 40 30
4.00
3.75
3.50
3.25
3.00
2.75
2.50
RECTA DE REGRESIN
Nmero de comidas
Costos
Y = 4.73236 - 2.81E-02X R-Sq = 94.6 %
6. Se grafica la recta, uniendo los dos puntos estimados
de Y interceptado con los valores X que le dieron origen.
y y y y y y
y y total D
y y D
y y in D
i i
i
i

( )

( ) (

exp .

exp
=
=
=
=
( )
( )
( )
( )
total
i
i
i
i
i
SC
SCR
n
y
y
n
x
x b
Y Y
Y Y
r =

(
(

2
2
2
2 2
2



SCR es la suma de cuadrados de la regresin. Magnitud de la
Diferencia entre los valores reales y los ajustados de Y.
SC
total
Variacin total de los valores Y

% 51 . 94 9451 . 0
2976545 . 2
1714275 . 2
11
05 . 35
9797 . 113
11
605
36025 0281 . 0
2
2
2
2
~ = =

(
(


= r
COEFICIENTE DE DETERMINACIN (r
2
)
Medida que permite cuantificar el efecto de X sobre
Y, su valor est entre 0 y 1. Mide el grado de relacin
de las dos variables. Se calcula con la siguiente
frmula:
Interpretacin:
El 94.51% de la variabilidad del costo de las
raciones de comida es explicada por la
variabilidad de la variable independiente,
nmero de comidas.
Tabla ANOVA de la Regresin Lineal Simple
Fuente de variacin G.l. SC CM F p
Regresin lineal 1 2.1728 2.1728 156.67 0.000
Residual 9 0.1248 0.0139
Total 10 2.2977
PUEBA DE HIPTESIS PARA EL COEFICIENTE DE
REGRESIN
1. Ho: =0
H
1:
0
2. = 0.05
3. Estadstico: La razn de varianza
4. Ho se rechazar, si F
cal
> F
tabla

5. Clculo:
6. Decisin estadstica y conclusin:
Ho se rechaza
Se concluye que a un nivel de significacin de 0.05 que el
modelo proporciona un buen ajuste de los datos.
Ejemplo:
La siguiente tabla indica las edades en aos y
los valores de la presin sistlica (PSS) de 20
adultos aparentemente sanos.
N paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Edad 20 43 63 26 53 31 58 46 58 70 46 53 70 20 63 43 26 19 31 23
PSS 120 128 141 126 134 128 136 132 140 144 128 136 146 124 143 130 124 121 126 123
EDAD
P
S
S
70 60 50 40 30 20
145
140
135
130
125
120
PACIENTES SEGN EDAD Y PRESIN SISTLICA
Clculos previos:

( )( )
( ) ( )



=
2
2
2
2
i i i i
i i i i
y y n x x n
y x y x n
r
Calcular r:
| )
( ) 6916900
743044
347080
42978
2630
862
115946
2
2
2
2
=
=
=
=
=
=
=

i
i
i
i
i i
y
x
y
x
y
x
y x
9667 0
6916900 347080 20 743044 42978 20
2630 862 115946 20
.
* *
* *
r =


=
Prueba de hiptesis:
1. Ho: =0
H
1
: 0
2. =0.05
3. Estadstica de prueba:
4. Ho se rechazar si,
5. Clculo:

6. Ho se rechaza y se concluye que la edad y la presin
arterial en la poblacin estn linealmente
correlacionadas a un nivel de significacin de 0.05
2
1
2
r
n
r t

=
t
cal
t t tabla de valor > s
48 22
9667 0 1
2 20
9667 0
2
.
.
. t =


=
Estimacin de la recta de los
mnimos cuadrados
| )
( ) 6916900
743044
347080
42978
2630
862
115946
2
2
2
2
=
=
=
=
=
=
=

i
i
i
i
i i
y
x
y
x
y
x
y x
Clculos previos:
4451 0
8 5825
2593
1 43 20 42978
5 131 1 43 20 115946
2
.
.
. x
. .
b = =


=
32 112 18 19 5 131 1 43 4451 0 5 131 . . . . . . a = = =
( )( )
( )


=
2
2
2
x n x
y x n y x
x x
y y x x
b
i
i i
i
i i
= a+bx
= 112.32 + 0.4451x 30 = 125.673
= 112.32 + 0.4451x 40 = 130.124




Edad
P
S
S
70 60 50 40 30 20
145
140
135
130
125
120
S 2.11980
R-Sq 93.5%
R-Sq(adj) 93.1%
Fitted Line Plot
PSS = 112.3 + 0.4451 Edad
PUEBA DE HIPTESIS PARA EL COEFICIENTE
DE REGRESIN
1. Ho: = 0
H1: 0
2. = 0.05
3. Estadstico: La razn de varianza
4. Ho se rechazar, si Fcal > Ftabla
5. Clculo:
Source DF SS MS F P
Regresin 1 1154.12 1154.12 256.84 0.000
Error 18 80.88 4.49
Total 19 1235.00

6. Ho se rechaza y se concluye que a un nivel de
significacin de 0.05, el modelo se ajusta a los datos
COEFICIENTE DE DETERNINACIN
( )
( )
( )
( ) total
i
i
i
i
i
SC
SCR
n
y
y
n
x
x b
Y Y
Y Y
r =

(
(

2
2
2
2 2
2

| )
( ) 6916900
743044
347080
42978
2630
862
115946
2
2
2
2
=
=
=
=
=
=
=

i
i
i
i
i i
y
x
y
x
y
x
y x
% .
.
.
r 5 93
1235
172599 1154
20
6916900
347080
20
743044
42978 4451 0
2
2
= =


=
La presin sistlica es explicada por la
edad en un 93.5%, el 6.5% se deben a
otras causas.

Você também pode gostar