Escolar Documentos
Profissional Documentos
Cultura Documentos
DEPARTAMENTO DE EPIDEMIOLOGIA
MODELOS DE REGRESSÃO
APLICADOS EM EPIDEMIOLOGIA
I, II e III
2018
1
PROGRAMA
1. Introdução à análise de regressão;
8. Modelagem hierárquica
BIBLIOGRAFIA RECOMENDADA
1. Barros AJD. Modelagem Estatística em Estudos Epidemiológicos. O Modelo Logístico. Campinas,
1990.[Dissertação de Mestrado - Instituto de Matemática, Estatística e Ciências da Computação da
Universidade Estadual de Campinas]
2. Berquó ES, Souza JMP; Gotlieb SLD. Bioestatística. EPU, 1ª edição revista, São Paulo, 1981.
3. Breslow NE; Day NE. Statistical Methods in Cancer Research: vol. 1 - The Analysis of Case-
Controls Studies. IARC, Lyon, 1980.
4. DAWSON-SANDERS B; TRAPP RG. Bioestatística Básica e Clínica. 3a. edição, Lange - Appleton &
Lange/Mc Graw-Hill, 2001.
6. Draper NR; Smith H. Applied Regression Analysis. John Wiley and Sons, 3rd edition. New York, 1998.
7. Hosmer DW; Lemeshow S. Applied logistic regression. John Wiley and Sons, 2nd edition. New York,
2000.
8. Hulley, SB; Cummings SR; Browner WS; Grady D; Hearst N; Newman TB. Designing Clinical
Research. Lippincott Williams & Wilkins, Philadelphia, 2001.
9. Kleinbaum DG; Kupper LL; Muller KE; Nizam A. Applied regression analysis and other multivariable
methods. 3rd edition. Brooks/Cole Pub Co, Boston, 1997.
10. Curns AT; Mizam A. Student solutions manual for Kleimbaum, Kupper, Muller and Nizam´s
Applied regression analysis and other multivariable methods. Brooks/Cole Pub Co, Boston, 1998.
11. Kleinbaum DG; Klein M. Logistic regression. A self-learning text. 2nd edition. Springer-Verlag, New
York, 2002.
12. Lee ET. Statistical methods for survival data analysis. 2nd edition. New York, John Wiley & Sons
INC, 1992.
13. Magalhães MN; Lima ACP. Noções de Probabilidade e Estatística. EDUSP. São Paulo, 2002.
14. Morettin PA; Toloi CMC. Previsão de Séries Temporais. Atual Editora Ltda. 2ª edição. São Paulo,
1987.
15. Massad E; Menezes RX; Silveira PSP; Ortega NRS. Métodos Quantitativos em Medicina. Manole
Editora Ltda. São Paulo 2004.
16. Pereira MG. Epidemiologia Teoria e Prática. Rio de Janeiro: Editora Guanabara Koogan, 1999.
18. Szklo M; Javier-nieto F. Epidemiology – Beyond the Basics. Aspen Publication. Baltimore, 2000.
CRONOGRAMA
AGOSTO
14- Introdução à análise de regressão.
21 – modelo de regressão linear simples.
28 - modelo de regressão linear simples e regressão linear múltipla.
SETEMBRO
4- modelo de regressão linear múltipla
11- modelo de regressão linear múltipla.
18 - não haverá aula
25- modelo de regressão linear múltipla
OUTUBRO
2- seminário 1
Modelos de regressão múltipla
Análise de séries históricas usando modelos de regressão
9 – seminário 2
Exercício 1
16- prova 1
23 – Análise de séries históricas usando modelos de regressão
30 - modelo de regressão logística univariada
NOVEMBRO
6 - modelo de regressão logística múltipla
13 - modelo de regressão logística múltipla
seminário 3
20- modelos de regressão aplicados à epidemiologia seminário 4
27 - seminário 5 :The risk of determining risk with multivariable models
Entrega do exercício 2
DEZEMBRO
4 - Prova
Locais :
QUESTÕES BÁSICAS
ESTRATÉGIAS (stepwise):
SUPOSIÇÕES
1. Distribuição Normal
Para um valor fixo da variável aleatória (v.a.) X
(que, idealmente,deve ser contínua), Y é uma v.a. com
distribuição normal, com média e variância finitas.
Y N YX i ; SY / Xi
2. Os valores de Y são independentes uns dos outros.
(às vezes esta suposição é violada quando se faz diferentes
observações no mesmo indivíduo, em tempos diferentes)
3. Linearidade
O valor médio de Y ( YX i ) é uma função de linha
reta sobre os Xi.
4. Homocedasticidade
A variância de Y é a mesma, qualquer que seja X.
MÉTODOS DE ESTIMATIVAS DE
PARÂMETROS
^ ^ ^ ^
Y = 0 + 1 X , e Y = 0 + 1 X+ε , onde = erro =Y - Y
n n
Yi 0 1 X i i
i1 i1
n n 2
2
Yi ^ 0 ^ 1 X i
i 1
i
i 1
n
n n
n X i Yi X i Yi
i 1 i 1
^ 1 i =1
2
n
n
n X i X i
2
i 1 i 1
n
_
_
^
X i X
Yi Y
1 i 1
2
n
_
i 1
X i X
_ _
^ ^
0 Y 1 X
^
Y =β0+β1X+ (lembrando que =resíduo= Yi Y i )
Na verdade, ~ N0, S .
^
Substituindo-se o valor de 0 na equação
encontra-se que:
^
_
_^
Yi Y + 1 X i X .
_ _
Isso significa que quando X i X Yi Y .
^ _
^ _
Yi Yi Yi Y Y i Y .
n 2 n 2 n 2
_
^ ^ _
i 1
Yi Y Yi Y i + Yi Y
i 1
i 1
+0
SQT SQR SQM
n 2 n 2 n 2
_
^ ^ _
i 1
Yi Y Yi Y i + Yi Y
i 1
i 1
r 2 SQM 0 r2 1
SQT
quanto mais r 2 1, melhor
ANOVA
FONTE SQ GL MÉDIA F
QUADRÁTICA
(MQ)
TOTAL Yi
2
n-1
Y i
2
n
2 2 2
n
Y Y Y Y
_ n ^ n ^ _
i Y Y i
i 1 i 1
i i
i 1
1. O MODELO
Y = 0 1X
_
Y = 0 1 X = Y 1 X - X lembrar que Y Yi YY/X
_ _
^ ^ ^ ^ ^ ^
i
Yi ~ N ^ 0 1 X i ; S 2
^
SQR n 1 2 ^ 2 2
a) Y/X n 2 n 2 SY 1 SX , se 1 0
2
S
SQM
b) SY2 / X , se 1 0
1
2
_
Xi X
^ 1
IC = Y i t n - 2 ,1 - S Y / X
n n - 1 S X2
^ '
2 .2 . T E S T E D E H IP Ó T E S E S P A R A Y i = Yi
H : Y ^ '
0 i = Yi
H a : Y^
i Yi
'
_
_
Y ^ 1 X i X Y i'
to 2
o n d e tc ~ tn 2
_
Xi X
1
SY /X
n n - 1 S X2
^ ^
2.3 INTERVALO DE PREDIÇÃO PARA Yi , onde Yi é
observação e não parâmetro.
2
_
X i X
_
_
1
IP = Y i X i X t n2 ,1 SY/X
^
1
n n -1S X2
3. A INCLINAÇÃO: 1 .
a ) o e s tim a d o r :
_
_
X i X Yi Y
n X iYi X Y
i i
^
n X X
1 2 2
_
2
X i X
i i
b ) o In t e r v a lo d e C o n f ia n c a (IC ) :
S Y /X
IC = ^ 1 t n 2 ,1
SX n -1
c ) o te s te d e h ip o t e s e :
H : ^ 0
o 1
H a : ^ 1 0
c .1 . ) te s te F :
M QM
Fo MQR , onde F c ~ F1 ,n 2
c .2 . ) te s te t :
^ SX n -1
to 1
, onde tc ~ tn2
S Y /X
S Y2 / X
d) S 2
2
^ 1 S X n - 1
4. O INTERCEPTO: 0
a ) o e s tim a d o r:
_ _
0 Y 1 X
^ ^
b ) o in te rv a lo d e c o n fia n c a (IC ) :
_
1 X2
IC = 0 t n 2 ,1 S Y / X
^
n n - 1 S X2
c ) o te s te d e h ip o te s e :
H : 0 0
^
0
H a : 0 0
^
^ 0
to _
; onde tc ~ tn2
1 X2
S Y /X
n n - 1 S X2
_
1 X2
d ) S ^ 2 S Y2 / X
0 n n - 1 S X
2
5. O COEFICIENTE DE CORRELAÇÃO ( ) E A
ANÁLISE DE REGRESSÃO
XY
DEFINIÇÃO : =
X Y
X i X Yi Y n X i Yi X i Y i
2
2
X i X Yi Y
n X i
2 2
X i n Yi 2 Y i
2
PROPRIEDADES :
a) - 1 ≤ ≤ +1
b) não possui dimensão, ié, não depende das unidades de X e Y
S ^
^ r X
1
S Y
^
p ro p rie d a d e : r te m o m e s m o s in a l d e 1
^
se r 0 1 0
^
se r 0 1 0
^
se r 0 1 0
H 0 : = 0
H a : ≠ 0
r n - 2
to ; onde tc ~ tn 2
2
1 - r
^ S
pois 1 Y
∴ 1 = r Y
X S X
R 2 r 2 SQM SQT
como -1 r +1 0 R 2 1
quando r2 é baixo
^
ei Yi Yi , i = 1,2, .......n
Suposições:
a) os ei são independentes, ié, COV(ei,ek) =0, para ik.
b)
e i ~ N 0, S e , onde S e2 = constante
ei X e
se e i ~ N 0; S e ~ N (0;1)
Se
2
_
i
e X e
e i2
onde S e
2
; p = no. de variáveis indep.
n-p n-p
IC 95% ei 1.96;1.96
^
6.2. Gráfico ei Yi
Y 0 ^ 1 X 1 2 X 2 ...... k X k
^ ^ ^ ^
Y : v.a. dependente
Xj : v.a. independentes (regressores)
j : coeficientes de regressão (a serem estimados)
_
(cada j representa a mudança em YY / X1 ,..., X k para uma
unidade de cada Xj, quando todas as outras variáveis
independentes permanecem constantes)
ex:
EY / X 1 X 2 ..... X k 0 0
EY / X 1 1, X 2 ..... X k 0 0 1
EY / X 2 1, X 1 X 3 ..... X k 0 0 2
EY / X 1 X 2 1, X 3 X 4 ..... X k 0 0 1 2
2
n
^
Yi Yi achar os j que minimizam esta expressão
i 1
SUPOSIÇÕES BÁSICAS
São as mesmas do modelo simples, porém com
extensão para múltiplas variáveis.
1. Distribuição Normal
Para um conjunto de valores fixos das v.a. Xj
(que, idealmente, devem ser contínuas), Y é uma v.a.
com distribuição normal, com média e variância finitas
(aqui se trabalha em um espaço k-dimensional).
_
Yi ~ N ( YY / X 1 , X 2 ,..., X k ;S)
3. Linearidade
_
O valor médio de Y (YY / X1 , X2 ,..., X k ) é uma função de
linear sobre os Xj.
4. Homocedasticidade
A variância de Y é a constante, qualquer que seja
o conjunto dos Xj.
2 2 2
n
_
n
^ n
^ _
Yi Y Yi Y i + Yi Y
i 1 i 1 i 1 +0
SQT SQR SQM
FONTE SQ GL MQ FTOTAL
regressão ^ _
2
k SQM Fo k , n k 1
Yi Y k
2 SQR MQM
resíduo ^ n-k-1 n k 1
Yi Y i MQR
2
TOTAL _
n-1
Yi Y
r 2 SQM ; Fc ~ Fk ,n k 1
SQT
MATRIZ DE CORRELAÇÃO
Y X1 X2 X3 ...... Xk
Y 1 rY,X1 rY,X2 rY,X3 rY,Xk ordem de entrada das variáveis independentes
...
...
Xk 1
FONTE SQ GL MQ Fparcial
SQM X1 MQM X 1
regressão X1 * 1 1
Fo 1, n 1 1 MQR
SQM X 2 Fo 1, n 2 1
MQM X 2
X2/X1 * 1 1 MQR
2
resíduo ^ SQR
Yi Y i n-k-1 n k 1
2
TOTAL _
n-1
Yi Y
TESTES DE HIPÓTESES
H 0 : 1 2 ...... k 0
H a : existe pelo menos um dos j 0
R2
F0 k
1 R2
n k 1
2. teste do intercepto
H 0 : 0 0
H a : 0 0
SQR modelo sem 0 SQR modelo com 0
F0 1 , Fc ~ F1,n k 1
SQR modelo com 0
n - k -1
_
nY 2
F0 1 , Fc ~ F1,n1
2
_
Yi Y
n 1
3. Teste do F parcial
H 0 : * 0 , no modelo Y = 0 1 X 1 ... p X p * X *
H a : 0
*
*
H a : X melhora significativamente a predicao de Y,
dado que X , X ,..., X já estao no modelo
1 2 p
SQM X * / X 1 , X 2 ,..., X p SQM X 1 , X 2 ,..., X p , X * SQM X 1 , X 2 , ... , X p
SQM X * / X 1 , X 2 ,..., X p
F po X * / X 1 , X 2 ,..., X p 1
MQR X 1 , X 2 ,..., X p , X *
Fpc X * / X 1 , X 2 ,..., X p ~ F1,n p 1 1
OBS:
1. como reconhecer variável de confusão?
2. como testar interação entre 2 variáveis
independentes?
CORRELAÇÃO MÚLTIPLA
Y = 0 1 X 1 2 X 2 .... k X k
DEF.
Yi Y Yi Y
n
i 1
rY / X1 , X 2 ,... X k rY ,Y
Yi Y
n n 2
2
Yi Y
i 1 i 1
n
Yi Yi nY 2
i 1
rY ,Y
n n
Yi nY . Yi nY
i 1 i 1
Y Y Y Yˆ
n n
2 2
i i i
SQM
r 2 Y/X1 ,X 2 ,...X k R 2 Y ,Yˆ i 1
n
i 1
Y Y
2 SQT
i
i 1
r r
2 k
2
1 r
2 n 1.r 2 k
aj
n k 1 n k 1
Y2 / X 2 Y2 / X 1 , X 2
Y2 , X 1 / X 2
Y2 / X 2
rY , X 1 rY , X 2 . rX 1 , X 2
rY , X 1 / X 2
1 r . 1 r
2
Y, X2
2
X1 , X 2
A estatística Fparcial(Xp/X1, X2,...Xk) é a utilizada para testar
se rY , Xp / X 1 , X 2 ,..., X k 0 .
0 Y 1 X 1 2 X 2 3 X 3
r SY / X 2 . X 3
1 Y ,X1 / X 2 X 3 .
S X1 / X 2 .X 3
r SY / X 1 . X 3
2 Y , X 2 / X1X 3
S X 2 / X1 .X 3
r SY / X 1 . X 2
3 Y , X 3 / X1X 2
S X 3 / X1 .X 2
COLINEARIDADE
Y o 1 X 1 2 X 2
1
pode - se demonstrar que : j c j 2 e
1 - r
X1X 2
1 - rX21, X 2
MÉTODO 1
Estimar uma equação de regressão para cada
categoria da variável.
MÉTODO 2
Definir uma(algumas) variável(eis) dummy e
incorporá-la(s) no modelo. Este método é menos
poderoso.
VARIÁVEIS INDICADORAS
Exemplo:
Y= PAS
X = idade ;
Z = 0 sexo = masculino
Z = sexo
Z = 1 sexo = feminino
Y = 0 1X 2 Z + 3 XZ 1
qdo Z = 0 YM = 0 1X 2
qdo Z = 1 YF = 0 1X 2 + 3 X
YF = ( 0 2 ) ( 1 + 3 )X 3
Perguntas:
1. As inclinações das 2 retas são iguais?(ié, existe
paralelismo?)
2. Os interceptos das 2 retas são iguais?(somente
no caso das 2 retas não serem paralelas)
3. As 2 retas têm interceptos e inclinações
iguais?(ié, são coincidentes?)
CONTINUAÇÃO DO MÉTODO 1
nM 1 S X2 1M nF 1 S X2 ^ 1F
^
^
1 M F
nM 1 S X2 nF 1 S X2
M F
H 0 : 1 M 1F
H a : 1 M 1F
^
^
1 M 1F
to t c ~ t nF n M 4
S 1 M 1F
^
1 1
S 1 M ^ 1F S P2 ,Y / X
n M 1S X M nF 1S X F
2 2
nM 2SY2/ X nF 2SY2/ X F
S 2
P ,Y / X M
n M nF 4
2.teste do intercepto
^ ^
^ n n
0 M 0M F 0F
n M nF
H 0 : 0 M 0 F
H a : 0 M 0 F
^ ^
0 M 0F
to t c ~ tnF n M 4
S 0 M ^ 0 F
_
2
_
1 1 XM X F2
S20 M ^ 0 F S P ,Y / X
2
n M nF nM 1 S X2 nF 1S X2 F
M
dos
j;
8.Avaliar as interações apenas para as variáveis de
confusão;
9. Fazer análise dos resíduos.
Y 0 1 X 2 X 2 ...... k X k
FONTE SQ GL MQ Fparcial
....
* ..... ...... .........
Xk/X,X2,...Xk-1
1 SQM X k Fo 1, n k 1
1 MQM X k
MQR
TOTAL _
2 n-1
Yi Y
Y 0 1 X
Y 0 1 X 2 X 2
Y 0 1 X 2 X 2 3 X 3
DEFINIÇÕES
discreta: Zt t = 1, 2, ...n
valores semanais do número de casos de Aids em São
Paulo
coeficientes de mortalidade (mensais, anuais)
trajetória do processo
É a curva obtida no gráfico das observações no
tempo.
processo estocástico
É um conjunto de todas as possíveis trajetórias que
poder-se-ia observar. Cada trajetória é chamada de uma
série temporal.
ciclo:
É o tempo que um determinado fenômeno leva para
ter um comportamento periódico. Diz-se, nesse caso, que
o fenômeno é cíclico. Esse ciclo pode ou não ser
conhecido a priori. Um fenômeno cíclico envolve um
comportamento sazonal. Porém o inverso não é
verdadeiro.
estacionariedade:
Uma série é considerada estacionária quando as
suas observações ocorrem, aleatoriamente, ao redor de
uma média constante. Essa é a suposição de grande
parte dos modelos. Quando isso não ocorre é necessário
que se façam transformações nos dados e/ou se utilizem
modelos adequados. A não aleatoriedade é um
fenômeno freqüente.
f Z t f Z t m , m 1, 2 ,......
E Z t E Z t + m , t
e
Var Z t Var Z t + m , t
2
Tt tendência
Esse é um componente não aleatório que, muitas
vezes, só consegue ser medido e/ou detectado em longas
séries de tempo.
St componente sazonal
Ocorre quando duas observações no tempo são
correlacionadas, ou seja, não são independentes. Para
se avaliá-lo é necessário analisar as funções de auto-
covariância e de auto-correlação da série.
at ruído branco
também conhecido como resíduo. Supõe-se que
esse seja um componente aleatório, com média zero e
variância constante ( em toda a série).
TENDÊNCIA
SAZONALIDADE
REGRESSÃO LOGÍSTICA
EXEMPLO
Y = 1 DC = sim
Y= doença coronariana(DC)
Y = 0 DC = nao
IDADE DC
SIM NÃO TOTAL p=% de sim
20 - 29 1 9 10 0.10
30 - 34 2 13 15 0.13
35 - 39 3 9 12 0.25
40 - 44 5 10 15 0.33
45 - 49 6 7 13 0.46
50 - 54 5 3 8 0.63
55 - 59 13 4 17 0.76
60 - 69 8 2 10 0.80
Total 43 57 100 0.43
Fonte: Kleimbaum,Klein, 2002.
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
50-54 55-59 60-64 65-69 70-74 75-79 80-89
1
Pr obY 1 p
1 e f x
1
Pr ob( Y 1 ) p
1 e
0 1X
e
1 e
0 1X
Prob(Y 1) = Prob(Y = 0) = 1 - p = 1 -
0 1X = 1 e 0 1X
1 e
Medidas de risco:
a
RP: razão de prevalências RP = a + b c
c+d
a
RR: risco relativo RR = a + b c
c+d
a.d a
OR: odds ratio OR = b
c b.c
d
Y = 1 P(Y = 1) =
⇒Y ~ Bernoulli ⇒
Y = 0 P(Y = 0) = 1 -
2
EY ∑ yi PY yi 1PY 1 0PY 0 1 01 -
i 1
x E Y / X x
e f x
x
1 e f x
e 0 1X 1
x 0 1 X
- 0 1X
1 e 1 e
x
ln 0 1 X
1 - x
SUPOSIÇÕES
3.
EY x EY ^ x
^
erro = resíduo
1 x , se
^
E Y 1,
com prob. x
~ Binomial , pois =
x , se EY 0,
^
.
com prob.1 - x
_
= 0
S 2 x 1 x variância não é constante
0
Seja Y = ⇒
1
e 0 1 X
1 - x 1 e - 0 1 X P Y = 0/X
x 1
P Y = 1/X
1 e 0 1 X
-
n
L ∏ f Yi
i 1
No entanto, e mais fácil maximizar o ln L .
n
ln L ∑ y i ln i 1 - y i ln 1 - i
i 1
n y x 0
i1
i i
As equações são: e
n
xi yi xi 0
i 1
ln L o n1 .lnn1 n0 lnn0 n ln n
TESTES DE HIPÓTESES
D deviance
D 2ln L modelo reduzido ln L modelo saturado
L modelo reduzido
D 2 ln
L modelo
saturado
razão de v erossimilhanç a
H 0 : 1 0 H 0 : OR X 1 1
^
W i , onde Wc ~ N ( 0,1)
SE
^
i
3. Intervalo de Confiança
4. Cálculo do RR
1
1 x 1
Pr obY 1 / X 1 1 exp 1 exp 0
RR
Pr obY 1 / X 0 1 1 exp 0 1
1 exp 0 1 x 0
logo,
H 0 : 1 0 H 0 : OR X 1 1 H 0 : RR X i 1
5. Caso múltiplo
H o : 1 2 ... k 0
H a : o modelo é adequado, ie existe pelo um ≠ 0
H 0 : i 0 H 0 : OR X i 1 H 0 : RR X i 1
^
H a : ^ i 0 H 0 : OR X i 1 H 0 : RR X i 1
i
^
chance: Pr ob(Y 1) p
Pr ob(Y 0) 1 p
p X 1 1
1 p X 1 1 e 0 1 X 1 1 2 X 2 ...... k X k
OR X 1 0 1 X 1 0 2 X 2 ...... k X k
p X10 e
1 p X10
e 0 1 2 X 2 ...... k X k 0 2 X 2 ...... k X k e 1
p
ln 0 1 X 1 2 X 2
1 p
p
ln 0 1 X 1 2 X 2 3 X 1 . X 2
1 p
X1 X2 Z Z1 Z2 Z3
1 1 3 0 0 1
1 0 2 0 1 0
0 1 1 1 0 0
0 0 0 0 0 0
1. Estatística do 2 de Pearson
2. Teste de Hosmer-Lemeshow
LOW = 0 LOW = 1
Chi-Square df Significance