Você está na página 1de 78

FACULDADE DE SAÚDE PÚBLICA - USP

DEPARTAMENTO DE EPIDEMIOLOGIA

MODELOS DE REGRESSÃO
APLICADOS EM EPIDEMIOLOGIA
I, II e III

(HEP- 5743, HEP-5763 e HEP-5764)

Profa. Dra. MARIA DO ROSARIO DIAS DE OLIVEIRA LATORRE


Professora Titular do Departamento de Epidemiologia

2018
1

PROGRAMA
1. Introdução à análise de regressão;

2. Noções de covariância e correlação;

3. Modelo de regressão linear simples e múltipla:


 estimação dos parâmetros;
 tabela de análise de variância (ANOVA);
 distribuições de probabilidades: Normal, t-Student, F-Snedecor e ²;
 interpretação dos coeficientes;
 análise dos resíduos;
 teste F-parcial;
 correlação parcial e múltipla;
 variáveis indicadora;
 confusão e interação;
 escolha do melhor modelo;

4. Modelo de regressão polinomial;

5. Análise de tendência em séries históricas usando modelos de regressão;

6. Modelo de regressão logística simples e múltipla:


 o modelo logístico;
 estimação dos parâmetros;
 interpretação dos coeficientes;
 medidas de ajuste do modelo;
 confusão e interação;
 escolha do melhor modelo;
 análise de resíduos;

7. Noções do modelo de riscos proporcionais de Cox (regressão de Cox), modelo


de regressão de Poisson e modelo idade-período-coorte.

8. Modelagem hierárquica

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


2

BIBLIOGRAFIA RECOMENDADA
1. Barros AJD. Modelagem Estatística em Estudos Epidemiológicos. O Modelo Logístico. Campinas,
1990.[Dissertação de Mestrado - Instituto de Matemática, Estatística e Ciências da Computação da
Universidade Estadual de Campinas]
2. Berquó ES, Souza JMP; Gotlieb SLD. Bioestatística. EPU, 1ª edição revista, São Paulo, 1981.

3. Breslow NE; Day NE. Statistical Methods in Cancer Research: vol. 1 - The Analysis of Case-
Controls Studies. IARC, Lyon, 1980.

4. DAWSON-SANDERS B; TRAPP RG. Bioestatística Básica e Clínica. 3a. edição, Lange - Appleton &
Lange/Mc Graw-Hill, 2001.

5. DIGGLE PJ.Time series: a Biostatistical introduction. Oxford University Press; 1992.

6. Draper NR; Smith H. Applied Regression Analysis. John Wiley and Sons, 3rd edition. New York, 1998.

7. Hosmer DW; Lemeshow S. Applied logistic regression. John Wiley and Sons, 2nd edition. New York,
2000.

8. Hulley, SB; Cummings SR; Browner WS; Grady D; Hearst N; Newman TB. Designing Clinical
Research. Lippincott Williams & Wilkins, Philadelphia, 2001.

9. Kleinbaum DG; Kupper LL; Muller KE; Nizam A. Applied regression analysis and other multivariable
methods. 3rd edition. Brooks/Cole Pub Co, Boston, 1997.

10. Curns AT; Mizam A. Student solutions manual for Kleimbaum, Kupper, Muller and Nizam´s
Applied regression analysis and other multivariable methods. Brooks/Cole Pub Co, Boston, 1998.

11. Kleinbaum DG; Klein M. Logistic regression. A self-learning text. 2nd edition. Springer-Verlag, New
York, 2002.

12. Lee ET. Statistical methods for survival data analysis. 2nd edition. New York, John Wiley & Sons
INC, 1992.

13. Magalhães MN; Lima ACP. Noções de Probabilidade e Estatística. EDUSP. São Paulo, 2002.

14. Morettin PA; Toloi CMC. Previsão de Séries Temporais. Atual Editora Ltda. 2ª edição. São Paulo,
1987.

15. Massad E; Menezes RX; Silveira PSP; Ortega NRS. Métodos Quantitativos em Medicina. Manole
Editora Ltda. São Paulo 2004.

16. Pereira MG. Epidemiologia Teoria e Prática. Rio de Janeiro: Editora Guanabara Koogan, 1999.

17. Revista Brasileira de Epidemiologia. 2001; 4(3):178-90.

18. Szklo M; Javier-nieto F. Epidemiology – Beyond the Basics. Aspen Publication. Baltimore, 2000.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


3

CRONOGRAMA

AGOSTO
14- Introdução à análise de regressão.
21 – modelo de regressão linear simples.
28 - modelo de regressão linear simples e regressão linear múltipla.

SETEMBRO
4- modelo de regressão linear múltipla
11- modelo de regressão linear múltipla.
18 - não haverá aula
25- modelo de regressão linear múltipla

OUTUBRO
2- seminário 1
Modelos de regressão múltipla
Análise de séries históricas usando modelos de regressão
9 – seminário 2
Exercício 1
16- prova 1
23 – Análise de séries históricas usando modelos de regressão
30 - modelo de regressão logística univariada

NOVEMBRO
6 - modelo de regressão logística múltipla
13 - modelo de regressão logística múltipla
seminário 3
20- modelos de regressão aplicados à epidemiologia seminário 4
27 - seminário 5 :The risk of determining risk with multivariable models
Entrega do exercício 2

DEZEMBRO
4 - Prova

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


4

Carga horária: 120 horas (12 créditos)

Horário da aula teórica/prática: 3ª feiras, das 8 às 12


horas
Horário para exercícios com monitor: 5ª feiras, das 8
às 10 horas

Locais :

 aula teórica: Sala Fernando Guimarães


 aula prática: Sala de Informática do sub-solo
 monitoria: Sala de Informática do HEP (2º. andar)

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


5

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


6

INTRODUÇÃO À ANÁLISE DE REGRESSÃO

Na prática há diversas situações em que a análise


de regressão é apropriada:

1. Quando se deseja caracterizar a relação entre uma variável


dependente (Y) e uma ou mais variáveis independentes (Xi), ié,
avaliar a extensão, direção e força da relação (associação).

2. Procurar uma função matemática ou equação para descrever


a variável dependente (Y) como função da variáveis
independentes (Xi), ié, predizer Y em função dos Xi;
determinando o melhor modelo estatístico que descreva essa
relação.

3. Descrever quantitativa e/ou qualitativamente a relação entre


os Xi e Y, controlando o efeito de outras variáveis (Ci).

4. Verificar o efeito interativo de 2 ou mais variáveis


independentes às quais se relacionam com a variável
dependente.

5. Determinar quais das muitas variáveis independentes são


importantes para descrever ou predizer a variável dependente.
Ordenar as variáveis independentes em sua ordem de
importância em relação à variável dependente.

6. Comparar múltiplos relacionamentos derivados da análise de


regressão.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


7

É importante ser cauteloso sobre os resultados


obtidos em uma análise de regressão, ou, de uma
maneira mais geral, em qualquer análise utilizando
técnicas estatísticas que procurem quantificar uma
associação entre 2 ou mais variáveis.

A análise estatística pode estar correta, porém os


dados podem estar viciados e/ou incompletos.

(vícios no delineamento, na amostragem, nas


medidas, na escolha das variáveis e outros)

O achado de uma associação estatística


significativa em um particular estudo não estabelece
uma relação causal.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


8

QUESTÕES BÁSICAS

 Qual a função matemática mais apropriada a ser


utilizada? (Em outras palavras: os dados se ajustam
melhor a uma reta? A uma parábola? A uma função
logística?)

 Como determinar o melhor modelo que se ajuste


aos dados?

 Qual a validade e a precisão da(s) estimativa(s)


do(s) coeficiente(s) de regressão?

 A presença, no modelo, de determinada variável


independente melhora a precisão do mesmo?

 Dado um modelo específico, o que ele significa?

ESTRATÉGIAS (stepwise):

MODELO MAIS COMPLEXO  MAIS SIMPLES


(BACKWARD SELECTION)

MODELO MAIS SIMPLES  MAIS COMPLEXO


(FORWARD SELECTION)

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


9

SUPOSIÇÕES

1. Distribuição Normal
Para um valor fixo da variável aleatória (v.a.) X
(que, idealmente,deve ser contínua), Y é uma v.a. com
distribuição normal, com média e variância finitas.


Y  N YX i ; SY / Xi 
2. Os valores de Y são independentes uns dos outros.
(às vezes esta suposição é violada quando se faz diferentes
observações no mesmo indivíduo, em tempos diferentes)

3. Linearidade
O valor médio de Y ( YX i ) é uma função de linha
reta sobre os Xi.

4. Homocedasticidade
A variância de Y é a mesma, qualquer que seja X.

S Y2 / X i  S Y2 / X K ,  i e k ; ie, S Y2 / X i  S 2 para todo X.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


10

MÉTODOS DE ESTIMATIVAS DE
PARÂMETROS

1. MÉTODO DOS MÍNIMOS QUADRADOS


É o método que determina a linha reta mais
apropriada, minimizando a soma dos quadrados das
diferenças entre os valores estimados de Y por meio
da reta de regressão ( Y^ ) e os valores observados de
Y.

2. MÉTODO DA MÁXIMA VEROSSIMILHANÇA


Consiste em determinar uma função, denominada
função de verossimilhança  L y,  , que é a função
de probabilidade de ocorrência daquele específico
consjunto de dados e estimar os parâmetros que
maximizam a mesma.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


11

O MODELO DE REGRESSÃO LINEAR


SIMPLES

A função que determina uma reta é: Y = 0 + 1 X.

Porém, como se deseja fazer uma estimativa, a


reta de regressão estimada pode ser escrita da
seguinte maneira:

^ ^ ^ ^
Y =  0 +  1 X , e Y = 0 + 1 X+ε , onde  = erro =Y - Y

^ 0 e ^ 1 são estimados pelo Método dos Mínimos


Quadrados da seguinte maneira:

Em uma amostra de tamanho n tem-se n pares de


observações das v.a. X e Y: (X1, Y1), ... (Xn,Yn) e n
equações do tipo .

Somando-se todas as n equações, tem-se:

n n 
 Yi     0   1 X i   i 
i1 i1 

A soma (S) dos quadrados dos desvios () é:

  
n n 2
2
   Yi  ^ 0  ^ 1 X i 
i 1
i
i 1
 

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


12

Para se encontrar os valores de 0 e 1 que


minimizam a equação acima deve-se derivá-la em
relação a 0 e 1, igualando as equações a zero. (Não
se preocupem que não irei demonstrar isso nesse
curso!!).

Dessa maneira os valores estimados para 0 e 1


são:

n
 n  n 
n X i Yi    X i    Yi 
 i 1   i 1 
^ 1  i =1
2 
n
 n 
n X i    X i 
2
i 1  i 1 

n
 _
 _

^
 

X i  X 



Yi  Y 

1  i 1
2
n
 _
 

i 1
 X i  X
 

_ _
^ ^
 0  Y  1 X 

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


13

Analisando melhor a equação  ...

^
Y =β0+β1X+ (lembrando que  =resíduo= Yi  Y i )

Qual o valor esperado para  ? (  0)

Na verdade,  ~ N0, S  .

^
Substituindo-se o valor de  0 na equação 
encontra-se que:

^
_
 _^

Yi  Y +  1  X i  X .
 

_ _
Isso significa que quando X i  X  Yi  Y .

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


14

PRECISÃO DA RETA ESTIMADA

Considera-se a seguinte identidade:

^ _
 ^ _

Yi  Yi   Yi  Y   Y i  Y .
   

Elevando-se ao quadrado os 2 lados da igualdade


acima e fazendo-se a soma de todas as n equações
(i=1,2, ...,n), obtem-se:

n 2 n 2 n 2
  _
 ^   ^ _

i 1
 Yi  Y    Yi  Y i  +   Yi  Y
  i 1
  i 1
  +0 

  
SQT SQR SQM

 SQT: soma de quadrados total, ié, soma dos


quadrados dos desvios do valor de Y da i-ésima
observação em relação à média dos Y.

 SQR: soma dos quadrados devido aos resíduos,


ié,a soma dos quadrados dos desvios entre o valor
de Y da i-ésima observação e seu valor estimado.

 SQM: soma dos quadrados devido à regressão,


ié, a soma dos quadrados dos desvios do valor
estimado de Y para a i-ésima observação e a média
dos Y.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


15

n 2 n 2 n 2
  _
 ^   ^ _

i 1
 Yi  Y    Yi  Y i  +   Yi  Y
  i 1
  i 1
 

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


16

A equação  é chamada a EQUAÇÃO


FUNDAMENTAL DA REGRESSÃO e pode ser
reescrita como:

soma dos quadrados sobre a média (SQT) = soma de


quadrados sobre a regressão (SQR) + soma de
quadrados devida à regressão (SQM).

Isso significa que a variação total dos Y's sobre


sua média pode ser explicada uma parte pela linha de
regressão e outra pelos resíduos. Se todos os Y's
caíssem sempre na linha de regressão a SQR seria
zero!!

Portanto, quanto mais a SQM for próxima da SQT


melhor.

Daí deriva-se uma medida quantitativa de


precisão da reta estimada denominada r2 (coeficiente
de determinação).

r 2  SQM  0  r2  1
SQT

quanto mais r 2  1, melhor

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


17

ANOVA

FONTE SQ GL MÉDIA F
QUADRÁTICA

(MQ)

DEVIDO A ^ 1  Xi Yi    Xi   Yi   1 SQM/GL Fc 1, n  2 


 n 
REGRESSÃO

DEVIDO AO por subtração n-2 SQR MQM


S2 
RESÍDUO GL MQR

TOTAL   Yi 
2
n-1
Y i
2

n

SQT = SQR + SQM

2 2 2
n
   Y  Y    Y  Y
_ n ^ n ^ _
 i  Y  Y     i 
 i 1   i 1  
i i
i 1

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


18

REGRESSÃO LINEAR SIMPLES

1. O MODELO

Y =  0   1X  

_  
 
Y =  0  1 X = Y   1  X - X   lembrar que Y  Yi  YY/X 
_ _
^ ^ ^ ^ ^ ^

  i
 

 
Yi ~ N  ^ 0  1 X i ; S 2 
^

 

1.1.Estimativas para S 2 sY/X


2

SQR n  1  2 ^ 2 2 
a) Y/X n  2  n  2  SY   1 SX  , se  1  0

2
S

SQM
b) SY2 / X  , se 1  0
1

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


19

2.1.INTERVALO DE CONFIANÇA PARA


^
_
 _ _

Yi  Y Y/Xi  Y   1  X i  X^
 

2
 _

 Xi  X
^ 1  
IC = Y i  t n - 2 ,1 -  S Y / X 
n  n - 1  S X2

^ '
2 .2 . T E S T E D E H IP Ó T E S E S P A R A Y i = Yi

H : Y ^ '
 0 i = Yi

 H a : Y^
i  Yi
'

_
 _

Y  ^ 1  X i  X   Y i'
 
to  2
o n d e tc ~ tn  2
 _

 Xi  X
1  
SY /X 
n  n - 1  S X2

^ ^
2.3 INTERVALO DE PREDIÇÃO PARA Yi , onde Yi é
observação e não parâmetro.

2
 _

X i  X
_
 _
 1  
IP = Y  i X i  X  t n2 ,1 SY/X
^
1 
  n  n -1S X2

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


20

3. A INCLINAÇÃO: 1 .
a ) o e s tim a d o r :
 _
 _

 
X i  X   Yi  Y 
  n  X iYi   X  Y 
i i
^  
n X   X 
1 2 2
 _
 2
 
X i  X

i i

b ) o In t e r v a lo d e C o n f ia n c a (IC ) :
S Y /X
IC = ^ 1  t n  2 ,1  
SX n -1

c ) o te s te d e h ip o t e s e :
 H : ^  0
 o 1

 H a : ^ 1  0

c .1 . ) te s te F :
M QM
Fo  MQR , onde F c ~ F1 ,n  2

c .2 . ) te s te t :

^ SX n -1
to  1
, onde tc ~ tn2
S Y /X

S Y2 / X
d) S 2
 2
^ 1 S X n - 1

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


21

4. O INTERCEPTO: 0

a ) o e s tim a d o r:
_ _
 0  Y  1 X
^ ^

b ) o in te rv a lo d e c o n fia n c a (IC ) :
_
1 X2
IC =  0  t n  2 ,1   S Y / X
^

n  n - 1  S X2

c ) o te s te d e h ip o te s e :
H : 0  0
^
 0

 H a : 0  0
^

^ 0
to  _
; onde tc ~ tn2
1 X2
S Y /X 
n  n - 1  S X2

 _

1  X2 
d ) S ^ 2  S Y2 / X
0 n  n - 1 S X 
2
 

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


22

H0:B1=0 não é rejeitada

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


23

5. O COEFICIENTE DE CORRELAÇÃO ( ) E A
ANÁLISE DE REGRESSÃO

 XY
DEFINIÇÃO : =
 X Y

 
 

  X i  X  Yi  Y  n X i Yi   X i  Y i 
    

  2
  

2

  X i  X    Yi  Y  
 n X i
2 2

  X i  n Yi 2   Y i 
2

     
 

PROPRIEDADES :
a) - 1 ≤  ≤ +1
b)  não possui dimensão, ié, não depende das unidades de X e Y

Na análise de regressão linear, um estimador


para o coeficiente de correlação é:

S ^
^  r  X
 1
S Y
^
p ro p rie d a d e : r te m o m e s m o s in a l d e  1

 ^
se r  0   1  0
 ^
 se r  0   1  0
 ^
se r  0   1  0

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


24

TESTE DE HIPÓTESE PARA  :

H 0 :  = 0

H a :  ≠ 0

r n - 2
to  ; onde tc ~ tn 2
2
1 - r

obs : é equivalent e ao teste H0 : ^ 1 = 0,

 ^ S
pois 1   Y
∴  1 = r Y
 X S X

INTERVALO DE CONFIANÇA (IC) :


 1 1 + r  1 1 + r  z1 -
IC  ln   = ln   
 2  1 - r  2  1 - r  n - 3

OBS: como H0 :  = 0 pode ser escrito inteiramente


em termos de r e de n, pode-se realizar o teste de
hipótese mesmo sem o ajuste de uma linha reta.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


25

Lembram-se do r2? Na verdade, r2 = (r)2.

R 2  r 2  SQM SQT

como -1  r  +1  0  R 2  1

quando R 2  1  1  0 e SQR = 0  o ajuste é perfeito!!!


^

por outro lado, quando R 2  0  1  0 e que SQT = SQR 


^

não há melhora na predição de Y, quando se utiliza X.

O que r2 não mede:


1. a magnitude da inclinação de uma reta de
regressão;
2. não é uma medida apropriada para avaliar a
linearidade do modelo.

quando r2 é baixo

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


26

6. ANÁLISE DOS RESÍDUOS ( i =ei):

^
ei  Yi  Yi , i = 1,2, .......n

Suposições:
a) os ei são independentes, ié, COV(ei,ek) =0, para ik.

b)  
e i ~ N 0, S e , onde S e2 = constante

6.1. Análise Global:

ei  X e
se e i ~ N 0; S e   ~ N (0;1)
Se
2
 _

  i

e  X e
  e i2
onde S e 
2
 ; p = no. de variáveis indep.
n-p n-p
 IC 95% ei    1.96;1.96

teste estatístico: aderência dos ei à curva Normal.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


27

^
6.2. Gráfico ei  Yi

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


28

 a variância não é constante (conforme suposto):


deve-se fazer uma transformação na variável
dependente Yi, antes da análise de regressão ou fazer
a estimação por mínimos quadrados ponderados.

 erro na análise de regressão: o modelo está viciado.

 o modelo é inadequado. São necessários termos


adicionais (ex:quadrático ou produtos cruzados) ou é
necessário que se faça uma transformação na variável
dependente Y antes da análise.

6.3. Gráfico ei  Xi : idem ao 6.2.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


29

6.4. Seqüência no tempo


(obs: é necessário que se conheça a seqüência, no
tempo, em que os resíduos ocorrem)

 a variância não é constante no tempo: deve-se utilizar


mínimos quadrados ponderados.

o tempo deve ser uma variável independente a ser


introduzida no modelo (termo linear).

idem ao , mas acrescentar, também, o termo de 2o.


grau

6.5. testes estatísticos:


dos sinais e outros.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


30

7. VALORES ABERRANTES (OUTLIERS)

Um valor aberrante é um ponto peculiar do


conjunto de dados e, por isso, deve ser examinado
cuidadosamente para que se descubra a razão de sua
particularidade.

Não é prudente descartá-lo sem antes se


proceder à uma investigação. Ele pode ser
descartado quando seu valor for devido à um erro de
mensuração e/ou registro ou devido à outro fator
externo ao estudo.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


31

ANÁLISE DE REGRESSÃO LINEAR


MÚLTIPLA
(MULTIVARIADA ????)

Y   0  1 X 1   2 X 2  ......   k X k   ; k : numero de variaveis

Y  f X1 , X 2 ,....., X k  , utilizando amostra de tamanho n

Y   0  ^ 1 X 1   2 X 2  ......   k X k
^ ^ ^ ^

Y : v.a. dependente
Xj : v.a. independentes (regressores)
j : coeficientes de regressão (a serem estimados)
_
(cada j representa a mudança em YY / X1 ,..., X k para uma
unidade de cada Xj, quando todas as outras variáveis
independentes permanecem constantes)

ex:
EY / X 1  X 2 .....  X k  0   0
EY / X 1  1, X 2 .....  X k  0   0   1
EY / X 2  1, X 1  X 3 .....  X k  0   0   2
EY / X 1  X 2  1, X 3  X 4 .....  X k  0   0   1   2

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


32

ESTIMATIVA POR MÍNIMOS QUADRADOS:

2
n
 ^
  Yi  Yi   achar os  j que minimizam esta expressão
i 1

 : erro = resíduo (desvio do verdadeiro valor de Y em


relação ao valor estimado pelo modelo, ié,  Yi  Yi 
^

 

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


33

SUPOSIÇÕES BÁSICAS
São as mesmas do modelo simples, porém com
extensão para múltiplas variáveis.

1. Distribuição Normal
Para um conjunto de valores fixos das v.a. Xj
(que, idealmente, devem ser contínuas), Y é uma v.a.
com distribuição normal, com média e variância finitas
(aqui se trabalha em um espaço k-dimensional).

_
Yi ~ N ( YY / X 1 , X 2 ,..., X k ;S)

2. Os valores de Y são independentes uns dos


outros.

3. Linearidade
_
O valor médio de Y (YY / X1 , X2 ,..., X k ) é uma função de
linear sobre os Xj.

4. Homocedasticidade
A variância de Y é a constante, qualquer que seja
o conjunto dos Xj.

5.Não existe correlação entre os erros, ié, para


quaisquer 2 amostras tem-se que :
COV  i ,  l   0 ,  i  l .

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


34

6.Cada variável independente não está correlacionada


com o termo de erro, ié, para cada

X j , COV X j ,  i , j  0 
7.Não há colinearidade perfeita entre as variáveis
independentes, ié, nenhuma variável independente
está relacionada linearmente, de maneira perfeita,
com uma ou mais variáveis independentes.

EQUAÇÃO GERAL DA REGRESSÃO

2 2 2
n
 _
 n
 ^  n
 ^ _
  Yi  Y    Yi  Y i  +   Yi  Y
i 1 i 1 i 1 +0 
  
SQT SQR SQM

SQTotal=SQ devida ao resíduo + SQ devida à regressão

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


35

ANOVA (modelo geral)

FONTE SQ GL MQ FTOTAL
regressão  ^ _
2
k SQM Fo  k , n  k  1 
  Yi  Y  k
2 SQR MQM
resíduo  ^  n-k-1 n  k 1
  Yi  Y i  MQR

2
TOTAL  _
 n-1
  Yi  Y 

r 2  SQM ; Fc ~ Fk ,n  k 1
SQT

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


36

MATRIZ DE CORRELAÇÃO

É uma matriz (k+1) x (k+1), sendo k o número de


variáveis independentes que serão testadas no
modelo múltiplo. Nesta matriz aparecem os
coeficientes de correlação (r) entre todas as
variáveis de estudo, sendo que na primeira linha
deverão estar os coeficientes de correlação entre a
variável dependente e as variáveis independentes.
Esta é uma matriz com a diagonal unitária

Y X1 X2 X3 ...... Xk
Y 1 rY,X1 rY,X2 rY,X3 rY,Xk ordem de entrada das variáveis independentes

X1 1 rX1,X2 rX1,X3 rX1,Xk


X2 1 rX2,X3 rX2,Xk colinearidade

...
...
Xk 1

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


37

ANOVA (adição de variáveis)

FONTE SQ GL MQ Fparcial
SQM X1 MQM X 1
regressão X1 * 1 1
Fo 1, n  1  1  MQR

SQM X 2 Fo 1, n  2  1 
MQM X 2
X2/X1 * 1 1 MQR

.... * ..... ...... .........


SQM X k Fo 1, n  k  1 
MQM X k
Xk/X1,X2,...Xk-1 1 1 MQR

2
resíduo  ^  SQR
  Yi  Y i  n-k-1 n  k 1

2
TOTAL  _
 n-1
  Yi  Y 

* fórmulas nas páginas seguintes.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


38

TESTES DE HIPÓTESES

1. Teste de significância do modelo geral

H 0 :  1   2 ......   k  0

H a : existe pelo menos um dos  j  0

Fo  MQM MQR , onde Fc ~ Fk , n  k  1

R2
F0  k
1  R2
n  k 1

2. teste do intercepto

H 0 :  0  0

H a :  0  0
SQR modelo sem  0   SQR modelo com  0 
F0  1 , Fc ~ F1,n k 1
SQR modelo com  0 
n - k -1

_
nY 2
F0  1 , Fc ~ F1,n1
2
 _

  Yi  Y 
n 1

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


39

3. Teste do F parcial

H 0 :  *  0 , no modelo Y =  0  1 X 1  ...   p X p   * X *

H a :   0
*

 *
H a : X melhora significativamente a predicao de Y,
 dado que X , X ,..., X já estao no modelo
 1 2 p

    
SQM X * / X 1 , X 2 ,..., X p  SQM X 1 , X 2 ,..., X p , X *  SQM X 1 , X 2 , ... , X p 

SQM X * / X 1 , X 2 ,..., X p 

 F po X * / X 1 , X 2 ,..., X p   1

MQR X 1 , X 2 ,..., X p , X *

 
Fpc X * / X 1 , X 2 ,..., X p ~ F1,n   p 1 1

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


40

4. Teste múltiplo do F parcial

H 0 : 1*   2*  ...   k*  0 no modelo



 Y =  0  1 X 1  ...   p X p    
* * * * * *
X  X  ...  kX
1 12 2  k
 bloco de variáveis


H a : pelo menos um  *j ≠ 0

 H a : o bloco inteiro dos X*j melhora significativamente a

predicão de Y, dado que X1 , X 2 ,..., X p já estão no modelo

SQM  X 1* , X 2* ,..., X k* / X 1 , X 2 ,..., X p  


 SQM  X 1 , X 2 ,..., X p , X 1* , X 2* ,..., X k*   SQM  X 1 , X 2 ,..., X p 

SQM  X 1* , X 2* ,..., X k* / X 1 , X 2 ,..., X p 


 Fmpo  X 1* , X 2* ,..., X k* / X 1 , X 2 ,..., X p   k
MQR X 1 , X 2 ,..., X p , X , X ,..., X
*
1
*
2
*
k 

Fmpc  X 1* , X 2* ,... , X k* / X 1 , X 2 ,..., X p  ~ Fk ,n p k 1

OBS:
1. como reconhecer variável de confusão?
2. como testar interação entre 2 variáveis
independentes?

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


41

CORRELAÇÃO MÚLTIPLA

Y =  0   1 X 1   2 X 2  ....  k X k

DEF.

 Yi  Y Yi  Y 
n

i 1
rY / X1 , X 2 ,... X k  rY ,Y 
 Yi  Y    
n n 2
2
Yi  Y
i 1 i 1

n
 Yi Yi  nY 2
i 1
rY ,Y 
 n   n  
  Yi  nY  .   Yi  nY 
 i 1   i 1 

DEF: coeficiente de determinação múltipla (r2)

 Y  Y    Y  Yˆ 
n n
2 2
i i i
SQM
r 2 Y/X1 ,X 2 ,...X k  R 2 Y ,Yˆ  i 1
n
i 1

 Y  Y 
2 SQT
i
i 1

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


42

Coef. de determinação múltipla ajustado (r2 aj.)

r r 
2 k
2
1 r 
2 n  1.r 2  k
 
aj
n  k 1 n  k 1

raj2  leva em conta a chance de contribuição de cada variável


incluída, subtraindo-se o valor que seria esperado se nenhuma
variável independente fosse associada à variável dependente.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


43

O COEFICIENTE DE CORRELAÇÃO PARCIAL

rY,Xi/Xj  é uma estimativa de Y,Xi/Xj

Vamos supor a situação em que tenho apenas duas


variáveis independentes X1 e X2.

 Y2 / X 2   Y2 / X 1 , X 2
 Y2 , X 1 / X 2 
 Y2 / X 2

Nesta situação particular, tem-se que o coeficiente de


correlação parcial ao quadrado é:

SQRdo modelo so com X 2   SQR do modelo completo, ie, com X1 e X 2 


rY2, X 1 / X 2 
SQR mod elo so com X 2 

extra SQ devido a adicao de X1 , dado que X 2 ja estava no modelo


rY2, X 1 / X 2 
SQR modelo so com X 2 

rY , X 1  rY , X 2 . rX 1 , X 2
rY , X 1 / X 2 
1  r  . 1  r
2
Y, X2
2
X1 , X 2 
A estatística Fparcial(Xp/X1, X2,...Xk) é a utilizada para testar
se rY , Xp / X 1 , X 2 ,..., X k  0 .

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


44

Representação alternativa do modelo de regressão.


Todos os coeficientes de regressão podem ser escritos em
função das correlações parciais.

Por exemplo, para k=3 (ié, 3 variáveis independentes),


tem-se:

 0  Y   1 X 1   2 X 2   3 X 3

  r SY / X 2 . X 3
1 Y ,X1 / X 2 X 3 .
S X1 / X 2 .X 3

  r SY / X 1 . X 3
2 Y , X 2 / X1X 3
S X 2 / X1 .X 3

  r SY / X 1 . X 2
3 Y , X 3 / X1X 2
S X 3 / X1 .X 2

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


45

COLINEARIDADE

Y   o  1 X 1   2 X 2
 1 
pode - se demonstrar que :  j  c j  2 e
1 - r
 X1X 2 

que  0 , 1 e  2 são diretamente proporcionais a 1


^ ^ ^

1 - rX21, X 2

FIV : fator inflacionário da variância


1
FIV 
1 - R 2j
quando FIV  10 ⇒ há colinearidade
FIV  10 ⇒ R 2j  0.90 ⇒ r j  0.95

Para se evitar a colinearidade pode-se "centralizar"


a variável.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


46

VARIÁVEIS CATEGÓRICAS EM REGRESSÃO


LINEAR

Há dois métodos para se analisar variáveis


categóricas em regressão linear:

MÉTODO 1
Estimar uma equação de regressão para cada
categoria da variável.

MÉTODO 2
Definir uma(algumas) variável(eis) dummy e
incorporá-la(s) no modelo. Este método é menos
poderoso.

VARIÁVEIS INDICADORAS

Variáveis indicadoras (ou dummy ) são quaisquer


variáveis que têm um número finito de valores que
representam diferentes categorias de uma variável
qualitativa.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


47

Exemplo:
Y= PAS

X = idade ;

Z = 0  sexo = masculino
Z = sexo 
Z = 1  sexo = feminino

Y =  0   1X   2 Z +  3 XZ 1

qdo Z = 0  YM =  0   1X  2

qdo Z = 1  YF =  0   1X   2 +  3 X 
YF = (  0   2 )  (  1 +  3 )X 3

O modelo (1) incorpora as 2 equações de


regressão separadas [(2) e (3)] em um único modelo.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


48

COMPARAÇÃO DE 2 RETAS DE REGRESSÃO

Questão:será que a associação entre PAS e idade é a


mesma para homens e mulheres?

Perguntas:
1. As inclinações das 2 retas são iguais?(ié, existe
paralelismo?)
2. Os interceptos das 2 retas são iguais?(somente
no caso das 2 retas não serem paralelas)
3. As 2 retas têm interceptos e inclinações
iguais?(ié, são coincidentes?)

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


49

CONTINUAÇÃO DO MÉTODO 1

1. teste de paralelismo de 2 retas

 nM  1 S X2  1M   nF  1 S X2 ^ 1F
^
^
1  M F

 nM  1 S X2   nF  1 S X2
M F

H 0 :  1 M   1F

 H a :  1 M   1F
^
^
 1 M   1F
to  t c ~ t nF  n M  4
S 1 M   1F
^

 1 1 
S 1 M  ^ 1F  S P2 ,Y / X   
  n M  1S X M  nF  1S X F
2 2


 nM  2SY2/ X   nF  2SY2/ X F
S 2
P ,Y / X  M

n M  nF  4

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


50

2.teste do intercepto

^ ^
^ n  n 
 0  M 0M F 0F
n M  nF

H 0 :  0 M   0 F

H a :  0 M   0 F
^ ^
 0 M   0F
to  t c ~ tnF  n M  4
S 0 M  ^ 0 F

 _
2
_

 1 1 XM X F2 
S20 M  ^ 0 F  S P ,Y / X
2
  
 n M nF  nM  1 S X2  nF  1S X2 F 
 M


3. teste de coincidência de 2 retas

Se ambas as hipóteses nulas forem aceitas: a de


paralelismo e mesmo intercepto.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


51

"PASSOS" PARA SE FAZER MODELAGEM EM


REGRESSÃO

1.Selecionar as variáveis independentes, não se


esquecendo das possíveis variáveis de confusão;
2.Codificar previamente as variáveis;
3.Fazer gráficos de dispersão (scatter plot) com todas as
variáveis, 2 a 2;
4.Fazer a análise univariada das variáveis independentes,
não se esquecendo de fazer a análise de resíduos.

5. Fazer a matriz de correlação para avaliar a


colinearidade das variáveis independentes e definir a
ordem de entrada das mesmas no modelo múltiplo.

6.Fazer a análise múltipla, avaliando a significância do


modelo geral, de cada uma das variáveis e do
incremento de cada uma delas, através do teste F e
Fparcial. Não se esquecer de avaliar os possíveis
efeitos de confusão e a colinearidade entre as
variáveis;

7.Decidir pelo melhor modelo, ié, o mais "ajustado".


Fazer a estimação por ponto e por intervalo de cada um

dos
 j;
8.Avaliar as interações apenas para as variáveis de
confusão;
9. Fazer análise dos resíduos.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


52

ANÁLISE DE REGRESSÃO POLINOMIAL

Y   0   1 X   2 X 2 ......  k X k

ANOVA (regressão polinomial)

FONTE SQ GL MQ Fparcial

regressão X * 1 SQM X Fo 1, n  1  1 


MQM X
MQR
1

X2/X * 1 SQM X 2 Fo 1, n  2  1 


MQM X 2
MQR

....
* ..... ...... .........
Xk/X,X2,...Xk-1
1 SQM X k Fo 1, n  k  1 
1 MQM X k
MQR

resíduo 2 n-k-1 SQR


 ^  n  k 1
  Yi  Y i 

TOTAL  _

2 n-1
  Yi  Y 

* fórmulas iguais às já citadas.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


53

MODELO DE REGRESSÃO LINEAR

Y   0  1 X

MODELO DE REGRESSÃO DE 2a ORDEM

Y   0  1 X   2 X 2

MODELO DE REGRESSÃO DE 3a ORDEM

Y   0  1 X   2 X 2   3 X 3

MODELO DE REGRESSÃO EXPONENCIAL


1 X 
Y   0 *e ou ln(Y )  ln( 0 )  1 X 

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


54

ANÁLISE DE SÉRIES (HISTÓRICAS) TEMPORAIS

Uma série histórica, também denominada série


temporal, é uma seqüência de observações obtidas em
intervalos regulares de tempo, durante um período
específico. Este conjunto pode ser obtido através de
amostras periódicas do evento de interesse, ou
cumulativamente. Denomina-se trajetória de um
processo, a curva obtida no gráfico da série histórica. O
conjunto de todas possíveis trajetórias é denominado um
processo estocástico, sendo a série temporal uma
amostra deste processo.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


55

DEFINIÇÕES

série temporal (Z)


É um conjunto de observações ordenadas no tempo.
Essas observações podem ser discretas ou contínuas.

discreta: Zt  t = 1, 2, ...n
 valores semanais do número de casos de Aids em São
Paulo
 coeficientes de mortalidade (mensais, anuais)

contínua: Z(t)  t  0,T


 o registro de um eletrocardiograma de uma pessoa.
 o movimento da costa terrestre, obtido através de um
sismógrafo.

Essas observações podem ser obtidas através de


amostras periódicas ou cumulativamente.

trajetória do processo
É a curva obtida no gráfico das observações no
tempo.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


56

processo estocástico
É um conjunto de todas as possíveis trajetórias que
poder-se-ia observar. Cada trajetória é chamada de uma
série temporal.

processo estocástico  população


série temporal  amostra

ciclo:
É o tempo que um determinado fenômeno leva para
ter um comportamento periódico. Diz-se, nesse caso, que
o fenômeno é cíclico. Esse ciclo pode ou não ser
conhecido a priori. Um fenômeno cíclico envolve um
comportamento sazonal. Porém o inverso não é
verdadeiro.

estacionariedade:
Uma série é considerada estacionária quando as
suas observações ocorrem, aleatoriamente, ao redor de
uma média constante. Essa é a suposição de grande
parte dos modelos. Quando isso não ocorre é necessário
que se façam transformações nos dados e/ou se utilizem
modelos adequados. A não aleatoriedade é um
fenômeno freqüente.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


57

Diz-se que uma série é estacionária quando, para


qualquer instante de tempo t e para qualquer m, tem-se:

f  Z t   f  Z t  m  , m  1,  2 ,......

 E Z t   E  Z t + m    ,  t

 e

Var  Z t   Var  Z t + m    ,  t
2

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


58

COMPONENTES DE UMA SÉRIE TEMPORAL


Uma série histórica pode ser decomposta em 3
componentes não observáveis: tendência (Tt),
sazonalidade (St) e a variação aleatória denominada de
ruído branco (at).

Tt  tendência
Esse é um componente não aleatório que, muitas
vezes, só consegue ser medido e/ou detectado em longas
séries de tempo.

St  componente sazonal
Ocorre quando duas observações no tempo são
correlacionadas, ou seja, não são independentes. Para
se avaliá-lo é necessário analisar as funções de auto-
covariância e de auto-correlação da série.

at  ruído branco
também conhecido como resíduo. Supõe-se que
esse seja um componente aleatório, com média zero e
variância constante ( em toda a série).

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


59

Modelo aditivo: Zt=Tt+St+at

(pode haver , também, o modelo multiplicativo, que ao se


realizar a transformação log, ele se transforma no modelo
log-linear).

Ao ser feita a análise de uma série histórica, deve-se


estudar cada um destes componentes separadamente,
retirando-se o efeito dos outros.

TENDÊNCIA

Para analisar a tendência os 2 métodos mais


utilizados são: a) ajustar uma função polinomial do tempo
ou b) analisar o comportamento da série ao redor de um
ponto, estimando a tendência naquele ponto.

Após a estimativa da tendência, uma série “livre de


tendência” seria a série (Zt-Tt).

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


60

SAZONALIDADE

Esta parte da série histórica é difícil de ser estimada,


compatibilizando a questão conceitual do fenômeno em
estudo, com a questão estatística. Se houver uma
sazonalidade dita determinística pode-se utilizar modelos
de regressão que incorporem funções do tipo seno ou
cosseno à variável tempo.

Para se retirar o efeito da sazonalidade de uma


série, pode-se fazer a média móvel centrada no número
de períodos que compõem uma repetição (por exemplo,
para sazonalidade anual, seria utilizada a média móvel de
12 meses), ou, então, poderia-se trabalhar com a
diferença entre a série original (Zt) e o polinômio estimado
para a sazonalidade.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


61

REGRESSÃO LOGÍSTICA

 Variável dependente é qualitativa dicotômica


(presença/ausência)

 Objetivo principal do estudo é estudar os


fatores associados à presença do evento de
interesse.

EXEMPLO

Y = 1  DC = sim
Y= doença coronariana(DC) 
Y = 0  DC = nao

IDADE DC
SIM NÃO TOTAL p=% de sim
20 - 29 1 9 10 0.10
30 - 34 2 13 15 0.13
35 - 39 3 9 12 0.25
40 - 44 5 10 15 0.33
45 - 49 6 7 13 0.46
50 - 54 5 3 8 0.63
55 - 59 13 4 17 0.76
60 - 69 8 2 10 0.80
Total 43 57 100 0.43
Fonte: Kleimbaum,Klein, 2002.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


62

1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
50-54 55-59 60-64 65-69 70-74 75-79 80-89

1
Pr obY  1  p 
1  e f x

Quando a f(x) é uma função linear, tem - se que

1
Pr ob( Y  1 )  p 
1  e  
0  1X

e
1 e 
  0  1X 
Prob(Y  1) = Prob(Y = 0) = 1 - p = 1 -  
 0  1X  = 1  e  0  1X 
1 e

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


63

doente não doente TOTAL


EXPOSTO a b a+b
NÃO EXPOSTO c d c+d
TOTAL a+c b+d N=a+b+c+d

Medidas de risco:
a
RP: razão de prevalências  RP = a + b c
c+d

a
RR: risco relativo  RR = a + b c
c+d

a.d a
OR: odds ratio  OR = b 
c b.c
d

densidade de incidência, incidência acumulada.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


64

Y = variável dependente; variável categórica (0,1)

Y = 1 P(Y = 1) = 
 ⇒Y ~ Bernoulli ⇒ 
Y = 0 P(Y = 0) = 1 - 

2
EY   ∑ yi PY  yi   1PY  1  0PY  0  1  01 -    
i 1

O objetivo é escrever Y em função de X, porém , na


regressão logística, se escreve a probabilidade de Y como
função de X e não Y.

  x   E Y / X  x 

e f x
 x  
1  e f x

Quando a f (x) e uma função linear, tem - se que

e 0  1X 1
 x    0  1 X

-   0  1X 
1 e 1 e  

Fazendo - se a transformação para o logito de   x ,

  x 
ln    0  1 X
 1 -   x  

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


65

SUPOSIÇÕES

1. Y é uma variável dicotômica (0,1). A extensão


para outras variáveis categóricas não será vista
neste curso.

2. Os valores de Y são independentes.

3.
EY     x   EY   ^ x   
^

  erro = resíduo

1    x , se
^
E Y   1,
com prob.   x 

 ~ Binomial , pois  = 

  x , se EY   0,
^

. 
com prob.1 -   x 
 _
  = 0
S 2   x 1    x   variância não é constante

4. A covariância entre dois erros quaisquer é zero.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


66

ESTIMATIVA DOS PARÂMETROS i

Na regressão logística é utilizado o Método da


Máxima Verossimilhança para se estimar os
parâmetros i .

De uma maneira genérica, pode-se dizer que o


método da máxima verossimilhança fornece os valores
para os parâmetros a serem estimados, os quais
maximizam a probabilidade de se obter o conjunto de
dados existente.

Para se aplicar este método, em primeiro lugar


precisa-se definir a função de verossimilhança. Na
situação em que a variável dependente é dicotômica,
tem-se:

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


67

0
Seja Y =  ⇒
1
 e  0  1 X
1 -   x   1  e -   0  1 X   P Y = 0/X 

  x   1
  P Y = 1/X 
1  e   0  1 X 
-

para um arbitrário valor de    0 ,  1  ⇒

A função de probabilid ades de Y é


 Y = 0,1
f Yi    iYi 1 -  i 
1 - Yi
, onde 
i = 1,2,...n

Assim, para aqueles pares x i ,1, a contribuiç ão para


a função de verossimi lhança é   x  e naqueles onde Yi  0, a
contribuiç ão é 1 -   x .

A função de verossimi lhança é definida pelo produto dos


termos dados acima, ié,

  n
L     ∏ f Yi 
  i 1

  
No entanto, e mais fácil maximizar o ln  L    .
  

   n
ln  L      ∑  y i ln  i   1 - y i  ln 1 -  i 
    i 1

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


68

Para encontrar os valores dos i que maximizam


 
a função acima deve-se derivar ln L    em relação
  ~
a cada um dos i e igualar a zero. Como estas
equações não são lineares, são necessários métodos
interativos e sua solução não é fácil! Porém os
softwares fazem isso por nós !!!!

 n y  x  0
i1
 i  i 

As equações são: e
n
 xi  yi    xi   0
i 1

Estas são as chamadas equações de


verossimilhança.

Normalmente as saídas de computador fornecem


não só os valores dos i, mas, também, os respectivos
erros padrão (SEi). Os valores dos SEi serão
utilizados para os testes de significância dos
coeficientes e para o cálculos dos respectivos
intervalos de confiança.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


69

No caso do pior modelo (modelo só com 0), o


logaritmo da função de verossimilhança pode ser
calculado por:

 
ln L o   n1 .lnn1   n0 lnn0   n ln n

onde: n1: número de casos de Y=1


n0: número de casos de Y=0
n=n1+n0= total da amostra

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


70

TESTES DE HIPÓTESES

Na regressão logística a comparação entre o


valor observado e o valor predito pela regressão não é
feita através da ANOVA, mas é baseada no logarítmo
 
da função de verossimilhança já definida ln L    .
  ~

1. Teste da razão de verossimilhança

É feita a comparação entre a função de


verossimilhança dos valores observados na amostra e
a função de verossimilhança do modelo saturado. O
modelo saturado é aquele que contém tantos
parâmetros quanto o número de pontos da amostra
(ex: ajustar uma linha reta com 2 pontos).

D  deviance
D  2ln L modelo reduzido  ln L modelo saturado  

 
 L modelo reduzido  
D  2 ln  
L  modelo
   saturado 
 razão de v erossimilhanç a 

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


71

Para verificar a significância de uma variável


independente, compara-se o valor de D com e sem a
variável independente na equação. A mudança de D
devido à inclusão da variável independente é:

G  Dpara o modelo sem a variavel  Dpara o modelo com a variavel

  Lmod.sem variavel   Lmod. com variavel 


G   2ln    2ln  Lmod elo saturado  
  L mod elo saturado    

 Lmodelo sem variável 


G  2ln  
 Lmod elo com variável 

G ~ 12  para o teste de significância de 1 variável com 2 categorias

no caso do modelo univariado, H 0 : 1  0

2. Teste Wald (baixo poder)

H 0 : 1  0  H 0 : OR X 1   1

^

W i , onde Wc ~ N ( 0,1)
SE
^
i

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


72

3. Intervalo de Confiança

IC1 %  i   ˆi  z1 x SEˆ


i

4. Cálculo do RR

Vamos supor o caso mais simples em que a


variável dependente X é dicotômica. Então,

1
   1 x 1
Pr obY  1 / X  1 1  exp 1  exp  0 
RR   
Pr obY  1 / X  0 1 1  exp  0  1 
1  exp  0  1 x 0 

logo,

H 0 : 1  0  H 0 : OR X 1   1  H 0 : RR X i   1

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


73

5. Caso múltiplo

Utilizar o teste da razão de verossimilhança para


verificar a adequação do modelo como um todo, ié:

H o : 1   2  ...   k  0

H a : o modelo é adequado, ie existe pelo um  ≠ 0

G ~  k2 , onde k : número de  ' s do modelo

Para testar a significância de cada coeficiente,


utilizar o teste Wald:


H 0 :  i  0  H 0 : OR X i   1  H 0 : RR X i   1
^


H a : ^ i  0  H 0 : OR X i   1  H 0 : RR X i   1

i
^

Wi  , onde Wic ~ N 0,1


SE
^
i

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


74

Estimativa da odds ratio (OR) a partir do


modelo de regressão logística múltipla

chance: Pr ob(Y  1) p

Pr ob(Y  0) 1  p

p X 1 1
1  p X 1 1 e   0   1  X 1  1   2 X 2  ......   k X k 
OR  X 1      0   1  X 1  0   2 X 2  ......   k X k  
p X10 e
1  p X10

e   0   1   2 X 2  ......   k X k    0   2 X 2  ......   k X k   e  1

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


75

6.Análise de confusão e interação na regressão


logística

 p 
ln    0  1 X 1   2 X 2
1 p 

 p 
ln    0  1 X 1   2 X 2   3 X 1 . X 2
1 p 

Outra maneira de testar interação: criar uma 3a.


variável (Z), que é a combinação de X1 e X2.

X1 X2 Z Z1 Z2 Z3

1 1 3 0 0 1
1 0 2 0 1 0
0 1 1 1 0 0

0 0 0 0 0 0

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


76

MODELOS DE REGRESSÃO LOGÍSTICA

 Não condicional: estudos transversais, coorte e


caso-controle não pareado

 Condicional: estudos caso-controle e outros onde


haja pareamento. Nestes casos, no banco de dados
deverá existir a variável “par”.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018


77

ANÁLISE DOS RESÍDUOS

1. Estatística do 2 de Pearson

2. Teste de Hosmer-Lemeshow

---------- Hosmer and Lemeshow Goodness-of-Fit Test-----------

LOW = 0 LOW = 1

Group Observed Expected Observed Expected Total

1 35.000 34.180 3.000 3.820 38.000


2 25.000 26.537 9.000 7.463 34.000
3 29.000 29.743 10.000 9.257 39.000
4 16.000 14.736 6.000 7.264 22.000
5 10.000 9.460 7.000 7.540 17.000
6 8.000 9.877 12.000 10.123 20.000
7 7.000 5.466 12.000 13.534 19.000

Chi-Square df Significance

Goodness-of-fit test 2.3862 5 .7935


--------------------------------------------------------------

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018

Você também pode gostar