Reg 2018

FACULDADE DE SAÚDE PÚBLICA - USP
DEPARTAMENTO DE EPIDEMIOLOGIA
MODELOS DE REGRESSÃO
APLICADOS EM EPIDEMIOLOGIA
I, II e III
(HEP- 5743, HEP-5763 e HEP-5764)
Profa. Dra. MARIA DO ROSARIO DIAS DE OLIVEIRA LATORRE

Professora Titular do Departamento de Epidemiologia
2018
1
PROGRAMA
1. Introdução à análise de regressão;
2. Noções de covariância e correlação;
3. Modelo de regressão linear simples e múltipla:

 estimação dos parâmetros;
 tabela de análise de variância (ANOVA);
 distribuições de probabilidades: Normal, t-Student, F-Snedecor e ²;
 interpretação dos coeficientes;
 análise dos resíduos;
 teste F-parcial;
 correlação parcial e múltipla;
 variáveis indicadora;
 confusão e interação;
 escolha do melhor modelo;
4. Modelo de regressão polinomial;
5. Análise de tendência em séries históricas usando modelos de regressão;
6. Modelo de regressão logística simples e múltipla:

 o modelo logístico;
 estimação dos parâmetros;
 interpretação dos coeficientes;
 medidas de ajuste do modelo;
 confusão e interação;
 escolha do melhor modelo;
 análise de resíduos;
7. Noções do modelo de riscos proporcionais de Cox (regressão de Cox), modelo

de regressão de Poisson e modelo idade-período-coorte.
8. Modelagem hierárquica
MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018

2
BIBLIOGRAFIA RECOMENDADA
1. Barros AJD. Modelagem Estatística em Estudos Epidemiológicos. O Modelo Logístico. Campinas,
1990.[Dissertação de Mestrado - Instituto de Matemática, Estatística e Ciências da Computação da
Universidade Estadual de Campinas]
2. Berquó ES, Souza JMP; Gotlieb SLD. Bioestatística. EPU, 1ª edição revista, São Paulo, 1981.
3. Breslow NE; Day NE. Statistical Methods in Cancer Research: vol. 1 - The Analysis of Case-
Controls Studies. IARC, Lyon, 1980.
4. DAWSON-SANDERS B; TRAPP RG. Bioestatística Básica e Clínica. 3a. edição, Lange - Appleton &
Lange/Mc Graw-Hill, 2001.
5. DIGGLE PJ.Time series: a Biostatistical introduction. Oxford University Press; 1992.
6. Draper NR; Smith H. Applied Regression Analysis. John Wiley and Sons, 3rd edition. New York, 1998.
7. Hosmer DW; Lemeshow S. Applied logistic regression. John Wiley and Sons, 2nd edition. New York,
2000.
8. Hulley, SB; Cummings SR; Browner WS; Grady D; Hearst N; Newman TB. Designing Clinical
Research. Lippincott Williams & Wilkins, Philadelphia, 2001.
9. Kleinbaum DG; Kupper LL; Muller KE; Nizam A. Applied regression analysis and other multivariable
methods. 3rd edition. Brooks/Cole Pub Co, Boston, 1997.
10. Curns AT; Mizam A. Student solutions manual for Kleimbaum, Kupper, Muller and Nizam´s
Applied regression analysis and other multivariable methods. Brooks/Cole Pub Co, Boston, 1998.
11. Kleinbaum DG; Klein M. Logistic regression. A self-learning text. 2nd edition. Springer-Verlag, New
York, 2002.
12. Lee ET. Statistical methods for survival data analysis. 2nd edition. New York, John Wiley & Sons
INC, 1992.
13. Magalhães MN; Lima ACP. Noções de Probabilidade e Estatística. EDUSP. São Paulo, 2002.
14. Morettin PA; Toloi CMC. Previsão de Séries Temporais. Atual Editora Ltda. 2ª edição. São Paulo,
1987.
15. Massad E; Menezes RX; Silveira PSP; Ortega NRS. Métodos Quantitativos em Medicina. Manole
Editora Ltda. São Paulo 2004.
16. Pereira MG. Epidemiologia Teoria e Prática. Rio de Janeiro: Editora Guanabara Koogan, 1999.
17. Revista Brasileira de Epidemiologia. 2001; 4(3):178-90.
18. Szklo M; Javier-nieto F. Epidemiology – Beyond the Basics. Aspen Publication. Baltimore, 2000.

3
CRONOGRAMA
AGOSTO
14- Introdução à análise de regressão.
21 – modelo de regressão linear simples.
28 - modelo de regressão linear simples e regressão linear múltipla.
SETEMBRO
4- modelo de regressão linear múltipla
11- modelo de regressão linear múltipla.
18 - não haverá aula
25- modelo de regressão linear múltipla
OUTUBRO
2- seminário 1
Modelos de regressão múltipla
Análise de séries históricas usando modelos de regressão
9 – seminário 2
Exercício 1
16- prova 1
23 – Análise de séries históricas usando modelos de regressão
30 - modelo de regressão logística univariada
NOVEMBRO
6 - modelo de regressão logística múltipla
13 - modelo de regressão logística múltipla
seminário 3
20- modelos de regressão aplicados à epidemiologia seminário 4
27 - seminário 5 :The risk of determining risk with multivariable models
Entrega do exercício 2
DEZEMBRO
4 - Prova

4
Carga horária: 120 horas (12 créditos)
Horário da aula teórica/prática: 3ª feiras, das 8 às 12

horas
Horário para exercícios com monitor: 5ª feiras, das 8
às 10 horas
Locais :
 aula teórica: Sala Fernando Guimarães

 aula prática: Sala de Informática do sub-solo
 monitoria: Sala de Informática do HEP (2º. andar)

5

6
INTRODUÇÃO À ANÁLISE DE REGRESSÃO
Na prática há diversas situações em que a análise

de regressão é apropriada:
1. Quando se deseja caracterizar a relação entre uma variável

dependente (Y) e uma ou mais variáveis independentes (Xi), ié,
avaliar a extensão, direção e força da relação (associação).
2. Procurar uma função matemática ou equação para descrever

a variável dependente (Y) como função da variáveis
independentes (Xi), ié, predizer Y em função dos Xi;
determinando o melhor modelo estatístico que descreva essa
relação.
3. Descrever quantitativa e/ou qualitativamente a relação entre

os Xi e Y, controlando o efeito de outras variáveis (Ci).
4. Verificar o efeito interativo de 2 ou mais variáveis

independentes às quais se relacionam com a variável
dependente.
5. Determinar quais das muitas variáveis independentes são

importantes para descrever ou predizer a variável dependente.
Ordenar as variáveis independentes em sua ordem de
importância em relação à variável dependente.
6. Comparar múltiplos relacionamentos derivados da análise de

regressão.

7
É importante ser cauteloso sobre os resultados

obtidos em uma análise de regressão, ou, de uma
maneira mais geral, em qualquer análise utilizando
técnicas estatísticas que procurem quantificar uma
associação entre 2 ou mais variáveis.
A análise estatística pode estar correta, porém os

dados podem estar viciados e/ou incompletos.
(vícios no delineamento, na amostragem, nas

medidas, na escolha das variáveis e outros)
O achado de uma associação estatística

significativa em um particular estudo não estabelece
uma relação causal.

8
QUESTÕES BÁSICAS
 Qual a função matemática mais apropriada a ser

utilizada? (Em outras palavras: os dados se ajustam
melhor a uma reta? A uma parábola? A uma função
logística?)
 Como determinar o melhor modelo que se ajuste

aos dados?
 Qual a validade e a precisão da(s) estimativa(s)

do(s) coeficiente(s) de regressão?
 A presença, no modelo, de determinada variável

independente melhora a precisão do mesmo?
 Dado um modelo específico, o que ele significa?
ESTRATÉGIAS (stepwise):
MODELO MAIS COMPLEXO  MAIS SIMPLES

(BACKWARD SELECTION)
MODELO MAIS SIMPLES  MAIS COMPLEXO

(FORWARD SELECTION)

9
SUPOSIÇÕES
1. Distribuição Normal
Para um valor fixo da variável aleatória (v.a.) X
(que, idealmente,deve ser contínua), Y é uma v.a. com
distribuição normal, com média e variância finitas.

Y  N YX i ; SY / Xi 
2. Os valores de Y são independentes uns dos outros.
(às vezes esta suposição é violada quando se faz diferentes
observações no mesmo indivíduo, em tempos diferentes)
3. Linearidade
O valor médio de Y ( YX i ) é uma função de linha
reta sobre os Xi.
4. Homocedasticidade
A variância de Y é a mesma, qualquer que seja X.
S Y2 / X i  S Y2 / X K ,  i e k ; ie, S Y2 / X i  S 2 para todo X.

10
MÉTODOS DE ESTIMATIVAS DE
PARÂMETROS
1. MÉTODO DOS MÍNIMOS QUADRADOS

É o método que determina a linha reta mais
apropriada, minimizando a soma dos quadrados das
diferenças entre os valores estimados de Y por meio
da reta de regressão ( Y^ ) e os valores observados de
Y.
2. MÉTODO DA MÁXIMA VEROSSIMILHANÇA

Consiste em determinar uma função, denominada
função de verossimilhança  L y,  , que é a função
de probabilidade de ocorrência daquele específico
consjunto de dados e estimar os parâmetros que
maximizam a mesma.

11
O MODELO DE REGRESSÃO LINEAR

SIMPLES
A função que determina uma reta é: Y = 0 + 1 X.
Porém, como se deseja fazer uma estimativa, a

reta de regressão estimada pode ser escrita da
seguinte maneira:
^ ^ ^ ^
Y =  0 +  1 X , e Y = 0 + 1 X+ε , onde  = erro =Y - Y
^ 0 e ^ 1 são estimados pelo Método dos Mínimos

Quadrados da seguinte maneira:
Em uma amostra de tamanho n tem-se n pares de

observações das v.a. X e Y: (X1, Y1), ... (Xn,Yn) e n
equações do tipo .
Somando-se todas as n equações, tem-se:
n n 
 Yi     0   1 X i   i 
i1 i1 
A soma (S) dos quadrados dos desvios () é:
  
n n 2
2
   Yi  ^ 0  ^ 1 X i 
i 1
i
i 1
 

12
Para se encontrar os valores de 0 e 1 que

minimizam a equação acima deve-se derivá-la em
relação a 0 e 1, igualando as equações a zero. (Não
se preocupem que não irei demonstrar isso nesse
curso!!).
Dessa maneira os valores estimados para 0 e 1

são:
n
 n  n 
n X i Yi    X i    Yi 
 i 1   i 1 
^ 1  i =1
2 
n
 n 
n X i    X i 
2
i 1  i 1 
n
 _
 _

^
 

X i  X 



Yi  Y 

1  i 1
2
n
 _
 

i 1
 X i  X
 
_ _
^ ^
 0  Y  1 X 

13
Analisando melhor a equação  ...
^
Y =β0+β1X+ (lembrando que  =resíduo= Yi  Y i )
Qual o valor esperado para  ? (  0)
Na verdade,  ~ N0, S  .
^
Substituindo-se o valor de  0 na equação 
encontra-se que:
^
_
 _^

Yi  Y +  1  X i  X .
 
_ _
Isso significa que quando X i  X  Yi  Y .

14
PRECISÃO DA RETA ESTIMADA
Considera-se a seguinte identidade:
^ _
 ^ _

Yi  Yi   Yi  Y   Y i  Y .
   
Elevando-se ao quadrado os 2 lados da igualdade

acima e fazendo-se a soma de todas as n equações
(i=1,2, ...,n), obtem-se:
n 2 n 2 n 2
  _
 ^   ^ _

i 1
 Yi  Y    Yi  Y i  +   Yi  Y
  i 1
  i 1
  +0 
  
SQT SQR SQM
 SQT: soma de quadrados total, ié, soma dos

quadrados dos desvios do valor de Y da i-ésima
observação em relação à média dos Y.
 SQR: soma dos quadrados devido aos resíduos,

ié,a soma dos quadrados dos desvios entre o valor
de Y da i-ésima observação e seu valor estimado.
 SQM: soma dos quadrados devido à regressão,

ié, a soma dos quadrados dos desvios do valor
estimado de Y para a i-ésima observação e a média
dos Y.

15
n 2 n 2 n 2
  _
 ^   ^ _

i 1
 Yi  Y    Yi  Y i  +   Yi  Y
  i 1
  i 1
 

16
A equação  é chamada a EQUAÇÃO

FUNDAMENTAL DA REGRESSÃO e pode ser
reescrita como:
soma dos quadrados sobre a média (SQT) = soma de

quadrados sobre a regressão (SQR) + soma de
quadrados devida à regressão (SQM).
Isso significa que a variação total dos Y's sobre

sua média pode ser explicada uma parte pela linha de
regressão e outra pelos resíduos. Se todos os Y's
caíssem sempre na linha de regressão a SQR seria
zero!!
Portanto, quanto mais a SQM for próxima da SQT

melhor.
Daí deriva-se uma medida quantitativa de

precisão da reta estimada denominada r2 (coeficiente
de determinação).
r 2  SQM  0  r2  1
SQT

quanto mais r 2  1, melhor

17
ANOVA
FONTE SQ GL MÉDIA F
QUADRÁTICA
(MQ)
DEVIDO A ^ 1  Xi Yi    Xi   Yi   1 SQM/GL Fc 1, n  2 

 n 
REGRESSÃO
DEVIDO AO por subtração n-2 SQR MQM

S2 
RESÍDUO GL MQR
TOTAL   Yi 
2
n-1
Y i
2

n
SQT = SQR + SQM
2 2 2
n
   Y  Y    Y  Y
_ n ^ n ^ _
 i  Y  Y     i 
 i 1   i 1  
i i
i 1

18
REGRESSÃO LINEAR SIMPLES
1. O MODELO
Y =  0   1X  
_  
 
Y =  0  1 X = Y   1  X - X   lembrar que Y  Yi  YY/X 
_ _
^ ^ ^ ^ ^ ^
  i
 
 
Yi ~ N  ^ 0  1 X i ; S 2 
^
 
1.1.Estimativas para S 2 sY/X

2

SQR n  1  2 ^ 2 2 
a) Y/X n  2  n  2  SY   1 SX  , se  1  0

2
S
SQM
b) SY2 / X  , se 1  0
1

19
2.1.INTERVALO DE CONFIANÇA PARA

^
_
 _ _

Yi  Y Y/Xi  Y   1  X i  X^
 
2
 _

 Xi  X
^ 1  
IC = Y i  t n - 2 ,1 -  S Y / X 
n  n - 1  S X2
^ '
2 .2 . T E S T E D E H IP Ó T E S E S P A R A Y i = Yi
H : Y ^ '
 0 i = Yi

 H a : Y^
i  Yi
'
_
 _

Y  ^ 1  X i  X   Y i'
 
to  2
o n d e tc ~ tn  2
 _

 Xi  X
1  
SY /X 
n  n - 1  S X2
^ ^
2.3 INTERVALO DE PREDIÇÃO PARA Yi , onde Yi é
observação e não parâmetro.
2
 _

X i  X
_
 _
 1  
IP = Y  i X i  X  t n2 ,1 SY/X
^
1 
  n  n -1S X2

20
3. A INCLINAÇÃO: 1 .
a ) o e s tim a d o r :
 _
 _

 
X i  X   Yi  Y 
  n  X iYi   X  Y 
i i
^  
n X   X 
1 2 2
 _
 2
 
X i  X

i i
b ) o In t e r v a lo d e C o n f ia n c a (IC ) :
S Y /X
IC = ^ 1  t n  2 ,1  
SX n -1
c ) o te s te d e h ip o t e s e :
 H : ^  0
 o 1

 H a : ^ 1  0
c .1 . ) te s te F :
M QM
Fo  MQR , onde F c ~ F1 ,n  2
c .2 . ) te s te t :
^ SX n -1
to  1
, onde tc ~ tn2
S Y /X
S Y2 / X
d) S 2
 2
^ 1 S X n - 1

21
4. O INTERCEPTO: 0
a ) o e s tim a d o r:
_ _
 0  Y  1 X
^ ^
b ) o in te rv a lo d e c o n fia n c a (IC ) :
_
1 X2
IC =  0  t n  2 ,1   S Y / X
^

n  n - 1  S X2
c ) o te s te d e h ip o te s e :
H : 0  0
^
 0

 H a : 0  0
^
^ 0
to  _
; onde tc ~ tn2
1 X2
S Y /X 
n  n - 1  S X2
 _

1  X2 
d ) S ^ 2  S Y2 / X
0 n  n - 1 S X 
2
 

22
H0:B1=0 não é rejeitada

23
5. O COEFICIENTE DE CORRELAÇÃO ( ) E A
ANÁLISE DE REGRESSÃO
 XY
DEFINIÇÃO : =
 X Y
 
 

  X i  X  Yi  Y  n X i Yi   X i  Y i 
    

  2
  

2
  X i  X    Yi  Y  
 n X i
2 2

  X i  n Yi 2   Y i 
2

     
 
PROPRIEDADES :
a) - 1 ≤  ≤ +1
b)  não possui dimensão, ié, não depende das unidades de X e Y
Na análise de regressão linear, um estimador

para o coeficiente de correlação é:
S ^
^  r  X
 1
S Y
^
p ro p rie d a d e : r te m o m e s m o s in a l d e  1
 ^
se r  0   1  0
 ^
 se r  0   1  0
 ^
se r  0   1  0


24
TESTE DE HIPÓTESE PARA  :
H 0 :  = 0

H a :  ≠ 0
r n - 2
to  ; onde tc ~ tn 2
2
1 - r
obs : é equivalent e ao teste H0 : ^ 1 = 0,
 ^ S
pois 1   Y
∴  1 = r Y
 X S X
INTERVALO DE CONFIANÇA (IC) :

 1 1 + r  1 1 + r  z1 -
IC  ln   = ln   
 2  1 - r  2  1 - r  n - 3
OBS: como H0 :  = 0 pode ser escrito inteiramente

em termos de r e de n, pode-se realizar o teste de
hipótese mesmo sem o ajuste de uma linha reta.

25
Lembram-se do r2? Na verdade, r2 = (r)2.
R 2  r 2  SQM SQT
como -1  r  +1  0  R 2  1
quando R 2  1  1  0 e SQR = 0  o ajuste é perfeito!!!

^
por outro lado, quando R 2  0  1  0 e que SQT = SQR 

^
não há melhora na predição de Y, quando se utiliza X.
O que r2 não mede:

1. a magnitude da inclinação de uma reta de
regressão;
2. não é uma medida apropriada para avaliar a
linearidade do modelo.
quando r2 é baixo

26
6. ANÁLISE DOS RESÍDUOS ( i =ei):
^
ei  Yi  Yi , i = 1,2, .......n
Suposições:
a) os ei são independentes, ié, COV(ei,ek) =0, para ik.
b)  
e i ~ N 0, S e , onde S e2 = constante
6.1. Análise Global:
ei  X e
se e i ~ N 0; S e   ~ N (0;1)
Se
2
 _

  i

e  X e
  e i2
onde S e 
2
 ; p = no. de variáveis indep.
n-p n-p
 IC 95% ei    1.96;1.96
teste estatístico: aderência dos ei à curva Normal.

27
^
6.2. Gráfico ei  Yi

28
 a variância não é constante (conforme suposto):

deve-se fazer uma transformação na variável
dependente Yi, antes da análise de regressão ou fazer
a estimação por mínimos quadrados ponderados.
 erro na análise de regressão: o modelo está viciado.
 o modelo é inadequado. São necessários termos

adicionais (ex:quadrático ou produtos cruzados) ou é
necessário que se faça uma transformação na variável
dependente Y antes da análise.
6.3. Gráfico ei  Xi : idem ao 6.2.

29
6.4. Seqüência no tempo

(obs: é necessário que se conheça a seqüência, no
tempo, em que os resíduos ocorrem)
 a variância não é constante no tempo: deve-se utilizar

mínimos quadrados ponderados.
o tempo deve ser uma variável independente a ser

introduzida no modelo (termo linear).
idem ao , mas acrescentar, também, o termo de 2o.

grau
6.5. testes estatísticos:

dos sinais e outros.

30
7. VALORES ABERRANTES (OUTLIERS)
Um valor aberrante é um ponto peculiar do

conjunto de dados e, por isso, deve ser examinado
cuidadosamente para que se descubra a razão de sua
particularidade.
Não é prudente descartá-lo sem antes se

proceder à uma investigação. Ele pode ser
descartado quando seu valor for devido à um erro de
mensuração e/ou registro ou devido à outro fator
externo ao estudo.

31
ANÁLISE DE REGRESSÃO LINEAR

MÚLTIPLA
(MULTIVARIADA ????)
Y   0  1 X 1   2 X 2  ......   k X k   ; k : numero de variaveis
Y  f X1 , X 2 ,....., X k  , utilizando amostra de tamanho n
Y   0  ^ 1 X 1   2 X 2  ......   k X k
^ ^ ^ ^
Y : v.a. dependente
Xj : v.a. independentes (regressores)
j : coeficientes de regressão (a serem estimados)
_
(cada j representa a mudança em YY / X1 ,..., X k para uma
unidade de cada Xj, quando todas as outras variáveis
independentes permanecem constantes)
ex:
EY / X 1  X 2 .....  X k  0   0
EY / X 1  1, X 2 .....  X k  0   0   1
EY / X 2  1, X 1  X 3 .....  X k  0   0   2
EY / X 1  X 2  1, X 3  X 4 .....  X k  0   0   1   2

32
ESTIMATIVA POR MÍNIMOS QUADRADOS:
2
n
 ^
  Yi  Yi   achar os  j que minimizam esta expressão
i 1
 : erro = resíduo (desvio do verdadeiro valor de Y em

relação ao valor estimado pelo modelo, ié,  Yi  Yi 
^
 

33
SUPOSIÇÕES BÁSICAS
São as mesmas do modelo simples, porém com
extensão para múltiplas variáveis.
1. Distribuição Normal
Para um conjunto de valores fixos das v.a. Xj
(que, idealmente, devem ser contínuas), Y é uma v.a.
com distribuição normal, com média e variância finitas
(aqui se trabalha em um espaço k-dimensional).
_
Yi ~ N ( YY / X 1 , X 2 ,..., X k ;S)
2. Os valores de Y são independentes uns dos

outros.
3. Linearidade
_
O valor médio de Y (YY / X1 , X2 ,..., X k ) é uma função de
linear sobre os Xj.
4. Homocedasticidade
A variância de Y é a constante, qualquer que seja
o conjunto dos Xj.
5.Não existe correlação entre os erros, ié, para

quaisquer 2 amostras tem-se que :
COV  i ,  l   0 ,  i  l .

34
6.Cada variável independente não está correlacionada

com o termo de erro, ié, para cada

X j , COV X j ,  i , j  0 
7.Não há colinearidade perfeita entre as variáveis
independentes, ié, nenhuma variável independente
está relacionada linearmente, de maneira perfeita,
com uma ou mais variáveis independentes.
EQUAÇÃO GERAL DA REGRESSÃO
2 2 2
n
 _
 n
 ^  n
 ^ _
  Yi  Y    Yi  Y i  +   Yi  Y
i 1 i 1 i 1 +0 
  
SQT SQR SQM
SQTotal=SQ devida ao resíduo + SQ devida à regressão

35
ANOVA (modelo geral)
FONTE SQ GL MQ FTOTAL
regressão  ^ _
2
k SQM Fo  k , n  k  1 
  Yi  Y  k
2 SQR MQM
resíduo  ^  n-k-1 n  k 1
  Yi  Y i  MQR
2
TOTAL  _
 n-1
  Yi  Y 
r 2  SQM ; Fc ~ Fk ,n  k 1
SQT

36
MATRIZ DE CORRELAÇÃO
É uma matriz (k+1) x (k+1), sendo k o número de

variáveis independentes que serão testadas no
modelo múltiplo. Nesta matriz aparecem os
coeficientes de correlação (r) entre todas as
variáveis de estudo, sendo que na primeira linha
deverão estar os coeficientes de correlação entre a
variável dependente e as variáveis independentes.
Esta é uma matriz com a diagonal unitária
Y X1 X2 X3 ...... Xk
Y 1 rY,X1 rY,X2 rY,X3 rY,Xk ordem de entrada das variáveis independentes
X1 1 rX1,X2 rX1,X3 rX1,Xk

X2 1 rX2,X3 rX2,Xk colinearidade
...
...
Xk 1

37
ANOVA (adição de variáveis)
FONTE SQ GL MQ Fparcial
SQM X1 MQM X 1
regressão X1 * 1 1
Fo 1, n  1  1  MQR
SQM X 2 Fo 1, n  2  1 
MQM X 2
X2/X1 * 1 1 MQR
.... * ..... ...... .........

SQM X k Fo 1, n  k  1 
MQM X k
Xk/X1,X2,...Xk-1 1 1 MQR
2
resíduo  ^  SQR
  Yi  Y i  n-k-1 n  k 1
2
TOTAL  _
 n-1
  Yi  Y 
* fórmulas nas páginas seguintes.

38
TESTES DE HIPÓTESES
1. Teste de significância do modelo geral
H 0 :  1   2 ......   k  0

H a : existe pelo menos um dos  j  0
Fo  MQM MQR , onde Fc ~ Fk , n  k  1
R2
F0  k
1  R2
n  k 1
2. teste do intercepto
H 0 :  0  0

H a :  0  0
SQR modelo sem  0   SQR modelo com  0 
F0  1 , Fc ~ F1,n k 1
SQR modelo com  0 
n - k -1
_
nY 2
F0  1 , Fc ~ F1,n1
2
 _

  Yi  Y 
n 1

39
3. Teste do F parcial
H 0 :  *  0 , no modelo Y =  0  1 X 1  ...   p X p   * X *

H a :   0
*
 *
H a : X melhora significativamente a predicao de Y,
 dado que X , X ,..., X já estao no modelo
 1 2 p
    
SQM X * / X 1 , X 2 ,..., X p  SQM X 1 , X 2 ,..., X p , X *  SQM X 1 , X 2 , ... , X p 

SQM X * / X 1 , X 2 ,..., X p 

 F po X * / X 1 , X 2 ,..., X p   1

MQR X 1 , X 2 ,..., X p , X *

 
Fpc X * / X 1 , X 2 ,..., X p ~ F1,n   p 1 1

40
4. Teste múltiplo do F parcial
H 0 : 1*   2*  ...   k*  0 no modelo


 Y =  0  1 X 1  ...   p X p    
* * * * * *
X  X  ...  kX
1 12 2  k
 bloco de variáveis


H a : pelo menos um  *j ≠ 0

 H a : o bloco inteiro dos X*j melhora significativamente a

predicão de Y, dado que X1 , X 2 ,..., X p já estão no modelo
SQM  X 1* , X 2* ,..., X k* / X 1 , X 2 ,..., X p  

 SQM  X 1 , X 2 ,..., X p , X 1* , X 2* ,..., X k*   SQM  X 1 , X 2 ,..., X p 
SQM  X 1* , X 2* ,..., X k* / X 1 , X 2 ,..., X p 

 Fmpo  X 1* , X 2* ,..., X k* / X 1 , X 2 ,..., X p   k
MQR X 1 , X 2 ,..., X p , X , X ,..., X
*
1
*
2
*
k 
Fmpc  X 1* , X 2* ,... , X k* / X 1 , X 2 ,..., X p  ~ Fk ,n p k 1
OBS:
1. como reconhecer variável de confusão?
2. como testar interação entre 2 variáveis
independentes?

41
CORRELAÇÃO MÚLTIPLA
Y =  0   1 X 1   2 X 2  ....  k X k
DEF.
 Yi  Y Yi  Y 
n
i 1
rY / X1 , X 2 ,... X k  rY ,Y 
 Yi  Y    
n n 2
2
Yi  Y
i 1 i 1
n
 Yi Yi  nY 2
i 1
rY ,Y 
 n   n  
  Yi  nY  .   Yi  nY 
 i 1   i 1 
DEF: coeficiente de determinação múltipla (r2)
 Y  Y    Y  Yˆ 
n n
2 2
i i i
SQM
r 2 Y/X1 ,X 2 ,...X k  R 2 Y ,Yˆ  i 1
n
i 1

 Y  Y 
2 SQT
i
i 1

42
Coef. de determinação múltipla ajustado (r2 aj.)
r r 
2 k
2
1 r 
2 n  1.r 2  k
 
aj
n  k 1 n  k 1
raj2  leva em conta a chance de contribuição de cada variável

incluída, subtraindo-se o valor que seria esperado se nenhuma
variável independente fosse associada à variável dependente.

43
O COEFICIENTE DE CORRELAÇÃO PARCIAL
rY,Xi/Xj  é uma estimativa de Y,Xi/Xj
Vamos supor a situação em que tenho apenas duas

variáveis independentes X1 e X2.
 Y2 / X 2   Y2 / X 1 , X 2
 Y2 , X 1 / X 2 
 Y2 / X 2
Nesta situação particular, tem-se que o coeficiente de

correlação parcial ao quadrado é:
SQRdo modelo so com X 2   SQR do modelo completo, ie, com X1 e X 2 

rY2, X 1 / X 2 
SQR mod elo so com X 2 
extra SQ devido a adicao de X1 , dado que X 2 ja estava no modelo

rY2, X 1 / X 2 
SQR modelo so com X 2 
rY , X 1  rY , X 2 . rX 1 , X 2
rY , X 1 / X 2 
1  r  . 1  r
2
Y, X2
2
X1 , X 2 
A estatística Fparcial(Xp/X1, X2,...Xk) é a utilizada para testar
se rY , Xp / X 1 , X 2 ,..., X k  0 .

44
Representação alternativa do modelo de regressão.

Todos os coeficientes de regressão podem ser escritos em
função das correlações parciais.
Por exemplo, para k=3 (ié, 3 variáveis independentes),

tem-se:
 0  Y   1 X 1   2 X 2   3 X 3
  r SY / X 2 . X 3
1 Y ,X1 / X 2 X 3 .
S X1 / X 2 .X 3
  r SY / X 1 . X 3
2 Y , X 2 / X1X 3
S X 2 / X1 .X 3
  r SY / X 1 . X 2
3 Y , X 3 / X1X 2
S X 3 / X1 .X 2

45
COLINEARIDADE
Y   o  1 X 1   2 X 2
 1 
pode - se demonstrar que :  j  c j  2 e
1 - r
 X1X 2 
que  0 , 1 e  2 são diretamente proporcionais a 1

^ ^ ^
1 - rX21, X 2
FIV : fator inflacionário da variância

1
FIV 
1 - R 2j
quando FIV  10 ⇒ há colinearidade
FIV  10 ⇒ R 2j  0.90 ⇒ r j  0.95
Para se evitar a colinearidade pode-se "centralizar"

a variável.

46
VARIÁVEIS CATEGÓRICAS EM REGRESSÃO

LINEAR
Há dois métodos para se analisar variáveis

categóricas em regressão linear:
MÉTODO 1
Estimar uma equação de regressão para cada
categoria da variável.
MÉTODO 2
Definir uma(algumas) variável(eis) dummy e
incorporá-la(s) no modelo. Este método é menos
poderoso.
VARIÁVEIS INDICADORAS
Variáveis indicadoras (ou dummy ) são quaisquer

variáveis que têm um número finito de valores que
representam diferentes categorias de uma variável
qualitativa.

47
Exemplo:
Y= PAS
X = idade ;
Z = 0  sexo = masculino
Z = sexo 
Z = 1  sexo = feminino
Y =  0   1X   2 Z +  3 XZ 1
qdo Z = 0  YM =  0   1X  2
qdo Z = 1  YF =  0   1X   2 +  3 X 
YF = (  0   2 )  (  1 +  3 )X 3
O modelo (1) incorpora as 2 equações de

regressão separadas [(2) e (3)] em um único modelo.

48
COMPARAÇÃO DE 2 RETAS DE REGRESSÃO
Questão:será que a associação entre PAS e idade é a

mesma para homens e mulheres?
Perguntas:
1. As inclinações das 2 retas são iguais?(ié, existe
paralelismo?)
2. Os interceptos das 2 retas são iguais?(somente
no caso das 2 retas não serem paralelas)
3. As 2 retas têm interceptos e inclinações
iguais?(ié, são coincidentes?)

49
CONTINUAÇÃO DO MÉTODO 1
1. teste de paralelismo de 2 retas
 nM  1 S X2  1M   nF  1 S X2 ^ 1F
^
^
1  M F
 nM  1 S X2   nF  1 S X2
M F
H 0 :  1 M   1F

 H a :  1 M   1F
^
^
 1 M   1F
to  t c ~ t nF  n M  4
S 1 M   1F
^
 1 1 
S 1 M  ^ 1F  S P2 ,Y / X   
  n M  1S X M  nF  1S X F
2 2

 nM  2SY2/ X   nF  2SY2/ X F
S 2
P ,Y / X  M
n M  nF  4

50
2.teste do intercepto
^ ^
^ n  n 
 0  M 0M F 0F
n M  nF
H 0 :  0 M   0 F

H a :  0 M   0 F
^ ^
 0 M   0F
to  t c ~ tnF  n M  4
S 0 M  ^ 0 F
 _
2
_

 1 1 XM X F2 
S20 M  ^ 0 F  S P ,Y / X
2
  
 n M nF  nM  1 S X2  nF  1S X2 F 
 M

3. teste de coincidência de 2 retas
Se ambas as hipóteses nulas forem aceitas: a de

paralelismo e mesmo intercepto.

51
"PASSOS" PARA SE FAZER MODELAGEM EM

REGRESSÃO
1.Selecionar as variáveis independentes, não se

esquecendo das possíveis variáveis de confusão;
2.Codificar previamente as variáveis;
3.Fazer gráficos de dispersão (scatter plot) com todas as
variáveis, 2 a 2;
4.Fazer a análise univariada das variáveis independentes,
não se esquecendo de fazer a análise de resíduos.
5. Fazer a matriz de correlação para avaliar a

colinearidade das variáveis independentes e definir a
ordem de entrada das mesmas no modelo múltiplo.
6.Fazer a análise múltipla, avaliando a significância do

modelo geral, de cada uma das variáveis e do
incremento de cada uma delas, através do teste F e
Fparcial. Não se esquecer de avaliar os possíveis
efeitos de confusão e a colinearidade entre as
variáveis;
7.Decidir pelo melhor modelo, ié, o mais "ajustado".

Fazer a estimação por ponto e por intervalo de cada um
dos
 j;
8.Avaliar as interações apenas para as variáveis de
confusão;
9. Fazer análise dos resíduos.

52
ANÁLISE DE REGRESSÃO POLINOMIAL
Y   0   1 X   2 X 2 ......  k X k
ANOVA (regressão polinomial)
FONTE SQ GL MQ Fparcial
regressão X * 1 SQM X Fo 1, n  1  1 

MQM X
MQR
1
X2/X * 1 SQM X 2 Fo 1, n  2  1 

MQM X 2
MQR
....
* ..... ...... .........
Xk/X,X2,...Xk-1
1 SQM X k Fo 1, n  k  1 
1 MQM X k
MQR
resíduo 2 n-k-1 SQR

 ^  n  k 1
  Yi  Y i 
TOTAL  _

2 n-1
  Yi  Y 
* fórmulas iguais às já citadas.

53
MODELO DE REGRESSÃO LINEAR
Y   0  1 X
MODELO DE REGRESSÃO DE 2a ORDEM
Y   0  1 X   2 X 2
MODELO DE REGRESSÃO DE 3a ORDEM
Y   0  1 X   2 X 2   3 X 3
MODELO DE REGRESSÃO EXPONENCIAL

1 X 
Y   0 *e ou ln(Y )  ln( 0 )  1 X 

54
ANÁLISE DE SÉRIES (HISTÓRICAS) TEMPORAIS
Uma série histórica, também denominada série

temporal, é uma seqüência de observações obtidas em
intervalos regulares de tempo, durante um período
específico. Este conjunto pode ser obtido através de
amostras periódicas do evento de interesse, ou
cumulativamente. Denomina-se trajetória de um
processo, a curva obtida no gráfico da série histórica. O
conjunto de todas possíveis trajetórias é denominado um
processo estocástico, sendo a série temporal uma
amostra deste processo.

55
DEFINIÇÕES
série temporal (Z)

É um conjunto de observações ordenadas no tempo.
Essas observações podem ser discretas ou contínuas.
discreta: Zt  t = 1, 2, ...n
 valores semanais do número de casos de Aids em São
Paulo
 coeficientes de mortalidade (mensais, anuais)
contínua: Z(t)  t  0,T

 o registro de um eletrocardiograma de uma pessoa.
 o movimento da costa terrestre, obtido através de um
sismógrafo.
Essas observações podem ser obtidas através de

amostras periódicas ou cumulativamente.
trajetória do processo
É a curva obtida no gráfico das observações no
tempo.

56
processo estocástico
É um conjunto de todas as possíveis trajetórias que
poder-se-ia observar. Cada trajetória é chamada de uma
série temporal.
processo estocástico  população

série temporal  amostra
ciclo:
É o tempo que um determinado fenômeno leva para
ter um comportamento periódico. Diz-se, nesse caso, que
o fenômeno é cíclico. Esse ciclo pode ou não ser
conhecido a priori. Um fenômeno cíclico envolve um
comportamento sazonal. Porém o inverso não é
verdadeiro.
estacionariedade:
Uma série é considerada estacionária quando as
suas observações ocorrem, aleatoriamente, ao redor de
uma média constante. Essa é a suposição de grande
parte dos modelos. Quando isso não ocorre é necessário
que se façam transformações nos dados e/ou se utilizem
modelos adequados. A não aleatoriedade é um
fenômeno freqüente.

57
Diz-se que uma série é estacionária quando, para

qualquer instante de tempo t e para qualquer m, tem-se:
f  Z t   f  Z t  m  , m  1,  2 ,......
 E Z t   E  Z t + m    ,  t

 e

Var  Z t   Var  Z t + m    ,  t
2

58
COMPONENTES DE UMA SÉRIE TEMPORAL

Uma série histórica pode ser decomposta em 3
componentes não observáveis: tendência (Tt),
sazonalidade (St) e a variação aleatória denominada de
ruído branco (at).
Tt  tendência
Esse é um componente não aleatório que, muitas
vezes, só consegue ser medido e/ou detectado em longas
séries de tempo.
St  componente sazonal
Ocorre quando duas observações no tempo são
correlacionadas, ou seja, não são independentes. Para
se avaliá-lo é necessário analisar as funções de auto-
covariância e de auto-correlação da série.
at  ruído branco
também conhecido como resíduo. Supõe-se que
esse seja um componente aleatório, com média zero e
variância constante ( em toda a série).

59
Modelo aditivo: Zt=Tt+St+at
(pode haver , também, o modelo multiplicativo, que ao se

realizar a transformação log, ele se transforma no modelo
log-linear).
Ao ser feita a análise de uma série histórica, deve-se

estudar cada um destes componentes separadamente,
retirando-se o efeito dos outros.
TENDÊNCIA
Para analisar a tendência os 2 métodos mais

utilizados são: a) ajustar uma função polinomial do tempo
ou b) analisar o comportamento da série ao redor de um
ponto, estimando a tendência naquele ponto.
Após a estimativa da tendência, uma série “livre de

tendência” seria a série (Zt-Tt).

60
SAZONALIDADE
Esta parte da série histórica é difícil de ser estimada,

compatibilizando a questão conceitual do fenômeno em
estudo, com a questão estatística. Se houver uma
sazonalidade dita determinística pode-se utilizar modelos
de regressão que incorporem funções do tipo seno ou
cosseno à variável tempo.
Para se retirar o efeito da sazonalidade de uma

série, pode-se fazer a média móvel centrada no número
de períodos que compõem uma repetição (por exemplo,
para sazonalidade anual, seria utilizada a média móvel de
12 meses), ou, então, poderia-se trabalhar com a
diferença entre a série original (Zt) e o polinômio estimado
para a sazonalidade.

61
REGRESSÃO LOGÍSTICA
 Variável dependente é qualitativa dicotômica

(presença/ausência)
 Objetivo principal do estudo é estudar os

fatores associados à presença do evento de
interesse.
EXEMPLO
Y = 1  DC = sim
Y= doença coronariana(DC) 
Y = 0  DC = nao
IDADE DC
SIM NÃO TOTAL p=% de sim
20 - 29 1 9 10 0.10
30 - 34 2 13 15 0.13
35 - 39 3 9 12 0.25
40 - 44 5 10 15 0.33
45 - 49 6 7 13 0.46
50 - 54 5 3 8 0.63
55 - 59 13 4 17 0.76
60 - 69 8 2 10 0.80
Total 43 57 100 0.43
Fonte: Kleimbaum,Klein, 2002.

62
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
50-54 55-59 60-64 65-69 70-74 75-79 80-89
1
Pr obY  1  p 
1  e f x
Quando a f(x) é uma função linear, tem - se que
1
Pr ob( Y  1 )  p 
1  e  
0  1X
e
1 e 
  0  1X 
Prob(Y  1) = Prob(Y = 0) = 1 - p = 1 -  
 0  1X  = 1  e  0  1X 
1 e

63
doente não doente TOTAL

EXPOSTO a b a+b
NÃO EXPOSTO c d c+d
TOTAL a+c b+d N=a+b+c+d
Medidas de risco:
a
RP: razão de prevalências  RP = a + b c
c+d
a
RR: risco relativo  RR = a + b c
c+d
a.d a
OR: odds ratio  OR = b 
c b.c
d
densidade de incidência, incidência acumulada.

64
Y = variável dependente; variável categórica (0,1)
Y = 1 P(Y = 1) = 
 ⇒Y ~ Bernoulli ⇒ 
Y = 0 P(Y = 0) = 1 - 
2
EY   ∑ yi PY  yi   1PY  1  0PY  0  1  01 -    
i 1
O objetivo é escrever Y em função de X, porém , na

regressão logística, se escreve a probabilidade de Y como
função de X e não Y.
  x   E Y / X  x 
e f x
 x  
1  e f x
Quando a f (x) e uma função linear, tem - se que
e 0  1X 1
 x    0  1 X

-   0  1X 
1 e 1 e  
Fazendo - se a transformação para o logito de   x ,
  x 
ln    0  1 X
 1 -   x  

65
SUPOSIÇÕES
1. Y é uma variável dicotômica (0,1). A extensão

para outras variáveis categóricas não será vista
neste curso.
2. Os valores de Y são independentes.
3.
EY     x   EY   ^ x   
^
  erro = resíduo

1    x , se
^
E Y   1,
com prob.   x 

 ~ Binomial , pois  = 

  x , se EY   0,
^
. 
com prob.1 -   x 
 _
  = 0
S 2   x 1    x   variância não é constante
4. A covariância entre dois erros quaisquer é zero.

66
ESTIMATIVA DOS PARÂMETROS i
Na regressão logística é utilizado o Método da

Máxima Verossimilhança para se estimar os
parâmetros i .
De uma maneira genérica, pode-se dizer que o

método da máxima verossimilhança fornece os valores
para os parâmetros a serem estimados, os quais
maximizam a probabilidade de se obter o conjunto de
dados existente.
Para se aplicar este método, em primeiro lugar

precisa-se definir a função de verossimilhança. Na
situação em que a variável dependente é dicotômica,
tem-se:

67
0
Seja Y =  ⇒
1
 e  0  1 X
1 -   x   1  e -   0  1 X   P Y = 0/X 

  x   1
  P Y = 1/X 
1  e   0  1 X 
-
para um arbitrário valor de    0 ,  1  ⇒
A função de probabilid ades de Y é

 Y = 0,1
f Yi    iYi 1 -  i 
1 - Yi
, onde 
i = 1,2,...n
Assim, para aqueles pares x i ,1, a contribuiç ão para

a função de verossimi lhança é   x  e naqueles onde Yi  0, a
contribuiç ão é 1 -   x .
A função de verossimi lhança é definida pelo produto dos

termos dados acima, ié,
  n
L     ∏ f Yi 
  i 1
  
No entanto, e mais fácil maximizar o ln  L    .
  
   n
ln  L      ∑  y i ln  i   1 - y i  ln 1 -  i 
    i 1

68
Para encontrar os valores dos i que maximizam

 
a função acima deve-se derivar ln L    em relação
  ~
a cada um dos i e igualar a zero. Como estas
equações não são lineares, são necessários métodos
interativos e sua solução não é fácil! Porém os
softwares fazem isso por nós !!!!
 n y  x  0
i1
 i  i 

As equações são: e
n
 xi  yi    xi   0
i 1
Estas são as chamadas equações de

verossimilhança.
Normalmente as saídas de computador fornecem

não só os valores dos i, mas, também, os respectivos
erros padrão (SEi). Os valores dos SEi serão
utilizados para os testes de significância dos
coeficientes e para o cálculos dos respectivos
intervalos de confiança.

69
No caso do pior modelo (modelo só com 0), o

logaritmo da função de verossimilhança pode ser
calculado por:
 
ln L o   n1 .lnn1   n0 lnn0   n ln n
onde: n1: número de casos de Y=1

n0: número de casos de Y=0
n=n1+n0= total da amostra

70
TESTES DE HIPÓTESES
Na regressão logística a comparação entre o

valor observado e o valor predito pela regressão não é
feita através da ANOVA, mas é baseada no logarítmo
 
da função de verossimilhança já definida ln L    .
  ~
1. Teste da razão de verossimilhança
É feita a comparação entre a função de

verossimilhança dos valores observados na amostra e
a função de verossimilhança do modelo saturado. O
modelo saturado é aquele que contém tantos
parâmetros quanto o número de pontos da amostra
(ex: ajustar uma linha reta com 2 pontos).
D  deviance
D  2ln L modelo reduzido  ln L modelo saturado  
 
 L modelo reduzido  
D  2 ln  
L  modelo
   saturado 
 razão de v erossimilhanç a 

71
Para verificar a significância de uma variável

independente, compara-se o valor de D com e sem a
variável independente na equação. A mudança de D
devido à inclusão da variável independente é:
G  Dpara o modelo sem a variavel  Dpara o modelo com a variavel
  Lmod.sem variavel   Lmod. com variavel 

G   2ln    2ln  Lmod elo saturado  
  L mod elo saturado    
 Lmodelo sem variável 

G  2ln  
 Lmod elo com variável 
G ~ 12  para o teste de significância de 1 variável com 2 categorias
no caso do modelo univariado, H 0 : 1  0
2. Teste Wald (baixo poder)
H 0 : 1  0  H 0 : OR X 1   1
^

W i , onde Wc ~ N ( 0,1)
SE
^
i

72
3. Intervalo de Confiança
IC1 %  i   ˆi  z1 x SEˆ

i
4. Cálculo do RR
Vamos supor o caso mais simples em que a

variável dependente X é dicotômica. Então,
1
   1 x 1
Pr obY  1 / X  1 1  exp 1  exp  0 
RR   
Pr obY  1 / X  0 1 1  exp  0  1 
1  exp  0  1 x 0 
logo,
H 0 : 1  0  H 0 : OR X 1   1  H 0 : RR X i   1

73
5. Caso múltiplo
Utilizar o teste da razão de verossimilhança para

verificar a adequação do modelo como um todo, ié:
H o : 1   2  ...   k  0

H a : o modelo é adequado, ie existe pelo um  ≠ 0
G ~  k2 , onde k : número de  ' s do modelo
Para testar a significância de cada coeficiente,

utilizar o teste Wald:

H 0 :  i  0  H 0 : OR X i   1  H 0 : RR X i   1
^

H a : ^ i  0  H 0 : OR X i   1  H 0 : RR X i   1
i
^
Wi  , onde Wic ~ N 0,1

SE
^
i

74
Estimativa da odds ratio (OR) a partir do

modelo de regressão logística múltipla
chance: Pr ob(Y  1) p

Pr ob(Y  0) 1  p
p X 1 1
1  p X 1 1 e   0   1  X 1  1   2 X 2  ......   k X k 
OR  X 1      0   1  X 1  0   2 X 2  ......   k X k  
p X10 e
1  p X10
e   0   1   2 X 2  ......   k X k    0   2 X 2  ......   k X k   e  1

75
6.Análise de confusão e interação na regressão

logística
 p 
ln    0  1 X 1   2 X 2
1 p 
 p 
ln    0  1 X 1   2 X 2   3 X 1 . X 2
1 p 
Outra maneira de testar interação: criar uma 3a.

variável (Z), que é a combinação de X1 e X2.
X1 X2 Z Z1 Z2 Z3
1 1 3 0 0 1
1 0 2 0 1 0
0 1 1 1 0 0
0 0 0 0 0 0

76
MODELOS DE REGRESSÃO LOGÍSTICA
 Não condicional: estudos transversais, coorte e

caso-controle não pareado
 Condicional: estudos caso-controle e outros onde

haja pareamento. Nestes casos, no banco de dados
deverá existir a variável “par”.

77
ANÁLISE DOS RESÍDUOS
1. Estatística do 2 de Pearson
2. Teste de Hosmer-Lemeshow
---------- Hosmer and Lemeshow Goodness-of-Fit Test-----------
LOW = 0 LOW = 1
Group Observed Expected Observed Expected Total
1 35.000 34.180 3.000 3.820 38.000

2 25.000 26.537 9.000 7.463 34.000
3 29.000 29.743 10.000 9.257 39.000
4 16.000 14.736 6.000 7.264 22.000
5 10.000 9.460 7.000 7.540 17.000
6 8.000 9.877 12.000 10.123 20.000
7 7.000 5.466 12.000 13.534 19.000
Chi-Square df Significance
Goodness-of-fit test 2.3862 5 .7935

--------------------------------------------------------------

Reg 2018

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Reg 2018

Enviado por

Direitos autorais:

Formatos disponíveis

FACULDADE DE SAÚDE PÚBLICA - USP

(HEP- 5743, HEP-5763 e HEP-5764)

Profa. Dra. MARIA DO ROSARIO DIAS DE OLIVEIRA LATORRE

2. Noções de covariância e correlação;

3. Modelo de regressão linear simples e múltipla:

4. Modelo de regressão polinomial;

5. Análise de tendência em séries históricas usando modelos de regressão;

6. Modelo de regressão logística simples e múltipla:

7. Noções do modelo de riscos proporcionais de Cox (regressão de Cox), modelo

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018

5. DIGGLE PJ.Time series: a Biostatistical introduction. Oxford University Press; 1992.

17. Revista Brasileira de Epidemiologia. 2001; 4(3):178-90.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018

Carga horária: 120 horas (12 créditos)

Horário da aula teórica/prática: 3ª feiras, das 8 às 12

 aula teórica: Sala Fernando Guimarães

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018

INTRODUÇÃO À ANÁLISE DE REGRESSÃO

Na prática há diversas situações em que a análise

1. Quando se deseja caracterizar a relação entre uma variável

2. Procurar uma função matemática ou equação para descrever

3. Descrever quantitativa e/ou qualitativamente a relação entre

4. Verificar o efeito interativo de 2 ou mais variáveis

5. Determinar quais das muitas variáveis independentes são

6. Comparar múltiplos relacionamentos derivados da análise de

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018

É importante ser cauteloso sobre os resultados

A análise estatística pode estar correta, porém os

(vícios no delineamento, na amostragem, nas

O achado de uma associação estatística

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018

 Qual a função matemática mais apropriada a ser

 Como determinar o melhor modelo que se ajuste

 Qual a validade e a precisão da(s) estimativa(s)

 A presença, no modelo, de determinada variável

 Dado um modelo específico, o que ele significa?

MODELO MAIS COMPLEXO  MAIS SIMPLES

MODELO MAIS SIMPLES  MAIS COMPLEXO

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018

S Y2 / X i  S Y2 / X K ,  i e k ; ie, S Y2 / X i  S 2 para todo X.

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018

1. MÉTODO DOS MÍNIMOS QUADRADOS

2. MÉTODO DA MÁXIMA VEROSSIMILHANÇA

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018

O MODELO DE REGRESSÃO LINEAR

A função que determina uma reta é: Y = 0 + 1 X.

Porém, como se deseja fazer uma estimativa, a

^ 0 e ^ 1 são estimados pelo Método dos Mínimos

Em uma amostra de tamanho n tem-se n pares de

Somando-se todas as n equações, tem-se:

A soma (S) dos quadrados dos desvios () é:

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018

Para se encontrar os valores de 0 e 1 que

Dessa maneira os valores estimados para 0 e 1

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018

Analisando melhor a equação  ...

Qual o valor esperado para  ? (  0)

MODELOS DE REGRESSÃO APLICADOS A EPIDEMIOLOGIA - MARIA DO ROSARIO D.O. LATORRE - 2018

PRECISÃO DA RETA ESTIMADA

Considera-se a seguinte identidade:

Elevando-se ao quadrado os 2 lados da igualdade