Você está na página 1de 12

Estatı́stica Biomédica

2. Testes de Associação e Regressão

Capı́tulo 2: Testes de associação e Regressão


Conteúdo
2.3. Regressão Logı́stica
2.3.1. Modelo
2.3.2. Estimação dos coeficientes
2.3.3. Interpretação dos coeficientes. Razão das chances ajustada (adjusted
odds ratio)

Bibliografia de base
I Daniel, W. W., Cross,C.L. (2013) Biostatistics : A Foundation for Analysis
in the Health Sciences. 10th Edition. John Wiley & Sons (Capı́tulo 11).
I Woodworth, G. (2004) Biostatistics. A bayesian introduction, John Wiley &
Sons. New Jersey (Capı́tulo 10)

Adelaide Freitas & Nélia Silva (DMat - UA) Estatı́stica Biomédica 1º S 1 / 12


Estatı́stica Biomédica
2. Testes de Associação e Regressão
#.1. Modelo

Regressão logı́stica
I Corresponde a um modelo de regressão onde a variável resposta Y ,
condicionada a p variáveis explicativas x1 , x2 , · · · , xp , é binária
- “sucesso”:Y = 1;
- “insucesso”:Y = 0
e com distribuição de Bernoulli dada por

“insucesso” “sucesso”
0 1
Prob(Y = y |x1 , · · · , xp ) 1 − P(x1 , · · · , xp ) P(x1 , · · · , xp )

I Pretende investigar como as variáveis explicativas influenciam a


variável resposta (nominal, binária) , ie., a ocorrência de um evento
(“sucesso”).
I Quando p > 1 a Regressão Logı́stica (RLog) diz-se múltipla.
Adelaide Freitas & Nélia Silva (DMat - UA) Estatı́stica Biomédica 1º S 2 / 12
Estatı́stica Biomédica
2. Testes de Associação e Regressão
#.1. Modelo

Regressão Logı́stica - Exemplos -


I RLog simples. Averiguar se a idade de uma mulher afeta a sua
participação num programa de reabilitação cardı́aca.
- Variável independente,
x: idade
- Variável dependente,
Y : Participação (Não, Y = 0; SIM: Y = 1; variável dicotómica)
I RLog múltipla. Estimar a probabilidade de um indivı́duo desenvolver
cancro do pulmão com base em caracterı́sticas do indivı́duo.
- Variáveis independentes1 ,
x1 : idade, x2 : intensidade de fumador, x3 : sexo
- Variável dependente,
Y : Cancro do pulmão (Não, Y = 0; SIM: Y = 1; variável dicotómica)
1
Consideram-se variáveis de planeamento nas variáveis nominais.
Adelaide Freitas & Nélia Silva (DMat - UA) Estatı́stica Biomédica 1º S 3 / 12
Estatı́stica Biomédica
2. Testes de Associação e Regressão
#.1. Modelo

RLog - Modelo -
O modelo de RLog é definido por uma equação de regressão linear em que
a variável resposta é o logaritmo das chances (odds) do acontecimento
”sucesso”
 
P(x1 , · · · , xp )
ln(odds) = ln = β0 + β1 x1 + β2 x2 + · · · + βp xp
1 − P(x1 , · · · , xp )

A função de regressão logı́stica é dada por

exp(β0 + β1 x1 + β2 x2 + · · · + βp xp )
P(x1 , · · · , xp ) =
1 + exp(β0 + β1 x1 + β2 x2 + · · · + βp xp )

Designam-se:
 
P(x ,··· ,x )
- ln 1−P(x1 1 ,··· ,xp p ) : função logı́stica , ou simplesmente, logit.
- β0 , β1 , β2 , · · · , βp coeficientes da RLog;
Adelaide Freitas & Nélia Silva (DMat - UA) Estatı́stica Biomédica 1º S 4 / 12
Estatı́stica Biomédica
2. Testes de Associação e Regressão
#.1. Modelo

RLog simples - interpretação do modelo -


 
P(x)
ln(odds) = ln = β0 + β1 x
1 − P(x)

A função de regressão logı́stica é


dada por

exp(β0 + β1 x)
P(x) =
1 + exp(β0 + β1 x)

Exemplo 1. Considerando o modelo de RLog para estimar a probabilidade de uma


mulher participar num programa de reabilitação cardı́aca em função da sua idade (x)
dado por:  
P
ln = 1.87 − 0.04x ,
1−P
então, a probabilidade de um mulher de 45 anos participar nesse programa é:
exp(1.87 − 0.04 × 45)
P= = 0.517
1 + exp(1.87 − 0.04 × 45)
Adelaide Freitas & Nélia Silva (DMat - UA) Estatı́stica Biomédica 1º S 5 / 12
Estatı́stica Biomédica
2. Testes de Associação e Regressão
#.1. Modelo

RLog múltipla - interpretação do modelo -


Exemplo. O modelo de RLog para estimar a probabilidade de desenvolver cancro do
pulmão com base na informação de uma pessoa: idade (x1 , em anos), intensidade de
fumador (x2 = n. de cigarros por dia) e sexo (x3 = 0, se F; x3 = 1 se M) é dado por:
 
P(x1 , x2 , x3 )
ln = −9.2 + 0.002x1 + 0.15x2 + 0.1x3
1 − P(x1 , x2 , x3 )
Então, estima-se que a chance de um homem com 45 anos que fume 20 cigarros por dia
ter cancro do pulmão é de

odds = exp(−9.2 + 0.002 × 45 + 0.15 × 20 + 0.1 × 1) = exp(−6.01) = 0.0025

É mais fácil interpretar convertendo a chance (odds) em probabilidades. A taxa de


cancro do pulmão para homens com 45 anos fumando 20 cigarros por dia é de:
exp(−9.2 + 0.002 × 45 + 0.15 × 20 + 0.1 × 1)
P(45, 20, 1) = = 0.0024
1 + exp(−9.2 + 0.002 × 45 + 0.15 × 20 + 0.1 × 1)

Adelaide Freitas & Nélia Silva (DMat - UA) Estatı́stica Biomédica 1º S 6 / 12


Estatı́stica Biomédica
2. Testes de Associação e Regressão
#.2. Estimação dos coeficientes

Estimação dos coeficientes do modelo de RLog


I Para estimar os coeficientes β0 , β1 , β2 , · · · , βp utiliza-se o método de
máxima verosimilhança que consiste em determinar o valor daqueles
parâmetros que torna mais verossı́mil (”provável”ou ”densa”) a
amostra.
I Esse método conduz a um sistema de p + 1 equações não lineares.
I As estimativas β̂0 , β̂1 , β̂2 , · · · , β̂p correspondem à solução desse
sistema o qual se resolve por métodos numéricos (ex.
Newton-Raphson)
No , faz-se (caso p = 3):
> modelo= glm(Y ~ x1+x2+x3, data=dados, family="binomial")
> modelo
> summary(modelo)

Adelaide Freitas & Nélia Silva (DMat - UA) Estatı́stica Biomédica 1º S 7 / 12


Estatı́stica Biomédica
2. Testes de Associação e Regressão
#.3. Interpretação dos coeficientes. AOR

RLog simples -interpretação dos coeficientes-


 
P(x)
ln 1−P(x)
= β0 + β1 x

P(x)
= exp(β0 + β1 x)
1 − P(x)

P(0)
I exp(β0 ) = .
1−P(0)

Chance de ocorrer “sucesso” quando x = 0.


Nota. Nem sempre tem sentido considerar x = 0 no contexto do problema.

I β1 =?
P(x+∆x)
1−P(x+∆x)
OR(x + ∆x, x) = odds ratio(x + ∆x, x) = P(x)
=
1−P(x)

exp(β0 + β1 (x + ∆x))
= = exp(β1 ∆x)
exp(β0 + β1 x)
onde ∆x representa um valor incremental na variável explicativa (x).

Adelaide Freitas & Nélia Silva (DMat - UA) Estatı́stica Biomédica 1º S 8 / 12


Estatı́stica Biomédica
2. Testes de Associação e Regressão
#.3. Interpretação dos coeficientes. AOR

RLog simples -Exemplo 1 (cont.)-


Considere-se o modelo de RLog simples anterior dado por
 
P
ln = 1.87 − 0.04x
1−P
onde P é a probabilidade de uma mulher participar num programa de reabilitação
cardı́aca e x é a sua idade.
I β0 = 1.87 → Como x = 0 significa não ter idade(!), não se interpreta o valor de β0 .
I β1 = −0.04
Tome-se um decréscimo ∆x = −1 na variável idade (x). Assim, tem-se

OR = exp(β1 × (−1)) = exp(0.04) = 1.04

Significa que uma mulher tem 1.04 vezes mais chance de participar no programa
de reabilitação cardı́aca do que uma mulher mais velha um 1 ano de idade.

Adelaide Freitas & Nélia Silva (DMat - UA) Estatı́stica Biomédica 1º S 9 / 12


Estatı́stica Biomédica
2. Testes de Associação e Regressão
#.3. Interpretação dos coeficientes. AOR

RLog múltipla -interpretação dos



coeficientes-

P(x1 ,x2 ,··· ,xp )
ln 1−P(x1 ,x2 ,··· ,xp )
= β0 + β1 x1 + β2 x2 + · · · + βp xp

P(x1 , x2 , · · · , xp )
= exp(β0 + β1 x1 + β2 x2 + · · · + βp xp )
1 − P(x1 , x2 , · · · , xp )

P(0,0,··· ,0)
I exp(β0 ) = . Chance de ocorrer “sucesso” quando x1 = · · · = xp = 0.
1−P(0,0,··· ,0)
Nota. Nem sempre tem sentido considerar x1 = · · · = xp = 0 no contexto do problema.

I βi =?, para algum i = 1, 2, · · · , p.


P(x1 ,··· ,xi +∆xi ,··· ,xp )
1−P(x1 ,··· ,xi +∆xi ,··· ,xp )
AOR(xi + ∆xi , xi ) = Adjusted Odds Ratio(xi + ∆xi , xi ) = P(x1 ,··· ,xp )
1−P(x1 ,··· ,xp )

exp(β0 + β1 x1 + · · · + βi (xi + ∆xi ) + · · · + βp xp )


= = exp(βi ∆xi )
exp(β0 + β1 x1 + · · · + βp xp )
onde ∆xi é um incremento realizado apenas na variável explicativa xi .
A razão das chances ajustadas, AOR, quantifica o impacto de uma variável explicativa,
quando todas as outras variáveis se mantém inalteradas.
Se ∆xi = 1, então AOR(xi + 1, xi ) = exp(βi ).
Adelaide Freitas & Nélia Silva (DMat - UA) Estatı́stica Biomédica 1º S 10 / 12
Estatı́stica Biomédica
2. Testes de Associação e Regressão
#.3. Interpretação dos coeficientes. AOR

RLog múltiplo -Exemplo 2 (cont.)-


Considere-se o modelo de RLog múltiplo anterior dado por
 
P
ln = −9.2 + 0.002x1 + 0.15x2 + 0.1x3
1−P
onde P é a probabilidade de um indivı́duo desenvolver cancro do pulmão, x1 é a idade
(em anos), x2 é o n. de cigarros por dia e x3 é a variável sexo, dicotómica com x3 = 0 se
F e x3 = 1 se M.
I β0 = −9.2 → ... Não faz sentido interpretar! (porquê?)
I β2 = 0.15. Tome-se o incremento ∆x = 20 na variável x2 . Nesse caso, AOR
compara um fumador de 1 maço (20 cigarros) por dia com um não fumador do
mesmo sexo e a mesma idade.

AOR = exp(β2 × 20) = exp(0.15 × 20) = 20.1

Significa que pacientes fumando 20 cigarros por dia são estimados ter 20.1 vezes
mais chance de desenvolver cancro do pulmão do que pacientes não fumadores,
mantendo as restantes caracterı́sticas iguais.
Adelaide Freitas & Nélia Silva (DMat - UA) Estatı́stica Biomédica 1º S 11 / 12
Estatı́stica Biomédica
2. Testes de Associação e Regressão
#.3. Interpretação dos coeficientes. AOR

RLog múltiplo -Exemplo 2 (cont.)-


Considere-se o modelo de RLog múltiplo anterior dado por
 
P
log = −9.2 + 0.002x1 + 0.15x2 + 0.1x3
1−P
onde P é a probabilidade de um indivı́duo desenvolver cancro do pulmão, x1 é a idade
(em anos), x2 é o n. de cigarros por dia e x3 é a variável sexo, dicotómica com x3 = 0 se
F e x3 = 1 se M.
I β3 = 0.1. Tome-se x3 = 0 e o incremento ∆x3 = 1 na variável x3 . Nesse caso,
significa que AOR avalia a razão das chances de Masculino vs Feminino,
mantendo-se a condição de fumador fixada e a mesma idade.

AOR = exp(β3 ) = exp(0.1) = 1.1

Significa que os homens apresentam 1.1 vezes mais chance de desenvolver cancro
do pulmão do que as mulheres, mantendo as restantes caracterı́sticas iguais.

Adelaide Freitas & Nélia Silva (DMat - UA) Estatı́stica Biomédica 1º S 12 / 12