Escolar Documentos
Profissional Documentos
Cultura Documentos
Regressão Logística
Prof. Dr. Tetsu Sakamoto
Instituto Metrópole Digital - UFRN
Sala A224, ramal 182
Email: tetsu@imd.ufrn.br
Regressão Logística (na saúde)
biostat.mc.vanderbilt.edu/wiki/Main/DataSets
2
Chance vs. Probabilidade
3
Probabilidade Chance Log10
(p) p / (1-p) (chance)
0,5 1 0,000
● Chance = 1: 50% de probabilidade de ocorrência.
0,6 1,5 0,176
● Log10(chance) > 0 => probabilidade > 50%.
0,7 2,333 0,368
0,9 9 0,954
Lembrando que
0,99 99 1,996
4
Estudos de coorte (razão de probabilidade, risco relativo)
● Investiga a associação entre um fator de risco e um evento.
● Estudo: inicia com grupos expostos e não-expostos ao risco e
depois compara a incidência do evento (‘risco’) nos 2 grupos.
Lembrando que
8
Regressão Logística Simples
9
Regressão Logística
" 𝒊 ) = 𝜶 + 𝜷𝒊 𝑿𝒊
logit(𝒀
● Método estatístico que procura
" 𝒊 ) = log da chance estimada da
logit( 𝒀 estabelecer uma relação entre
variável resultado (dependente). uma variável preditora X e o log
da chance de variável resposta Y
X = variável preditora (independente) binária.
α (b0) = interseção da reta em Y. ● Transformação: logit(p).
Variação no log das chances de Yest para
variação de uma unidade de X. ● Teste estatístico: estimativa por
máxima verossimilhança,
β (b) = coeficiente linear baseado nos resíduos.
Diferencas
Linear Logística
11
Regressão Logística Simples
12
Iniciando com... EDA
● Que tipos de variáveis e valores o dataset apresenta? Há algo de estranho?
○ Variáveis categóricas: quantos valores diferentes possuem? Quão comum é cada um?
Categorias incomuns ou muito estreitas podem causar problemas.
○ Variáveis contínuas: qual é a distribuição? Como resumir essa distribuição? Se for normal,
relate a média e desvio padrão. Se estiver distorcido ou enviesado, melhor relatar a mediana
e intervalo interquartil.
13
Regressão Logística em R
Regressão Logística Simples
> glm(resultado ~ preditor, family=binomial (link=logit))
15
Regressão Logística Simples - premissas
> glm(dm ~ age, family=binomial (link=logit))
A relação entre o
preditor e o resultado
em log(odds) é linear!
16
Interpretando um Modelo Nulo
Odds
60/330 = 0.182
Probabiliade
60/(330+60) = 0.15
18
Regressão Logística - age
● Log odds de diabetes =
-4.4045 + 0.0525 * age (anos)
● p-valor (age): 2.29e-08
● Odds ratio = exp(0.052) = 1.05
● Aumento de 5% na chance de ter
diabetes para cada ano vivido.
● Akaike's Information Criterion (AIC)
descreve quão bem o modelo se ajusta
aos dados enquanto penaliza modelos
com muitos coeficientes. Valores mais
baixos de AIC são desejáveis.
19
Aplicações de modelos de Regressão Logística
REALIDADE
Diabetes Normal Total
𝑎
MODELO
𝑎 𝑑 𝑎+𝑑
𝑆𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 = 𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑𝑒 = 𝐴𝑐𝑢𝑟á𝑐𝑖𝑎 =
𝑎+𝑐 𝑑+𝑏 𝑡𝑜𝑡𝑎𝑙
● R2: proporção da variância do resultado que pode ser explicada pelo modelo. Entretanto,
não podemos fazer testes de correlação para variáveis binárias.
● Macfadden (pseudo-R2): similar ao R2 mas com valores menores que na regressão linear.
21
Ajuste do modelo - Poder Preditivo ou Explicativo
Curva ROC
● Sensibilidade: probabilidade de um resultado
positivo entre os casos (evento de interesse).
● 1 – especificidade: probabilidade de um
resultado positivo entre os não casos.
● Uma estatística abaixo de 0.5 prevê o resultado
pior do que a chance aleatória!
● O poder preditivo não diz nada sobre o a
qualidade do ajuste e vice-versa. É possível
obter uma boa previsão com ajuste ruim ou um
modelo com bom ajuste, mas previsão ruim!
22
Regressão Logística Múltipla
23
Desenvolvendo um modelo de Regressão (Logística)
24
Overfitting é uma grande armadilha da modelagem preditiva e
acontece quando você tenta incluir muitos preditores ou
categorias em seu modelo.
25
Desenvolvendo um modelo de Regressão (Logística)
● Avalie o erro-padrão: quanto < n amostral, > std.error. Erros acima de 10 devem ser
cuidadosamente investigados.
○ Regra prática: coef > 2x std.error, geralmente significativo.
● Agrupe os níveis de variáveis categóricas, se possível.
● Mude a categoria de referência, caso esta seja muito estreita.
● Crie novas variáveis a partir das existentes.
● Elimine variáveis colineares.
● Elimine sumariamente variáveis com erro-padrão grande (último recurso!).
26
Referências
● Dancey, CP; Reidy JG; Rowe, R. Estatística Sem Matemática para as Ciências da Saúde. Porto
Alegre: Penso, 2017.
● Wheelan, Charles. Estatística: o que é, para que serve, como funciona. Rio de Janeiro: Zahar,
2016.