Regressão Logistica

Regressão logística
Nos modelos de regressão linear era assumido que a variável

dependente era uma variável aleatória contínua e que tinha por
domínio o conjunto dos números reais
Existem situações em que a variável cujo comportamento se pretende

estudar não cumpre estas exigências. São os casos em que a variável
dependente é discreta, podendo ser:
- Quantitativa, se os valores que assume têm significado, embora

tenham por domínio o conjunto dos números inteiros
(por exemplo: variáveis que expressam contagens; número de push-ups)
- Qualitativa,
Qualitativa se os valores que assume resultam de meras
codificações arbitrárias de fenómenos quantificáveis
(por exemplo: sexo – masculino 1; feminino 0)
Para todas estas situações existem uma vasta classe de modelos que
permitem estudar problemas em que a variável dependente é
discreta ou limitada e as variáveis explicativas são de qualquer tipo.
As situações em que a variável dependente é discreta cabem nos

modelos de resposta qualitativa, os quais englobam, os modelos de
contagem e os modelos Logit, Probit, Logit condicional, Logit
multinomial e nested Logit, entre outros.
Todos têm em comum o facto de serem não lineares, e por essa razão,
de terem que ser estimados por máxima verosimilhança (maximum
likelihood).
Semelhanças com o modelo de regressão linear
- Prever os valores de uma variável dependente;

(exemplo: apto ou inapto numa prova de aptidão física criterial)
- Estimar impactos das variáveis explicativas naquela variável

dependente.
(exemplo: conhecer o impacto do sexo, da idade, etc. na aptidão)
Diferenças face ao modelo de regressão linear
- Não requer normalidade da variável dependente
- Não requer linearidade na relação entre a variável dependente e as

variáveis independentes.
Modelos de resposta qualitativa (escolha binária)
A variável dependente (Yi) é qualitativa e assume apenas dois valores:
Yi = 1, se o sujeito i se encontra na zona de aptidão

Yi = 0, se o sujeito i não se encontra na zona de aptidão
Pretende-se construir um modelo que permita aferir o impacto de um conjunto de

variáveis explicativas na probabilidade de ocorrer a alternativa 1.
Então, P(Yi=1) = F(Xiβ), em que F é a função cumulativa de uma distribuição, avaliada

em Xiβ
Xi é o vector das variáveis explicativas, quantitativas ou qualitativas, e
Xiβ = β1 + β2X2 + ….+ βkXki
Para especificação de F há inúmeras alternativas. As mais conhecidas e utilizadas são os

modelos de probabilidade linear, modelos logit e os modelos probit.
Modelos Logit
P(Yi=1) = F(Xiβ), em que F é a função cumulativa de uma

distribuição, avaliada em Xiβ
Xi é o vector das variáveis explicativas, quantitativas ou

qualitativas, e Xiβ = β1 + β2X2 + ….+ βkXki
e Xi exp X i  
F ( X i  )   X i   
1 e Xi
1  exp X i  
e Xi exp X i  
F ( X i  )    X i   
1 e Xi
1  exp X i  
e X i 1
P (Yi  1)  P(Yi  0) 1  PYi 1
1 e X i 1 e X i
P(Yi  1)
 e X i   e 1  e 1 X 2  ..... e  k X ki
P (Yi  0)
Esta expressão permite verificar que β corresponde ao efeito multiplicativo de X no

odds do sujeito, correspondendo ao peso pelo qual o odds é alterado
Se βj = 0 → eβi = 1 → o odds não varia com Xj

eβi designa-se por odds ratio,
Se βj > 0 → eβi > 1 → o odds aumenta com Xj que é a razão entre dois odds
Se βj < 0 → eβi < 1 → o odds diminui com Xj
REGRESSÃO LOGÍSTICA
variável dependente dicotómica variáveis independentes

(presença ou ausência de uma contínuas ou categóricas
característica)
Enquanto na regressão múltipla usamos uma combinação das

variáveis independentes para predizer a variável dependente,
no MODELO LOGÍSTICO, usamos essa combinação para
predizer uma transformação da variável dependente
Exemplo: variável dependente (aptidão); variáveis
independentes (sexo)
Quando codificamos a variável dependente com 1 (apto) e 0 (inapto), a sua

média corresponde à proporção de 1s
O modelo de regressão apropriado permite predizer a probabilidade de um

sujeito ser considerado apto, para uma determinada combinação das variáveis
independentes
Transformação desta probabilidade – transformação logística
Variável dependente
Proporção de sujeitos aptos
p
log it ( p )  ln  b0  b1 x
1 p
Variáveis independentes
Proporção de sujeitos inaptos
Semelhanças com o modelo de regressão linear
… os modelos de escolha binária também vão ser utilizados

para prever os valores de uma variável dependente e estimar
impactos das variáveis explicativas naquela variável
dependente.
Por exemplo: estudar o impacto de variáveis como o

sexo, o IMC e o ESE na prática desportiva
… um conjunto de elementos adicionais vai permitir avaliar a

qualidade do ajustamento e realizar vários testes estatísticos
Diferenças face ao modelo de regressão linear
… não requer a normalidade e a continuidade da variável

dependente
… não requer a linearidade na relação entre a variável

dependente e as variáveis independentes
… não requer a normalidade e a homocedasticidade dos termos

de perturbação aleatória
… todas as estimativas são feitas por máxima verosimilhança

(maximum likelihood)
Exemplo - SPSS
Pretende prever-se a aptidão na corrida da milha a partir do sexo das

crianças
Ideia central da Avaliação Criterial
Intervalo de aptidão
Apto
Contínuo de aptidão
Valor de corte
Não proficiente Proficiente

(Inapto) (Apto)
Fitnessgram - Corrida/marcha da milha
Valores de corte (cut-off points) Classificação binária:

Apto: ≤ 8.50 min
Inapto: > 8.50 min.
Recodificar a variável
Recodificar em aptos (1), inaptos (0)
Escrever o nome da
nova variável
(recodificada)
carregar em change
alterar valores antigos pelos novos

(escala de razão por ordinal)
≤ 8,5 (aptos) – 1
Continue e OK
(confirmar na base
de dados se
aparece a variável
milha1recod)
> 8,5 (inaptos) - 0

Regressão Logística
A introdução de uma variável independente categórica obriga à definição da classe de
referência. Caso contrário, o programa assume a última classe como referência
Exemplo - a variável sexo tem duas categorias: 0 – sexo feminino; 1 – sexo masculino
Se não definirmos a classe de referência, o SPSS considera o sexo masculino como a

referência. Normalmente, procuramos ver a influência na variável dependente do estar
exposto a um factor (ser do sexo masculino) relativamente ao não estar exposto (ser do
sexo feminino)
Ao passar a variável categórica do
rectângulo esquerdo para o direito fica
activo o campo da classe de referência
Alterar a classe de referência da última

para a primeira e clickar no change
Ir às opções de modo a seleccionar
o intervalo de confiança para o
odds ratio
Click no continue seguido de OK

para poder ler o output
Indicação dos casos incluídos na
análise e dos casos omissos
Indicação do modo como está

definida a variável dependente
Indicação do modo como está

definida a variável independente e
da frequência de casos em cada
categoria
Diferença do modelo sem a variável
relativamente ao modelo com a variável
Tem interesse para saber se a variável

independente é importante para predizer
o resultado. Se for estatisticamente
significativa mantêm-se
É uma versão ajustada do Cox & Snell

que varia entre 0 e 1
É uma medida de como o modelo se É um coeficiente de determinação. É

ajusta aos dados (DEVIANCE). baseado no log likelihood do modelo
Quanto menor o valor melhor o comparativamente ao log likelihood do
ajuste baseline. Tem um valor máximo inferior a 1,
que significa o perfeito modelo
Tabela de classificação (matriz de confusão)
… permite avaliar a capacidade do modelo para distinguir grupos de sujeitos, dadas as
probabilidades estimadas
… são confrontadas as predições do modelo com a repartição efectiva das observações

da amostra pelos 2 grupos
… permite calcular a % de previsões correctas e incorrectas (erro)
Das 56 crianças observadas e classificadas como inaptas, 44 também o foram pelo modelo
– 78.6% de previsão correcta e 21.4% de previsão incorrecta.
Das 56 crianças observadas e classificadas como aptas, 43 também o foram pelo modelo –
76.8% de previsão correcta e 23.2% de previsão incorrecta.
Histograma das probabilidades estimadas
… à esquerda de 0.5 só deveriam existir inaptos (i) mas há 10 casos de aptos (a)
… à direita de 0.5 só deveriam existir aptos (a) mas há 10 casos de inaptos (i)
… quanto mais concentradas estiverem as observações nos extremos melhor

Interpretação dos coeficientes
Os rapazes têm 12 vezes (odds ratio = 12.128) mais propensão que as

raparigas para serem considerados aptos
aptidão  1.219  2.496 sexo
Sexo masculino (x=1)

log it ( p1 )  log it ( p0 )  (1.219  2.496)  (1.219)
p
log it ( p1 )  ln 1  1.219  2.496(1)
1  p1
log it ( p1 )  log it ( p0 )  2.496
Sexo feminino (x=0)

p0
log it ( p0 )  ln
1  p0
 1.219  2.496(0)
Odds ratio = e2.496 Odds ratio = 12.128
Exemplo do cálculo da probabilidade estimada do
primeiro sujeito da amostra ser activo
P1 = P(activo = 1) sendo este sujeito do sexo masculino = 1
^ exp  1.219  2.496 x 1

P1   0.781
1  exp (1.219  2.496 x 1)
O sujeito nº 1 tem uma probabilidade de ser activo (1) de 78.1%
Confirmar no SPSS, na coluna PRE_1 obtida no SAVE

Exercício 1
Pretende prever-se a aptidão na corrida da milha a partir do IMC

Por cada aumento de uma unidade do IMC, as crianças tendem 0.8 vezes
(odds ratio = 0.838) menos propensão que as raparigas para serem
considerados aptos
Exercício 2
Pretende prever-se a aptidão na prova da milha a partir do IMC (0 – peso

normal; 1 – sobrepeso; 2 – obesidade) das crianças e jovens
Valores corte: 0 a 23,99 - peso normal; 24 a 29,99 - sobrepeso; 30 - 333 obesidade

E quando temos mais do que uma variável independente?
Pretende prever-se a aptidão na prova da milha a partir do sexo (0 – feminino;

1 – masculino) e do peso (0 – peso normal; 1 – sobrepeso; 2 – obesidade) das
crianças e jovens
Definição da classe de referência do género
Ir às opções de modo a seleccionar o intervalo de

confiança para o odds ratio
Método de inclusão de variáveis - Forward LR. O modelo inicia-se unicamente

com a constante e vai adicionando as variáveis independentes de acordo com um
score estatístico. A variável com o score estatístico mais significativo é
adicionada ao modelo (o cut-off é 0.05).
Diferença do modelo com a primeira
variável relativamente ao modelo
com a segunda variável
É uma versão ajustada do Cox & Snell

que varia entre 0 e 1
Medida de como o modelo se ajusta

aos dados. Notar que do 1º step para
É um coeficiente de determinação. É
o 2º, o valor diminui o que indica que
baseado no log likelihood do modelo
o modelo está a predizer melhor a
comparativamente ao log likelihood do
variável dependente.
baseline. Tem um valor máximo inferior a
1, que significa o perfeito modelo
aptidão  6.196  1.909 sexo  0.114 peso
Por cada alteração de uma unidade de peso as crianças têm 0.8 vezes menos
propensão de estarem aptas
O sexo masculino tem uma propensão 6.7 vezes (odds ratio = 6.749) maior
para estar apto relativamente ao feminino
Exercício 2
Pretende prever-se o nível aptidão a partir do peso e da idade

Exemplos de perguntas
1. Qual o propósito dos modelos de regressão logística?
2. Quais as semelhanças e as diferenças que encontra relativamente aos modelos

de regressão linear?
3. No âmbito da sua atividade profissional cite um exemplo de estudo para o qual

deverá ser aplicada
- um modelo de regressão linear simples
- um modelo de regressão logística
4. Quais são os pressupostos para a sua utilização?
5. Imagine o seguinte cenário: um treinador de futebol estava interessado em

perceber se há alguma associação entre ter um acompanhamento nutricional (0 -
não; 1 - sim) e o resultado desportivo das equipas (0 - derrota; 1 - vitória). Dê-lhe
uma ajuda na interpretação dos resultados.

Regressão Logistica

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Regressão Logistica

Enviado por

Direitos autorais:

Formatos disponíveis

Regressão logística

Nos modelos de regressão linear era assumido que a variável

Existem situações em que a variável cujo comportamento se pretende

- Quantitativa, se os valores que assume têm significado, embora

As situações em que a variável dependente é discreta cabem nos

- Prever os valores de uma variável dependente;

- Estimar impactos das variáveis explicativas naquela variável

Diferenças face ao modelo de regressão linear

- Não requer normalidade da variável dependente

- Não requer linearidade na relação entre a variável dependente e as

Yi = 1, se o sujeito i se encontra na zona de aptidão

Pretende-se construir um modelo que permita aferir o impacto de um conjunto de

Então, P(Yi=1) = F(Xiβ), em que F é a função cumulativa de uma distribuição, avaliada

Para especificação de F há inúmeras alternativas. As mais conhecidas e utilizadas são os

P(Yi=1) = F(Xiβ), em que F é a função cumulativa de uma

Xi é o vector das variáveis explicativas, quantitativas ou

Esta expressão permite verificar que β corresponde ao efeito multiplicativo de X no

Se βj = 0 → eβi = 1 → o odds não varia com Xj

variável dependente dicotómica variáveis independentes

Enquanto na regressão múltipla usamos uma combinação das

Quando codificamos a variável dependente com 1 (apto) e 0 (inapto), a sua

O modelo de regressão apropriado permite predizer a probabilidade de um

Transformação desta probabilidade – transformação logística

… os modelos de escolha binária também vão ser utilizados

Por exemplo: estudar o impacto de variáveis como o

… um conjunto de elementos adicionais vai permitir avaliar a

… não requer a normalidade e a continuidade da variável

… não requer a linearidade na relação entre a variável

… não requer a normalidade e a homocedasticidade dos termos

… todas as estimativas são feitas por máxima verosimilhança

Pretende prever-se a aptidão na corrida da milha a partir do sexo das

Não proficiente Proficiente

Valores de corte (cut-off points) Classificação binária:

alterar valores antigos pelos novos

> 8,5 (inaptos) - 0

Se não definirmos a classe de referência, o SPSS considera o sexo masculino como a

Alterar a classe de referência da última

Click no continue seguido de OK

Indicação do modo como está

Indicação do modo como está

Tem interesse para saber se a variável

É uma versão ajustada do Cox & Snell

É uma medida de como o modelo se É um coeficiente de determinação. É

… são confrontadas as predições do modelo com a repartição efectiva das observações

… permite calcular a % de previsões correctas e incorrectas (erro)

… quanto mais concentradas estiverem as observações nos extremos melhor

Os rapazes têm 12 vezes (odds ratio = 12.128) mais propensão que as

aptidão  1.219  2.496 sexo

Sexo masculino (x=1)

log it ( p1 )  log it ( p0 )  2.496

Sexo feminino (x=0)

P1 = P(activo = 1) sendo este sujeito do sexo masculino = 1

^ exp  1.219  2.496 x 1

O sujeito nº 1 tem uma probabilidade de ser activo (1) de 78.1%

Confirmar no SPSS, na coluna PRE_1 obtida no SAVE

Pretende prever-se a aptidão na corrida da milha a partir do IMC

Pretende prever-se a aptidão na prova da milha a partir do IMC (0 – peso

Valores corte: 0 a 23,99 - peso normal; 24 a 29,99 - sobrepeso; 30 - 333 obesidade

Pretende prever-se a aptidão na prova da milha a partir do sexo (0 – feminino;

Ir às opções de modo a seleccionar o intervalo de

Método de inclusão de variáveis - Forward LR. O modelo inicia-se unicamente

É uma versão ajustada do Cox & Snell

Medida de como o modelo se ajusta