Você está na página 1de 37

Regressão logística

Nos modelos de regressão linear era assumido que a variável


dependente era uma variável aleatória contínua e que tinha por
domínio o conjunto dos números reais

Existem situações em que a variável cujo comportamento se pretende


estudar não cumpre estas exigências. São os casos em que a variável
dependente é discreta, podendo ser:

- Quantitativa, se os valores que assume têm significado, embora


tenham por domínio o conjunto dos números inteiros
(por exemplo: variáveis que expressam contagens; número de push-ups)

- Qualitativa,
Qualitativa se os valores que assume resultam de meras
codificações arbitrárias de fenómenos quantificáveis
(por exemplo: sexo – masculino 1; feminino 0)
Para todas estas situações existem uma vasta classe de modelos que
permitem estudar problemas em que a variável dependente é
discreta ou limitada e as variáveis explicativas são de qualquer tipo.

As situações em que a variável dependente é discreta cabem nos


modelos de resposta qualitativa, os quais englobam, os modelos de
contagem e os modelos Logit, Probit, Logit condicional, Logit
multinomial e nested Logit, entre outros.

Todos têm em comum o facto de serem não lineares, e por essa razão,
de terem que ser estimados por máxima verosimilhança (maximum
likelihood).
Semelhanças com o modelo de regressão linear

- Prever os valores de uma variável dependente;


(exemplo: apto ou inapto numa prova de aptidão física criterial)

- Estimar impactos das variáveis explicativas naquela variável


dependente.
(exemplo: conhecer o impacto do sexo, da idade, etc. na aptidão)

Diferenças face ao modelo de regressão linear

- Não requer normalidade da variável dependente

- Não requer linearidade na relação entre a variável dependente e as


variáveis independentes.
Modelos de resposta qualitativa (escolha binária)
A variável dependente (Yi) é qualitativa e assume apenas dois valores:

Yi = 1, se o sujeito i se encontra na zona de aptidão


Yi = 0, se o sujeito i não se encontra na zona de aptidão

Pretende-se construir um modelo que permita aferir o impacto de um conjunto de


variáveis explicativas na probabilidade de ocorrer a alternativa 1.

Então, P(Yi=1) = F(Xiβ), em que F é a função cumulativa de uma distribuição, avaliada


em Xiβ
Xi é o vector das variáveis explicativas, quantitativas ou qualitativas, e
Xiβ = β1 + β2X2 + ….+ βkXki

Para especificação de F há inúmeras alternativas. As mais conhecidas e utilizadas são os


modelos de probabilidade linear, modelos logit e os modelos probit.
Modelos Logit

P(Yi=1) = F(Xiβ), em que F é a função cumulativa de uma


distribuição, avaliada em Xiβ

Xi é o vector das variáveis explicativas, quantitativas ou


qualitativas, e Xiβ = β1 + β2X2 + ….+ βkXki

e Xi exp X i  
F ( X i  )   X i   
1 e Xi
1  exp X i  
e Xi exp X i  
F ( X i  )    X i   
1 e Xi
1  exp X i  

e X i 1
P (Yi  1)  P(Yi  0) 1  PYi 1
1 e X i 1 e X i

P(Yi  1)
 e X i   e 1  e 1 X 2  ..... e  k X ki
P (Yi  0)

Esta expressão permite verificar que β corresponde ao efeito multiplicativo de X no


odds do sujeito, correspondendo ao peso pelo qual o odds é alterado

Se βj = 0 → eβi = 1 → o odds não varia com Xj


eβi designa-se por odds ratio,
Se βj > 0 → eβi > 1 → o odds aumenta com Xj que é a razão entre dois odds
Se βj < 0 → eβi < 1 → o odds diminui com Xj
REGRESSÃO LOGÍSTICA

variável dependente dicotómica variáveis independentes


(presença ou ausência de uma contínuas ou categóricas
característica)

Enquanto na regressão múltipla usamos uma combinação das


variáveis independentes para predizer a variável dependente,
no MODELO LOGÍSTICO, usamos essa combinação para
predizer uma transformação da variável dependente
Exemplo: variável dependente (aptidão); variáveis
independentes (sexo)

Quando codificamos a variável dependente com 1 (apto) e 0 (inapto), a sua


média corresponde à proporção de 1s

O modelo de regressão apropriado permite predizer a probabilidade de um


sujeito ser considerado apto, para uma determinada combinação das variáveis
independentes

Transformação desta probabilidade – transformação logística

Variável dependente
Proporção de sujeitos aptos

p
log it ( p )  ln  b0  b1 x
1 p
Variáveis independentes
Proporção de sujeitos inaptos
Semelhanças com o modelo de regressão linear

… os modelos de escolha binária também vão ser utilizados


para prever os valores de uma variável dependente e estimar
impactos das variáveis explicativas naquela variável
dependente.

Por exemplo: estudar o impacto de variáveis como o


sexo, o IMC e o ESE na prática desportiva

… um conjunto de elementos adicionais vai permitir avaliar a


qualidade do ajustamento e realizar vários testes estatísticos
Diferenças face ao modelo de regressão linear

… não requer a normalidade e a continuidade da variável


dependente

… não requer a linearidade na relação entre a variável


dependente e as variáveis independentes

… não requer a normalidade e a homocedasticidade dos termos


de perturbação aleatória

… todas as estimativas são feitas por máxima verosimilhança


(maximum likelihood)
Exemplo - SPSS

Pretende prever-se a aptidão na corrida da milha a partir do sexo das


crianças
Ideia central da Avaliação Criterial

Intervalo de aptidão

Apto

Contínuo de aptidão

Valor de corte

Não proficiente Proficiente


(Inapto) (Apto)
Fitnessgram - Corrida/marcha da milha

Valores de corte (cut-off points) Classificação binária:


Apto: ≤ 8.50 min
Inapto: > 8.50 min.

Recodificar a variável
Recodificar em aptos (1), inaptos (0)
Escrever o nome da
nova variável
(recodificada)

carregar em change

alterar valores antigos pelos novos


(escala de razão por ordinal)
≤ 8,5 (aptos) – 1

Continue e OK
(confirmar na base
de dados se
aparece a variável
milha1recod)

> 8,5 (inaptos) - 0


Regressão Logística
A introdução de uma variável independente categórica obriga à definição da classe de
referência. Caso contrário, o programa assume a última classe como referência

Exemplo - a variável sexo tem duas categorias: 0 – sexo feminino; 1 – sexo masculino

Se não definirmos a classe de referência, o SPSS considera o sexo masculino como a


referência. Normalmente, procuramos ver a influência na variável dependente do estar
exposto a um factor (ser do sexo masculino) relativamente ao não estar exposto (ser do
sexo feminino)
Ao passar a variável categórica do
rectângulo esquerdo para o direito fica
activo o campo da classe de referência

Alterar a classe de referência da última


para a primeira e clickar no change
Ir às opções de modo a seleccionar
o intervalo de confiança para o
odds ratio

Click no continue seguido de OK


para poder ler o output
Indicação dos casos incluídos na
análise e dos casos omissos

Indicação do modo como está


definida a variável dependente

Indicação do modo como está


definida a variável independente e
da frequência de casos em cada
categoria
Diferença do modelo sem a variável
relativamente ao modelo com a variável

Tem interesse para saber se a variável


independente é importante para predizer
o resultado. Se for estatisticamente
significativa mantêm-se

É uma versão ajustada do Cox & Snell


que varia entre 0 e 1

É uma medida de como o modelo se É um coeficiente de determinação. É


ajusta aos dados (DEVIANCE). baseado no log likelihood do modelo
Quanto menor o valor melhor o comparativamente ao log likelihood do
ajuste baseline. Tem um valor máximo inferior a 1,
que significa o perfeito modelo
Tabela de classificação (matriz de confusão)
… permite avaliar a capacidade do modelo para distinguir grupos de sujeitos, dadas as
probabilidades estimadas

… são confrontadas as predições do modelo com a repartição efectiva das observações


da amostra pelos 2 grupos

… permite calcular a % de previsões correctas e incorrectas (erro)

Das 56 crianças observadas e classificadas como inaptas, 44 também o foram pelo modelo
– 78.6% de previsão correcta e 21.4% de previsão incorrecta.
Das 56 crianças observadas e classificadas como aptas, 43 também o foram pelo modelo –
76.8% de previsão correcta e 23.2% de previsão incorrecta.
Histograma das probabilidades estimadas

… à esquerda de 0.5 só deveriam existir inaptos (i) mas há 10 casos de aptos (a)

… à direita de 0.5 só deveriam existir aptos (a) mas há 10 casos de inaptos (i)

… quanto mais concentradas estiverem as observações nos extremos melhor


Interpretação dos coeficientes

Os rapazes têm 12 vezes (odds ratio = 12.128) mais propensão que as


raparigas para serem considerados aptos

aptidão  1.219  2.496 sexo

Sexo masculino (x=1)


log it ( p1 )  log it ( p0 )  (1.219  2.496)  (1.219)
p
log it ( p1 )  ln 1  1.219  2.496(1)
1  p1

log it ( p1 )  log it ( p0 )  2.496

Sexo feminino (x=0)


p0
log it ( p0 )  ln
1  p0
 1.219  2.496(0)
Odds ratio = e2.496 Odds ratio = 12.128
Exemplo do cálculo da probabilidade estimada do
primeiro sujeito da amostra ser activo

P1 = P(activo = 1) sendo este sujeito do sexo masculino = 1

^ exp  1.219  2.496 x 1


P1   0.781
1  exp (1.219  2.496 x 1)

O sujeito nº 1 tem uma probabilidade de ser activo (1) de 78.1%

Confirmar no SPSS, na coluna PRE_1 obtida no SAVE


Exercício 1

Pretende prever-se a aptidão na corrida da milha a partir do IMC


Interpretação dos coeficientes

Por cada aumento de uma unidade do IMC, as crianças tendem 0.8 vezes
(odds ratio = 0.838) menos propensão que as raparigas para serem
considerados aptos
Exercício 2

Pretende prever-se a aptidão na prova da milha a partir do IMC (0 – peso


normal; 1 – sobrepeso; 2 – obesidade) das crianças e jovens

Valores corte: 0 a 23,99 - peso normal; 24 a 29,99 - sobrepeso; 30 - 333 obesidade


E quando temos mais do que uma variável independente?

Pretende prever-se a aptidão na prova da milha a partir do sexo (0 – feminino;


1 – masculino) e do peso (0 – peso normal; 1 – sobrepeso; 2 – obesidade) das
crianças e jovens
Definição da classe de referência do género

Ir às opções de modo a seleccionar o intervalo de


confiança para o odds ratio

Método de inclusão de variáveis - Forward LR. O modelo inicia-se unicamente


com a constante e vai adicionando as variáveis independentes de acordo com um
score estatístico. A variável com o score estatístico mais significativo é
adicionada ao modelo (o cut-off é 0.05).
Diferença do modelo com a primeira
variável relativamente ao modelo
com a segunda variável

É uma versão ajustada do Cox & Snell


que varia entre 0 e 1

Medida de como o modelo se ajusta


aos dados. Notar que do 1º step para
É um coeficiente de determinação. É
o 2º, o valor diminui o que indica que
baseado no log likelihood do modelo
o modelo está a predizer melhor a
comparativamente ao log likelihood do
variável dependente.
baseline. Tem um valor máximo inferior a
1, que significa o perfeito modelo
Interpretação dos coeficientes

aptidão  6.196  1.909 sexo  0.114 peso

Por cada alteração de uma unidade de peso as crianças têm 0.8 vezes menos
propensão de estarem aptas

O sexo masculino tem uma propensão 6.7 vezes (odds ratio = 6.749) maior
para estar apto relativamente ao feminino
Exercício 2

Pretende prever-se o nível aptidão a partir do peso e da idade


Exemplos de perguntas
1. Qual o propósito dos modelos de regressão logística?

2. Quais as semelhanças e as diferenças que encontra relativamente aos modelos


de regressão linear?

3. No âmbito da sua atividade profissional cite um exemplo de estudo para o qual


deverá ser aplicada
- um modelo de regressão linear simples
- um modelo de regressão logística

4. Quais são os pressupostos para a sua utilização?

5. Imagine o seguinte cenário: um treinador de futebol estava interessado em


perceber se há alguma associação entre ter um acompanhamento nutricional (0 -
não; 1 - sim) e o resultado desportivo das equipas (0 - derrota; 1 - vitória). Dê-lhe
uma ajuda na interpretação dos resultados.

Você também pode gostar