Você está na página 1de 13

CAPTULO 2

REGRESSO LOGISTICA
A regresso logstica um modelo linear generalizado. Muitas vezes a varivel
dependente discreta e no contnua, como o mtodo de regresso linear
simples pressupe. No modelo logstico a varivel resposta Yi binria. Uma
varivel binria assume dois valores, habitualmente, Yi 0 e Yi 1 que podem
se denominados "fracasso" e "sucesso", respetivamente. Neste caso,
"sucesso" o evento de interesse.

Regresso Logstica Simples


Seja x i a varivel explanatria; mi a quantidade de itens verificados na
amostra a considerar (nmero de ensaios) e y i o nmero de ocorrncias de
um dado evento, em que i 1,2,..., n . Assume-se ainda, que a varivel
resposta tem distribuio binomial

Yi ~ B mi , i

em que i E Yi . Assim,

mi yi miyi
PYi yi i 1i
yi
Para adequar a resposta mdia ao modelo linear utilizada a funo

xi
Que pode ser escrita como

e 0 i xi
, i 1,..., n
1 e 0 i xi

i
1 i

ln

Quando 1 0

0 i x i

crescente e quando 1 0 ,

decrescente. Quando

tende para valores infinitamente grandes , (x ) tende a zero (quando 1 0 ) e


tende para um (quando 1 0 ). Assim, desta forma, define-se a funo de
ligao necessria modelo. Caso

1 0 , a varivel de resposta Y

independente da varivel X.

ESTIMAO DOS PARMETROS 0 E 1 .


Para estimar os parmetros 0 e 1 utilizado o mtodo da mxima
verossimilhana que, de uma forma geral, fornece valores para os parmetros
desconhecidos que maximizam a probabilidade de se obter determinado
conjunto

de

valores.

Assumindo

que

x 0 , m0 , y 0 ,..., x n , m n , y n

independentes, a funo de verossimilhana tem a seguinte forma:

so

PYi y1,. .yn | 0 , 1


mi yi miyi
i 1 i
i1 yi
n

yi

mi i mi
1 i
i1 yi 1 i
n

Aps aplicar ln aos dois membros da expresso obtm-se:


n

i 1

i 1

L 0 , 1 | xi , mi , yi y i 0 1 xi mi ln 1 e 0 1xi

Os estimadores de mxima verossimilhana para os parmetros 0 e 1 so


os valores 0 e 1 que maximizam o logaritmo da funo de verossimilhana.
Para maximizar a funo de verossimilhana necessrio derivar em relao
aos parmetros do modelo, da seguinte forma:
n
n

e 0 1 xi
L 0 , 1 | x i ,mi , y i y i mi
0
1 e 0 1 xi
i 1
i 1
n
n

e 0 1 xi
L 0 , 1 | x i , mi , y i y i x i mi x i
1
1 e 0 1 xi
i 1
i 1

Ao igualar a zero e substituindo 0 e 1 por 0 e 1 obtm-se

y m 1 e
i

i 1

i 1

e 0 1xi

y x m x 1 e
i

e 0 1 xi

i 1

0 1 xi

i 1

0 1 x i

Para resolver estas equaes necessrio recorrer a mtodos iterativos


numricos que no so abordados neste trabalho. Os resultados decorrentes
da aplicao destes mtodos so includos na matriz denominada Informao
de Fisher com a seguinte forma:

mi

1 e

i 1

m x
i 1

0 1 x i

1 e

mi x i

1 e

i 1

m x

2
0 1 x i

i 1

e 0 1 xi

2
0 1 x i

e 0 1 x i

2
0 1 x i

0 1 x i

1 e

2
0 1 x i

Aps obter as estimativas dos parmetros do modelo possvel calcular as


probabilidades estimadas

e 0 i xi

1 e 0 i xi

INTERPRETAO DOS PARMETROS 0 e 1


Os parmetros 0 e 1 tem significados semelhantes aos anlogos na
regresso linear. Neste caso, 1 o incremento no valor da expresso ()
devido ao aumento de uma unidade em x. E 0 corresponde a log odds de
sucesso contra fracasso no caso em que x=0
Seja g ( x)

x
e
1 x

0 1 x

. Ao tomar dois valores distintos da varivel

a diferena de uma unidade, x j e x j 1 temos:


OR

Temos ainda que:

g x j 1
g x j

0 1 x j 1

0 1 x j

x com

g x j 1

ln g x j 1 ln g x j

ln OR ln
1 x j 1

g x j
xj

Sabendo que a diferena entre as variveis explicativas de uma unidade,


ento:

ln OR ln e 1 1
Assim, temos o quo provvel o resultado ocorrer entre os indivduos x j 1 em
relao aos indivduos x j , fazendo, portanto, algumas anlises:
1 0 OR 1 x j 1 x j
1 0 OR 1 x j 1 x j

ESTIMATIVA DO DESVIO PADRO

As varincias e covarincias dos estimadores 0 , 1

so obtidos,

invertendo a matriz de informao de Fisher, isto , calculando I 1 .


O j -simo elemento da diagonal principal da matriz I 1 a varincia do

estimador j denominada 2 j Os demais elementos da matriz so as

covarincias entre
com j u .
j
u

Desta forma o desvio padro definido como:



DP
j

TESTE DE WALD
O teste de Wald utilizado para avaliar se o parmetro estatisticamente
significativo. A estatstica teste utilizada obtida atravs da razo do
coeficiente pelo seu respetivo erro padro. Esta estatstica de teste tem
distribuio Normal, em que o seu valor comparado com valores tabulados de

acordo com o nvel de significncia definido. A estatstica teste, para avaliar se


o parmetro b igual a zero, assim especificada:
W

var( )

TESTE DA RAZO DE VEROSSIMILHANA


Na regresso logstica necessrio comparar os valores observados da
varivel resposta com os valores preditos obtidos dos modelos com e sem a
varivel em questo. A comparao dos observados com os valores preditos
baseado no log da verossimilhana. Para entender melhor esta comparao,
necessrio pensar num valor observado da varivel resposta tambm como
sendo um valor predito resultante de um modelo saturado. Um modelo
saturado aquele que contm tantos parmetros quanto observaes.
A comparao dos observados com os valores preditos usando a funo de
verossimilhana baseada na seguinte expresso:
Verossimil hana do Modelo Ajustado

Verossimil hana do Modelo Saturado

D 2ln

Com o objetivo de assegurar a significncia de uma varivel independente,


comparamos o valor de D com e sem a varivel na equao. A mudana em D
devido a incluso da varivel no modelo obtida da seguinte maneira:
G D modelo sem a varivel D(modelo com a varivel)

Podemos ento escrever a estatstica G como:


G -2ln L S 2 ln L C

em que L S a verossimilhana do modelo sem a covarivel e L C a


verossimilhana do modelo com a covarivel. As hipteses a testar so
H0: 1 0 vs H1: 1 0

Sob a hiptese nula, a estatstica G tem distribuio chi-quadrado com 1 grau


de liberdade.

TESTE SCORE
A estatstica do teste Score
n

x y

ST

i 1

i 1

y
1
2

y 1 y x i x

Em que y (proporo de sucessos na amostra).


No teste Score as hipteses a testar so:
H 0 : 1 0 vs H1 : 1 0

Intervalos de confiana para os parmetros


A elaborao das estimativas do intervalo de confiana para os parmetros tem
por base a mesma teoria estatstica que utilizada para os testes de
significncia do modelo. Em particular, os intervalo de confiana para a
inclinao e intercepto so baseados nos respetivos testes de Wald.
O intervalo de confiana de com um nvel de confiana 1001 % para o
parmetro 1 :


IC 1 ,1
1 z
DP 1
1

E para o intercepto 0 :


IC 01 ,1
0 z DP 0
1

Em que

o ponto da normal padro correspondente a 100(1-/2)%

INTERVALO DE CONFIANA PARA O LOGIT

O intervalo de confiana para logit :

( x ) z DP g
x
IC g ( x ),1 g
1
2

Em que g x 0 1 x o estimador para logit e DP g x a raz quadrada

r g
x Va
r 0 x 2Va
r 1 2 xCo
v 0 , 1 .
de Va

Intervalo de Confiana para os valores ajustados


O estimador de logit e seu intervalo de confiana fornece o estimador dos
valores ajustados. O intervalo de confiana dos valores ajustados dado por:

IC ,1

g x z 1 / 2 DP g x

1 e

g x z 1 / 2 DP g x

Intervalo de Confiana para Odds Ratio


Sejam I e S os limites inferior e superior respetivamente, do IC 1 ,1 .
Assim, o intervalo de confiana para a Odds Ratio :

ICOddsRatio ,1 e I , e S

Comandos em R para a obteno de um modelo de


regresso Logstica Simples
Os comandos (ou sintaxe) a utilizar para realizar a regresso Logstica Simples
com todos os elementos descritos anteriormente sero descritos em seguida.
Os dados utilizados neste exemplo foram retirados do site The data and story
library com o link.. Os dados foram copiados e inseridos num ficheiro de
texto com a denominao Nasa.txt. Para inserir os dados em ambiente R pode
utilizar-se o seguinte procedimento:
Localizar a diretoria em que se encontra o ficheiro e designar o objeto que ser
utilizado como tabela de dados, atravs da sintaxe:
> dados_rls<-read.table("C:/Users/Jonas/Desktop/Nasa.txt",header=T)
O ficheiro contm dados sobre duas variveis:

-Temp-Fail-;
Antes da obteno do modelo de regresso Logstica Simples possvel obter
um grfico que permita a visualizao da distribuio dos dados para as duas
variveis em anlise atravs do comando plot(dados) que podem ser
observados na tabela 21.
plot(main="Temperaturas
registadas
ocorrncias",xlab="Temperatura",ylab="Falha
anel",fail~temp,data=dados_rls,col="navy",pch=19)

e
no

Tabela 1:Temperaturas e ocorrncias de falhas

A sintaxe bsica para obter o modelo de regresso


glm(Y~modelo)
Onde Y a varivel de resposta e modelo a frmula correspondente ao
modelo matemtico determinado pelo investigador.
No software R no existe uma funo especfica para ajustar um modelo de
regresso logstica, e o motivo simples: a regresso logstica apenas um
caso de modelo linear generalizado, ou GLM em ingls. Nesse tipo de modelo
especifica-se apenas a distribuio do erro e a funo de link.
Assim, o comando a utilizar ter a seguinte sintaxe:
> modelo = glm(fail ~ temp, data = dados_rls, family = binomial(link = 'logit'))
> summary(modelo)
Call:

glm(formula = fail ~ temp, family = binomial(link = "logit"),


data = dados_rls)
Deviance Residuals:
Min
1Q
Median
3Q
Max
-1.2125 -0.8253 -0.4706
0.5907 2.0512
Coefficients:
Estimate
Std. Error
z value
Pr(>|z|)
(Intercept) 10.87535
5.70291
1.907
0.0565 .
temp
-0.17132
0.08344
-2.053
0.0400 *
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 28.975 on 23 degrees of freedom
Residual deviance: 23.030 on 22 degrees of freedom
AIC: 27.03
Number of Fisher Scoring iterations: 4
Tabela 2: Sintaxe e Resumo do modelo logstico simples

Dado que a varivel de interesse binria (1 = houve falha, 0 = no houve


falha), especificamos uma distribuio binomial e usamos a funo logstica
como link (que o default nesse caso, veja help(glm)). Pelo output observa-se
que a temperatura possui efeito significativo na possibilidade de falhas (p value
~ 0.04). Observando os coeficientes do modelo, podemos escrever

1
0 1 x 10.87535 - 0.17132 * T
1

ln

Onde a probabilidade de falha e T a temperatura. A anlise visual do


modelo obtido pode ser feita atravs do grfico inserido na tabela 23.
> temp = dados_rls$temp
> p = modelo$fitted.values
> xlb = expression(paste('Temperatura [', degree,'F]'))
> plot(temp, p, col = 'navy', pch = 19, cex = 1.5, ylab = 'p', xlab = xlb, main =
titulo)
> grid(10, 10, col = '#CCCCCC')

Tabela 3: Sintaxe e Grfico do modelo logstico

Ao observar o grfico, verifica-se que notria a influncia da temperatura


sobre a possibilidade de falha. Logo, ao variarmos a temperatura em 1 grau, as
chances de falha variam em

e -0.17132 = 0.8425515. Ou seja, quando a

temperatura aumenta 1 grau, as chances de falha so reduzidas em


0.8425515. Esse valor denominado de odds ratio, e uma constante
caracterstica do modelo, que tambm pode ser calculado atravs de uma
alterao dos coeficientes do modelo atravs da seguinte sintaxe:
> exp(modelo$coefficients)
(Intercept)
temp
5.285720e+04 8.425515e-01
Tabela 4: Alterao dos coeficientes do modelo

Sobre a validade do modelo possvel efetuar os testes () ,() e () em


ambiente R.
Uma das formas de realizar o teste de Wald atravs do pacote aod que ser
necessrio instalar. Aps a sua instalao e carregamento em ambiente R
efetua-se o teste atravs do comando descrito na tabela seguinte.

> wald.test(b=coef(object=modelo), Sigma=vcov(object=modelo), Terms=2)


Wald test:
---------Chi-squared test:
X2 = 4.2, df = 1, P(> X2) = 0.04
Tabela 5: Sintaxe e output do Teste de Wald

De acordo com os valores obtidos (p-value=0.04), a hiptese nula rejeitada


indicando que a varivel Temperatura tem influncia no modelo obtido. Este
teste surge no output obtido para o modelo logstico representado na tabela 22.
(Confrimar)
O teste de verosimilhana tem por objetivo de assegurar a significncia de
uma varivel independente e a sua estatstica G obtida atravs da diferena
D modelo sem a varivel D(modelo com a varivel) . Em R, a estatstica G pode

ser obtida da seguinte forma:


modelo$deviance
[1] 23.03045
> modelo$null.deviance
[1] 28.97459
> G2=modelo$null.deviance-modelo$deviance
> G2
[1] 5.944137
> 1-pchisq(G2,df=1)
[1] 0.01476632
Tabela 6:Clculos para teste de verosimilhana

Este teste tambm pode ser efetuado atravs de uma anlise de varincia
atravs do comando anova(modelo,test=chisq). A sintaxe utilizada neste
exemplo est descrita na tabela seguinte.
> anova(modelo,test="Chisq")
Analysis of Deviance Table
Model: binomial, link: logit
Response: fail
Terms added sequentially (first to last)
Df
Deviance Resid. Df
Resid.Dev
Pr(>Chi)
NULL
23
28.975
temp
1
5.9441
22
23.030
0.01477 *
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Tabela 7:Anlise de varincia para o modelo logstico simples

Assim, sabendo que a estatstica G tem distribuio chi-quadrado com 1 grau


de liberdade, rejeitamos a hiptese nula e conclui-se que A varivel
Temperatura tem influncia varivel dependente.

Teste SCORE

INTERVALOS DE CONFIANA