Você está na página 1de 13

CAPÍTULO 2

REGRESSÃO LOGISTICA
A regressão logística é um modelo linear generalizado. Muitas vezes a variável
dependente é discreta e não contínua, como o método de regressão linear
simples pressupõe. No modelo logístico a variável resposta Yi é binária. Uma
variável binária assume dois valores, habitualmente, Yi  0 e Yi  1 que podem
se denominados "fracasso" e "sucesso", respetivamente. Neste caso,
"sucesso" é o evento de interesse.

Regressão Logística Simples
Seja x i a variável explanatória; mi a quantidade de itens verificados na
amostra a considerar (número de ensaios) e y i o número de ocorrências de
um dado evento, em que i  1,2,..., n . Assume-se ainda, que a variável
resposta tem distribuição binomial

 Yi ~ B mi ,  i  

em que  i  E  Yi  . Assim,

 mi  yi miyi
PYi  yi   i 1i
 yi 
Para adequar a resposta média ao modelo linear é utilizada a função

  xi  
Que pode ser escrita como

e  0   i xi
, i  1,..., n
1  e  0   i xi

a função de verossimilhança tem a seguinte forma: são .  é decrescente.  x n . m n . Quando x tende para valores infinitamente grandes . Assim. fornece valores para os parâmetros desconhecidos que maximizam a probabilidade de se obter determinado conjunto de valores..i  1 i  ln Quando  1  0     0   i x i   é crescente e quando  1  0 . ESTIMAÇÃO DOS PARÂMETROS  0 E  1 . Assumindo que  x 0 . Para estimar os parâmetros  0 e  1 é utilizado o método da máxima verossimilhança que..  (x ) tende a zero (quando  1  0 ) e tende para um (quando  1  0 ). a variável de resposta Y é independente da variável X.. y 0  . de uma forma geral. define-se a função de ligação necessária modelo. m0 . Caso  1  0 . desta forma.. y n  independentes.

y i     y i   mi β0 1  e β0  β1 xi i 1 i 1 n n  e β0  β1 xi L β0 . mi .PYi  y1. β1 |  x i . yi     y i   0  1 xi    mi ln 1  e 0  1xi  Os estimadores de máxima verossimilhança para os parâmetros  0 e  1 são os valores ˆ 0 e ˆ1 que maximizam o logaritmo da função de verossimilhança. mi . da seguinte forma: n n  e β0  β1 xi L β0 . Para maximizar a função de verossimilhança é necessário derivar em relação aos parâmetros do modelo. β1 |  x i .yn | 0 . .mi . y i     y i x i   mi x i β1 1  e β0  β1 xi i 1 i 1 Ao igualar a zero e substituindo  0 e  1 por ˆ 0 e ˆ1 obtém-se .. 1 |  xi . 1   mi  yi miyi     i 1  i   i1  yi  n yi  mi    i  mi      1  i  i1  yi   1   i  n Após aplicar ln aos dois membros da expressão obtém-se: n n i 1 i 1  L  0 .

 1 é o incremento no valor da expressão () devido ao aumento de uma unidade em x. Neste caso. Os resultados decorrentes da aplicação destes métodos são incluídos na matriz denominada Informação de Fisher com a seguinte forma:  ˆ  mi    1  e i 1 I βˆ     m x i 1 i i βˆ0  βˆ1 x i 1  e ˆ  mi x i  1  e i 1 n m x  2 βˆ0  βˆ1 x i 2 i i 1 i e  ˆ e β0  β1 xi n 2 βˆ0  βˆ1 x i e n  ˆ e β0  β1 x i n   2 βˆ0  βˆ1 x i βˆ0  βˆ1 x i 1  e      2 βˆ0  βˆ1 x i Após obter as estimativas dos parâmetros do modelo é possível calcular as probabilidades estimadas ˆ i  ˆ e 0  i xi ˆ ˆ 1  e 0  i xi INTERPRETAÇÂO DOS PARÂMETROS  0 e  1 Os parâmetros  0 e  1 tem significados semelhantes aos análogos na regressão linear. Ao tomar dois valores distintos da variável a diferença de uma unidade.n ˆ  y  m 1  e i i 1 i i 1 n ˆ e β0  β1xi n ˆ  y x  m x 1 e i i ˆ e β0  β1 xi n i 1 0 βˆ 0  βˆ 1 xi i i 1 i βˆ 0  βˆ 1 x i 0 Para resolver estas equações é necessário recorrer a métodos iterativos numéricos que não são abordados neste trabalho. E  0 corresponde a “log odds” de “sucesso” contra fracasso no caso em que x=0 Seja g ( x)    x  e 1    x 0  1 x . x j e x j 1 temos: OR  Temos ainda que: g  x j 1  g x j   e  0  1 x j 1 e  0  1 x j x com .

ˆ1  são obtidos. g  x j 1     ln  g  x j 1    ln  g  x j    ln OR   ln   β1  x j 1  g  x j    xj  Sabendo que a diferença entre as variáveis explicativas é de uma unidade.β ˆ covariâncias entre β com j  u . em que o seu valor comparado com valores tabulados de . temos o quão provável o resultado ocorrerá entre os indivíduos x j 1 em relação aos indivíduos x j . invertendo a matriz de informação de Fisher. isto é. calculando I 1  ˆ  . j u Desta forma o desvio padrão é definido como:   ˆ  ˆ β DP j   ˆ ˆ2 β σ j TESTE DE WALD O teste de Wald é utilizado para avaliar se o parâmetro é estatisticamente significativo. algumas análises:  1  0  OR  1    x j 1     x j   1  0  OR  1    x j 1     x j  ESTIMATIVA DO DESVIO PADRÃO  As variâncias e covariâncias dos estimadores ˆ  ˆ 0 . Esta estatística de teste tem distribuição Normal. fazendo. O j -ésimo elemento da diagonal principal da matriz I 1  ˆ  é a variância do   estimador ˆ j denominada ˆ 2 ˆ j Os demais elementos da matriz são as   ˆ . então:   ln OR   ln e β1  β1 Assim. A estatística teste utilizada é obtida através da razão do coeficiente pelo seu respetivo erro padrão. portanto.

Para entender melhor esta comparação. As hipóteses a testar são H0: β 1  0 vs H1: β 1  0 . é assim especificada: W  ˆ var( ˆ ) TESTE DA RAZÃO DE VEROSSIMILHANÇA Na regressão logística é necessário comparar os valores observados da variável resposta com os valores preditos obtidos dos modelos com e sem a variável em questão. A comparação dos observados com os valores preditos é baseado no log da verossimilhança. A comparação dos observados com os valores preditos usando a função de verossimilhança é baseada na seguinte expressão:  Verossimil hança do Modelo Ajustado    Verossimil hança do Modelo Saturado  D  2ln  Com o objetivo de assegurar a significância de uma variável independente. comparamos o valor de D com e sem a variável na equação.acordo com o nível de significância definido. é necessário pensar num valor observado da variável resposta também como sendo um valor predito resultante de um modelo saturado. A mudança em D devido a inclusão da variável no modelo é obtida da seguinte maneira: G  D modelo sem a variável   D(modelo com a variável) Podemos então escrever a estatística G como: G  -2ln L S   2 ln  L C  em que L S é a verossimilhança do modelo sem a covariável e L C é a verossimilhança do modelo com a covariável. para avaliar se o parâmetro b é igual a zero. A estatística teste. Um modelo saturado é aquele que contém tantos parâmetros quanto observações.

a estatística G tem distribuição chi-quadrado com 1 grau de liberdade. No teste Score as hipóteses a testar são: H 0 :  1  0 vs H1 :  1  0 Intervalos de confiança para os parâmetros A elaboração das estimativas do intervalo de confiança para os parâmetros tem por base a mesma teoria estatística que é utilizada para os testes de significância do modelo. O intervalo de confiança de com um nível de confiança 1001  % para o parâmetro  1 é:  ˆ ˆ  IC 1 . TESTE SCORE A estatística do teste Score é n x y ST  i 1 i  n  i 1 i  y 1 2 2  y 1  y    x i  x    Em que y  ˆ (proporção de sucessos na amostra).1    0  z  DP  0  1  2    Em que z 1  2 é o ponto da normal padrão correspondente a 100(1-α/2)% INTERVALO DE CONFIANÇA PARA O LOGIT . Em particular.Sob a hipótese nula. os intervalo de confiança para a inclinação e intercepto são baseados nos respetivos testes de Wald.1    1  z  DP  1  1  2    E para o intercepto  0 é:  ˆ ˆ  IC  01 .

O intervalo de confiança dos valores ajustados é dado por:  IC .O intervalo de confiança para logit é:   ˆ ( x )  z  DP  g ˆ  x   IC gˆ ( x ). de Va Intervalo de Confiança para os valores ajustados O estimador de logit e seu intervalo de confiança fornece o estimador dos valores ajustados.1   e gˆ  x  z 1   / 2  DP  gˆ  x    1  e gˆ  x  z 1   / 2  DP  gˆ  x      Intervalo de Confiança para Odds Ratio Sejam  I e  S os limites inferior e superior respetivamente. Os dados utilizados neste exemplo foram retirados do site “The data and story library” com o link……. Para inserir os dados em ambiente R pode utilizar-se o seguinte procedimento: Localizar a diretoria em que se encontra o ficheiro e designar o objeto que será utilizado como tabela de dados. ˆ 1 .txt.txt". Os dados foram copiados e inseridos num ficheiro de texto com a denominação Nasa.1 ..table("C:/Users/Jonas/Desktop/Nasa. através da sintaxe: > dados_rls<-read.header=T) O ficheiro contém dados sobre duas variáveis: .1   g 1 2   Em que gˆ  x   ˆ 0  ˆ 1 x é o estimador para logit e DP gˆ  x   é a raíz quadrada       ˆ r g ˆ  x    Va ˆ r ˆ 0  x 2Va ˆ r ˆ 1  2 xCo ˆ v ˆ 0 . o intervalo de confiança para a Odds Ratio é:  ICOddsRatio . e  S  Comandos em R para a obtenção de um modelo de regressão Logística Simples Os comandos (ou sintaxe) a utilizar para realizar a regressão Logística Simples com todos os elementos descritos anteriormente serão descritos em seguida.1  e  I . do IC 1 . Assim.

o comando a utilizar terá a seguinte sintaxe: > modelo = glm(fail ~ temp. No software R não existe uma função específica para ajustar um modelo de regressão logística. e o motivo é simples: a regressão logística é apenas um caso de modelo linear generalizado.col="navy". family = binomial(link = 'logit')) > summary(modelo) Call: .fail~temp.-Temp-Fail-.data=dados_rls.pch=19) e no Tabela 1:Temperaturas e ocorrências de falhas A sintaxe básica para obter o modelo de regressão é glm(Y~modelo) Onde Y é a variável de resposta e modelo é a fórmula correspondente ao modelo matemático determinado pelo investigador.xlab="Temperatura". ou GLM em inglês. data = dados_rls. Assim. Nesse tipo de modelo especifica-se apenas a distribuição do erro e a função de link. plot(main="Temperaturas registadas ocorrências". Antes da obtenção do modelo de regressão Logística Simples é possível obter um gráfico que permita a visualização da distribuição dos dados para as duas variáveis em análise através do comando plot(dados) que podem ser observados na tabela 21.ylab="Falha anel".

053 0.glm(formula = fail ~ temp. col = '#CCCCCC') .05 ‘.03 Number of Fisher Scoring iterations: 4 Tabela 2: Sintaxe e Resumo do modelo logístico simples Dado que a variável de interesse é binária (1 = houve falha. col = 'navy'. ylab = 'p'.'F]')) > plot(temp.70291 1.87535 . 0 = não houve falha).907 0.01 ‘*’ 0.5.030 on 22 degrees of freedom AIC: 27.975 on 23 degrees of freedom Residual deviance: 23.5907 2. p.0565 .values > xlb = expression(paste('Temperatura ['.2125 -0. Error z value Pr(>|z|) (Intercept) 10. degree. > temp = dados_rls$temp > p = modelo$fitted.08344 -2.87535 5. family = binomial(link = "logit"). pch = 19.0512 Coefficients: Estimate Std.17132 0. 10.4706 0. Observando os coeficientes do modelo. especificamos uma distribuição binomial e usamos a função logística como link (que é o default nesse caso.001 ‘**’ 0. main = titulo) > grid(10.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 28. xlab = xlb.’ 0. data = dados_rls) Deviance Residuals: Min 1Q Median 3Q Max -1.8253 -0. cex = 1.17132 * T 1    1  ln Onde π é a probabilidade de falha e T a temperatura. podemos escrever 1     0   1 x  10.0.04). temp -0. codes: 0 ‘***’ 0.0400 * Signif. veja help(glm)). A análise visual do modelo obtido pode ser feita através do gráfico inserido na tabela 23. Pelo output observa-se que a temperatura possui efeito significativo na possibilidade de falhas (p value ~ 0.

as chances de falha variam em e -0. quando a temperatura aumenta 1 grau.425515e-01 Tabela 4: Alteração dos coeficientes do modelo Sobre a validade do modelo é possível efetuar os testes (…) . verifica-se que é notória a influência da temperatura sobre a possibilidade de falha. . Esse valor é denominado de odds ratio. ao variarmos a temperatura em 1 grau. que também pode ser calculado através de uma alteração dos coeficientes do modelo através da seguinte sintaxe: > exp(modelo$coefficients) (Intercept) temp 5.Tabela 3: Sintaxe e Gráfico do modelo logístico Ao observar o gráfico.8425515.17132 = 0. Uma das formas de realizar o teste de Wald é através do pacote aod que será necessário instalar. Logo. e é uma constante característica do modelo.(…) e (…) em ambiente R. Após a sua instalação e carregamento em ambiente R efetua-se o teste através do comando descrito na tabela seguinte.8425515. as chances de falha são reduzidas em 0. Ou seja.285720e+04 8.

Sigma=vcov(object=modelo).944137 > 1-pchisq(G2. Em R. df = 1. (Confrimar) O teste de verosimilhança tem por objetivo de assegurar a significância de uma variável independente e a sua estatística G obtida através da diferença D modelo sem a variável   D(modelo com a variável) . sabendo que a estatística G tem distribuição chi-quadrado com 1 grau de liberdade.001 ‘**’ 0.2.04). P(> X2) = 0.05 ‘.1 ‘ ’ 1 Tabela 7:Análise de variância para o modelo logístico simples Assim.’ 0. Este teste surge no output obtido para o modelo logístico representado na tabela 22.97459 > G2=modelo$null. codes: 0 ‘***’ 0.975 temp 1 5.03045 > modelo$null.Dev Pr(>Chi) NULL 23 28.04 Tabela 5: Sintaxe e output do Teste de Wald De acordo com os valores obtidos (p-value=0. > anova(modelo. Terms=2) Wald test: ---------Chi-squared test: X2 = 4. rejeitamos a hipótese nula e conclui-se que A variável Temperatura tem influência variável dependente.9441 22 23.01 ‘*’ 0.deviance-modelo$deviance > G2 [1] 5. a hipótese nula é rejeitada indicando que a variável Temperatura tem influência no modelo obtido. A sintaxe utilizada neste exemplo está descrita na tabela seguinte.deviance [1] 28.test=”chisq”).df=1) [1] 0.> wald.01477 * --Signif.030 0. .test="Chisq") Analysis of Deviance Table Model: binomial.01476632 Tabela 6:Cálculos para teste de verosimilhança Este teste também pode ser efetuado através de uma análise de variância através do comando anova(modelo. link: logit Response: fail Terms added sequentially (first to last) Df Deviance Resid.test(b=coef(object=modelo). a estatística G pode ser obtida da seguinte forma: modelo$deviance [1] 23. Df Resid.

Teste SCORE INTERVALOS DE CONFIANÇA .