Você está na página 1de 34

1

AULA EXTRA
Anlise de Regresso Logstica
Ernesto F. L. Amaral

13 de dezembro de 2012
Metodologia de Pesquisa (DCP 854B)

VARIVEL DEPENDENTE BINRIA


O modelo de regresso logstico utilizado quando a
varivel resposta qualitativa com dois resultados possveis.
Probabilidade de sucesso = p
Probabilidade de fracasso = 1 p = q
Chance = (prob. de sucesso) / (prob. de fracasso)
Por exemplo, se a probabilidade de sucesso 0,75, a
chance igual a:

p / (1 p) = p / q = 0,75 / 0,25 = 3

RAZO DE CHANCES
Razo de chances para variveis dependentes binrias a
razo entre a chance de uma linha (ou coluna) de uma
tabela 2x2, dividida pela chance da outra linha (ou coluna):

EXEMPLO DE CLCULO DE RAZO DE CHANCES


Sexo

Dilma

Serra

Total

Homem

52

39

91

Mulher

43

44

87

Total

95

83

178

Chance de votar na Dilma entre homens:


p1 / (1-p1) = (52/91) / (39/91) = 0,57 / 0,43 = 1,33
Chance de votar na Dilma entre mulheres:
p2 / (1-p2) = (43/87) / (44/87) = 0,49 / 0,51 = 0,96
Razo de chances de votar na Dilma entre homens, em

relao s mulheres:
[p1 /(1- p1 )] / [p2 /(1- p2 )] = 1,33 / 0,96 = 1,39

FUNO DE RESPOSTA
QUANTO VARIVEL DEPENDENTE BINRIA
Vamos considerar o modelo de regresso linear simples:
Yi 0 1 X i i
1
Yi
0

A resposta esperada dada por:


E (Yi ) 0 1 X i

Na regresso logstica, Yi possui uma distribuio de


probabilidade:

Yi 1 P(Yi 1) i

Yi 0 P(Yi 0) 1 i

LOGITO
O logito (logit) equivale ao logaritmo natural (base e) da
chance:

A funo logstica dada pelo logito-inverso (anti-logit)


que nos permite transformar o logito em probabilidade:

RAZO DE CHANCES (ODDS RATIO)


Compara a chance de sucesso de um grupo em relao a
outro grupo:

Portanto, a diferena entre os logitos de duas


probabilidades equivale ao logaritmo da razo de chances.

RAZO DE CHANCES (ODDS RATIO)

Razo de chance dada pela expresso exp(): chance


de sucesso no grupo A, em relao ao grupo B.
Se exp() for maior que uma unidade, chance de sucesso
em A maior que em B.
Ex.: exp()=1,17, chance de sucesso em A 1,17 vezes
maior do que em B, ou seja, 17% maior do que em B.
Se exp() for menor que uma unidade, chance de sucesso
em A menor que em B.
Ex.: exp()=0,61, chance de sucesso em A 0,61 vezes
a chance de B, ou seja, 39% menor do que em B.

DEFINIO DO VALOR ESPERADO


Pela definio de valor esperado, obtemos:

E (Yi ) 0 1 X i i
Assim, a resposta mdia, quando a varivel resposta uma
varivel binria (1 ou 0), representa a probabilidade de Y = 1,
para o nvel da varivel independente Xi.

10

REGRESSO LOGSTICA
COM UMA VARIVEL INDEPENDENTE
Consideraes tericas e prticas sugerem que quando a
varivel resposta binria, a forma da funo resposta ser
frequentemente curvilnea.
As funes respostas (valores preditos) das figuras so
denominadas funes logsticas, cuja expresso :

E (Y )

exp( 0 1 X )
1 exp( 0 1 X )

Forma equivalente:

E (Y ) 1 exp 0 1 X

11

VARIVEL DEPENDENTE ESTIMADA PELA VARIVEL


INDEPENDENTE OBSERVADA

E (Y )

exp( 0 1 X )
1 exp( 0 1 X )

12

VARIVEL DEPENDENTE ESTIMADA PELA VARIVEL


INDEPENDENTE OBSERVADA

E (Y )

exp( 0 1 X )
1 exp( 0 1 X )

13

REGRESSO LOGSTICA
COM MAIS DE UMA VARIVEL INDEPENDENTE
Funo com uma varivel independente:
exp( 0 1 X )
1 exp( 0 1 X )

E (Y )

Funo com uma srie de variveis independentes:

exp( ' X )

E (Y ) 1exp('X)
Uma forma equivalente dada por:

E (Y ) (1 exp( X))
'

EQUAO DE REGRESSO
A parte linear da equao da regresso logstica usada
para encontrar a probabilidade de estar em uma categoria,
baseado na combinao de variveis independentes.

Os coeficientes de regresso e seus erros padres so


estimados com mtodos de mxima verossimilhana.

14

15

AJUSTANDO O MODELO
A funo log-verossimilhana estende-se diretamente para
o modelo de regresso logstica mltipla, dada por:
n

i 1

i 1

log e L() Yi (' Xi ) log e (1 exp(' Xi ))


Mtodos numricos devem ser utilizados para encontrar os
valores de 0, 1,..., p-1 para maximizar a expresso.
As estimativas de mxima verossimilhana sero denotadas
por b0, b1,...,bp-1.
A funo resposta logstica ajustada e os valores ajustados
so dados por:
'

1exp(b X) (1 exp( b X))


exp(b X )

'

-1

'

exp(b' Xi )

i 1exp(b X ) (1 exp( b Xi ))
'

'

-1

ESTIMADORES DE MXIMA VEROSSIMILHANA


No existe uma soluo analtica para os valores 0 e 1 que
maximizam a funo de verossimilhana.
Mtodos numricos so necessrios para encontrar as
estimativas de mxima verossimilhana, b0 e b1.

Encontradas as estimativas b0 e b1, substitui-se esses


valores para encontrar os valores ajustados.
O valor ajustado para o i-simo valor dado por:

exp(b0 b1 X i )
1 exp(b0 b1 X i )

Se usarmos a transformao logit, a funo :

exp(b0 b1 X )
1 exp(b0 b1 X )

A funo de resposta ajustada dada por:

' b0 b1 X

onde:

log e 1
'

16

TESTE DE QUI-QUADRADO
DA RAZO DE VEROSSIMILHANA
Logaritmo da verossimilhana (Log-likelihood):

log likelihood [Yi ln(Yi ) (1 Yi ) ln(1 Yi )]


N

i 1

Modelos so comparados com uso dos logaritmos das


verossimilhanas dos modelos:
X2 = 2 [(log-likelihood do modelo restrito)
(log likelihood do modelo irrestrito)]
ou
X2 = 2 [(log-likelihood do modelo irrestrito)
(log likelihood do modelo restrito)]
Modelos precisam ser aninhados para comparao, ou seja,
todas variveis independentes do menor modelo (restrito)
devem estar includas no maior modelo (irrestrito).

17

MAIS TESTE DE QUI-QUADRADO


O teste de qui-quadrado da razo da verossimilhana igual
ao ajuste do modelo restrito (2*log. da verossimilhana do
modelo anterior) menos o ajuste do modelo irrestrito (2*log.
da versossimilhana do modelo atual).
O logaritmo da verossimilhana multiplicado por 2 usado
para testar hipteses entre modelos aninhados, sendo que seu
valor no tem um significado especfico.
Esta razo testada em uma distribuio de qui-quadrado,
levando em considerao a diferena entre os graus de
liberdade (nmero de variveis independentes do modelo
irrestrito menos o nmero de variveis independentes do
modelo restrito).

Se o teste de qui-quadrado significante, afirmado que o


modelo irrestrito no pode ter reduo de variveis
independentes, dado um nvel de significncia especfico.

18

19

TESTE DE WALD
Cada coeficiente avaliado usando o teste de Wald, que
simplesmente um teste de escore z:

Os testes dos coeficientes so aproximadamente escores z,


os quais so posteriormente elevados ao quadrado, fazendo
com que esta estatstica tenha distribuio de qui-quadrado.
Esse teste usado para avaliar a significncia de cada
coeficiente () no modelo.
O teste de Wald conhecido por ser conservador (aumenta
o erro II).

ERROS TIPO I E TIPO II

Ao testar H0, chegamos a uma concluso de rejeit-la ou


de deixar de rejeit-la.

Tais concluses pode estar corretas ou erradas.

: probabilidade de erro tipo I (probabilidade de rejeitar


hiptese nula quando ela verdadeira).

: probabilidade de erro tipo II (probabilidade de deixar de


rejeitar hiptese nula quando ela falsa).

20

PSEUDO

R2

H vrias medidas de associao que pretendem servir


como um R2 na regresso logstica.

Porm, nenhuma destas medidas realmente o R2.


A interpretao no a mesma, mas eles podem ser
vistos como uma aproximao da variao na varivel
dependente, devido variao nas variveis
independentes.
Para comparao de grau de ajuste entre modelos
mais apropriado fazer o teste de qui-quadrado da razo
da verossimilhana.

21

MODELO LOGSTICO MULTINOMIAL


possvel estimar uma regresso logstica em que a
varivel dependente tem mais de duas categorias.
Ou seja, o modelo logstico pode ser estendido quando a
varivel resposta qualitativa tem mais do que duas
categorias.
Por exemplo, posicionamento ideolgico: esquerda,
centro, direita.

So geradas k 1 equaes, sendo k o nmero de


categorias.
As equaes geram probabilidades para predizer se uma
categoria est acima/abaixo da categoria de referncia.

22

23

EXEMPLO DE MODELO LOGSTICO

IMPACTO DO BOLSA FAMLIA


SOBRE ABANDONO ESCOLAR
Banco de dados de Avaliao de Impacto do Programa
Bolsa Famlia (AIBF) de 2005 do Ministrio do
Desenvolvimento Social e Combate Fome (MDS).

Modelos logsticos foram estimados para trs grupos de


domiclios, segundo limites mximos da renda domiciliar
per capita:
1) R$50,00: populao com piores condies scioeconmicas.
2) R$100,00: limite oficial de renda definido para
elegibilidade ao PBF.

3) R$200,00: garante representatividade amostral em


todos grupos.

24

25

VARIVEL DEPENDENTE
Varivel dependente indica se a criana abandonou a
escola entre 2004 e 2005:

No ano passado, frequentava escola ou creche?


Frequenta escola ou creche atualmente?

Foi realizada anlise multivariada, controlando as


estimativas por caractersticas do domiclio, me e
criana.

26

VARIVEIS INDEPENDENTES DE DOMICLIO


Nmero de membros da famlia.
Presena de idosos.

Presena de rede geral de gua.


Iluminao eltrica.

Servio de coleta de lixo.


Domiclio em zona urbana ou rural.
Regio de residncia (Sul/Sudeste; Norte/Centro-Oeste;
Nordeste).

27

VARIVEIS INDEPENDENTES DA ME
Indicao se me chefe do domiclio.
Cor/raa.

Anos de escolaridade.
Idade.

Residia h menos de 10 anos no municpio.


Participao em organizaes sociais.
Horas de trabalho por semana.
Tempo gasto em cuidados com a casa por dia.

28

DEMAIS VARIVEIS INDEPENDENTES


Variveis independentes da criana:
Idade da criana.

Indicao se criana trabalha.


Me reside no domiclio.

Beneficirio do Programa Bolsa Famlia:


Indicao se criana reside em domiclio que recebe o
benefcio.

29

DESCRIO DA AMOSTRA
Distribuio percentual de crianas por grupos de renda
domiciliar per capita e recebimento do benefcio.

Programa
Bolsa Famlia

Limite de renda domiciliar per capita


R$50,00

R$100,00

R$200,00

Sim

68,39%

64,71%

59,75%

No

31,61%

35,29%

40,25%

N casos (n)

3.312

6.761

9.232

Fonte: AIBF/MDS (2005).

30

DISTRIBUIO DA VARIVEL DEPENDENTE


Percentual de crianas que abandonaram a escola entre
2004 e 2005 por grupo de renda e recebimento do benefcio.
Programa
Bolsa Famlia

Limite de renda domiciliar per capita


R$50,00

R$100,00

R$200,00

Sim

1,10%

1,42%

1,30%

No

2,39%

1,97%

1,80%

Diferena

1,28%***

0,55%***

0,50***

***Significativo ao nvel de confiana de 99%.


Fonte: AIBF/MDS (2005).

31

RAZES DE CHANCES DA CRIANA TER


ABANDONADO A ESCOLA ENTRE 2004 E 2005
Variveis independentes

R$50,00

R$100,00 R$200,00

Variveis de domiclio
N de membros da famlia

1,122

1,124***

1,108***

Idosos no domiclio

1,454

1,678

1,331

Rede de gua

1,066

0,767

0,694*

Iluminao eltrica

1,270

1,106

1,293

Coleta de lixo

0,994

0,756

0,621**

Rural

ref.

ref.

ref.

Urbano

1,729

1,910*

2,309***

Sul/Sudeste

ref.

ref.

ref.

Norte/Centro-Oeste

2,536**

1,889**

1,630**

Nordeste

3,035**

2,248***

2,064***

RAZES DE CHANCES DA CRIANA TER


ABANDONADO A ESCOLA ENTRE 2004 E 2005 (cont.)
Variveis independentes
Variveis da me
Me chefe do domiclio
Preta/Parda
Branca
0 anos de estudo
1-4 anos de estudo
5-8 anos de estudo
9+ anos de estudo
0-24 anos
25-34 anos
35-49 anos
50+ anos

R$50,00
1,974***
ref.
2,248**
ref.
1,267
0,701
0,251*
1,507
ref.
1,170
0,053***

32

R$100,00 R$200,00
1,445*
ref.
2,029***
ref.
1,195
0,898
0,440*
4,757***
ref.
1,111
0,532

1,508**
ref.
1,465**
ref.
1,135
0,902
0,481*
4,534***
ref.
1,109
0,645

RAZES DE CHANCES DA CRIANA TER


ABANDONADO A ESCOLA ENTRE 2004 E 2005 (cont.)
Variveis independentes

R$50,00

33

R$100,00 R$200,00

Variveis da me

<10 anos no municpio

1,325

1,411

1,838***

Participa org. social

0,731

0,643*

0,565***

0 hora/semana trabalho

ref.

ref.

ref.

1-20 horas/semana trabalho

0,257*

0,920

1,177

21-39 horas/semana trabalho

0,736

0,744

0,907

40+ horas/semana trabalho

0,904

1,790**

1,529*

0-2 hora/dia trab. casa

ref.

ref.

ref.

3-4 hora/dia trab. casa

2,975

1,089

0,854

5-6 hora/dia trab. casa

2,399

1,241

1,050

7+ hora/dia trab. casa

2,084

1,563

1,443

RAZES DE CHANCES DA CRIANA TER


ABANDONADO A ESCOLA ENTRE 2004 E 2005 (cont.)
Variveis independentes

R$50,00

34

R$100,00 R$200,00

Variveis da criana
Idade

1,174**

1,226***

1,194***

Criana trabalha

1,417

1,177

1,465

Me reside no domiclio

0,218***

0,455**

0,610*

Beneficirio do
Programa Bolsa Famlia

0,428***

0,662**

0,666**

Nmero de casos (crianas)

3.312

6.761

9.232

*Significativo ao nvel de 90%; **Significativo ao nvel de 95%; ***Significativo ao nvel de 99%.


Fonte: AIBF/MDS (2005).

Você também pode gostar