Você está na página 1de 72

Modelo Linear Generalizado

Valeska Andreozzi
2012

Referências 2

Modelagem Estatı́stica 7
Modelagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Objetivos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Construção do modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

MLG 14
Motivações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
O modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Distribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Sumário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Exercı́cio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

Estimação 36
Máxima Verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Solução Analı́tica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Solução Gráfica R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
MMV nos MLG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Método iterativo NR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Método iterativo IWLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Estimação de φ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

Teste de Hipotéses 53
Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Teste de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Teste da RV. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
Int. Confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

Seleção de modelos 62
Modelo saturado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Modelo nulo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Função desvio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Seleção de Modelos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Dicas de modelagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

Diagnóstico 92
Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Tipos de resı́duos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Variância constante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Inclusão nova variável . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
Relação Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
Pontos Influentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Função de ligação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

1
Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
Adequação do modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
Estatı́stica Hosmer e Lemeshow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
Erro de predição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
AUC - Curvas ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
Cartão de Referência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

Miscelânias 1 130
Modelo binomial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

Miscelânias 2 140
Quase-verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

2
Referências slide 2
Referências
■ Krzanowski, W (1998). An Introduction to Statistical Modelling. Arnold Texts in Statistics.
■ Harrel, F (2001). Regression Modeling Strategies. Springer-Verlag.
■ Dobson , AJ (2001). An introduction to generalized linear models. Chapman & Hall/CRC
■ Kleinbaum DG, Klein M (2002). Logistic Regression - A Self-Learning Text. Second Edition. Springer
■ Hosmer DW, Lemeshow S (1989). Applied Logistic Regression. John Wiley e Sons.

DEIO/CEAUL Valeska Andreozzi – slide 3

Referências
■ Fox, J (1997). Applied Regression Analysis, Linear Models, and Related Methods. Sage
■ Fox, J (2008). Applied Regression Analysis and Generalized Linear Models. Sage. Second Edition
■ McCullagh P, Nelder JA (1989). Generalized linear models. Second Edition. Chapman and Hall

DEIO/CEAUL Valeska Andreozzi – slide 4

3
Referências
■ Venables WN, Ripley, BD (2002). Moderns Applied Statistics with S. Fourth Edition. Springer
■ Fox, J (2002). An R and S-Plus Companion to Applied Regression. Sage Publications.
■ Faraway, J. Practical Regression and Anova using R
(http://cran.r-project.org/doc/contrib/Faraway-PRA.pdf). Dados e scripts disponı́veis em
http://www.maths.bath.ac.uk/~jjf23/LMR/
■ Hardin J, Hilbe J (2001). Generalized Linear Models and Extensions. Stata Press.

DEIO/CEAUL Valeska Andreozzi – slide 5

Referências
Material disponı́vel online
■ Amaral Turkman, MA e Silva, G (2000). Modelos Lineares Generalizados - da Teoria à Prática, Edições SPE,
Lisboa
http://docentes.deio.fc.ul.pt/maturkman/mlg.pdf
■ Rodrı́guez, G (16/01/2010). Generalized Linear Models (notes).
http://data.princeton.edu/wws509/notes/
■ Demétrio, CGB (16/01/2010). Modelos Lineares Generalizados em Experimentação Agronômica
http://www.lce.esalq.usp.br/clarice/Apostila.pdf
■ Paula, G (16/01/2010). Modelos de regressão com apoio computacional
http://www.ime.usp.br/~giapaula/livro.pdf

DEIO/CEAUL Valeska Andreozzi – slide 6

4
Modelagem Estatı́stica slide 7

Modelagem
Modelagem estatı́stica é um processo de descobrimento.

O que é um modelo estatı́stico?

Modelo estatı́stico
=
modelo matemático
(equação que descreve o processo)
+
incerteza
(flutuações devido ao acaso)
DEIO/CEAUL Valeska Andreozzi – slide 8

Modelagem
■ Modelo é uma versão simplificada de alguns aspectos do mundo real.
■ Podemos dizer que modelo é uma representação em pequena escala de entidades fı́sicas.
■ A construção de modelos implica numa compreensão dos dados
■ Dados disponı́veis que são um subconjunto dos dados que poderiam ser coletados
■ O modelo serve para obter inferências para um grupo maior ou para obter compreensão do mecanismo
(sistema) gerador dos dados observados
■ Os modelos variam de acordo com a acurácia da sua representação.
■ O ponto chave da modelagem está nesta acurácia que varia de acordo com o objetivo da análise.

DEIO/CEAUL Valeska Andreozzi – slide 9

5
Objetivos de um modelo
Modelo Explicativo ou Descritivo
■ Estudar a associação entre fatores de risco e desfecho (outcome). Exemplos:
◆ Avaliar a magnitude de associação de uma exposição e um desfecho ajustada pelo efeitos de possı́veis fatores
de confundimento ou de interação
◆ Investigar fatores determinantes de uma doença, ie, avaliar o efeito de um determinado fator de risco na
ocorrência de uma doença controlano por fatores de confundimento e considerando possı́veis fatores
modificadores de efeito da associação principal em questão
■ Acurácia do modelo não precisa ser perfeita

DEIO/CEAUL Valeska Andreozzi – slide 10

Objetivos de um modelo
Modelo Preditivo
■ Modelo em que o objetivo central é fazer predição do desfecho. Exemplos:
◆ Predição de um defecho para ajudar na tomada de decisão de um tratamento
◆ Desenvolvimento de classificação de doença ou estagiamento (elaboração de um score)

◆ Identificação de fatores biológicos que podem ajudar elucidar a patologia da doença


■ Acurácia do modelo é importante

DEIO/CEAUL Valeska Andreozzi – slide 11

6
Construção de um modelo
Passos envolvidos na construção de um modelo estatı́stico
1. Formulação dos modelos
■ Especificar uma expressão matemática para descrever o comportamento geral de acordo com as crenças do
analista/investigador. Esta expressão também é conhecida como componente sistemático do modelo.
■ Incorporar, na parte sistemática do modelo, uma certa quantidade de flutuações da variável resposta,
denominada componente aleatório do modelo
■ Especificar como combinar os componentes sistemático e aleatório

DEIO/CEAUL Valeska Andreozzi – slide 12

Construção de um modelo
Passos envolvidos no desenvolvimento de um modelo estatı́stico
2. Inferência dos parâmetros do modelo (estimação e testes de hipóteses)
3. Avaliação dos modelos
■ avaliar premissas dos modelos

■ avaliar o ajuste global do modelo que poderá depender do objetivo do modelo


4. Reformulação (se necessário)

DEIO/CEAUL Valeska Andreozzi – slide 13

7
Modelo Linear Generalizado slide 14
Motivação 1
■ Objetivo do estudo: avaliar a resposta de uma droga de acordo com a dose
■ Foi realizado um estudo experimental em que foi registrado a dose xi da droga e a resposta a droga yi para
26 ratinhos
■ Variável resposta: Yi = 1 se o rato respondeu a droga e Yi = 0 caso contrário; Covariável: xi (contı́nua)

1.0
0.8
resposta 0 ou 1
0.6
0.4
0.2
0.0

0.0 0.5 1.0 1.5 2.0 2.5

dose

DEIO/CEAUL Valeska Andreozzi – slide 15

Motivação 1
■ Modelo linear não é apropriado
■ Vamos considerar que para cada dose xi , existe uma probabilidade µi do rato responder a droga (P (Yi = 1)),
logo Yi ∼ Bernoulli(µi ) com E(Yi ) = µi e V ar(Yi ) = µi (1 − µi )
■ Caso especial da Binomial(n, µ) com n = 1
■ Para modelarmos E(Yi ) = µi precisamos utilizar uma função de ligação entre o µi e xi de tal forma que
valores do lado direito da equação possam ser assumidos no lado esquerdo. Uma opção é utilizar a função de
ligação logit:  
µi
logit(µi ) = ln = a + bxi
1 − µi
exp(a + bxi ) 1
µi = =
1 + exp(a + bxi ) 1 + e−(a+bxi )

DEIO/CEAUL Valeska Andreozzi – slide 16

8
Motivação 1

1.0
0.8
resposta 0 ou 1
0.6
0.4
0.2
0.0

0.0 0.5 1.0 1.5 2.0 2.5

dose

DEIO/CEAUL Valeska Andreozzi – slide 17

Motivação 2
■ Objetivo: estudar a tendência do número de mortes por Aids (yi ) na Austrália a cada três meses de 1983 a 1986 (ti )
40
Número de mortes por Aids
30
20
10
0

0 2 4 6 8 10 12 14

jan−mar 1983 até abr−jun 1986

■ Reta de regressão → parece razoável mais fornece valores esperados negativos para os perı́odos 1 e 2.

DEIO/CEAUL Valeska Andreozzi – slide 18

9
Motivação 2
■ Modelo alternativo:
Yi ∼ P oi(µi )
E(Yi ) = V ar(Yi ) = µi
ln(µi ) = β0 + β1 ti

40
Número de mortes por Aids
30
20
10
0

0 2 4 6 8 10 12 14

jan−mar 1983 até abr−jun 1986

DEIO/CEAUL Valeska Andreozzi – slide 19

Modelo Linear Generalizado (MLG)


■ Teoria unificada de modelos lineares para variáveis resposta contı́nua e discreta introduzida por Nelder e
Wedderburn em 1972.
■ Modela o valor esperado da variável resposta
■ É considerado uma extensão do modelo linear clássico. Extensão da distribuição considerada e da função que
relaciona o valor esperado e as covariáveis.
■ Distribuição da variável resposta
◆ Famı́lia exponencial (Normal, Binomial, Bernoulli, Poisson, Exponencial, Gama, Binomial Negativa,
Multinomial)
■ Os MLG são caracterizados pela seguinte estrutura:
1. Componente Aleatório
2. Componente Sistemático (ou estrutural)

DEIO/CEAUL Valeska Andreozzi – slide 20

10
Componente Aleatório
Famı́lia Exponencial
■ Y é uma variável aleatória (v.a.) com distribuição pertencente à famı́lia exponencial
 
1
f (y; θ, φ) = exp [yθ − b(θ)] + c(y, φ) (1)
a(φ)

■ θ e φ são parâmetros escalares, a(·), b(·) e c(·) são funções reais conhecidas
■ θ é a forma canônica de localização
■ φ é o parâmetro de dispersão, suposto, em geral, conhecido
■ b(·) é uma função diferenciável.
■ a famı́lia exponencial obedece às condições habituais de reguralidadea
a Sen and Singer, 1993, Large Sample Methods in Statistics. An Introduction with Applications. Chapman and Hall, New York

DEIO/CEAUL Valeska Andreozzi – slide 21

Componente Aleatório
Famı́lia Exponencial - Valor médio e variância
■ Seja l(θ; φ, y) = ln(f (y|θ, φ)). Define-se a função escore

∂l(θ; φ, y)
S(θ) =
∂θ
■ Para famı́lias regulares, tem-se:
E(S(θ)) = 0
" 2 #  
2 ∂l(θ; φ, y) ∂ 2 l(θ; φ, y)
E(S (θ)) = E = −E (2)
∂θ ∂θ2
yθ−b(θ)
■ De (1), tem-se que: l(θ; φ, y) = a(φ) + c(y, φ), logo:

Y − b′ (θ) ∂S(θ) b′′ (θ)


S(θ) = e =− (3)
a(φ) ∂θ a(φ)

DEIO/CEAUL Valeska Andreozzi – slide 22

11
Componente Aleatório
Famı́lia Exponencial - Valor médio e variância
■ De (2) e (3), tem-se:

E(Y ) = µ = a(φ)E[S(θ)] + b′ (θ) = b′ (θ) (4)


b′′ (θ)
V ar(Y ) = a2 (φ)var(S(θ)) = a2 (φ) = a(φ)b′′ (θ) (5)
a(φ)

■ A variância de Y é o produto de duas funções:


◆ b′′ (θ) que depende somente do parâmetro canônico θ (logo, depende do valor médio µ), a que se denomina
função de variância e representa-se por V (µ)
◆ a(φ) que depende apenas do parâmetro dispersão φ. Em muitas situações a(φ) toma a forma:

φ
a(φ) = (6)
ω
em que ω é uma constante conhecida

DEIO/CEAUL Valeska Andreozzi – slide 23

Componente Aleatório
Famı́lia Exponencial
■ Assim sendo a famı́lia exponencial fica definida da seguinte forma:
 
ω
f (y; θ, φ) = exp (yθ − b(θ)) + c(y, φ)
φ

DEIO/CEAUL Valeska Andreozzi – slide 24

12
Componente Sistemático
■ O valor esperado µi está relacionado com o preditor linear formado pelas covariáveis

ηi = β0 + β1 xi1 + β2 xi2 + · · · + βp xip = xti β i = 1, 2, . . . , n

■ através da relação:
g(µi ) = ηi

g(µi ) = β0 + β1 xi1 + β2 xi2 + · · · + βp xip

g(µi ) = xti β
■ em que g é a função de ligação; β é o vetor de parâmetros; xi vetor de covariáveis

DEIO/CEAUL Valeska Andreozzi – slide 25

Componente Sistemático
■ A escolha da função de ligação g(.) depende do tipo de resposta (Y ) que está sendo analisada
■ Quando o preditor linear coincide com o parâmetro canônico θi = ηi , diz-se que a função de ligação
correspondente é uma função de ligação canônica.

DEIO/CEAUL Valeska Andreozzi – slide 26

13
Distribuição Normal
■ Y ∼ N (µ, σ 2 )
n 2
o
■ f (y) = √ 1
2πσ 2
exp − (y−µ)
2σ 2
nh i h io
µ2 y2
■ f (y) = exp yµ − 2
1
σ2
− 1
2 σ2
+ ln(2πσ 2 )
n o
1
■ f (y; θ, φ) = exp [yθ − b(θ)] φ
+ c(y, φ)

■ θ=µ
■ φ = σ2
µ2
■ b(θ) = 2

■ b′ (θ) = µ
■ b′′ (θ) = V (µ) = 1

DEIO/CEAUL Valeska Andreozzi – slide 27

Distribuição Binomial
■ Y ∼ B(m, π)
 
m
■ f (y) = π y (1 − π)m−y
y
■ Mostre que a distribuição binomial pertence a famı́lia exponencial e que
π
■ θ = ln( 1−π ); π = eθ /(1 + eθ ) = 1/(1 − eθ )
■ φ=1
■ b(θ) = −m ln(1 − π)
■ E(Y ) = b′ (θ) = mπ
■ V ar(Y ) = b′′ (θ) = V (µ) = mπ(1 − π)

DEIO/CEAUL Valeska Andreozzi – slide 28

14
Sumário: MLG
Independência: Variáveis respostas Yi são observações independentes
Distribuição: Yi possui distribuição da famı́lia exponential com valor esperado µi
Preditor Linear: As covariáveis xi1 , . . . , xip influenciam a variável resposta através de um preditor linear

ηi = β0 + β1 xi1 + β2 xi2 + · · · + βp xip i = 1, 2, . . . , n

Função de Ligação: O valor esperado, µi , e o preditor linear, ηi , estão relacionados por uma função de
ligação g(·) tal que:
g(µi ) = ηi = β0 + β1 xi1 + β2 xi2 + · · · + βp xip

DEIO/CEAUL Valeska Andreozzi – slide 29

Sumário: MLG
Interpretação: Como o valor esperado de Y (E(Y ) = µ) varia com as covariáveis.
Covariáveis: Discretas, Contı́nuas, e funções de variáveis contı́nuas (exemplo: x2 , log(x)).
Linearidade: preditor linear η é linear nos parâmetros β.

DEIO/CEAUL Valeska Andreozzi – slide 30

15
Sumário: MLG
■ Para modelar dados através dos MLG, precisamos:
◆ Formular o modelo
escolha da distribuição para a variável resposta;
escolha das covariáveis (codificação, transformação);
escolha da função de ligação;
◆ Ajustar o modelo
estimação dos parâmetros do modelo (coeficientes β e do parâmetro de dispersão φ, caso necessário);
estimação de intervalos de confiança dos parâmetros;
teste de hipótese; seleção de covariáveis;
◆ Diagnosticar o modelo
averiguar premissas do modelo e discrepâncias entre valores observados e preditos;
existência de outliers e observações influentes;
Um modelo útil é capaz de explicar o problema em estudo levando-se em consideração três fatores
adequabilidade, parcimônia e interpretação.

DEIO/CEAUL Valeska Andreozzi – slide 31

Distribuições e funções de ligação


Normal Binomial
Histogram of rnorm(n = 1000, 4, 1.5) Histogram of rbinom(n = 1000, size = 15, 0.2)
250

250
200

200
150

150
Frequency

Frequency
100

100
50

50
0

−2 0 2 4 6 8 0 2 4 6 8

rnorm(n = 1000, 4, 1.5) rbinom(n = 1000, size = 15, 0.2)

Notação N (µ, σ 2 ) B(m, µ)


Intervalo (−∞, ∞) {0, 1}ou(0, 1)
Dispersão φ σ2 1
Fç. ligação canônica θ = g(µ) identidade = µ logit = ln µ/(1 − µ)
E(Y ) = µ η exp(η)/(1 + exp(η))
V (µ) 1 mµ(1 − µ)
Outras Funções de ligação probit, log, cloglog

DEIO/CEAUL Valeska Andreozzi – slide 32

16
Distribuições e funções de ligação
Poisson Gama
Histogram of rpois(1000, lambda = 2) Histogram of rgamma(1000, shape = 2, rate = 1)

300
400

250
300

200
Frequency

Frequency

150
200

100
100

50
0

0
0 2 4 6 8 0 2 4 6 8 10 12

rpois(1000, lambda = 2) rgamma(1000, shape = 2, rate = 1)

Notação P oi(µ) G(µ, ν)


Intervalo 0(1)∞ (0, ∞)
Dispersão φ 1 ν −1
Func. ligação canônica θ = g(µ) ln(µ) −1/µ
E(Y ) = µ exp(η) −1/η
V (µ) µ µ2
Outras Funções de ligação ident., sqrt ident., inverso, log

DEIO/CEAUL Valeska Andreozzi – slide 33

Exercı́cio
Mostre que as funções de densidade de probabilidade abaixo pertencem a famı́lia exponential e encontre θ, φ,
b(θ), b′ (θ), b′′ (θ)
■ Y ∼ P oisson(µ) com
y −µ
f (y) = µ y!e

■ Y ∼ Gama(ν,  ν/µ)
ν em queν e ν/µ  são parâmetros de forma e escala, respectivamente com
1 ν ν−1 ν
f (y) = Γ(ν) µ y exp − µ y
Das distribuições acima encontre utilizando os resultados do exercı́cio anterior:
■ E(Y )
■ V ar(Y )

DEIO/CEAUL Valeska Andreozzi – slide 34

17
Exercı́cio
The folowing relationships can be describe by generalized linear models. For each one, identify the response
variable and the explanatory variables, select a probability distribution for the response (justifying your choice)
and write down the linear component.
1. The effect of age, sex, height, mean daily food intake and mean daily energy expenditure on a person´s weight.
2. The proportions of laboratory mice that became infected after exposure to bacteria when five different
exposure levels are used and 20 mice are exposed at each level.
3. The relationship between the number of trips per week to the supermarket for a household and the number of
people in the household, the household income and the distance to the supermarket.

DEIO/CEAUL Valeska Andreozzi – slide 35

Estimação slide 36

Método da Máxima Verossimilhança (MMV)


■ Consiste em adotar como estimativa do parâmetro populacional o valor que maximize a função de
verossimilhança correspondente ao resultado obtido na amostra
■ Fornece estimadores:
◆ consistentes,

◆ assintoticamente eficientes e
◆ com distribuição assintoticamente normal

DEIO/CEAUL Valeska Andreozzi – slide 37

18
Máxima Verossimilhança
■ Suponha uma população com parâmetro τ e com função de densidade de probabilidade (fdp) conhecida
(f (X|τ ) em que X são os dados).
■ Podemos gerar uma amostra X dado que conhecemos a fdp
■ Exemplo: Idade das crianças internadas no Hospital São João segue uma distribuição normal com média 13
anos e variância igual a 4.
■ E o mundo real?
DEIO/CEAUL Valeska Andreozzi – slide 38

Máxima Verossimilhança
■ No mundo real não conhecemos o parâmetro τ da população
■ Temos em mãos uma amostra X da população e queremos fazer inferência sobre o parâmetro populacional
(τ )
■ Objetivo do MMV
◆ Achar uma estimativa para o parâmetro populacional τ que maximize a probabilidade de encontrarmos a
amostra que possuı́mos.
◆ Em outras palavras, para determinar o estimador de máxima verossimilhança do parâmetro τ , basta achar o
valor de τ que maximiza a fdp f (X|τ ) fixando a amostra X (L(τ |X) função de máxima verossimilhança).

DEIO/CEAUL Valeska Andreozzi – slide 39

19
Exemplo
■ Distribuição normal com variância conhecida.
■ Seja X=(12, 15, 9, 10, 17, 12, 11, 18, 15, 13) uma amostra aleatória das idades das crianças do Hospital São
João que segue uma distribuição normal de média µ e variância conhecida e igual a 4. Qual a estimativa de
máxima verossimilhança da média µ das idades das crianças?
■ O objetivo é fazer um gráfico da função de log-verossimilhança e achar o ponto máximo que será a estimativa
da média µ.

DEIO/CEAUL Valeska Andreozzi – slide 40

Solução Analı́tica
1. Temos que x1 , . . . , xn é uma amostra aleatória de X ∼ N (µ, 4),
n 2
o
2. a função de densidade (fdp) para cada observação é dada por f (xi ) = √ 1
2πσ 2
exp − (xi2σ
−µ)
2

Q10
3. assumindo que as observações são independentes a função de verossimilhanca é dada por L(µ) = 1 f (xi ),
4. e a log-verossimilhança é dada por
10
X
l(µ) = ln(f (xi ))
1
10 10
!
1 X X
= −5log(8π) − x2i − 2µ xi + 10µ 2
8 1 1

DEIO/CEAUL Valeska Andreozzi – slide 41

20
Solução Gráfica R
1. Amostra de uma distribuição normal com variância igual a 4
> x <- c(12, 15, 9, 10, 17, 12, 11, 18, 15, 13)
> x
P10 P10
2. e calculamos as quantidades 1 x2i e 1 xi

> sx2 <- sum(x^2)


> sx <- sum(x)

3. Intervalo para os possı́veis valores de µ (sabemos que a média aritmética é um estimativa de µ por isso
criamos valores ao redor de 13 = mean(x))

> mu.vals <- seq(11, 15, l=100)


> mu.vals
DEIO/CEAUL Valeska Andreozzi – slide 42

Solução Gráfica no R
4. e a seguir calculamos os valores de l(µ) de acordo com a equação anterior

> lmu <- -5 * log(8 * pi) -


(sx2 - 2 * mu.vals * sx + 10 * (mu.vals^2))/8

5. Fazendo o grafico

> plot(mu.vals, lmu, type="l", xlab=expression(mu),


ylab=expression(l(mu)))

DEIO/CEAUL Valeska Andreozzi – slide 43

21
Solução Gráfica no R

−26
−27
−28
−29
l(µ)
−30
−31
−32
11 12 13 14 15

DEIO/CEAUL Valeska Andreozzi – slide 44

Solução Gráfica no R
6. Obtendo o valor de µ que corresponde ao valor máximo do log da verossimilhança

> mu.vals[lmu==max(lmu)]
[1] 13.18182

7. Comparando com a média amostral

> mean(x)
[1] 13.2

DEIO/CEAUL Valeska Andreozzi – slide 45

22
Aplicando MMV nos MLG
■ Considere o exemplo número de mortes por Aids (exemplo motivação)
■ Yi ∼ P oi(µi ) e
■ log(µi ) = β0 + β1 ti
■ A contribuição de cada observação para a função de verossimilhança é dada por

µy e−µ
P r(Y = y|µ) =
y!

DEIO/CEAUL Valeska Andreozzi – slide 46

Aplicando MMV nos MLG


■ O log da função de verossimilhança de (β0 , β1 ) obtida de uma amostra aleatória
Y
l(β0 , β1 |yi ) = ln P r(Y = yi |µi )
i

Y µyi e−µi
i
l(β0 , β1 |yi ) = ln
i
yi !
..
.
X
l(β0 , β1 |yi ) = {yi (β0 + β1 ti ) − exp(β0 + β1 ti ) − log(yi !)}
i

DEIO/CEAUL Valeska Andreozzi – slide 47

23
Estimativa de Máxima Verossimilhança
■ A estimativa do método da máxima verossimilhança é o valor do parâmetro que maximiza o logarı́tmo (log)
da função de verossimilhança
■ Em casos especiais o log das funções de verossimilhança podem ser resolvidos algebricamente
■ Em outros casos é necessário estimar o parâmetro através da maximização numérica, por exemplo através do
método de Newton-Raphson

DEIO/CEAUL Valeska Andreozzi – slide 48

Método de Newton-Raphson
■ Seja l(β0 , β1 |yi ) = l(β)
■ Para calcular os valores β que maximize a função de verossimilhança temos que derivar e igualar a zero

∂l(β)
= l′ (β) = 0
∂βk
■ Para resolvermos a equação numericamente fazemos uma expansão de Taylor

l′ (β (0) ) + (β − β (0) )l′′ (β (0) ) ≈ 0

■ Reescrevendo, temos:
l′ (β (0) )
β = β (0) −
l′′ (β (0) )

DEIO/CEAUL Valeska Andreozzi – slide 49

24
Método Iterativo
Passo1: Inı́cio: assume qualquer valor inicial para βb(0)
Passo2: Iteração 1: βb(1) = βb(0) + ǫ
Passo3: Iteração k: βb(k) = βb(k−1) + ǫ
Passo4: Volta para o passo 3 até que ǫ seja menor que uma tolerância desejável

■ ǫ = − ll′′(β)
(β)

■ No R é utilizado o método iterativo dos mı́nimos quadrados ponderados, que é baseado no método de
Newton-Raphson
■ Critério de parada no R: ǫ = 10−8
■ Caso ǫ não atinja este valor dizemos que o processo não convergiu

DEIO/CEAUL Valeska Andreozzi – slide 50

Método iterativo dos mı́nimos quadrados ponderados


Método iterativo do mı́nimos quadrados ponderados é baseado no método dos scores de Fisher, que procede
com o cálculo das sucessivas iteradas através da relação

βb(k+1) = βb(k) + I(βb(k) )−1 s(βb(k) )

em que:
h 2 i
∂ l(β)
■ I(.)−1 é a inversa (que se supõe existir) da matriz de informação de Fisher (I(β) = E − ∂β∂β T )

■ s(β) = ∂l(β)
∂β o vetor de scores
A diferença existente entre este algoritmo e o de Newton-Raphson para resolver sistemas de equações não
∂ 2 l(β)
lineares, reside na utilização da matriz de informação de Fisher em vez da matriz Hessiana (H(β) = ∂β∂β T ). A

vantagem desta substituição deve-se ao facto de, em geral, ser mais fácil calcular a matriz de informação I,
para além de ser sempre uma matriz semi-definida positiva.

DEIO/CEAUL Valeska Andreozzi – slide 51

25
Estimação do parâmetro de dispersão
O parâmetro de dispersão apesar de poder ser estimado pelo MMV, pode também ser estimado por um método
mais simples. Tal método baseia-se na distribuição de amostragem, para grandes valores de n, da estatı́stica de
Person generalizada:
n
1 X ωi (yi − µi )2
φb =
n − p i=1 V (b
µ)

DEIO/CEAUL Valeska Andreozzi – slide 52

Teste de Hipotéses slide 53

Introdução
Nesta seção serão apresentados testes de hipóteses sobre o vetor de parâmetro β. Basicamente, dois tipos de
hipóteses serão testados
■ Hipótese da nulidade de um componente do vetor de parâmetro

H0 : β j = 0 versus H1 = βj 6= 0

para algum j.
■ Hipótese da nulidade de um subvetor do vetor de parâmetro

H0 : β r = 0 versus H1 = βr 6= 0

para algum subvetor de r componentes de β. Esta hipótese corresponde a testar submodelos do modelo
original, que será apresentado na seção seguinte.

DEIO/CEAUL Valeska Andreozzi – slide 54

26
Teste de Wald
■ Através da MMV temos que: βb∼N
a
M V (β, V )
V = I(β)−1

EP (βbk ) = V kk
■ WALD: Testa H0 : βk = 0 através da estatı́stica t
c
β
■ t= k
bk )
EP (β

■ Sob a H0 , t segue assintoticamente um distribuição normal com média zero e variância igual a 1

DEIO/CEAUL Valeska Andreozzi – slide 55

Exemplo: Fatores de risco do peso ao nascer


> birth <- read.table("bw.dat", header = T)
> birth$weight<-birth$weight/1000
> head(birth)
weight age sex
1 2.968 40 M
2 2.795 38 M
3 3.163 40 M
4 2.925 35 M
5 2.625 36 M
6 2.847 37 M
> tail(birth)
weight age sex
19 3.126 40 F
20 2.539 37 F
21 2.412 36 F
22 2.991 38 F
23 2.875 39 F
24 3.231 40 F
DEIO/CEAUL Valeska Andreozzi – slide 56

27
Teste de Wald
> summary(glm(weight~age+ sex, data = birth))
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.77332 0.79459 -2.232 0.0367 *
age 0.12089 0.02046 5.908 7.28e-06 ***
sexM 0.16304 0.07281 2.239 0.0361 *
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

DEIO/CEAUL Valeska Andreozzi – slide 57

Teste da razão de verossimilhanças


■ O teste da RV é definido por  
Lp
RV = −2 × ln
Lq
em que
■ Lp estimativa de máxima verossimilhança do modelo com p parâmetros
■ Lq estimativa de máxima verossimilhança do modelo com q < p parâmetros

DEIO/CEAUL Valeska Andreozzi – slide 58

28
Teste da razão de verossimilhanças
■ Sob a hipótese nula de que os parâmetros adicionais p − q são iguais a zero, a estatı́stica RV tem uma
distribuição assintótica de um χ2 sendo p − q o número de graus de liberdade
a 2
RV = −2(lp − lq )∼χ p−q

l = logaritmo da máxima verossimilhança do modelo


■ De acordo com o teste da RV, a hipótese nula é rejeitada a favor da H1 : pelo menos um parâmetro é diferente
de zero, a um nı́vel de significância α, se o valor observado da estatı́stica RV for superior ao quantil de
probabilidade 1 − α de um χ2p−q
■ O teste da RV é utilizado na comparação de modelos encaixados (modelos em que um é subconjunto do outro)

DEIO/CEAUL Valeska Andreozzi – slide 59


Intervalo de confiança para β s
■ Temos que βb∼N
a
M V (β, I(β)−1 )
■ Intervalo de Confiança de (1 − α)%

[βbk − z1−α/2 × EP (βbk ) ; βbk + z1−α/2 × EP (βbk )]

DEIO/CEAUL Valeska Andreozzi – slide 60

29
Exemplo
> bw.glm<-glm(weight~age+ sex, data = birth)
> bw.sum<-summary(bw.glm)
> bw.glm$coeff
(Intercept) age sexM
-1.7733218 0.1208943 0.1630393
> sqrt(diag(bw.sum$cov.scaled))
(Intercept) age sexM
0.79458608 0.02046295 0.07280821
> bw.glm$coeff - qnorm(1-(.05/2))*sqrt(diag(bw.sum$cov.scaled))
(Intercept) age sexM
-3.33071055 0.08078694 0.02033521
> bw.glm$coeff + qnorm(1-(.05/2))*sqrt(diag(bw.sum$cov.scaled))
(Intercept) age sexM
-0.2159331 0.1610017 0.3057434

#forma simples de encontrar IC para os par^


ametros betas
> confint(bw.glm)

DEIO/CEAUL Valeska Andreozzi – slide 61

Seleção de modelos slide 62

Modelo saturado
■ Para um MLG com n observações, o número máximo de parâmetros é igual a n, isto é, um parâmetro para
cada observação de tal forma que o modelo se ajusta perfeitamente aos dados.
■ Não oferece qualquer simplificação e, como tal, não tem interesse na interpetação do problema, já que não faz
sobressair caracterı́sticas importantes transmitidas pelos dados.
■ O modelo saturado fornece o maior valor que a função de verossimilhança pode atingir.
■ Toda a variação do modelo saturado é atribuı́da ao componente sistemático.

DEIO/CEAUL Valeska Andreozzi – slide 63

30
Modelo saturado
> summary(glm(weight~factor(1:nrow(birth)), data = birth))
Deviance Residuals:
[1] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

Estimate Std. Error t value Pr(>|t|)


(Intercept) 2.968 NA NA NA
factor(1:nrow(birth))2 -0.173 NA NA NA
factor(1:nrow(birth))3 0.195 NA NA NA
factor(1:nrow(birth))4 -0.043 NA NA NA
factor(1:nrow(birth))5 -0.343 NA NA NA
...
factor(1:nrow(birth))21 -0.556 NA NA NA
factor(1:nrow(birth))22 0.023 NA NA NA
factor(1:nrow(birth))23 -0.093 NA NA NA
factor(1:nrow(birth))24 0.263 NA NA NA

(Dispersion parameter for gaussian family taken to be NaN)

Null deviance: 1.8299e+00 on 23 degrees of freedom


Residual deviance: 1.8144e-29 on 0 degrees of freedom
AIC: -1546.5

DEIO/CEAUL Valeska Andreozzi – slide 64

Modelo nulo
■ Modelo nulo é um modelo que possui um único parâmetro.
■ Todas as observações tem um parâmetro em comum e igual a

E(Yi ) = µ = y

■ É um modelo de estrutura muito simples, que raramente captura a estrutura inerente aos dados.
■ Toda a variação do modelo nulo é atribuı́da ao componente aleatório.

DEIO/CEAUL Valeska Andreozzi – slide 65

31
Modelo nulo
> summary(glm(weight~1, data = birth))
Deviance Residuals:
Min 1Q Median 3Q Max
-0.55567 -0.18292 -0.01617 0.21683 0.50533

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.96767 0.05758 51.54 <2e-16 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

(Dispersion parameter for gaussian family taken to be 0.07955971)

Null deviance: 1.8299 on 23 degrees of freedom


Residual deviance: 1.8299 on 23 degrees of freedom
AIC: 10.338

DEIO/CEAUL Valeska Andreozzi – slide 66

Função desvio (Deviance)


■ Função desvio D (residual deviance)

D = 2φ {ls − lm }
■ ls = log verossimilhança do modelo saturado (valor máximo)
■ lm = log verossimilhança do modelo em questão
■ D é uma distância entre a log verossimilhança do modelo saturado e a log verossimilhança do modelo em
questão
■ Quanto mais próximo o MLG estimado, µ̂, estiver dos dados observados, y, menor será o valor da função
desvio D
■ Como ls é o maior valor da log verossimilhança temos que lm será sempre menor e consequentemente D é
sempre positiva

DEIO/CEAUL Valeska Andreozzi – slide 67

32
Função desvio
Representação gráfica da função desvio

■ D/φ = 2 {ls − lm } → Scaled Deviance


Pn
■ Função desvio D é análoga a Soma dos Quadrados dos Erros (SQE = i=1 (yi − µ̂i )2 ) do modelo de
regressão linear
■ No caso de Y ∼ N ormal temos que D é igual a SQE

DEIO/CEAUL Valeska Andreozzi – slide 68

Função desvio
Função desvio de um modelo de Poisson
■ Seja a variável resposta Y1 , . . . , Yn independentes e Yi ∼ P oisson(λi ) com função de log-verossimilhança
X X X
l(β, y) = yi ln λi − λi − lnyi !

■ Para o modelo saturado temos as estimativas de máxima verossimilhança para λbi = yi , logo o valor máximo
da função de log-verossimilhança é
X X X
ls (β, y) = yi ln yi − yi − lnyi !

DEIO/CEAUL Valeska Andreozzi – slide 69

33
Função desvio
Função desvio de um modelo de Poisson
■ Para um modelo com p < n parâmetros podemos utilizar as estimativas de máxima verossimilhança dos
parâmetros do modelo (β) para calcular λ bi e consequentemente os valores ajustados ybi = λ
bi . Logo a função
de log- verossimilhança fica assim definida
X X X
lm (β, y) = yi ln ybi − ybi − lnyi !

■ E a função desvio tem a seguinte expressão:


nX X o
D = 2 {ls − lm } = 2 yi ln yi /b
yi − (yi − ybi )

DEIO/CEAUL Valeska Andreozzi – slide 70

Exercı́cio
Escreva a função desvio para um modelo binomial. (Y1 , . . . , Yn independentes e Yi ∼ binomial(mi , πi ))

DEIO/CEAUL Valeska Andreozzi – slide 71

34
Exemplo: Fatores de risco do peso ao nascer
> attach(birth)
> plot(age,weight,pch=19,col="blue")
> points(age[sex=="F"],weight[sex=="F"],pch=19,col=2)

3.4
3.2
3.0
weight

2.8
2.6
2.4

35 36 37 38 39 40 41 42

age

DEIO/CEAUL Valeska Andreozzi – slide 72

Exemplo: Fatores de risco do peso ao nascer


> summary(glm(weight~age+sex, data = birth))
Deviance Residuals:
Min 1Q Median 3Q Max
-0.25749 -0.12528 -0.05844 0.16900 0.30398

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.77332 0.79459 -2.232 0.0367 *
age 0.12089 0.02046 5.908 7.28e-06 ***
sexM 0.16304 0.07281 2.239 0.0361 *
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

(Dispersion parameter for gaussian family taken to be 0.03137004)

Null deviance: 1.82987 on 23 degrees of freedom


Residual deviance: 0.65877 on 21 degrees of freedom
AIC: -10.181
Number of Fisher Scoring iterations: 2

DEIO/CEAUL Valeska Andreozzi – slide 73

35
Comparando com modelo linear
■ Função desvio = SQE
> summary(lm(weight~age+sex, data = birth))
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.77332 0.79459 -2.232 0.0367 *
age 0.12089 0.02046 5.908 7.28e-06 ***
sexM 0.16304 0.07281 2.239 0.0361 *
Residual standard error: 0.1771 on 21 degrees of freedom
Multiple R-squared: 0.64, Adjusted R-squared: 0.6057
F-statistic: 18.67 on 2 and 21 DF, p-value: 2.194e-05
> anova(lm(weight~age+sex, data = birth))
Analysis of Variance Table
Response: weight
Df Sum Sq Mean Sq F value Pr(>F)
age 1 1.01380 1.01380 32.3174 1.213e-05 ***
sex 1 0.15730 0.15730 5.0145 0.03609 *
Residuals 21 0.65877 0.03137

DEIO/CEAUL Valeska Andreozzi – slide 74

Exemplo: Fatores de risco do peso ao nascer


Escreva a equação do modelo
> plot(age,weight,pch=19,col="blue")
> points(age[sex=="F"],weight[sex=="F"],pch=19,col=2)
> fx<-function(x){-1773.32+120.89*x}
> curve(fx,35,42,add=T,col=2)
> fx<-function(x){-1773.32+163.04+120.89*x}
> curve(fx,35,42,add=T,col="blue")
3.4
3.2
3.0
weight

2.8
2.6
2.4

35 36 37 38 39 40 41 42

age

DEIO/CEAUL Valeska Andreozzi – slide 75

36
Outro exemplo: Estudo experimental
> mice<-read.table("mice.dat",header=T)
> dim(mice)
[1] 26 2
> mice
dose response
1 0.0 0
2 0.1 0
3 0.2 0
4 0.3 0
5 0.4 0
6 0.5 1
7 0.6 0
8 0.7 0
...

DEIO/CEAUL Valeska Andreozzi – slide 76

Outro exemplo: Estudo experimental


> summary(glm(response~dose, data = mice, family=binomial))
Call: glm(formula=response~dose, family=binomial, data=mice)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.5766 -0.4757 0.1376 0.4129 2.1975
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -4.111 1.638 -2.510 0.0121 *
dose 3.581 1.316 2.722 0.0065 **

(Dispersion parameter for binomial family taken to be 1)


Null deviance: 35.890 on 25 degrees of freedom
Residual deviance: 17.639 on 24 degrees of freedom
AIC: 21.639
Number of Fisher Scoring iterations: 6

DEIO/CEAUL Valeska Andreozzi – slide 77

37
Análise de deviance
Notação
■ Mq → Modelo com pq parâmetros

■ Mm → Modelo com pm parâmetros


■ Mm ⊂ Mq →, isto é, o modelo Mm é um subconjunto do modelo Mq , em outras palavras, o modelo Mq
contém todas as covariáveis do modelo Mm =⇒ modelos encaixados
■ Dq → função desvio do modelo Mq
■ Dm → função desvio do modelo Mm

DEIO/CEAUL Valeska Andreozzi – slide 78

Análise de deviance
■ Sob a H0 de que o modelo mais simples Mm é melhor, temos o resultado assintótico
a 2
(Dm − Dq )/φ∼χ pq −pm

■ Este resultado é exato quando Y ∼ Normal com σ 2 conhecido


■ Diferença entre função desvio equivale ao Teste da Razão
 de
L
Verossimilhança(Dm − Dq )/φ = 2(lq − lm ) = 2 ln Lmq

DEIO/CEAUL Valeska Andreozzi – slide 79

38
Análise de deviance
■ Para modelos normais em que não conhecemos σ 2 usamos o teste F ao invés do teste χ2
■ Sob a H0 de que o modelo simples Mm é melhor, temos o resultado exato

(Dm − Dq )/pq − pm
∼ Fpq −pm ,n−pq
Dq /(n − pq )

DEIO/CEAUL Valeska Andreozzi – slide 80

Comparando modelos encaixados


1. Y ∼ Normal com σ 2 desconhecido
(Dm −Dq )/pq −pm
■ Teste F: Dq /(n−pq ) ∼ Fpq −pm ,n−pq
■ No R
> anova(Mm,Mq, test = "F")
2. Caso contrário
■ Teste χ2 : (Dm − Dq )/φ∼χ2pq −pm
a

■ No R
> anova(Mm,Mq, test = "Chisq")

DEIO/CEAUL Valeska Andreozzi – slide 81

39
Exemplo
> mice.reg1<-glm(response~1, data = mice, family=binomial)
> mice.reg2<-glm(response~dose, data = mice, family=binomial)
> anova(mice.reg1,mice.reg2,test = "Chisq")
Analysis of Deviance Table

Model 1: response ~ 1
Model 2: response ~ dose
Resid. Df Resid. Dev Df Deviance P(>|Chi|)
1 25 35.890
2 24 17.639 1 18.250 1.937e-05

DEIO/CEAUL Valeska Andreozzi – slide 82

Comparando modelos não encaixados


■ Critério de Akaike - AIC (Akaike Information Criteria)
◆ Penaliza o log da verossimilhança pelo número de parâmetros do modelo

AIC = −2l(β) + 2p

◆ l: logaritmo da função de verossimilhança do modelo e


◆ p: número de parâmetros do modelo

◆ Quanto menor o AIC melhor o modelo


◆ No R: extractAIC(modelo)

DEIO/CEAUL Valeska Andreozzi – slide 83

40
Exemplo
> mice.reg1<-glm(response~1, data = mice, family=binomial)
> mice.reg2<-glm(response~dose, data = mice, family=binomial)
> extractAIC(mice.reg1)
[1] 1.00000 37.88966
> extractAIC(mice.reg2)
[1] 2.00000 21.63922

DEIO/CEAUL Valeska Andreozzi – slide 84

Seleção sequencial de variáveis


■ Procedimentos
■ Forward: modelos são sistematicamente construı́dos através da adição de variáveis uma a uma no modelo
nulo.
■ Backward: modelos são sistematicamente reduzidos através da exclusão de variáveis uma a uma do modelo
completo.
■ Stepwise: é uma combinação dos dois procedimentos anteriores
■ Para qualquer dos procedimentos, a decisão crucial está na escolha da regra de paragem.
■ Algumas escolhas são Akaike Information Criteria, o qual não possui nenhuma distribuição associada para
proceder um teste formal, ou a Análise de deviance, em que o nı́vel de significância para adicionar ou excluir a
uma variável deve ser escolhido.
Antes de adotar um critério de seleção de modelos (ou variáveis), defina claramente o objetivo do modelo
■ Modelo Preditivo - Ex.: Prever a pressão arterial dado o valor da idade e do sexo

■ Modelo Explicativo - Ex.: quantificar a associação entre pressão arterial e variáveis sócio-econômicas (idade e
sexo).
Sempre que possı́vel descreva um modelo teórico da associação entre o desfecho e as covariáveis.

DEIO/CEAUL Valeska Andreozzi – slide 85

41
Modelo Teórico
Exemplo de seleção de modelo

Artigo: Fuchs, Victora e Fachel


(1996). Modelo Hierarquizado:
uma proposta de modelagem
aplicada à investigação de fato-
res de risco para diarréia grave.
Revista de Saúde Pública, 30(2):
168-78.

Clique para obter PDF online

DEIO/CEAUL Valeska Andreozzi – slide 86

Peso ao nascer: birth.dat


1. bwt - peso ao nascer
2. low - peso categorizado em 0 - normal, 1 < 2500g
3. age - idade da mãe
4. lwt - peso da mãe em libras na última regra
5. race - raça da mãe: 1 - branco, 2 - negro, 3 - outros
6. smoke - hábito de fumar 0 - não, 1 - sim
7. ptl - número de prematuros em gestações anteriores
8. ht - indicador de hipertensão: Existe e NE (não existe)
9. ftv - número de consultas de pré-natal

DEIO/CEAUL Valeska Andreozzi – slide 87

42
Exemplo no R
bw <- read.table("birth.dat", header = T)
head(bw)
names(bw)
bw$ht <- relevel(bw$ht, "NE")
bw$race <- factor(bw$race,labels=c("Bco", "Ngo", "Out"))
bw$smoke <- factor(bw$smoke)
bw$bwt <- bw$bwt/1000
summary(bw)
bw.mod1 <- glm(bwt ~ age+lwt+race+smoke+ht+ftv, data = bw)
summary(bw.mod1)
anova(bw.mod1,test="F")
mod.both<-step(bw.mod1,direction="both")
mod.both
mod.back<-step(bw.mod1,direction="backward")
mod.back
bw.nulo <- glm(bwt ~ 1, data = bw)
mod.forw<-step(bw.nulo,scope=list(upper=~age+lwt+race+smoke+ht+ftv),
direction="forward")
mod.forw
mod.back
mod.both

DEIO/CEAUL Valeska Andreozzi – slide 88

Dicas de modelagem
Covariável contı́nua ou discreta
■ Quando usar a covariável contı́nua ou quando categorizar?

■ A diferença fundamental está na premissa de linearidade.


■ Se esta premissa estiver ok, utilize a covariável contı́nua, mas caso isso não ocorre, terı́amos que usar
tranformações da covariável (ex.: termos polinomiais) dificultando a interpretação do modelo.
■ Alternativa é categorizar a variável permitindo que a variável resposta varie arbitrariamente de uma categoria
para outra.
■ Vantagem de categorizar a covariável: fácil interpretação
■ Desvantagem: ao agrupar a covariável não estamos fazendo o uso de toda a informação dos dados.

DEIO/CEAUL Valeska Andreozzi – slide 89

43
Dicas de modelagem
Modelos mais complicados
■ Inclusão de termos polinomiais, transformação de covariáveis para capturar a não-linearidade.

■ No caso de termos polinomiais temos que ter cuidado para não introduzir covariáveis altamente
correlacionadas (multicolinearidade)
■ Inclusão de termos de interação: o efeito de uma covariável depende do valor da outra covariável
■ Para avaliar se termos mais complicados nos modelos são realmente necessários, verifique se sua inclusão
reduz significativamente o deviance.

DEIO/CEAUL Valeska Andreozzi – slide 90

Dicas de modelagem
■ Não são regras e por isso podem ser violadas
1. Se existe uma interação A : B no modelo entre duas covariáveis A e B devemos evitar retirar o efeito
principal das variáveis
2. Se temos um conhecimento prévio de que uma covariável afeta uma variável resposta, podemos mantê-la no
modelo mesmo que a análise de desvio indique que ela não é importante

DEIO/CEAUL Valeska Andreozzi – slide 91

44
Diagnóstico slide 92

Introdução
Não se deve esquecer que um modelo é apenas uma aproximação da realidade.
Todos os modelos envolvem várias premissas em relação aos dados.
Contudo, na maioria das vezes apenas uma porção dos dados se mostra consoante as premissas do modelo.
Logo, torna-se essencial avaliar se as premissas dos modelos ajustados foram respeitadas para garantir a
interpretabilidade do modelo.

DEIO/CEAUL Valeska Andreozzi – slide 93

Introdução
Tópicos a serem verificados na etapa de diagnóstico do modelo
■ Verificar se o modelo se ajusta aos dados

■ Premissas do modelo
■ Procurar pontos outliers
■ Procurar pontos influentes
■ Necessidade de inclusão de covariáveis
■ Escolha correta da função de ligação
■ Escolha da escala das covariáveis
DEIO/CEAUL Valeska Andreozzi – slide 94

45
Valores ajustados e resı́duos
■ No caso dos MLG os resı́duos ordinários ri = yi − µ
bi apresentam diferentes variabilidades
■ Logo torna-se necessário padronizar os resı́duos ordinários pelo erro padrão de yi .
■ Em geral, o erro padrão de ri é uma função dos parâmetros do modelo estimado por V (b
µi )
■ Temos também que levar em consideração os efeitos das covariáveis nos resı́duos através da matriz hat.
■ Cálculos relativamente simples, mas morosos, permitem estabelecer que, assintoticamente:

DEIO/CEAUL Valeska Andreozzi – slide 95

Valores ajustados e resı́duos

V ar(ri ) = V ar(Yi )(1 − hii )


V ar(ri ) = φV (b
µi )(1 − hii )
■ b = Hy).
hii são os valores da diagonal da matriz hat (µ
■ hii são uma medida de influência exercida por yi no cálculo de µbi
■ Este resultado mostra que os resı́duos podem ter variâncias diferentes, mesmo que a variância da variável
resposta seja constante, porque a precisão dos resı́duos depende do padrão das covariáveis.
■ Conclusão: devemos utilizar resı́duos padronizados

DEIO/CEAUL Valeska Andreozzi – slide 96

46
Resı́duo de Pearson
■ Resı́duo de Pearson
p
◆ ri = qyi −b µi
= √ybi −bµi
d i)
V ar(Y φV (c
µi )

> res <- residuals(fit, type = "pearson")

■ Resı́duo de Pearson padronizado


p′ yi −bµi
◆ ri = √
b (c
φV µi )(1−hii )

> res <- rstandard(fit, type="pearson")

rip corresponde à contribuição de cada observação para o cálculo da estatı́stica de Pearson generalizada. A
desvantagem do resı́duo de Pearson é que sua distribuição é geralmente assimétrica para modelos não normais.

DEIO/CEAUL Valeska Andreozzi – slide 97

Resı́duo de Pearson
Resı́duo de Pearson Padronizado
■ Modelo Normal
yi − µ
bi
rip′ = q
b − hii )
φ(1
■ Modelo Poisson
yi − µ
bi
rip′ = p
µ
bi (1 − hii )
■ Modelo Binomial
yi − µ
bi
rip′ = p
µ
bi (1 − µ
bi )(1 − hii )

DEIO/CEAUL Valeska Andreozzi – slide 98

47
Resı́duo Deviance
■ Resı́duo Deviance

◆ rid = sinal(yi − µbi ) di
di = contribuição da i-ésima observação para a função desvio

> res <- residuals(fit, type = "deviance")

■ Resı́duo Deviance Padronizado


rD
◆ rid′ = √
b
φ(1−h ii )

> res <- rstandard(fit, type="deviance")

DEIO/CEAUL Valeska Andreozzi – slide 99

Resı́duos
■ Resı́duos de Pearson e Deviance devem ser aproximadamente Normais(0,1) para dados que seguem uma
distribuição Normal, de Poisson e Binomial com grandes contagens.
◆ 95% dos resı́duos devem estar entre −2 e 2

■ Para dados Bernoulli e Binomial com pequenas contagens não podemos esperar que os resı́duos de Pearson e
Deviance possuam uma distribuição Normal padronizada, em geral a distribuição é assimétrica. Contudo
◆ a maioria dos resı́duos devem estar entre −2 e 2
◆ e sua variância deve ser unitária

DEIO/CEAUL Valeska Andreozzi – slide 100

48
Variância constante
Para avaliar evidência de variância não constante utilizamos o seguinte gráfico
■ Gráficos dos resı́duos padronizados vs preditores lineares η ou vs função dos valores ajustados µ
b ou vs ı́ndice
◆ Devemos encontrar um padrão nulo,

◆ Os resı́duos devem estar distribuı́dos em torno do zero com amplitude constante para diferentes valores de µ
b
■ Transformações sugeridas por McCullagh e Nelder
◆ µ
b para o modelo normal
p
◆ 2 µ b para o modelo de Poisson
p
◆ 2sin−1 µ b para o modelo binomial
◆ 2ln(b
µ) para o modelo gamma

DEIO/CEAUL Valeska Andreozzi – slide 101

Variância constante
bw <- read.table("birth.dat", header = T)
bw$ht <- relevel(bw$ht, "NE")
bw$race <- factor(bw$race,labels=c("Bco", "Ngo", "Out"))
bw$smoke <- factor(bw$smoke)
bw.mod2<-glm(formula = bwt ~ lwt + race + smoke + ht, data = bw)
res<-rstandard(bw.mod2,type="deviance")
plot(bw.mod2$fitted.values,res,xlab="valores ajustados",
ylab="resı́duos deviance padronizados")
lines(lowess(bw.mod2$fitted.values,res),col="red")
abline(h=0,lty=2)

DEIO/CEAUL Valeska Andreozzi – slide 102

49
Variância constante

2
resíduos deviance padronizados

1
0
−1
−2
−3

2500 3000 3500

valores ajustados

DEIO/CEAUL Valeska Andreozzi – slide 103

Inclusão de nova variável


Para avaliar a inclusão de uma nova variável no modelo utilizamos:
■ Gráficos dos resı́duos do modelo vs a nova covariável não incluı́da no modelo

■ Não existe evidência de associação da variável resposta e a nova variável caso um padrão nulo seja encontrado
plot(bw$age,res,xlab="age",ylab="resı́duos deviance padronizados")
lines(lowess(bw$age,res))
abline(h=0,lty=2)

DEIO/CEAUL Valeska Andreozzi – slide 104

50
Inclusão de nova variável

2
resíduos deviance padronizados

1
0
−1
−2
−3

15 20 25 30 35 40 45

age

DEIO/CEAUL Valeska Andreozzi – slide 105

Relação linear das covariáveis


Para avaliar se a relação da covariável é linear
■ Gráficos dos resı́duos vs covariáveis incluı́das no modelo + função de alisamento
plot(bw$lwt,res,xlab="lwt",ylab="resı́duos deviance padronizados")
lines(lowess(bw$lwt,res))
abline(h=0,lty=2)

DEIO/CEAUL Valeska Andreozzi – slide 106

51
Relação linear das covariáveis

2
resíduos deviance padronizados

1
0
−1
−2
−3

100 150 200 250

lwt

DEIO/CEAUL Valeska Andreozzi – slide 107

Relação linear das covariáveis


Estamos interessados em avaliar a relação linear parcial da variável resposta Y com a covariável xj (“controlando” pelas outras
covariáveis presentes no modelo) e não na relação marginal (ignorando as outras covariáveis).
Neste caso outro gráfico útil na avaliação da relação linear da covariável é Component-plus-residuals plot também conhecido como
partial-residuals plot
(j)
■ O gráfico é composto pelo resı́duo parcial da covariável xj dado por ri = ri + Bj xij versus a própria covariável xj .
(ri = yi − µi )
(j)
■ O resı́duo parcial ri é definido através da adição do termo linear da relação entre Y e xj aos resı́duos do modelo (ri ), que
podem conter um componente não linear
■ Espera-se encontrar uma relação linear entre r (j) e xj .
■ Geralmente a não linearidade é aparente, e por isso é aconselhado incluir um função de alisamento no gráfico
library(car)
bw.mod2<-glm(formula = bwt ~ lwt + race + smoke + ht, data = bw)
crPlots(bw.mod2,terms=~lwt)
crPlots(bw.mod2)
#vers~
oes antigas do R: cr.plots

DEIO/CEAUL Valeska Andreozzi – slide 108

52
Relação linear das covariáveis

Component+Residual Plot

1000
Component+Residual(bwt)

0
−1000
−2000

100 150 200 250

lwt

DEIO/CEAUL Valeska Andreozzi – slide 109

Relação não-linear das covariáveis


Quando a relação entre a variável resposta e a covariável contı́nua é não linear o que devemos fazer?
■ Categorizar a covariável, caso a não-linearidade seja caracterizada por uma função segmentada.

■ Adicionar termos polinomiais. Podemos incluir termos quadráticos da covariável em questão, ou seja Xj2 , mas
nem sempre a não-linearidade é de natureza parabólica.
■ A adição de termos polinominais pode ser uma solução, contudo apresentam algumas propriedades não
desejáveis (presença de picos e depressões; problemas em modelar dados com threshold)
■ Utilizar transformações Box-Cox. Problemas: perda de interpretação da covariável
■ Uma outra alternativa é incluir termos não lineares através de funções de alisamento (paramétricos ou não
paramétricos). Desta forma são caracterizados os modelos aditivos generalizados.

DEIO/CEAUL Valeska Andreozzi – slide 110

53
Pontos influentes - Leverage
P
■ b = X βb = HY ⇒ µ
µ bi = H ii yi + j6=i H ih yi
■ H matriz hat
■ hii → Leverage de uma observação yi
■ hii mede a influência de y em µ
b
■ quanto maior hii , maior é o peso de yi no valor ajustado
Pn
■ i=1 hii = p, onde n = número de observações e p = número de parâmetros do modelo.

■ Rule of thumb → hii é considerado grande se for maior que duas ou três vezes p/n. Logo podemos investigar
valores maiores de hi /(p/n) maiores que 2 como sendo possı́veis pontos influentes.
■ Caso os resı́duos desses pontos identificados como influentes não sejam grandes, não precisamos nos
preocupar.

DEIO/CEAUL Valeska Andreozzi – slide 111

Exemplos
h<-hatvalues(bw.mod2)
p <- dim(model.matrix(bw.mod2))[[2]] #num de parametros
n <- dim(model.matrix(bw.mod2))[[1]] #num de observaç~
oes
plot(h/(p/n), ylab = "Leverage h/(p/n)", xlab = "Índice",
cex.lab = 1.5, pch = 19)
abline(h=2, lty = 2)
5
4
Leverage h/(p/n)
3
2
1

0 50 100 150

Índice

DEIO/CEAUL Valeska Andreozzi – slide 112

54
Pontos influentes: Cooks Distance
rip′ hii
■ Informação conjunta do Leverage e Resı́duo CDi ≡ p × 1−hii
res <- rstandard(bw.mod2, type="deviance")
plot(h,res)
abline(h=c(-2,2),lty=2)
abline(v=c(2,3)*mean(h),lty=2)

library(car)
plot(cooks.distance(bw.mod2))
#vers~
oes antigas do R: cookd() ao invés de cooks.distance()

0.07
2

0.06
0.05
1

Cooks Distance
0.04
0
res

0.03
−1

0.02
−2

0.01
−3

0.00

0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0 50 100 150

h Índice

DEIO/CEAUL Valeska Andreozzi – slide 113

Função de ligação
■ Um método para verificar se a função de ligação escolhida é adequada consite em simplesmente adicionar η 2
(preditor linear) como covariável extra no modelo e examinar a mudança ocorrida na deviance, isto é, fazer o
teste da razão de verossimilhanças. Se o teste da razão de verosimillhanças for significativo podemos dizer que
há evidência de que a função de ligação não é adequada.
■ Observação importante:
A adequação da função de ligação pode ser afetada pela falha em estabelecer escalas corretas para as
variáveis explanatórias no preditor linear. Em particular, se o teste formal construı́do pela adição de η 2 indica
desvio do modelo, isto pode indicar função de ligação errada ou escalas erradas para as variáveis explanatórias
ou ambas. Pontos atı́picos, também, podem afetar a escolha da função de ligação.
■ No source("glmfunc.r") foi construı́do a função goodlink() para testar a adequação da função de ligação

DEIO/CEAUL Valeska Andreozzi – slide 114

55
Exemplo - Doença Coronariana
Investigar fatores de risco para doença coronarina (609 homens). As variáveis estão definidas da seguinte forma:
id identificação do paciente
chd indica a presença (1) ou ausência (0) de doença coronariana
cat indica nı́vel alto (1) ou normal (0) de catecholamine
age idade em anos
chl nı́vel de colesterol
smk indica se o indivı́duo já fumou alguma vez (1) ou nunca (0)
ecg indica a presença (1) ou ausência (0) de anormalidade no eletrocardiograma
dbp pressão sangüı́nia diastólica
sbp pressão sangüı́nia sistólica
htp indica a presença (1) ou ausência (0) de pressão alta (pressão diastólica > 160 ou sistólica ≤ 65

DEIO/CEAUL Valeska Andreozzi – slide 115

Doença Coronariana
dcor <- read.table("evans.dat", header = T)
dcor$chd <- factor(dcor$chd)
dcor[1:10,]
id chd cat age chl smk ecg dbp sbp htp
1 21 0 0 56 270 0 0 80 138 0
2 31 0 0 43 159 1 0 74 128 0
3 51 1 1 56 201 1 1 112 164 1
4 71 0 1 64 179 1 0 100 200 1
5 74 0 0 49 243 1 0 82 145 0
6 91 0 0 46 252 1 0 88 142 0
7 111 1 0 52 179 1 1 80 128 0
8 131 0 0 63 217 0 0 92 135 0
9 141 0 0 42 176 1 0 76 114 0
10 191 0 0 55 250 0 1 114 182 1

DEIO/CEAUL Valeska Andreozzi – slide 116

56
Doença Coronariana
dcor.glm2 <- glm(chd~age+smk+cat:chl+cat:htp, family=binomial,
data=dcor)
summary(dcor.glm2)

Deviance Residuals:
Min 1Q Median 3Q Max
-1.4762 -0.4694 -0.4175 -0.3240 2.5216

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -4.522945 0.893345 -5.063 4.13e-07 ***
age 0.030806 0.015480 1.990 0.04659 *
smk 0.709447 0.303983 2.334 0.01960 *
cat:chl 0.011011 0.002185 5.038 4.69e-07 ***
cat:htp -1.538900 0.503283 -3.058 0.00223 **

Null deviance: 438.56 on 608 degrees of freedom


Residual deviance: 393.67 on 604 degrees of freedom
AIC: 403.67

DEIO/CEAUL Valeska Andreozzi – slide 117

Doença Coronariana
Identificar valores outliers
dcor.res<-rstandard(dcor.glm2,type="deviance")
plot(dcor.res,ylab="Resı́duo deviance padronizado",xlab="ı́ndice")
abline(h=0)
y<-as.numeric(dcor.glm2$y)
fit<-dcor.glm2$fitted.values
residuo<-round(data.frame(y=y,fit=fit,resordinario=y-fit,
resdev=dcor.res),2)
residuo[1:10,]

y fit resordinario resdev


2

1 0 0.06 -0.06 -0.34


2 0 0.08 -0.08 -0.40
Resíduo deviance padronizado

3 1 0.20 0.80 1.82


1

4 0 0.20 -0.20 -0.67


5 0 0.09 -0.09 -0.44
6 0 0.08 -0.08 -0.42
0

7 1 0.10 0.90 2.16


8 0 0.07 -0.07 -0.38
9 0 0.07 -0.07 -0.39
−1

10 0 0.06 -0.06 -0.34


0 100 200 300 400 500 600

índice

DEIO/CEAUL Valeska Andreozzi – slide 118

57
Adequação do modelo
■ Função Desvio é uma medida de quanto o modelo se aproxima dos dados observados
■ H0 : Modelo se ajusta aos dados (= modelo é adequado)

D/φ ∼ χ2n−p

■ Teste útil para dados de Poisson e Binomial com grandes contagens


■ Para dados normais a distribuição é exata
■ O teste não serve para dados Bernoulli (podemos usar o função desvio para ter uma idéia de quão bom é o
modelo, mas não podemos fazer o teste) → Alternativa: Teste do Hosmer e Lemeshow e Erro de predição

DEIO/CEAUL Valeska Andreozzi – slide 119

Adequação do modelo
Mostre como encontrar as expressões das funções desvio listadas abaixo:
Pn 2
■ Normal: i (yi − µ̂i )
Pn Pn
■ Poisson: 2 [ i yi ln(yi /µ̂i ) − i (yi − µ̂i ))]

■ Binomial:
DEIO/CEAUL Valeska Andreozzi – slide 120

58
Adequação do modelo
> summary(dcor.glm2)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -4.522945 0.893345 -5.063 4.13e-07 ***
age 0.030806 0.015480 1.990 0.04659 *
smk 0.709447 0.303983 2.334 0.01960 *
cat:chl 0.011011 0.002185 5.038 4.69e-07 ***
cat:htp -1.538900 0.503283 -3.058 0.00223 **
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 438.56 on 608 degrees of freedom


Residual deviance: 393.67 on 604 degrees of freedom
AIC: 403.67

> 1-pchisq(393.67, 604)


[1] 1

DEIO/CEAUL Valeska Andreozzi – slide 121

Estatı́stica Hosmer e Lemeshow


■ Para dados binários
g
X (ok − ek )2
HL =
nk π̄k (1 − π̄k )
k=1

■ k - é o número de grupos (exemplo 10 grupos compostos pelos decis do valor ajustado da probabilidade)

■ nk - número de indı́vı́duos em cada grupo

■ ok - número de respostas positivas dentro de cada grupo

■ ek - valor esperado do número de casos dentro de cada grupo assumindo que o modelo está correto

■ π̄k = ek /nk

■ Sob a hipótese nula de que o modelo está correto a estatı́stica HL segue uma distribuição χ2k−2

DEIO/CEAUL Valeska Andreozzi – slide 122

59
Doença Coronariana

Grupo k n o e π̄ 1 − π̄
1 65 1 2.64 0.04 0.96
2 57 3 3.09 0.05 0.95
3 65 8 4.63 0.07 0.93
4 64 7 5.03 0.08 0.92
5 73 4 6.25 0.09 0.91
6 42 6 3.86 0.09 0.91
7 63 3 6.29 0.10 0.90
8 63 7 7.42 0.12 0.88
9 56 11 8.93 0.16 0.84
10 61 21 22.85 0.37 0.63

> HL(dcor.glm2)
$"Estatı́stica Hosmer-Lemeshow"
[1] 9.488762

$"P-valor"
[1] "0.30275"

DEIO/CEAUL Valeska Andreozzi – slide 123

Erro de predição
■ Outra forma de avaliar o modelo binomial e através do erro de predição
■ valores ajustados > 0, 5 ⇒ ”sucesso”
■ valores ajustados ≤ 0, 5 ⇒ ”fracasso”
■ Cruzar com os valores observados e calcular a proporção de casos preditos corretamente
■ Problema: o modelo que se ajusta bem aos dados não necessariamente faz boa predição
■ Se predição é o objetivo da análise, então a proporção de casos corretamente classificados é um critério ideal
para comparação de modelos

DEIO/CEAUL Valeska Andreozzi – slide 124

60
Doença Coronariana
> erropred(dcor.glm2)
|-------------------------|
| N |
| N / Table Total |
|-------------------------|
Total Observations in Table: 609

| Observados
Ajustados | FALSE | TRUE | Row Total |
-------------|-----------|-----------|-----------|
0 | 534 | 61 | 595 |
| 0.877 | 0.100 | |
-------------|-----------|-----------|-----------|
1 | 4 | 10 | 14 |
| 0.007 | 0.016 | |
-------------|-----------|-----------|-----------|
Column Total | 538 | 71 | 609 |
-------------|-----------|-----------|-----------|
Proporç~
ao de acertos = 89.33 %

DEIO/CEAUL Valeska Andreozzi – slide 125

Sensibilidade e Especificidade
D+ D−
T+ a b VPP
T− c d VPN
S E

Sensibilidade: Probabilidade de um teste ser positivo, dado que existe a doença.


S = a/(a + c)
Especificidade: Probabilidade de um teste ser negativo, dado que não existe a doença.
E = d/(b + d)
Valor Preditivo Positivo: Probabilidade de existir a doença, dado que o teste foi positivo.
V P P = a/(a + b)
Valor Preditivo Negativo: Probabilidade de não existir a doença, dado que o teste foi negativo.
V P N = d/(c + d)

DEIO/CEAUL Valeska Andreozzi – slide 126

61
AUC - Curvas ROC
■ A curva ROC é o gráfico da probabilidade de se detectar os verdadeiroo positivos (sensibilidade) e os
verdadeiros negativos (1-especificidade) para diferentes pontos de corte
■ A área sob a curva ROC (AUC), qua varia entre 0 e 1, pode ser usada como um medida de abilidade do
modelo em discriminar quem sofreu o desfecho e quem não sofreu.
■ De acordo com Hosmer e Lemeshow, temos

AUC Diagnóstico
AU C = 0, 5 Modelo sem poder discriminatório
0, 7 ≤ AU C < 0, 8 Discriminação aceitável
0, 8 ≤ AU C < 0, 9 Discriminação excelente
AU C ≥ 0, 9 Discriminação extraordinária

DEIO/CEAUL Valeska Andreozzi – slide 127

AUC - Curvas ROC


attach(dcor)
library(Epi)
ROC(form=chd ~ age + smk + cat:chl + cat:htp, data=dcor)
1.0
0.8
0.6
Sensitivity

lr.eta = 0.133
0.4

Sens: 47.9%
Spec: 83.3%
PV+: 27.4% Variable est. (s.e.)
PV−: 92.4% (Intercept) −4.523 (0.893)
age 0.031 (0.015)
0.2

smk 0.709 (0.304)


cat:chl 0.011 (0.002)
cat:htp −1.539 (0.503)

Model: chd ~ age + smk + cat:chl + cat:htp


0.0

Area under the curve: 0.686

0.0 0.2 0.4 0.6 0.8 1.0

1−Specificity

DEIO/CEAUL Valeska Andreozzi – slide 128

62
Cartão de Referência do R
Cartão de referência para modelos de regressão no R

http://cran.r-project.org/doc/contrib/Ricci-refcard-regression.pdf

DEIO/CEAUL Valeska Andreozzi – slide 129

Miscelânias 1 slide 130


Identificabilidade e separação
Existem duas razões para que o modelo linear generalizado binário não seja identificável (parâmetros não
podem ser estimados através dos dados disponı́veis ⇒ β = ∞ ou erros padrão enormes)
1. Se os preditores (x) são colineares, torna-se impossı́vel estimar individualmente os parâmetros β. Este tipo de
não identificabilidade pode ser tratada através da remoção de variáveis colineares.
2. Completa separação dos dados, denominado separação, pode acontecer por causa da discretização dos dados:
■ Se um preditor xj está completamente alinhado com a variável resposta Y , tal que y = 1 para todos xj
maior que um limiar T , e y = 0 para todos os valores de xj ≤ T , a estimativa de β = ∞

DEIO/CEAUL Valeska Andreozzi – slide 131

63
Identificabilidade e separação
1.0
0.8
0.6
y

0.4
0.2
0.0

5 10 15

◆ Da mesma forma, se y = 1 para todos xj ≤ T , e y = 0 para xj > T , a estimativa de β = −∞

◆ Mais genericamente, esse problema pode acontecer se qualquer combinação linear dos preditores x estiver
perfeitamente alinhado com a variável resposta. Por exemplo, suponha o preditor linear η = 5x1 + x2 − x3 .
Se y = 1 se e somente se η > T , então algum dos coeficientes β será igual a ∞.

DEIO/CEAUL Valeska Andreozzi – slide 132

Outras funções de ligacão


■ Outras funções de ligação, além da função de ligação canônica, pode ser utilizada em dados binomiais, desde
que a nova função mapeie a probabilidade em valores reais e seja uma função injetora, contı́nua e diferenciável.
■ Seja F (·) a função de distribução de uma v.a. definida na reta real, e seja

pi = F (ηi ), −∞ < ηi < ∞

■ Então, podemos utilizar a transformação inversa e

F −1 (pi ) = ηi , para 0 < pi < 1

■ Uma escolha popular para a função de distribuição F está no contexto da distribuição normal

DEIO/CEAUL Valeska Andreozzi – slide 133

64
Variável latente
■ Seja Yi uma v.a. binária com valores 0 ou 1.
■ Suponha uma v.a. não observável contı́nua Yi∗ que toma qualquer valor real e que Yi = 1 se Yi∗ > T
(T =limiar). Denominamos Yi∗ de resposta latente.
0.4
0.3
Density

0.2
0.1
0.0

−4 −2 0 2 4

variável latente

DEIO/CEAUL Valeska Andreozzi – slide 134

Variável latente
■ A interpretação de Yi e Yi∗ depende do contexto. Um economista pode pensar em Yi como sendo a escolha
“comprar” ou “alugar” uma casa e Yi∗ como sendo a diferença na utilidade de comprar ou alugar. Um biólogo
pode imaginar que Yi∗ é a dose de um medicamento e Yi a resposta positiva ou negativa do medicamento.
■ Podemos escrever
pi = P (Yi = 1) = P (Yi∗ > T )
■ Para identificar o modelo assumimos o limiar igual a zero (T = 0) e Yi∗ com distribuição normal padronizada
para ter variância unitária

DEIO/CEAUL Valeska Andreozzi – slide 135

65
Variável latente
■ Suponha que o modelo depende de um vetor de covariáveis:

Yi∗ = x′i β + Ui

e que Ui (erro) tem uma função distribuição F (u).


■ Sob este modelo, a probabilidade pi de se observar uma resposta positiva é

pi = P (Yi∗ > 0) = P (Ui > −ηi ) = 1 − F (−ηi )

com ηi = x′i β. Se a distribuição de Ui for simétrica em zero, temos F (u) = 1 − F (−u), logo

pi = F (ηi )

■ O modelo anterior define um modelo linear generalizado para uma resposta Bernoulli com função de ligação

η = F −1 (pi )

DEIO/CEAUL Valeska Andreozzi – slide 136

Função de ligação probit


■ Uma escolha óbvia seria assumir que Ui ∼ N (0, σ 2 ) e consequentemente,

pi = Φ(ηi )

em que Φ e a função de distribuição da normal.


■ a função inversa ηi = Φ−1 (pi ) é conhecida como probit

DEIO/CEAUL Valeska Andreozzi – slide 137

66
Função de ligação probit
As funções de ligação logit e probit são quase funções lineares uma da outra e por isso os resultados são muito

1.0
0.8
0.6
p (x)

0.4
0.2
logit
0.0

probit

parecidos. Veja o gráfico x

Tão relação resulta em βprobit = βlogit /1.6

DEIO/CEAUL Valeska Andreozzi – slide 138

Função de ligação probit

library(MASS)
data(Aids2)
names(Aids2)
#pi=Pr(status=dead)
summary(logitm<-glm(status~age,family=binomial,data=Aids2))
summary(probitm<-glm(status~age,family=binomial(link=probit),
data=Aids2))
logitm$coeff/1.6
probitm$coeff

DEIO/CEAUL Valeska Andreozzi – slide 139

67
Miscelânias 2 slide 140
Quase-verossimilhança
■ A inferência do modelo linear generalizado, até o momento, tem sido baseado supondo o modelo válido:
 
ω
f (y; θ, φ) = exp (yθ − b(θ)) + c(y, φ)
φ

■ Contudo, nem sempre esse é um modelo realista.


■ Por exemplo: para dados de contagem (Y ), em geral, assume-se uma distribuição de Poisson que implica que
a variância dos dados é igual a média. Ou em outras palavras, no MLG temos que a var(Y ) = φV (µ) = µ,
isto é, o parâmetro de dispersão φ = 1.
■ Uma forma de tratar a um possı́vel sobredispersão nos dados var(Y ) > µ é introduzir um parâmetro de
dispersão φ desconhecido.
■ Para tal, o modelo já não poder ser escrito na forma da famı́lia exponencial e esse passa a ser definido através
do valor médio e da variância.
■ Assim sua estimação não poderá ser mais feita através do método da máxima verossimilhança, pois a função
de distribuição não será especificada.

DEIO/CEAUL Valeska Andreozzi – slide 141

Quase-verossimilhança
■ Para resolver o problema da não especificação da dsitribuição dos MLGs, recorremos ao conceito da
quase-verossimilhança.
■ Considere somente a especificação do valor médio e da variância de Y

E(Y ) = µ e var(Y ) = φV (µ)

■ Considere a variável U definida da seguinte forma:


Y −µ
U = U (µ, Y ) =
φV (µ)

■ Esta variável é tal que:


1 ∂U
E(U ) = 0 e var(U ) = e − E( ) = var(U )
φV (µ) ∂µ

DEIO/CEAUL Valeska Andreozzi – slide 142

68
Quase-verossimilhança
1
■ E(U ) = 0 e var(U ) = φV (µ) e − E( ∂U
∂µ ) = var(U )

■ Desta forma temos a variável U a se comportar como uma função score.


■ Como a função score é a derivada da função de log-verossimilhança, podemos esperar que o integral de U ,
caso exista, se comporte como uma função de log-verossimilhança.

DEIO/CEAUL Valeska Andreozzi – slide 143

Quase-verossimilhança
■ A função de quase-verossimilhança é então definida por
Z µ Z µ
Y −t
Q(µ, y) = u(t, y)dt = dt
y y φV (t)

■ e em caso de n observações de v.a. independentes, definimos:


n
X
Q(µ, y) = Q(µi , yi )
i=1

■ Esta função além de partilhar de muitas propriedades formais que o logaritmo da função de verossimilhança,
pode ser mesmo uma função de log-verossimilhança

DEIO/CEAUL Valeska Andreozzi – slide 144

69
Quase-verossimilhança
■ Prova-se que se existir uma função de log-verossimilhança l tal que
∂l y−µ
=
∂µ φV (µ)
com
E(Y ) = µ e var(Y ) = φV (µ),
então l é uma função de log-verossimilhança da famı́lia exponencial.

DEIO/CEAUL Valeska Andreozzi – slide 145

Quase-verossimilhança
■ Se derivarmos Q(µ, y) em função de βj e igualarmos a zero, obtemos o seguinte sistema de equações:

Xn
yi − µi ∂µi
=0
i=1
V (µi ) ∂βj

Xn
(yi − µi )xij ∂µi
=0
i=1
V (µi ) ∂ηi
■ que não depende de φ
■ Sob condições de regularidades semelhantes às necessárias para os estimadores de máxima verossimilhança,
podemos obter as propriedades assintóticas dos estimadores de quase-verossimilhança βb∗

DEIO/CEAUL Valeska Andreozzi – slide 146

70
Quase-verossimilhança
■ Em particular, tem-se que:
βb∗ ∼N
a
M V (β, (I ∗ )−1 (βb∗ )V (βb∗ )(I ∗ )−1 (βb∗ ))
em que  
∂s∗ (β)
I ∗ (β) = E −
∂β T
V (β) = cov(s∗ (β))
∂Q
e s∗ (β) = ∂β é a função quase-score ou função de estimação generalizada.
■ Com este resultado temos que a mudança essencial em relação aos modelos completamente especificados está
na matriz de covariância de βb∗ .

DEIO/CEAUL Valeska Andreozzi – slide 147

Quase-verossimilhança
■ Conclusão: o método da quase-verossimilhança permite obter estimadores consistentes e assintoticamente
normais para β com apenas uma perda de eficiência.
■ Para que essa perda seja pequena é necessário que a estrutura de variância proposta seja a mais próxima da
verdadeira estrutura de variância dos dados.
DEIO/CEAUL Valeska Andreozzi – slide 148

71
Quase-verossimilhança
Exemplo no R

rio <- read.table("cardioRio.dat", header = T)


rio$redecat <- ifelse(rio$prede > 0.95, 1, 0)
rio.glm <- glm(obt3070 ~ pfave + pesgred + pcaluga +
plixocol + pesc1g + palftot + rndm2sm + rndm15sm +
redecat + offset(log(pop3070)), data = rio,
family = poisson)

rio.glm3 <- step(rio.glm, direction = "both")


summary(rio.glm3)

DEIO/CEAUL Valeska Andreozzi – slide 149

72

Você também pode gostar