Modelo Linear Generalizado: conceitos e aplicações em estatística

Modelo Linear Generalizado
Valeska Andreozzi
2012
Referências 2
Modelagem Estatı́stica 7
Modelagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Objetivos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Construção do modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
MLG 14
Motivações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
O modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Distribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Sumário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Exercı́cio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
Estimação 36
Máxima Verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Solução Analı́tica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Solução Gráfica R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
MMV nos MLG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Método iterativo NR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Método iterativo IWLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Estimação de φ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Teste de Hipotéses 53
Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Teste de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Teste da RV. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
Int. Confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Seleção de modelos 62
Modelo saturado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Modelo nulo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Função desvio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Seleção de Modelos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Dicas de modelagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
Diagnóstico 92
Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Tipos de resı́duos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Variância constante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Inclusão nova variável . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
Relação Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
Pontos Influentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Função de ligação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
1
Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
Adequação do modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
Estatı́stica Hosmer e Lemeshow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
Erro de predição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
AUC - Curvas ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
Cartão de Referência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
Miscelânias 1 130
Modelo binomial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
Miscelânias 2 140
Quase-verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
2
Referências slide 2
Referências
■ Krzanowski, W (1998). An Introduction to Statistical Modelling. Arnold Texts in Statistics.
■ Harrel, F (2001). Regression Modeling Strategies. Springer-Verlag.
■ Dobson , AJ (2001). An introduction to generalized linear models. Chapman & Hall/CRC
■ Kleinbaum DG, Klein M (2002). Logistic Regression - A Self-Learning Text. Second Edition. Springer
■ Hosmer DW, Lemeshow S (1989). Applied Logistic Regression. John Wiley e Sons.
DEIO/CEAUL Valeska Andreozzi – slide 3
Referências
■ Fox, J (1997). Applied Regression Analysis, Linear Models, and Related Methods. Sage
■ Fox, J (2008). Applied Regression Analysis and Generalized Linear Models. Sage. Second Edition
■ McCullagh P, Nelder JA (1989). Generalized linear models. Second Edition. Chapman and Hall
3
Referências
■ Venables WN, Ripley, BD (2002). Moderns Applied Statistics with S. Fourth Edition. Springer
■ Fox, J (2002). An R and S-Plus Companion to Applied Regression. Sage Publications.
■ Faraway, J. Practical Regression and Anova using R
(http://cran.r-project.org/doc/contrib/Faraway-PRA.pdf). Dados e scripts disponı́veis em
http://www.maths.bath.ac.uk/~jjf23/LMR/
■ Hardin J, Hilbe J (2001). Generalized Linear Models and Extensions. Stata Press.
Referências
Material disponı́vel online
■ Amaral Turkman, MA e Silva, G (2000). Modelos Lineares Generalizados - da Teoria à Prática, Edições SPE,
Lisboa
http://docentes.deio.fc.ul.pt/maturkman/mlg.pdf
■ Rodrı́guez, G (16/01/2010). Generalized Linear Models (notes).
http://data.princeton.edu/wws509/notes/
■ Demétrio, CGB (16/01/2010). Modelos Lineares Generalizados em Experimentação Agronômica
http://www.lce.esalq.usp.br/clarice/Apostila.pdf
■ Paula, G (16/01/2010). Modelos de regressão com apoio computacional
http://www.ime.usp.br/~giapaula/livro.pdf
4
Modelagem Estatı́stica slide 7
Modelagem
Modelagem estatı́stica é um processo de descobrimento.
O que é um modelo estatı́stico?
Modelo estatı́stico
=
modelo matemático
(equação que descreve o processo)
+
incerteza
(flutuações devido ao acaso)
Modelagem
■ Modelo é uma versão simplificada de alguns aspectos do mundo real.
■ Podemos dizer que modelo é uma representação em pequena escala de entidades fı́sicas.
■ A construção de modelos implica numa compreensão dos dados
■ Dados disponı́veis que são um subconjunto dos dados que poderiam ser coletados
■ O modelo serve para obter inferências para um grupo maior ou para obter compreensão do mecanismo
(sistema) gerador dos dados observados
■ Os modelos variam de acordo com a acurácia da sua representação.
■ O ponto chave da modelagem está nesta acurácia que varia de acordo com o objetivo da análise.
5
Objetivos de um modelo
Modelo Explicativo ou Descritivo
■ Estudar a associação entre fatores de risco e desfecho (outcome). Exemplos:
◆ Avaliar a magnitude de associação de uma exposição e um desfecho ajustada pelo efeitos de possı́veis fatores
de confundimento ou de interação
◆ Investigar fatores determinantes de uma doença, ie, avaliar o efeito de um determinado fator de risco na
ocorrência de uma doença controlano por fatores de confundimento e considerando possı́veis fatores
modificadores de efeito da associação principal em questão
■ Acurácia do modelo não precisa ser perfeita
Objetivos de um modelo
Modelo Preditivo
■ Modelo em que o objetivo central é fazer predição do desfecho. Exemplos:
◆ Predição de um defecho para ajudar na tomada de decisão de um tratamento
◆ Desenvolvimento de classificação de doença ou estagiamento (elaboração de um score)
◆ Identificação de fatores biológicos que podem ajudar elucidar a patologia da doença

■ Acurácia do modelo é importante
6
Construção de um modelo
Passos envolvidos na construção de um modelo estatı́stico
1. Formulação dos modelos
■ Especificar uma expressão matemática para descrever o comportamento geral de acordo com as crenças do
analista/investigador. Esta expressão também é conhecida como componente sistemático do modelo.
■ Incorporar, na parte sistemática do modelo, uma certa quantidade de flutuações da variável resposta,
denominada componente aleatório do modelo
■ Especificar como combinar os componentes sistemático e aleatório
Construção de um modelo
Passos envolvidos no desenvolvimento de um modelo estatı́stico
2. Inferência dos parâmetros do modelo (estimação e testes de hipóteses)
3. Avaliação dos modelos
■ avaliar premissas dos modelos
■ avaliar o ajuste global do modelo que poderá depender do objetivo do modelo

4. Reformulação (se necessário)
7
Modelo Linear Generalizado slide 14
Motivação 1
■ Objetivo do estudo: avaliar a resposta de uma droga de acordo com a dose
■ Foi realizado um estudo experimental em que foi registrado a dose xi da droga e a resposta a droga yi para
26 ratinhos
■ Variável resposta: Yi = 1 se o rato respondeu a droga e Yi = 0 caso contrário; Covariável: xi (contı́nua)
1.0
0.8
resposta 0 ou 1
0.6
0.4
0.2
0.0
0.0 0.5 1.0 1.5 2.0 2.5
dose
Motivação 1
■ Modelo linear não é apropriado
■ Vamos considerar que para cada dose xi , existe uma probabilidade µi do rato responder a droga (P (Yi = 1)),
logo Yi ∼ Bernoulli(µi ) com E(Yi ) = µi e V ar(Yi ) = µi (1 − µi )
■ Caso especial da Binomial(n, µ) com n = 1
■ Para modelarmos E(Yi ) = µi precisamos utilizar uma função de ligação entre o µi e xi de tal forma que
valores do lado direito da equação possam ser assumidos no lado esquerdo. Uma opção é utilizar a função de
ligação logit:
µi
logit(µi ) = ln = a + bxi
1 − µi
exp(a + bxi ) 1
µi = =
1 + exp(a + bxi ) 1 + e−(a+bxi )
8
Motivação 1
1.0
0.8
resposta 0 ou 1
0.6
0.4
0.2
0.0
0.0 0.5 1.0 1.5 2.0 2.5
dose
Motivação 2
■ Objetivo: estudar a tendência do número de mortes por Aids (yi ) na Austrália a cada três meses de 1983 a 1986 (ti )
40
Número de mortes por Aids
30
20
10
0
0 2 4 6 8 10 12 14
jan−mar 1983 até abr−jun 1986
■ Reta de regressão → parece razoável mais fornece valores esperados negativos para os perı́odos 1 e 2.
9
Motivação 2
■ Modelo alternativo:
Yi ∼ P oi(µi )
E(Yi ) = V ar(Yi ) = µi
ln(µi ) = β0 + β1 ti
40
Número de mortes por Aids
30
20
10
0
0 2 4 6 8 10 12 14
jan−mar 1983 até abr−jun 1986
Modelo Linear Generalizado (MLG)

■ Teoria unificada de modelos lineares para variáveis resposta contı́nua e discreta introduzida por Nelder e
Wedderburn em 1972.
■ Modela o valor esperado da variável resposta
■ É considerado uma extensão do modelo linear clássico. Extensão da distribuição considerada e da função que
relaciona o valor esperado e as covariáveis.
■ Distribuição da variável resposta
◆ Famı́lia exponencial (Normal, Binomial, Bernoulli, Poisson, Exponencial, Gama, Binomial Negativa,
Multinomial)
■ Os MLG são caracterizados pela seguinte estrutura:
1. Componente Aleatório
2. Componente Sistemático (ou estrutural)
10
Componente Aleatório
Famı́lia Exponencial
■ Y é uma variável aleatória (v.a.) com distribuição pertencente à famı́lia exponencial

1
f (y; θ, φ) = exp [yθ − b(θ)] + c(y, φ) (1)
a(φ)
■ θ e φ são parâmetros escalares, a(·), b(·) e c(·) são funções reais conhecidas
■ θ é a forma canônica de localização
■ φ é o parâmetro de dispersão, suposto, em geral, conhecido
■ b(·) é uma função diferenciável.
■ a famı́lia exponencial obedece às condições habituais de reguralidadea
a Sen and Singer, 1993, Large Sample Methods in Statistics. An Introduction with Applications. Chapman and Hall, New York
Famı́lia Exponencial - Valor médio e variância
■ Seja l(θ; φ, y) = ln(f (y|θ, φ)). Define-se a função escore
∂l(θ; φ, y)
S(θ) =
∂θ
■ Para famı́lias regulares, tem-se:
E(S(θ)) = 0
" 2 #
2 ∂l(θ; φ, y) ∂ 2 l(θ; φ, y)
E(S (θ)) = E = −E (2)
∂θ ∂θ2
yθ−b(θ)
■ De (1), tem-se que: l(θ; φ, y) = a(φ) + c(y, φ), logo:
Y − b′ (θ) ∂S(θ) b′′ (θ)

S(θ) = e =− (3)
a(φ) ∂θ a(φ)
11
Famı́lia Exponencial - Valor médio e variância
■ De (2) e (3), tem-se:
E(Y ) = µ = a(φ)E[S(θ)] + b′ (θ) = b′ (θ) (4)

b′′ (θ)
V ar(Y ) = a2 (φ)var(S(θ)) = a2 (φ) = a(φ)b′′ (θ) (5)
a(φ)
■ A variância de Y é o produto de duas funções:

◆ b′′ (θ) que depende somente do parâmetro canônico θ (logo, depende do valor médio µ), a que se denomina
função de variância e representa-se por V (µ)
◆ a(φ) que depende apenas do parâmetro dispersão φ. Em muitas situações a(φ) toma a forma:
φ
a(φ) = (6)
ω
em que ω é uma constante conhecida
Famı́lia Exponencial
■ Assim sendo a famı́lia exponencial fica definida da seguinte forma:

ω
f (y; θ, φ) = exp (yθ − b(θ)) + c(y, φ)
φ
12
Componente Sistemático
■ O valor esperado µi está relacionado com o preditor linear formado pelas covariáveis
ηi = β0 + β1 xi1 + β2 xi2 + · · · + βp xip = xti β i = 1, 2, . . . , n
■ através da relação:
g(µi ) = ηi
⇓
g(µi ) = β0 + β1 xi1 + β2 xi2 + · · · + βp xip
⇓
g(µi ) = xti β
■ em que g é a função de ligação; β é o vetor de parâmetros; xi vetor de covariáveis
Componente Sistemático
■ A escolha da função de ligação g(.) depende do tipo de resposta (Y ) que está sendo analisada
■ Quando o preditor linear coincide com o parâmetro canônico θi = ηi , diz-se que a função de ligação
correspondente é uma função de ligação canônica.
13
Distribuição Normal
■ Y ∼ N (µ, σ 2 )
n 2
o
■ f (y) = √ 1
2πσ 2
exp − (y−µ)
2σ 2
nh i h io
µ2 y2
■ f (y) = exp yµ − 2
1
σ2
− 1
2 σ2
+ ln(2πσ 2 )
n o
1
■ f (y; θ, φ) = exp [yθ − b(θ)] φ
+ c(y, φ)
■ θ=µ
■ φ = σ2
µ2
■ b(θ) = 2
■ b′ (θ) = µ
■ b′′ (θ) = V (µ) = 1
Distribuição Binomial
■ Y ∼ B(m, π)

m
■ f (y) = π y (1 − π)m−y
y
■ Mostre que a distribuição binomial pertence a famı́lia exponencial e que
π
■ θ = ln( 1−π ); π = eθ /(1 + eθ ) = 1/(1 − eθ )
■ φ=1
■ b(θ) = −m ln(1 − π)
■ E(Y ) = b′ (θ) = mπ
■ V ar(Y ) = b′′ (θ) = V (µ) = mπ(1 − π)
14
Sumário: MLG
Independência: Variáveis respostas Yi são observações independentes
Distribuição: Yi possui distribuição da famı́lia exponential com valor esperado µi
Preditor Linear: As covariáveis xi1 , . . . , xip influenciam a variável resposta através de um preditor linear
ηi = β0 + β1 xi1 + β2 xi2 + · · · + βp xip i = 1, 2, . . . , n
Função de Ligação: O valor esperado, µi , e o preditor linear, ηi , estão relacionados por uma função de
ligação g(·) tal que:
g(µi ) = ηi = β0 + β1 xi1 + β2 xi2 + · · · + βp xip
Sumário: MLG
Interpretação: Como o valor esperado de Y (E(Y ) = µ) varia com as covariáveis.
Covariáveis: Discretas, Contı́nuas, e funções de variáveis contı́nuas (exemplo: x2 , log(x)).
Linearidade: preditor linear η é linear nos parâmetros β.
15
Sumário: MLG
■ Para modelar dados através dos MLG, precisamos:
◆ Formular o modelo
escolha da distribuição para a variável resposta;
escolha das covariáveis (codificação, transformação);
escolha da função de ligação;
◆ Ajustar o modelo
estimação dos parâmetros do modelo (coeficientes β e do parâmetro de dispersão φ, caso necessário);
estimação de intervalos de confiança dos parâmetros;
teste de hipótese; seleção de covariáveis;
◆ Diagnosticar o modelo
averiguar premissas do modelo e discrepâncias entre valores observados e preditos;
existência de outliers e observações influentes;
Um modelo útil é capaz de explicar o problema em estudo levando-se em consideração três fatores
adequabilidade, parcimônia e interpretação.
Distribuições e funções de ligação

Normal Binomial
Histogram of rnorm(n = 1000, 4, 1.5) Histogram of rbinom(n = 1000, size = 15, 0.2)
250
250
200
200
150
150
Frequency
Frequency
100
100
50
50
0
−2 0 2 4 6 8 0 2 4 6 8
rnorm(n = 1000, 4, 1.5) rbinom(n = 1000, size = 15, 0.2)
Notação N (µ, σ 2 ) B(m, µ)

Intervalo (−∞, ∞) {0, 1}ou(0, 1)
Dispersão φ σ2 1
Fç. ligação canônica θ = g(µ) identidade = µ logit = ln µ/(1 − µ)
E(Y ) = µ η exp(η)/(1 + exp(η))
V (µ) 1 mµ(1 − µ)
Outras Funções de ligação probit, log, cloglog
16
Distribuições e funções de ligação
Poisson Gama
Histogram of rpois(1000, lambda = 2) Histogram of rgamma(1000, shape = 2, rate = 1)
300
400
250
300
200
Frequency
Frequency
150
200
100
100
50
0
0
0 2 4 6 8 0 2 4 6 8 10 12
rpois(1000, lambda = 2) rgamma(1000, shape = 2, rate = 1)
Notação P oi(µ) G(µ, ν)

Intervalo 0(1)∞ (0, ∞)
Dispersão φ 1 ν −1
Func. ligação canônica θ = g(µ) ln(µ) −1/µ
E(Y ) = µ exp(η) −1/η
V (µ) µ µ2
Outras Funções de ligação ident., sqrt ident., inverso, log
Exercı́cio
Mostre que as funções de densidade de probabilidade abaixo pertencem a famı́lia exponential e encontre θ, φ,
b(θ), b′ (θ), b′′ (θ)
■ Y ∼ P oisson(µ) com
y −µ
f (y) = µ y!e
■ Y ∼ Gama(ν, ν/µ)
ν em queν e ν/µ são parâmetros de forma e escala, respectivamente com
1 ν ν−1 ν
f (y) = Γ(ν) µ y exp − µ y
Das distribuições acima encontre utilizando os resultados do exercı́cio anterior:
■ E(Y )
■ V ar(Y )
17
Exercı́cio
The folowing relationships can be describe by generalized linear models. For each one, identify the response
variable and the explanatory variables, select a probability distribution for the response (justifying your choice)
and write down the linear component.
1. The effect of age, sex, height, mean daily food intake and mean daily energy expenditure on a person´s weight.
2. The proportions of laboratory mice that became infected after exposure to bacteria when five different
exposure levels are used and 20 mice are exposed at each level.
3. The relationship between the number of trips per week to the supermarket for a household and the number of
people in the household, the household income and the distance to the supermarket.
Estimação slide 36
Método da Máxima Verossimilhança (MMV)

■ Consiste em adotar como estimativa do parâmetro populacional o valor que maximize a função de
verossimilhança correspondente ao resultado obtido na amostra
■ Fornece estimadores:
◆ consistentes,
◆ assintoticamente eficientes e
◆ com distribuição assintoticamente normal
18
Máxima Verossimilhança
■ Suponha uma população com parâmetro τ e com função de densidade de probabilidade (fdp) conhecida
(f (X|τ ) em que X são os dados).
■ Podemos gerar uma amostra X dado que conhecemos a fdp
■ Exemplo: Idade das crianças internadas no Hospital São João segue uma distribuição normal com média 13
anos e variância igual a 4.
■ E o mundo real?
Máxima Verossimilhança
■ No mundo real não conhecemos o parâmetro τ da população
■ Temos em mãos uma amostra X da população e queremos fazer inferência sobre o parâmetro populacional
(τ )
■ Objetivo do MMV
◆ Achar uma estimativa para o parâmetro populacional τ que maximize a probabilidade de encontrarmos a
amostra que possuı́mos.
◆ Em outras palavras, para determinar o estimador de máxima verossimilhança do parâmetro τ , basta achar o
valor de τ que maximiza a fdp f (X|τ ) fixando a amostra X (L(τ |X) função de máxima verossimilhança).
19
Exemplo
■ Distribuição normal com variância conhecida.
■ Seja X=(12, 15, 9, 10, 17, 12, 11, 18, 15, 13) uma amostra aleatória das idades das crianças do Hospital São
João que segue uma distribuição normal de média µ e variância conhecida e igual a 4. Qual a estimativa de
máxima verossimilhança da média µ das idades das crianças?
■ O objetivo é fazer um gráfico da função de log-verossimilhança e achar o ponto máximo que será a estimativa
da média µ.
Solução Analı́tica
1. Temos que x1 , . . . , xn é uma amostra aleatória de X ∼ N (µ, 4),
n 2
o
2. a função de densidade (fdp) para cada observação é dada por f (xi ) = √ 1
2πσ 2
exp − (xi2σ
−µ)
2
Q10
3. assumindo que as observações são independentes a função de verossimilhanca é dada por L(µ) = 1 f (xi ),
4. e a log-verossimilhança é dada por
10
X
l(µ) = ln(f (xi ))
1
10 10
!
1 X X
= −5log(8π) − x2i − 2µ xi + 10µ 2
8 1 1
20
Solução Gráfica R
1. Amostra de uma distribuição normal com variância igual a 4
> x <- c(12, 15, 9, 10, 17, 12, 11, 18, 15, 13)
> x
P10 P10
2. e calculamos as quantidades 1 x2i e 1 xi
> sx2 <- sum(x^2)

> sx <- sum(x)
3. Intervalo para os possı́veis valores de µ (sabemos que a média aritmética é um estimativa de µ por isso
criamos valores ao redor de 13 = mean(x))
> mu.vals <- seq(11, 15, l=100)

> mu.vals
Solução Gráfica no R
4. e a seguir calculamos os valores de l(µ) de acordo com a equação anterior
> lmu <- -5 * log(8 * pi) -

(sx2 - 2 * mu.vals * sx + 10 * (mu.vals^2))/8
5. Fazendo o grafico
> plot(mu.vals, lmu, type="l", xlab=expression(mu),

ylab=expression(l(mu)))
21
−26
−27
−28
−29
l(µ)
−30
−31
−32
11 12 13 14 15
6. Obtendo o valor de µ que corresponde ao valor máximo do log da verossimilhança
> mu.vals[lmu==max(lmu)]
[1] 13.18182
7. Comparando com a média amostral
> mean(x)
[1] 13.2
22
Aplicando MMV nos MLG
■ Considere o exemplo número de mortes por Aids (exemplo motivação)
■ Yi ∼ P oi(µi ) e
■ log(µi ) = β0 + β1 ti
■ A contribuição de cada observação para a função de verossimilhança é dada por
µy e−µ
P r(Y = y|µ) =
y!
Aplicando MMV nos MLG

■ O log da função de verossimilhança de (β0 , β1 ) obtida de uma amostra aleatória
Y
l(β0 , β1 |yi ) = ln P r(Y = yi |µi )
i
Y µyi e−µi
i
l(β0 , β1 |yi ) = ln
i
yi !
..
.
X
l(β0 , β1 |yi ) = {yi (β0 + β1 ti ) − exp(β0 + β1 ti ) − log(yi !)}
i
23
Estimativa de Máxima Verossimilhança
■ A estimativa do método da máxima verossimilhança é o valor do parâmetro que maximiza o logarı́tmo (log)
da função de verossimilhança
■ Em casos especiais o log das funções de verossimilhança podem ser resolvidos algebricamente
■ Em outros casos é necessário estimar o parâmetro através da maximização numérica, por exemplo através do
método de Newton-Raphson
Método de Newton-Raphson
■ Seja l(β0 , β1 |yi ) = l(β)
■ Para calcular os valores β que maximize a função de verossimilhança temos que derivar e igualar a zero
∂l(β)
= l′ (β) = 0
∂βk
■ Para resolvermos a equação numericamente fazemos uma expansão de Taylor
l′ (β (0) ) + (β − β (0) )l′′ (β (0) ) ≈ 0
■ Reescrevendo, temos:
l′ (β (0) )
β = β (0) −
l′′ (β (0) )
24
Método Iterativo
Passo1: Inı́cio: assume qualquer valor inicial para βb(0)
Passo2: Iteração 1: βb(1) = βb(0) + ǫ
Passo3: Iteração k: βb(k) = βb(k−1) + ǫ
Passo4: Volta para o passo 3 até que ǫ seja menor que uma tolerância desejável
′
■ ǫ = − ll′′(β)
(β)
■ No R é utilizado o método iterativo dos mı́nimos quadrados ponderados, que é baseado no método de
Newton-Raphson
■ Critério de parada no R: ǫ = 10−8
■ Caso ǫ não atinja este valor dizemos que o processo não convergiu
Método iterativo dos mı́nimos quadrados ponderados

Método iterativo do mı́nimos quadrados ponderados é baseado no método dos scores de Fisher, que procede
com o cálculo das sucessivas iteradas através da relação
βb(k+1) = βb(k) + I(βb(k) )−1 s(βb(k) )
em que:
h 2 i
∂ l(β)
■ I(.)−1 é a inversa (que se supõe existir) da matriz de informação de Fisher (I(β) = E − ∂β∂β T )
■ s(β) = ∂l(β)
∂β o vetor de scores
A diferença existente entre este algoritmo e o de Newton-Raphson para resolver sistemas de equações não
∂ 2 l(β)
lineares, reside na utilização da matriz de informação de Fisher em vez da matriz Hessiana (H(β) = ∂β∂β T ). A
vantagem desta substituição deve-se ao facto de, em geral, ser mais fácil calcular a matriz de informação I,
para além de ser sempre uma matriz semi-definida positiva.
25
Estimação do parâmetro de dispersão
O parâmetro de dispersão apesar de poder ser estimado pelo MMV, pode também ser estimado por um método
mais simples. Tal método baseia-se na distribuição de amostragem, para grandes valores de n, da estatı́stica de
Person generalizada:
n
1 X ωi (yi − µi )2
φb =
n − p i=1 V (b
µ)
Teste de Hipotéses slide 53
Introdução
Nesta seção serão apresentados testes de hipóteses sobre o vetor de parâmetro β. Basicamente, dois tipos de
hipóteses serão testados
■ Hipótese da nulidade de um componente do vetor de parâmetro
H0 : β j = 0 versus H1 = βj 6= 0
para algum j.
■ Hipótese da nulidade de um subvetor do vetor de parâmetro
H0 : β r = 0 versus H1 = βr 6= 0
para algum subvetor de r componentes de β. Esta hipótese corresponde a testar submodelos do modelo
original, que será apresentado na seção seguinte.
26
Teste de Wald
■ Através da MMV temos que: βb∼N
a
M V (β, V )
V = I(β)−1
√
EP (βbk ) = V kk
■ WALD: Testa H0 : βk = 0 através da estatı́stica t
c
β
■ t= k
bk )
EP (β
■ Sob a H0 , t segue assintoticamente um distribuição normal com média zero e variância igual a 1
Exemplo: Fatores de risco do peso ao nascer

> birth <- read.table("bw.dat", header = T)
> birth$weight<-birth$weight/1000
> head(birth)
weight age sex
1 2.968 40 M
2 2.795 38 M
3 3.163 40 M
4 2.925 35 M
5 2.625 36 M
6 2.847 37 M
> tail(birth)
weight age sex
19 3.126 40 F
20 2.539 37 F
21 2.412 36 F
22 2.991 38 F
23 2.875 39 F
24 3.231 40 F
27
Teste de Wald
> summary(glm(weight~age+ sex, data = birth))
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.77332 0.79459 -2.232 0.0367 *
age 0.12089 0.02046 5.908 7.28e-06 ***
sexM 0.16304 0.07281 2.239 0.0361 *
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Teste da razão de verossimilhanças

■ O teste da RV é definido por
Lp
RV = −2 × ln
Lq
em que
■ Lp estimativa de máxima verossimilhança do modelo com p parâmetros
■ Lq estimativa de máxima verossimilhança do modelo com q < p parâmetros
28
Teste da razão de verossimilhanças
■ Sob a hipótese nula de que os parâmetros adicionais p − q são iguais a zero, a estatı́stica RV tem uma
distribuição assintótica de um χ2 sendo p − q o número de graus de liberdade
a 2
RV = −2(lp − lq )∼χ p−q
l = logaritmo da máxima verossimilhança do modelo

■ De acordo com o teste da RV, a hipótese nula é rejeitada a favor da H1 : pelo menos um parâmetro é diferente
de zero, a um nı́vel de significância α, se o valor observado da estatı́stica RV for superior ao quantil de
probabilidade 1 − α de um χ2p−q
■ O teste da RV é utilizado na comparação de modelos encaixados (modelos em que um é subconjunto do outro)
′
Intervalo de confiança para β s
■ Temos que βb∼N
a
M V (β, I(β)−1 )
■ Intervalo de Confiança de (1 − α)%
[βbk − z1−α/2 × EP (βbk ) ; βbk + z1−α/2 × EP (βbk )]
29
Exemplo
> bw.glm<-glm(weight~age+ sex, data = birth)
> bw.sum<-summary(bw.glm)
> bw.glm$coeff
(Intercept) age sexM
-1.7733218 0.1208943 0.1630393
> sqrt(diag(bw.sum$cov.scaled))
0.79458608 0.02046295 0.07280821
> bw.glm$coeff - qnorm(1-(.05/2))*sqrt(diag(bw.sum$cov.scaled))
-3.33071055 0.08078694 0.02033521
> bw.glm$coeff + qnorm(1-(.05/2))*sqrt(diag(bw.sum$cov.scaled))
-0.2159331 0.1610017 0.3057434
#forma simples de encontrar IC para os par^

ametros betas
> confint(bw.glm)
Seleção de modelos slide 62
Modelo saturado
■ Para um MLG com n observações, o número máximo de parâmetros é igual a n, isto é, um parâmetro para
cada observação de tal forma que o modelo se ajusta perfeitamente aos dados.
■ Não oferece qualquer simplificação e, como tal, não tem interesse na interpetação do problema, já que não faz
sobressair caracterı́sticas importantes transmitidas pelos dados.
■ O modelo saturado fornece o maior valor que a função de verossimilhança pode atingir.
■ Toda a variação do modelo saturado é atribuı́da ao componente sistemático.
30
Modelo saturado
> summary(glm(weight~factor(1:nrow(birth)), data = birth))
Deviance Residuals:
[1] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

(Intercept) 2.968 NA NA NA
factor(1:nrow(birth))2 -0.173 NA NA NA
factor(1:nrow(birth))3 0.195 NA NA NA
...
(Dispersion parameter for gaussian family taken to be NaN)
Null deviance: 1.8299e+00 on 23 degrees of freedom

Residual deviance: 1.8144e-29 on 0 degrees of freedom
AIC: -1546.5
Modelo nulo
■ Modelo nulo é um modelo que possui um único parâmetro.
■ Todas as observações tem um parâmetro em comum e igual a
E(Yi ) = µ = y
■ É um modelo de estrutura muito simples, que raramente captura a estrutura inerente aos dados.
■ Toda a variação do modelo nulo é atribuı́da ao componente aleatório.
31
Modelo nulo
> summary(glm(weight~1, data = birth))
Deviance Residuals:
Min 1Q Median 3Q Max
-0.55567 -0.18292 -0.01617 0.21683 0.50533
Coefficients:
(Intercept) 2.96767 0.05758 51.54 <2e-16 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
(Dispersion parameter for gaussian family taken to be 0.07955971)
Null deviance: 1.8299 on 23 degrees of freedom

Residual deviance: 1.8299 on 23 degrees of freedom
AIC: 10.338
Função desvio (Deviance)

■ Função desvio D (residual deviance)
D = 2φ {ls − lm }
■ ls = log verossimilhança do modelo saturado (valor máximo)
■ lm = log verossimilhança do modelo em questão
■ D é uma distância entre a log verossimilhança do modelo saturado e a log verossimilhança do modelo em
questão
■ Quanto mais próximo o MLG estimado, µ̂, estiver dos dados observados, y, menor será o valor da função
desvio D
■ Como ls é o maior valor da log verossimilhança temos que lm será sempre menor e consequentemente D é
sempre positiva
32
Função desvio
Representação gráfica da função desvio
■ D/φ = 2 {ls − lm } → Scaled Deviance

Pn
■ Função desvio D é análoga a Soma dos Quadrados dos Erros (SQE = i=1 (yi − µ̂i )2 ) do modelo de
regressão linear
■ No caso de Y ∼ N ormal temos que D é igual a SQE
Função desvio
Função desvio de um modelo de Poisson
■ Seja a variável resposta Y1 , . . . , Yn independentes e Yi ∼ P oisson(λi ) com função de log-verossimilhança
X X X
l(β, y) = yi ln λi − λi − lnyi !
■ Para o modelo saturado temos as estimativas de máxima verossimilhança para λbi = yi , logo o valor máximo
da função de log-verossimilhança é
X X X
ls (β, y) = yi ln yi − yi − lnyi !
33
Função desvio
Função desvio de um modelo de Poisson
■ Para um modelo com p < n parâmetros podemos utilizar as estimativas de máxima verossimilhança dos
parâmetros do modelo (β) para calcular λ bi e consequentemente os valores ajustados ybi = λ
bi . Logo a função
de log- verossimilhança fica assim definida
X X X
lm (β, y) = yi ln ybi − ybi − lnyi !
■ E a função desvio tem a seguinte expressão:

nX X o
D = 2 {ls − lm } = 2 yi ln yi /b
yi − (yi − ybi )
Exercı́cio
Escreva a função desvio para um modelo binomial. (Y1 , . . . , Yn independentes e Yi ∼ binomial(mi , πi ))
34
> attach(birth)
> plot(age,weight,pch=19,col="blue")
> points(age[sex=="F"],weight[sex=="F"],pch=19,col=2)
3.4
3.2
3.0
weight
2.8
2.6
2.4
35 36 37 38 39 40 41 42
age

> summary(glm(weight~age+sex, data = birth))
Deviance Residuals:
-0.25749 -0.12528 -0.05844 0.16900 0.30398
Coefficients:
(Intercept) -1.77332 0.79459 -2.232 0.0367 *
age 0.12089 0.02046 5.908 7.28e-06 ***
sexM 0.16304 0.07281 2.239 0.0361 *
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
(Dispersion parameter for gaussian family taken to be 0.03137004)

AIC: -10.181
Number of Fisher Scoring iterations: 2
35
Comparando com modelo linear
■ Função desvio = SQE
> summary(lm(weight~age+sex, data = birth))
(Intercept) -1.77332 0.79459 -2.232 0.0367 *
age 0.12089 0.02046 5.908 7.28e-06 ***
sexM 0.16304 0.07281 2.239 0.0361 *
Residual standard error: 0.1771 on 21 degrees of freedom
Multiple R-squared: 0.64, Adjusted R-squared: 0.6057
F-statistic: 18.67 on 2 and 21 DF, p-value: 2.194e-05
> anova(lm(weight~age+sex, data = birth))
Analysis of Variance Table
Response: weight
Df Sum Sq Mean Sq F value Pr(>F)
age 1 1.01380 1.01380 32.3174 1.213e-05 ***
sex 1 0.15730 0.15730 5.0145 0.03609 *
Residuals 21 0.65877 0.03137

Escreva a equação do modelo
> plot(age,weight,pch=19,col="blue")
> points(age[sex=="F"],weight[sex=="F"],pch=19,col=2)
> fx<-function(x){-1773.32+120.89*x}
> curve(fx,35,42,add=T,col=2)
> fx<-function(x){-1773.32+163.04+120.89*x}
> curve(fx,35,42,add=T,col="blue")
3.4
3.2
3.0
weight
2.8
2.6
2.4
35 36 37 38 39 40 41 42
age
36
Outro exemplo: Estudo experimental
> mice<-read.table("mice.dat",header=T)
> dim(mice)
[1] 26 2
> mice
dose response
1 0.0 0
2 0.1 0
3 0.2 0
4 0.3 0
5 0.4 0
6 0.5 1
7 0.6 0
8 0.7 0
...
Outro exemplo: Estudo experimental

> summary(glm(response~dose, data = mice, family=binomial))
Call: glm(formula=response~dose, family=binomial, data=mice)
Deviance Residuals:
-1.5766 -0.4757 0.1376 0.4129 2.1975
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -4.111 1.638 -2.510 0.0121 *
dose 3.581 1.316 2.722 0.0065 **
(Dispersion parameter for binomial family taken to be 1)

AIC: 21.639
Number of Fisher Scoring iterations: 6
37
Análise de deviance
Notação
■ Mq → Modelo com pq parâmetros
■ Mm → Modelo com pm parâmetros

■ Mm ⊂ Mq →, isto é, o modelo Mm é um subconjunto do modelo Mq , em outras palavras, o modelo Mq
contém todas as covariáveis do modelo Mm =⇒ modelos encaixados
■ Dq → função desvio do modelo Mq
■ Dm → função desvio do modelo Mm
■ Sob a H0 de que o modelo mais simples Mm é melhor, temos o resultado assintótico
a 2
(Dm − Dq )/φ∼χ pq −pm
■ Este resultado é exato quando Y ∼ Normal com σ 2 conhecido

■ Diferença entre função desvio equivale ao Teste da Razão
de
L
Verossimilhança(Dm − Dq )/φ = 2(lq − lm ) = 2 ln Lmq
38
■ Para modelos normais em que não conhecemos σ 2 usamos o teste F ao invés do teste χ2
■ Sob a H0 de que o modelo simples Mm é melhor, temos o resultado exato
(Dm − Dq )/pq − pm
∼ Fpq −pm ,n−pq
Dq /(n − pq )
Comparando modelos encaixados

1. Y ∼ Normal com σ 2 desconhecido
(Dm −Dq )/pq −pm
■ Teste F: Dq /(n−pq ) ∼ Fpq −pm ,n−pq
■ No R
> anova(Mm,Mq, test = "F")
2. Caso contrário
■ Teste χ2 : (Dm − Dq )/φ∼χ2pq −pm
a
■ No R
> anova(Mm,Mq, test = "Chisq")
39
Exemplo
> mice.reg1<-glm(response~1, data = mice, family=binomial)
> mice.reg2<-glm(response~dose, data = mice, family=binomial)
> anova(mice.reg1,mice.reg2,test = "Chisq")
Analysis of Deviance Table
Model 1: response ~ 1
Model 2: response ~ dose
Resid. Df Resid. Dev Df Deviance P(>|Chi|)
1 25 35.890
2 24 17.639 1 18.250 1.937e-05
Comparando modelos não encaixados

■ Critério de Akaike - AIC (Akaike Information Criteria)
◆ Penaliza o log da verossimilhança pelo número de parâmetros do modelo
AIC = −2l(β) + 2p
◆ l: logaritmo da função de verossimilhança do modelo e

◆ p: número de parâmetros do modelo
◆ Quanto menor o AIC melhor o modelo

◆ No R: extractAIC(modelo)
40
Exemplo
> mice.reg1<-glm(response~1, data = mice, family=binomial)
> mice.reg2<-glm(response~dose, data = mice, family=binomial)
> extractAIC(mice.reg1)
[1] 1.00000 37.88966
> extractAIC(mice.reg2)
[1] 2.00000 21.63922
Seleção sequencial de variáveis

■ Procedimentos
■ Forward: modelos são sistematicamente construı́dos através da adição de variáveis uma a uma no modelo
nulo.
■ Backward: modelos são sistematicamente reduzidos através da exclusão de variáveis uma a uma do modelo
completo.
■ Stepwise: é uma combinação dos dois procedimentos anteriores
■ Para qualquer dos procedimentos, a decisão crucial está na escolha da regra de paragem.
■ Algumas escolhas são Akaike Information Criteria, o qual não possui nenhuma distribuição associada para
proceder um teste formal, ou a Análise de deviance, em que o nı́vel de significância para adicionar ou excluir a
uma variável deve ser escolhido.
Antes de adotar um critério de seleção de modelos (ou variáveis), defina claramente o objetivo do modelo
■ Modelo Preditivo - Ex.: Prever a pressão arterial dado o valor da idade e do sexo
■ Modelo Explicativo - Ex.: quantificar a associação entre pressão arterial e variáveis sócio-econômicas (idade e
sexo).
Sempre que possı́vel descreva um modelo teórico da associação entre o desfecho e as covariáveis.
41
Modelo Teórico
Exemplo de seleção de modelo
Artigo: Fuchs, Victora e Fachel

(1996). Modelo Hierarquizado:
uma proposta de modelagem
aplicada à investigação de fato-
res de risco para diarréia grave.
Revista de Saúde Pública, 30(2):
168-78.
Clique para obter PDF online
Peso ao nascer: birth.dat

1. bwt - peso ao nascer
2. low - peso categorizado em 0 - normal, 1 < 2500g
3. age - idade da mãe
4. lwt - peso da mãe em libras na última regra
5. race - raça da mãe: 1 - branco, 2 - negro, 3 - outros
6. smoke - hábito de fumar 0 - não, 1 - sim
7. ptl - número de prematuros em gestações anteriores
8. ht - indicador de hipertensão: Existe e NE (não existe)
9. ftv - número de consultas de pré-natal
42
Exemplo no R
bw <- read.table("birth.dat", header = T)
head(bw)
names(bw)
bw$ht <- relevel(bw$ht, "NE")
bw$race <- factor(bw$race,labels=c("Bco", "Ngo", "Out"))
bw$smoke <- factor(bw$smoke)
bw$bwt <- bw$bwt/1000
summary(bw)
bw.mod1 <- glm(bwt ~ age+lwt+race+smoke+ht+ftv, data = bw)
summary(bw.mod1)
anova(bw.mod1,test="F")
mod.both<-step(bw.mod1,direction="both")
mod.both
mod.back<-step(bw.mod1,direction="backward")
mod.back
bw.nulo <- glm(bwt ~ 1, data = bw)
mod.forw<-step(bw.nulo,scope=list(upper=~age+lwt+race+smoke+ht+ftv),
direction="forward")
mod.forw
mod.back
mod.both
Dicas de modelagem
Covariável contı́nua ou discreta
■ Quando usar a covariável contı́nua ou quando categorizar?
■ A diferença fundamental está na premissa de linearidade.

■ Se esta premissa estiver ok, utilize a covariável contı́nua, mas caso isso não ocorre, terı́amos que usar
tranformações da covariável (ex.: termos polinomiais) dificultando a interpretação do modelo.
■ Alternativa é categorizar a variável permitindo que a variável resposta varie arbitrariamente de uma categoria
para outra.
■ Vantagem de categorizar a covariável: fácil interpretação
■ Desvantagem: ao agrupar a covariável não estamos fazendo o uso de toda a informação dos dados.
43
Dicas de modelagem
Modelos mais complicados
■ Inclusão de termos polinomiais, transformação de covariáveis para capturar a não-linearidade.
■ No caso de termos polinomiais temos que ter cuidado para não introduzir covariáveis altamente
correlacionadas (multicolinearidade)
■ Inclusão de termos de interação: o efeito de uma covariável depende do valor da outra covariável
■ Para avaliar se termos mais complicados nos modelos são realmente necessários, verifique se sua inclusão
reduz significativamente o deviance.
Dicas de modelagem
■ Não são regras e por isso podem ser violadas
1. Se existe uma interação A : B no modelo entre duas covariáveis A e B devemos evitar retirar o efeito
principal das variáveis
2. Se temos um conhecimento prévio de que uma covariável afeta uma variável resposta, podemos mantê-la no
modelo mesmo que a análise de desvio indique que ela não é importante
44
Diagnóstico slide 92
Introdução
Não se deve esquecer que um modelo é apenas uma aproximação da realidade.
Todos os modelos envolvem várias premissas em relação aos dados.
Contudo, na maioria das vezes apenas uma porção dos dados se mostra consoante as premissas do modelo.
Logo, torna-se essencial avaliar se as premissas dos modelos ajustados foram respeitadas para garantir a
interpretabilidade do modelo.
Introdução
Tópicos a serem verificados na etapa de diagnóstico do modelo
■ Verificar se o modelo se ajusta aos dados
■ Premissas do modelo
■ Procurar pontos outliers
■ Procurar pontos influentes
■ Necessidade de inclusão de covariáveis
■ Escolha correta da função de ligação
■ Escolha da escala das covariáveis
45
Valores ajustados e resı́duos
■ No caso dos MLG os resı́duos ordinários ri = yi − µ
bi apresentam diferentes variabilidades
■ Logo torna-se necessário padronizar os resı́duos ordinários pelo erro padrão de yi .
■ Em geral, o erro padrão de ri é uma função dos parâmetros do modelo estimado por V (b
µi )
■ Temos também que levar em consideração os efeitos das covariáveis nos resı́duos através da matriz hat.
■ Cálculos relativamente simples, mas morosos, permitem estabelecer que, assintoticamente:
Valores ajustados e resı́duos
V ar(ri ) = V ar(Yi )(1 − hii )

V ar(ri ) = φV (b
µi )(1 − hii )
■ b = Hy).
hii são os valores da diagonal da matriz hat (µ
■ hii são uma medida de influência exercida por yi no cálculo de µbi
■ Este resultado mostra que os resı́duos podem ter variâncias diferentes, mesmo que a variância da variável
resposta seja constante, porque a precisão dos resı́duos depende do padrão das covariáveis.
■ Conclusão: devemos utilizar resı́duos padronizados
46
Resı́duo de Pearson
■ Resı́duo de Pearson
p
◆ ri = qyi −b µi
= √ybi −bµi
d i)
V ar(Y φV (c
µi )
> res <- residuals(fit, type = "pearson")
■ Resı́duo de Pearson padronizado

p′ yi −bµi
◆ ri = √
b (c
φV µi )(1−hii )
> res <- rstandard(fit, type="pearson")
rip corresponde à contribuição de cada observação para o cálculo da estatı́stica de Pearson generalizada. A
desvantagem do resı́duo de Pearson é que sua distribuição é geralmente assimétrica para modelos não normais.
Resı́duo de Pearson
Resı́duo de Pearson Padronizado
■ Modelo Normal
yi − µ
bi
rip′ = q
b − hii )
φ(1
■ Modelo Poisson
yi − µ
bi
rip′ = p
µ
bi (1 − hii )
■ Modelo Binomial
yi − µ
bi
rip′ = p
µ
bi (1 − µ
bi )(1 − hii )
47
Resı́duo Deviance
■ Resı́duo Deviance
√
◆ rid = sinal(yi − µbi ) di
di = contribuição da i-ésima observação para a função desvio
> res <- residuals(fit, type = "deviance")
■ Resı́duo Deviance Padronizado

rD
◆ rid′ = √
b
φ(1−h ii )
> res <- rstandard(fit, type="deviance")
Resı́duos
■ Resı́duos de Pearson e Deviance devem ser aproximadamente Normais(0,1) para dados que seguem uma
distribuição Normal, de Poisson e Binomial com grandes contagens.
◆ 95% dos resı́duos devem estar entre −2 e 2
■ Para dados Bernoulli e Binomial com pequenas contagens não podemos esperar que os resı́duos de Pearson e
Deviance possuam uma distribuição Normal padronizada, em geral a distribuição é assimétrica. Contudo
◆ a maioria dos resı́duos devem estar entre −2 e 2
◆ e sua variância deve ser unitária
48
Variância constante
Para avaliar evidência de variância não constante utilizamos o seguinte gráfico
■ Gráficos dos resı́duos padronizados vs preditores lineares η ou vs função dos valores ajustados µ
b ou vs ı́ndice
◆ Devemos encontrar um padrão nulo,
◆ Os resı́duos devem estar distribuı́dos em torno do zero com amplitude constante para diferentes valores de µ
b
■ Transformações sugeridas por McCullagh e Nelder
◆ µ
b para o modelo normal
p
◆ 2 µ b para o modelo de Poisson
p
◆ 2sin−1 µ b para o modelo binomial
◆ 2ln(b
µ) para o modelo gamma
bw <- read.table("birth.dat", header = T)
bw$ht <- relevel(bw$ht, "NE")
bw$race <- factor(bw$race,labels=c("Bco", "Ngo", "Out"))
bw$smoke <- factor(bw$smoke)
bw.mod2<-glm(formula = bwt ~ lwt + race + smoke + ht, data = bw)
res<-rstandard(bw.mod2,type="deviance")
plot(bw.mod2$fitted.values,res,xlab="valores ajustados",
ylab="resı́duos deviance padronizados")
lines(lowess(bw.mod2$fitted.values,res),col="red")
abline(h=0,lty=2)
49
2
resíduos deviance padronizados
1
0
−1
−2
−3
2500 3000 3500
valores ajustados
Inclusão de nova variável

Para avaliar a inclusão de uma nova variável no modelo utilizamos:
■ Gráficos dos resı́duos do modelo vs a nova covariável não incluı́da no modelo
■ Não existe evidência de associação da variável resposta e a nova variável caso um padrão nulo seja encontrado
plot(bw$age,res,xlab="age",ylab="resı́duos deviance padronizados")
lines(lowess(bw$age,res))
abline(h=0,lty=2)
50
Inclusão de nova variável
2
1
0
−1
−2
−3
15 20 25 30 35 40 45
age
Relação linear das covariáveis

Para avaliar se a relação da covariável é linear
■ Gráficos dos resı́duos vs covariáveis incluı́das no modelo + função de alisamento
plot(bw$lwt,res,xlab="lwt",ylab="resı́duos deviance padronizados")
lines(lowess(bw$lwt,res))
abline(h=0,lty=2)
51
2
1
0
−1
−2
−3
100 150 200 250
lwt

Estamos interessados em avaliar a relação linear parcial da variável resposta Y com a covariável xj (“controlando” pelas outras
covariáveis presentes no modelo) e não na relação marginal (ignorando as outras covariáveis).
Neste caso outro gráfico útil na avaliação da relação linear da covariável é Component-plus-residuals plot também conhecido como
partial-residuals plot
(j)
■ O gráfico é composto pelo resı́duo parcial da covariável xj dado por ri = ri + Bj xij versus a própria covariável xj .
(ri = yi − µi )
(j)
■ O resı́duo parcial ri é definido através da adição do termo linear da relação entre Y e xj aos resı́duos do modelo (ri ), que
podem conter um componente não linear
■ Espera-se encontrar uma relação linear entre r (j) e xj .
■ Geralmente a não linearidade é aparente, e por isso é aconselhado incluir um função de alisamento no gráfico
library(car)
bw.mod2<-glm(formula = bwt ~ lwt + race + smoke + ht, data = bw)
crPlots(bw.mod2,terms=~lwt)
crPlots(bw.mod2)
#vers~
oes antigas do R: cr.plots
52
Component+Residual Plot
1000
Component+Residual(bwt)
0
−1000
−2000
100 150 200 250
lwt
Relação não-linear das covariáveis

Quando a relação entre a variável resposta e a covariável contı́nua é não linear o que devemos fazer?
■ Categorizar a covariável, caso a não-linearidade seja caracterizada por uma função segmentada.
■ Adicionar termos polinomiais. Podemos incluir termos quadráticos da covariável em questão, ou seja Xj2 , mas
nem sempre a não-linearidade é de natureza parabólica.
■ A adição de termos polinominais pode ser uma solução, contudo apresentam algumas propriedades não
desejáveis (presença de picos e depressões; problemas em modelar dados com threshold)
■ Utilizar transformações Box-Cox. Problemas: perda de interpretação da covariável
■ Uma outra alternativa é incluir termos não lineares através de funções de alisamento (paramétricos ou não
paramétricos). Desta forma são caracterizados os modelos aditivos generalizados.
53
Pontos influentes - Leverage
P
■ b = X βb = HY ⇒ µ
µ bi = H ii yi + j6=i H ih yi
■ H matriz hat
■ hii → Leverage de uma observação yi
■ hii mede a influência de y em µ
b
■ quanto maior hii , maior é o peso de yi no valor ajustado
Pn
■ i=1 hii = p, onde n = número de observações e p = número de parâmetros do modelo.
■ Rule of thumb → hii é considerado grande se for maior que duas ou três vezes p/n. Logo podemos investigar
valores maiores de hi /(p/n) maiores que 2 como sendo possı́veis pontos influentes.
■ Caso os resı́duos desses pontos identificados como influentes não sejam grandes, não precisamos nos
preocupar.
Exemplos
h<-hatvalues(bw.mod2)
p <- dim(model.matrix(bw.mod2))[[2]] #num de parametros
n <- dim(model.matrix(bw.mod2))[[1]] #num de observaç~
oes
plot(h/(p/n), ylab = "Leverage h/(p/n)", xlab = "Índice",
cex.lab = 1.5, pch = 19)
abline(h=2, lty = 2)
5
4
Leverage h/(p/n)
3
2
1
0 50 100 150
Índice
54
Pontos influentes: Cooks Distance
rip′ hii
■ Informação conjunta do Leverage e Resı́duo CDi ≡ p × 1−hii
res <- rstandard(bw.mod2, type="deviance")
plot(h,res)
abline(h=c(-2,2),lty=2)
abline(v=c(2,3)*mean(h),lty=2)
library(car)
plot(cooks.distance(bw.mod2))
#vers~
oes antigas do R: cookd() ao invés de cooks.distance()
0.07
2
0.06
0.05
1
Cooks Distance
0.04
0
res
0.03
−1
0.02
−2
0.01
−3
0.00
0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0 50 100 150
h Índice
Função de ligação
■ Um método para verificar se a função de ligação escolhida é adequada consite em simplesmente adicionar η 2
(preditor linear) como covariável extra no modelo e examinar a mudança ocorrida na deviance, isto é, fazer o
teste da razão de verossimilhanças. Se o teste da razão de verosimillhanças for significativo podemos dizer que
há evidência de que a função de ligação não é adequada.
■ Observação importante:
A adequação da função de ligação pode ser afetada pela falha em estabelecer escalas corretas para as
variáveis explanatórias no preditor linear. Em particular, se o teste formal construı́do pela adição de η 2 indica
desvio do modelo, isto pode indicar função de ligação errada ou escalas erradas para as variáveis explanatórias
ou ambas. Pontos atı́picos, também, podem afetar a escolha da função de ligação.
■ No source("glmfunc.r") foi construı́do a função goodlink() para testar a adequação da função de ligação
55
Exemplo - Doença Coronariana
Investigar fatores de risco para doença coronarina (609 homens). As variáveis estão definidas da seguinte forma:
id identificação do paciente
chd indica a presença (1) ou ausência (0) de doença coronariana
cat indica nı́vel alto (1) ou normal (0) de catecholamine
age idade em anos
chl nı́vel de colesterol
smk indica se o indivı́duo já fumou alguma vez (1) ou nunca (0)
ecg indica a presença (1) ou ausência (0) de anormalidade no eletrocardiograma
dbp pressão sangüı́nia diastólica
sbp pressão sangüı́nia sistólica
htp indica a presença (1) ou ausência (0) de pressão alta (pressão diastólica > 160 ou sistólica ≤ 65
Doença Coronariana
dcor <- read.table("evans.dat", header = T)
dcor$chd <- factor(dcor$chd)
dcor[1:10,]
id chd cat age chl smk ecg dbp sbp htp
1 21 0 0 56 270 0 0 80 138 0
2 31 0 0 43 159 1 0 74 128 0
3 51 1 1 56 201 1 1 112 164 1
4 71 0 1 64 179 1 0 100 200 1
5 74 0 0 49 243 1 0 82 145 0
6 91 0 0 46 252 1 0 88 142 0
7 111 1 0 52 179 1 1 80 128 0
8 131 0 0 63 217 0 0 92 135 0
9 141 0 0 42 176 1 0 76 114 0
10 191 0 0 55 250 0 1 114 182 1
56
dcor.glm2 <- glm(chd~age+smk+cat:chl+cat:htp, family=binomial,
data=dcor)
summary(dcor.glm2)
Deviance Residuals:
-1.4762 -0.4694 -0.4175 -0.3240 2.5216
Coefficients:
(Intercept) -4.522945 0.893345 -5.063 4.13e-07 ***
age 0.030806 0.015480 1.990 0.04659 *
smk 0.709447 0.303983 2.334 0.01960 *
cat:chl 0.011011 0.002185 5.038 4.69e-07 ***
cat:htp -1.538900 0.503283 -3.058 0.00223 **

AIC: 403.67
Identificar valores outliers
dcor.res<-rstandard(dcor.glm2,type="deviance")
plot(dcor.res,ylab="Resı́duo deviance padronizado",xlab="ı́ndice")
abline(h=0)
y<-as.numeric(dcor.glm2$y)
fit<-dcor.glm2$fitted.values
residuo<-round(data.frame(y=y,fit=fit,resordinario=y-fit,
resdev=dcor.res),2)
residuo[1:10,]
y fit resordinario resdev

2
1 0 0.06 -0.06 -0.34

2 0 0.08 -0.08 -0.40
Resíduo deviance padronizado
3 1 0.20 0.80 1.82

1
4 0 0.20 -0.20 -0.67

5 0 0.09 -0.09 -0.44
6 0 0.08 -0.08 -0.42
0
7 1 0.10 0.90 2.16

8 0 0.07 -0.07 -0.38
9 0 0.07 -0.07 -0.39
−1
10 0 0.06 -0.06 -0.34

0 100 200 300 400 500 600
índice
57
Adequação do modelo
■ Função Desvio é uma medida de quanto o modelo se aproxima dos dados observados
■ H0 : Modelo se ajusta aos dados (= modelo é adequado)
D/φ ∼ χ2n−p
■ Teste útil para dados de Poisson e Binomial com grandes contagens

■ Para dados normais a distribuição é exata
■ O teste não serve para dados Bernoulli (podemos usar o função desvio para ter uma idéia de quão bom é o
modelo, mas não podemos fazer o teste) → Alternativa: Teste do Hosmer e Lemeshow e Erro de predição
Mostre como encontrar as expressões das funções desvio listadas abaixo:
Pn 2
■ Normal: i (yi − µ̂i )
Pn Pn
■ Poisson: 2 [ i yi ln(yi /µ̂i ) − i (yi − µ̂i ))]
■ Binomial:
58
> summary(dcor.glm2)
Coefficients:
(Intercept) -4.522945 0.893345 -5.063 4.13e-07 ***
age 0.030806 0.015480 1.990 0.04659 *
smk 0.709447 0.303983 2.334 0.01960 *
cat:chl 0.011011 0.002185 5.038 4.69e-07 ***
cat:htp -1.538900 0.503283 -3.058 0.00223 **
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
(Dispersion parameter for binomial family taken to be 1)

AIC: 403.67
> 1-pchisq(393.67, 604)

[1] 1
Estatı́stica Hosmer e Lemeshow

■ Para dados binários
g
X (ok − ek )2
HL =
nk π̄k (1 − π̄k )
k=1
■ k - é o número de grupos (exemplo 10 grupos compostos pelos decis do valor ajustado da probabilidade)
■ nk - número de indı́vı́duos em cada grupo
■ ok - número de respostas positivas dentro de cada grupo
■ ek - valor esperado do número de casos dentro de cada grupo assumindo que o modelo está correto
■ π̄k = ek /nk
■ Sob a hipótese nula de que o modelo está correto a estatı́stica HL segue uma distribuição χ2k−2
59
Grupo k n o e π̄ 1 − π̄
1 65 1 2.64 0.04 0.96
2 57 3 3.09 0.05 0.95
3 65 8 4.63 0.07 0.93
4 64 7 5.03 0.08 0.92
5 73 4 6.25 0.09 0.91
6 42 6 3.86 0.09 0.91
7 63 3 6.29 0.10 0.90
8 63 7 7.42 0.12 0.88
9 56 11 8.93 0.16 0.84
10 61 21 22.85 0.37 0.63
> HL(dcor.glm2)
$"Estatı́stica Hosmer-Lemeshow"
[1] 9.488762
$"P-valor"
[1] "0.30275"
Erro de predição
■ Outra forma de avaliar o modelo binomial e através do erro de predição
■ valores ajustados > 0, 5 ⇒ ”sucesso”
■ valores ajustados ≤ 0, 5 ⇒ ”fracasso”
■ Cruzar com os valores observados e calcular a proporção de casos preditos corretamente
■ Problema: o modelo que se ajusta bem aos dados não necessariamente faz boa predição
■ Se predição é o objetivo da análise, então a proporção de casos corretamente classificados é um critério ideal
para comparação de modelos
60
> erropred(dcor.glm2)
|-------------------------|
| N |
| N / Table Total |
|-------------------------|
Total Observations in Table: 609
| Observados
Ajustados | FALSE | TRUE | Row Total |
-------------|-----------|-----------|-----------|
0 | 534 | 61 | 595 |
| 0.877 | 0.100 | |
-------------|-----------|-----------|-----------|
1 | 4 | 10 | 14 |
| 0.007 | 0.016 | |
-------------|-----------|-----------|-----------|
Column Total | 538 | 71 | 609 |
-------------|-----------|-----------|-----------|
Proporç~
ao de acertos = 89.33 %
Sensibilidade e Especificidade
D+ D−
T+ a b VPP
T− c d VPN
S E
Sensibilidade: Probabilidade de um teste ser positivo, dado que existe a doença.

S = a/(a + c)
Especificidade: Probabilidade de um teste ser negativo, dado que não existe a doença.
E = d/(b + d)
Valor Preditivo Positivo: Probabilidade de existir a doença, dado que o teste foi positivo.
V P P = a/(a + b)
Valor Preditivo Negativo: Probabilidade de não existir a doença, dado que o teste foi negativo.
V P N = d/(c + d)
61
AUC - Curvas ROC
■ A curva ROC é o gráfico da probabilidade de se detectar os verdadeiroo positivos (sensibilidade) e os
verdadeiros negativos (1-especificidade) para diferentes pontos de corte
■ A área sob a curva ROC (AUC), qua varia entre 0 e 1, pode ser usada como um medida de abilidade do
modelo em discriminar quem sofreu o desfecho e quem não sofreu.
■ De acordo com Hosmer e Lemeshow, temos
AUC Diagnóstico
AU C = 0, 5 Modelo sem poder discriminatório
0, 7 ≤ AU C < 0, 8 Discriminação aceitável
0, 8 ≤ AU C < 0, 9 Discriminação excelente
AU C ≥ 0, 9 Discriminação extraordinária
AUC - Curvas ROC

attach(dcor)
library(Epi)
ROC(form=chd ~ age + smk + cat:chl + cat:htp, data=dcor)
1.0
0.8
0.6
Sensitivity
lr.eta = 0.133
0.4
Sens: 47.9%
Spec: 83.3%
PV+: 27.4% Variable est. (s.e.)
PV−: 92.4% (Intercept) −4.523 (0.893)
age 0.031 (0.015)
0.2
smk 0.709 (0.304)

cat:chl 0.011 (0.002)
cat:htp −1.539 (0.503)
Model: chd ~ age + smk + cat:chl + cat:htp

0.0
Area under the curve: 0.686
0.0 0.2 0.4 0.6 0.8 1.0
1−Specificity
62
Cartão de Referência do R
Cartão de referência para modelos de regressão no R
http://cran.r-project.org/doc/contrib/Ricci-refcard-regression.pdf
Miscelânias 1 slide 130

Identificabilidade e separação
Existem duas razões para que o modelo linear generalizado binário não seja identificável (parâmetros não
podem ser estimados através dos dados disponı́veis ⇒ β = ∞ ou erros padrão enormes)
1. Se os preditores (x) são colineares, torna-se impossı́vel estimar individualmente os parâmetros β. Este tipo de
não identificabilidade pode ser tratada através da remoção de variáveis colineares.
2. Completa separação dos dados, denominado separação, pode acontecer por causa da discretização dos dados:
■ Se um preditor xj está completamente alinhado com a variável resposta Y , tal que y = 1 para todos xj
maior que um limiar T , e y = 0 para todos os valores de xj ≤ T , a estimativa de β = ∞
63
Identificabilidade e separação
1.0
0.8
0.6
y
0.4
0.2
0.0
5 10 15
◆ Da mesma forma, se y = 1 para todos xj ≤ T , e y = 0 para xj > T , a estimativa de β = −∞
◆ Mais genericamente, esse problema pode acontecer se qualquer combinação linear dos preditores x estiver
perfeitamente alinhado com a variável resposta. Por exemplo, suponha o preditor linear η = 5x1 + x2 − x3 .
Se y = 1 se e somente se η > T , então algum dos coeficientes β será igual a ∞.
Outras funções de ligacão

■ Outras funções de ligação, além da função de ligação canônica, pode ser utilizada em dados binomiais, desde
que a nova função mapeie a probabilidade em valores reais e seja uma função injetora, contı́nua e diferenciável.
■ Seja F (·) a função de distribução de uma v.a. definida na reta real, e seja
pi = F (ηi ), −∞ < ηi < ∞
■ Então, podemos utilizar a transformação inversa e
F −1 (pi ) = ηi , para 0 < pi < 1
■ Uma escolha popular para a função de distribuição F está no contexto da distribuição normal
64
Variável latente
■ Seja Yi uma v.a. binária com valores 0 ou 1.
■ Suponha uma v.a. não observável contı́nua Yi∗ que toma qualquer valor real e que Yi = 1 se Yi∗ > T
(T =limiar). Denominamos Yi∗ de resposta latente.
0.4
0.3
Density
0.2
0.1
0.0
−4 −2 0 2 4
variável latente
Variável latente
■ A interpretação de Yi e Yi∗ depende do contexto. Um economista pode pensar em Yi como sendo a escolha
“comprar” ou “alugar” uma casa e Yi∗ como sendo a diferença na utilidade de comprar ou alugar. Um biólogo
pode imaginar que Yi∗ é a dose de um medicamento e Yi a resposta positiva ou negativa do medicamento.
■ Podemos escrever
pi = P (Yi = 1) = P (Yi∗ > T )
■ Para identificar o modelo assumimos o limiar igual a zero (T = 0) e Yi∗ com distribuição normal padronizada
para ter variância unitária
65
Variável latente
■ Suponha que o modelo depende de um vetor de covariáveis:
Yi∗ = x′i β + Ui
e que Ui (erro) tem uma função distribuição F (u).

■ Sob este modelo, a probabilidade pi de se observar uma resposta positiva é
pi = P (Yi∗ > 0) = P (Ui > −ηi ) = 1 − F (−ηi )
com ηi = x′i β. Se a distribuição de Ui for simétrica em zero, temos F (u) = 1 − F (−u), logo
pi = F (ηi )
■ O modelo anterior define um modelo linear generalizado para uma resposta Bernoulli com função de ligação
η = F −1 (pi )
Função de ligação probit

■ Uma escolha óbvia seria assumir que Ui ∼ N (0, σ 2 ) e consequentemente,
pi = Φ(ηi )
em que Φ e a função de distribuição da normal.

■ a função inversa ηi = Φ−1 (pi ) é conhecida como probit
66
As funções de ligação logit e probit são quase funções lineares uma da outra e por isso os resultados são muito
1.0
0.8
0.6
p (x)
0.4
0.2
logit
0.0
probit
parecidos. Veja o gráfico x
Tão relação resulta em βprobit = βlogit /1.6
library(MASS)
data(Aids2)
names(Aids2)
#pi=Pr(status=dead)
summary(logitm<-glm(status~age,family=binomial,data=Aids2))
summary(probitm<-glm(status~age,family=binomial(link=probit),
data=Aids2))
logitm$coeff/1.6
probitm$coeff
67
Miscelânias 2 slide 140
Quase-verossimilhança
■ A inferência do modelo linear generalizado, até o momento, tem sido baseado supondo o modelo válido:

ω
f (y; θ, φ) = exp (yθ − b(θ)) + c(y, φ)
φ
■ Contudo, nem sempre esse é um modelo realista.

■ Por exemplo: para dados de contagem (Y ), em geral, assume-se uma distribuição de Poisson que implica que
a variância dos dados é igual a média. Ou em outras palavras, no MLG temos que a var(Y ) = φV (µ) = µ,
isto é, o parâmetro de dispersão φ = 1.
■ Uma forma de tratar a um possı́vel sobredispersão nos dados var(Y ) > µ é introduzir um parâmetro de
dispersão φ desconhecido.
■ Para tal, o modelo já não poder ser escrito na forma da famı́lia exponencial e esse passa a ser definido através
do valor médio e da variância.
■ Assim sua estimação não poderá ser mais feita através do método da máxima verossimilhança, pois a função
de distribuição não será especificada.
■ Para resolver o problema da não especificação da dsitribuição dos MLGs, recorremos ao conceito da
quase-verossimilhança.
■ Considere somente a especificação do valor médio e da variância de Y
E(Y ) = µ e var(Y ) = φV (µ)
■ Considere a variável U definida da seguinte forma:

Y −µ
U = U (µ, Y ) =
φV (µ)
■ Esta variável é tal que:

1 ∂U
E(U ) = 0 e var(U ) = e − E( ) = var(U )
φV (µ) ∂µ
68
1
■ E(U ) = 0 e var(U ) = φV (µ) e − E( ∂U
∂µ ) = var(U )
■ Desta forma temos a variável U a se comportar como uma função score.

■ Como a função score é a derivada da função de log-verossimilhança, podemos esperar que o integral de U ,
caso exista, se comporte como uma função de log-verossimilhança.
■ A função de quase-verossimilhança é então definida por
Z µ Z µ
Y −t
Q(µ, y) = u(t, y)dt = dt
y y φV (t)
■ e em caso de n observações de v.a. independentes, definimos:

n
X
Q(µ, y) = Q(µi , yi )
i=1
■ Esta função além de partilhar de muitas propriedades formais que o logaritmo da função de verossimilhança,
pode ser mesmo uma função de log-verossimilhança
69
■ Prova-se que se existir uma função de log-verossimilhança l tal que
∂l y−µ
=
∂µ φV (µ)
com
E(Y ) = µ e var(Y ) = φV (µ),
então l é uma função de log-verossimilhança da famı́lia exponencial.
■ Se derivarmos Q(µ, y) em função de βj e igualarmos a zero, obtemos o seguinte sistema de equações:
Xn
yi − µi ∂µi
=0
i=1
V (µi ) ∂βj
Xn
(yi − µi )xij ∂µi
=0
i=1
V (µi ) ∂ηi
■ que não depende de φ
■ Sob condições de regularidades semelhantes às necessárias para os estimadores de máxima verossimilhança,
podemos obter as propriedades assintóticas dos estimadores de quase-verossimilhança βb∗
70
■ Em particular, tem-se que:
βb∗ ∼N
a
M V (β, (I ∗ )−1 (βb∗ )V (βb∗ )(I ∗ )−1 (βb∗ ))
em que
∂s∗ (β)
I ∗ (β) = E −
∂β T
V (β) = cov(s∗ (β))
∂Q
e s∗ (β) = ∂β é a função quase-score ou função de estimação generalizada.
■ Com este resultado temos que a mudança essencial em relação aos modelos completamente especificados está
na matriz de covariância de βb∗ .
■ Conclusão: o método da quase-verossimilhança permite obter estimadores consistentes e assintoticamente
normais para β com apenas uma perda de eficiência.
■ Para que essa perda seja pequena é necessário que a estrutura de variância proposta seja a mais próxima da
verdadeira estrutura de variância dos dados.
71
Exemplo no R
rio <- read.table("cardioRio.dat", header = T)

rio$redecat <- ifelse(rio$prede > 0.95, 1, 0)
rio.glm <- glm(obt3070 ~ pfave + pesgred + pcaluga +
plixocol + pesc1g + palftot + rndm2sm + rndm15sm +
redecat + offset(log(pop3070)), data = rio,
family = poisson)
rio.glm3 <- step(rio.glm, direction = "both")

summary(rio.glm3)
72

Modelo Linear Generalizado: conceitos e aplicações em estatística

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Modelo Linear Generalizado: conceitos e aplicações em estatística

Enviado por

Direitos autorais:

Formatos disponíveis

Modelo Linear Generalizado

DEIO/CEAUL Valeska Andreozzi – slide 3

DEIO/CEAUL Valeska Andreozzi – slide 4

DEIO/CEAUL Valeska Andreozzi – slide 5

DEIO/CEAUL Valeska Andreozzi – slide 6

O que é um modelo estatı́stico?

DEIO/CEAUL Valeska Andreozzi – slide 9

DEIO/CEAUL Valeska Andreozzi – slide 10

◆ Identificação de fatores biológicos que podem ajudar elucidar a patologia da doença

DEIO/CEAUL Valeska Andreozzi – slide 11

DEIO/CEAUL Valeska Andreozzi – slide 12

■ avaliar o ajuste global do modelo que poderá depender do objetivo do modelo

DEIO/CEAUL Valeska Andreozzi – slide 13

0.0 0.5 1.0 1.5 2.0 2.5

DEIO/CEAUL Valeska Andreozzi – slide 15

DEIO/CEAUL Valeska Andreozzi – slide 16

0.0 0.5 1.0 1.5 2.0 2.5

DEIO/CEAUL Valeska Andreozzi – slide 17

jan−mar 1983 até abr−jun 1986

DEIO/CEAUL Valeska Andreozzi – slide 18

jan−mar 1983 até abr−jun 1986

DEIO/CEAUL Valeska Andreozzi – slide 19

Modelo Linear Generalizado (MLG)

DEIO/CEAUL Valeska Andreozzi – slide 20

DEIO/CEAUL Valeska Andreozzi – slide 21

Y − b′ (θ) ∂S(θ) b′′ (θ)

DEIO/CEAUL Valeska Andreozzi – slide 22

E(Y ) = µ = a(φ)E[S(θ)] + b′ (θ) = b′ (θ) (4)

■ A variância de Y é o produto de duas funções:

DEIO/CEAUL Valeska Andreozzi – slide 23

DEIO/CEAUL Valeska Andreozzi – slide 24

ηi = β0 + β1 xi1 + β2 xi2 + · · · + βp xip = xti β i = 1, 2, . . . , n

DEIO/CEAUL Valeska Andreozzi – slide 25

DEIO/CEAUL Valeska Andreozzi – slide 26

DEIO/CEAUL Valeska Andreozzi – slide 27

DEIO/CEAUL Valeska Andreozzi – slide 28

ηi = β0 + β1 xi1 + β2 xi2 + · · · + βp xip i = 1, 2, . . . , n

DEIO/CEAUL Valeska Andreozzi – slide 29

DEIO/CEAUL Valeska Andreozzi – slide 30

DEIO/CEAUL Valeska Andreozzi – slide 31

Distribuições e funções de ligação

rnorm(n = 1000, 4, 1.5) rbinom(n = 1000, size = 15, 0.2)

Notação N (µ, σ 2 ) B(m, µ)

DEIO/CEAUL Valeska Andreozzi – slide 32

rpois(1000, lambda = 2) rgamma(1000, shape = 2, rate = 1)

Notação P oi(µ) G(µ, ν)

DEIO/CEAUL Valeska Andreozzi – slide 33

DEIO/CEAUL Valeska Andreozzi – slide 34

DEIO/CEAUL Valeska Andreozzi – slide 35

Método da Máxima Verossimilhança (MMV)

DEIO/CEAUL Valeska Andreozzi – slide 37

DEIO/CEAUL Valeska Andreozzi – slide 39

DEIO/CEAUL Valeska Andreozzi – slide 40

DEIO/CEAUL Valeska Andreozzi – slide 41

> sx2 <- sum(x^2)

> mu.vals <- seq(11, 15, l=100)

> lmu <- -5 * log(8 * pi) -

> plot(mu.vals, lmu, type="l", xlab=expression(mu),

DEIO/CEAUL Valeska Andreozzi – slide 43

DEIO/CEAUL Valeska Andreozzi – slide 44

7. Comparando com a média amostral

DEIO/CEAUL Valeska Andreozzi – slide 45

DEIO/CEAUL Valeska Andreozzi – slide 46