Escolar Documentos
Profissional Documentos
Cultura Documentos
Valeska Andreozzi
2012
Referências 2
Modelagem Estatı́stica 7
Modelagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Objetivos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
Construção do modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
MLG 14
Motivações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
O modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Distribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Sumário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Exercı́cio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
Estimação 36
Máxima Verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
Solução Analı́tica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Solução Gráfica R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
MMV nos MLG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Método iterativo NR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
Método iterativo IWLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Estimação de φ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Teste de Hipotéses 53
Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Teste de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Teste da RV. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
Int. Confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Seleção de modelos 62
Modelo saturado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Modelo nulo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Função desvio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Seleção de Modelos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
Dicas de modelagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
Diagnóstico 92
Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Tipos de resı́duos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
Variância constante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Inclusão nova variável . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
Relação Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
Pontos Influentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
Função de ligação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
1
Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
Adequação do modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
Estatı́stica Hosmer e Lemeshow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
Erro de predição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
AUC - Curvas ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
Cartão de Referência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
Miscelânias 1 130
Modelo binomial. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
Miscelânias 2 140
Quase-verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
2
Referências slide 2
Referências
■ Krzanowski, W (1998). An Introduction to Statistical Modelling. Arnold Texts in Statistics.
■ Harrel, F (2001). Regression Modeling Strategies. Springer-Verlag.
■ Dobson , AJ (2001). An introduction to generalized linear models. Chapman & Hall/CRC
■ Kleinbaum DG, Klein M (2002). Logistic Regression - A Self-Learning Text. Second Edition. Springer
■ Hosmer DW, Lemeshow S (1989). Applied Logistic Regression. John Wiley e Sons.
Referências
■ Fox, J (1997). Applied Regression Analysis, Linear Models, and Related Methods. Sage
■ Fox, J (2008). Applied Regression Analysis and Generalized Linear Models. Sage. Second Edition
■ McCullagh P, Nelder JA (1989). Generalized linear models. Second Edition. Chapman and Hall
3
Referências
■ Venables WN, Ripley, BD (2002). Moderns Applied Statistics with S. Fourth Edition. Springer
■ Fox, J (2002). An R and S-Plus Companion to Applied Regression. Sage Publications.
■ Faraway, J. Practical Regression and Anova using R
(http://cran.r-project.org/doc/contrib/Faraway-PRA.pdf). Dados e scripts disponı́veis em
http://www.maths.bath.ac.uk/~jjf23/LMR/
■ Hardin J, Hilbe J (2001). Generalized Linear Models and Extensions. Stata Press.
Referências
Material disponı́vel online
■ Amaral Turkman, MA e Silva, G (2000). Modelos Lineares Generalizados - da Teoria à Prática, Edições SPE,
Lisboa
http://docentes.deio.fc.ul.pt/maturkman/mlg.pdf
■ Rodrı́guez, G (16/01/2010). Generalized Linear Models (notes).
http://data.princeton.edu/wws509/notes/
■ Demétrio, CGB (16/01/2010). Modelos Lineares Generalizados em Experimentação Agronômica
http://www.lce.esalq.usp.br/clarice/Apostila.pdf
■ Paula, G (16/01/2010). Modelos de regressão com apoio computacional
http://www.ime.usp.br/~giapaula/livro.pdf
4
Modelagem Estatı́stica slide 7
Modelagem
Modelagem estatı́stica é um processo de descobrimento.
Modelo estatı́stico
=
modelo matemático
(equação que descreve o processo)
+
incerteza
(flutuações devido ao acaso)
DEIO/CEAUL Valeska Andreozzi – slide 8
Modelagem
■ Modelo é uma versão simplificada de alguns aspectos do mundo real.
■ Podemos dizer que modelo é uma representação em pequena escala de entidades fı́sicas.
■ A construção de modelos implica numa compreensão dos dados
■ Dados disponı́veis que são um subconjunto dos dados que poderiam ser coletados
■ O modelo serve para obter inferências para um grupo maior ou para obter compreensão do mecanismo
(sistema) gerador dos dados observados
■ Os modelos variam de acordo com a acurácia da sua representação.
■ O ponto chave da modelagem está nesta acurácia que varia de acordo com o objetivo da análise.
5
Objetivos de um modelo
Modelo Explicativo ou Descritivo
■ Estudar a associação entre fatores de risco e desfecho (outcome). Exemplos:
◆ Avaliar a magnitude de associação de uma exposição e um desfecho ajustada pelo efeitos de possı́veis fatores
de confundimento ou de interação
◆ Investigar fatores determinantes de uma doença, ie, avaliar o efeito de um determinado fator de risco na
ocorrência de uma doença controlano por fatores de confundimento e considerando possı́veis fatores
modificadores de efeito da associação principal em questão
■ Acurácia do modelo não precisa ser perfeita
Objetivos de um modelo
Modelo Preditivo
■ Modelo em que o objetivo central é fazer predição do desfecho. Exemplos:
◆ Predição de um defecho para ajudar na tomada de decisão de um tratamento
◆ Desenvolvimento de classificação de doença ou estagiamento (elaboração de um score)
6
Construção de um modelo
Passos envolvidos na construção de um modelo estatı́stico
1. Formulação dos modelos
■ Especificar uma expressão matemática para descrever o comportamento geral de acordo com as crenças do
analista/investigador. Esta expressão também é conhecida como componente sistemático do modelo.
■ Incorporar, na parte sistemática do modelo, uma certa quantidade de flutuações da variável resposta,
denominada componente aleatório do modelo
■ Especificar como combinar os componentes sistemático e aleatório
Construção de um modelo
Passos envolvidos no desenvolvimento de um modelo estatı́stico
2. Inferência dos parâmetros do modelo (estimação e testes de hipóteses)
3. Avaliação dos modelos
■ avaliar premissas dos modelos
7
Modelo Linear Generalizado slide 14
Motivação 1
■ Objetivo do estudo: avaliar a resposta de uma droga de acordo com a dose
■ Foi realizado um estudo experimental em que foi registrado a dose xi da droga e a resposta a droga yi para
26 ratinhos
■ Variável resposta: Yi = 1 se o rato respondeu a droga e Yi = 0 caso contrário; Covariável: xi (contı́nua)
1.0
0.8
resposta 0 ou 1
0.6
0.4
0.2
0.0
dose
Motivação 1
■ Modelo linear não é apropriado
■ Vamos considerar que para cada dose xi , existe uma probabilidade µi do rato responder a droga (P (Yi = 1)),
logo Yi ∼ Bernoulli(µi ) com E(Yi ) = µi e V ar(Yi ) = µi (1 − µi )
■ Caso especial da Binomial(n, µ) com n = 1
■ Para modelarmos E(Yi ) = µi precisamos utilizar uma função de ligação entre o µi e xi de tal forma que
valores do lado direito da equação possam ser assumidos no lado esquerdo. Uma opção é utilizar a função de
ligação logit:
µi
logit(µi ) = ln = a + bxi
1 − µi
exp(a + bxi ) 1
µi = =
1 + exp(a + bxi ) 1 + e−(a+bxi )
8
Motivação 1
1.0
0.8
resposta 0 ou 1
0.6
0.4
0.2
0.0
dose
Motivação 2
■ Objetivo: estudar a tendência do número de mortes por Aids (yi ) na Austrália a cada três meses de 1983 a 1986 (ti )
40
Número de mortes por Aids
30
20
10
0
0 2 4 6 8 10 12 14
■ Reta de regressão → parece razoável mais fornece valores esperados negativos para os perı́odos 1 e 2.
9
Motivação 2
■ Modelo alternativo:
Yi ∼ P oi(µi )
E(Yi ) = V ar(Yi ) = µi
ln(µi ) = β0 + β1 ti
40
Número de mortes por Aids
30
20
10
0
0 2 4 6 8 10 12 14
10
Componente Aleatório
Famı́lia Exponencial
■ Y é uma variável aleatória (v.a.) com distribuição pertencente à famı́lia exponencial
1
f (y; θ, φ) = exp [yθ − b(θ)] + c(y, φ) (1)
a(φ)
■ θ e φ são parâmetros escalares, a(·), b(·) e c(·) são funções reais conhecidas
■ θ é a forma canônica de localização
■ φ é o parâmetro de dispersão, suposto, em geral, conhecido
■ b(·) é uma função diferenciável.
■ a famı́lia exponencial obedece às condições habituais de reguralidadea
a Sen and Singer, 1993, Large Sample Methods in Statistics. An Introduction with Applications. Chapman and Hall, New York
Componente Aleatório
Famı́lia Exponencial - Valor médio e variância
■ Seja l(θ; φ, y) = ln(f (y|θ, φ)). Define-se a função escore
∂l(θ; φ, y)
S(θ) =
∂θ
■ Para famı́lias regulares, tem-se:
E(S(θ)) = 0
" 2 #
2 ∂l(θ; φ, y) ∂ 2 l(θ; φ, y)
E(S (θ)) = E = −E (2)
∂θ ∂θ2
yθ−b(θ)
■ De (1), tem-se que: l(θ; φ, y) = a(φ) + c(y, φ), logo:
11
Componente Aleatório
Famı́lia Exponencial - Valor médio e variância
■ De (2) e (3), tem-se:
φ
a(φ) = (6)
ω
em que ω é uma constante conhecida
Componente Aleatório
Famı́lia Exponencial
■ Assim sendo a famı́lia exponencial fica definida da seguinte forma:
ω
f (y; θ, φ) = exp (yθ − b(θ)) + c(y, φ)
φ
12
Componente Sistemático
■ O valor esperado µi está relacionado com o preditor linear formado pelas covariáveis
■ através da relação:
g(µi ) = ηi
⇓
g(µi ) = β0 + β1 xi1 + β2 xi2 + · · · + βp xip
⇓
g(µi ) = xti β
■ em que g é a função de ligação; β é o vetor de parâmetros; xi vetor de covariáveis
Componente Sistemático
■ A escolha da função de ligação g(.) depende do tipo de resposta (Y ) que está sendo analisada
■ Quando o preditor linear coincide com o parâmetro canônico θi = ηi , diz-se que a função de ligação
correspondente é uma função de ligação canônica.
13
Distribuição Normal
■ Y ∼ N (µ, σ 2 )
n 2
o
■ f (y) = √ 1
2πσ 2
exp − (y−µ)
2σ 2
nh i h io
µ2 y2
■ f (y) = exp yµ − 2
1
σ2
− 1
2 σ2
+ ln(2πσ 2 )
n o
1
■ f (y; θ, φ) = exp [yθ − b(θ)] φ
+ c(y, φ)
■ θ=µ
■ φ = σ2
µ2
■ b(θ) = 2
■ b′ (θ) = µ
■ b′′ (θ) = V (µ) = 1
Distribuição Binomial
■ Y ∼ B(m, π)
m
■ f (y) = π y (1 − π)m−y
y
■ Mostre que a distribuição binomial pertence a famı́lia exponencial e que
π
■ θ = ln( 1−π ); π = eθ /(1 + eθ ) = 1/(1 − eθ )
■ φ=1
■ b(θ) = −m ln(1 − π)
■ E(Y ) = b′ (θ) = mπ
■ V ar(Y ) = b′′ (θ) = V (µ) = mπ(1 − π)
14
Sumário: MLG
Independência: Variáveis respostas Yi são observações independentes
Distribuição: Yi possui distribuição da famı́lia exponential com valor esperado µi
Preditor Linear: As covariáveis xi1 , . . . , xip influenciam a variável resposta através de um preditor linear
Função de Ligação: O valor esperado, µi , e o preditor linear, ηi , estão relacionados por uma função de
ligação g(·) tal que:
g(µi ) = ηi = β0 + β1 xi1 + β2 xi2 + · · · + βp xip
Sumário: MLG
Interpretação: Como o valor esperado de Y (E(Y ) = µ) varia com as covariáveis.
Covariáveis: Discretas, Contı́nuas, e funções de variáveis contı́nuas (exemplo: x2 , log(x)).
Linearidade: preditor linear η é linear nos parâmetros β.
15
Sumário: MLG
■ Para modelar dados através dos MLG, precisamos:
◆ Formular o modelo
escolha da distribuição para a variável resposta;
escolha das covariáveis (codificação, transformação);
escolha da função de ligação;
◆ Ajustar o modelo
estimação dos parâmetros do modelo (coeficientes β e do parâmetro de dispersão φ, caso necessário);
estimação de intervalos de confiança dos parâmetros;
teste de hipótese; seleção de covariáveis;
◆ Diagnosticar o modelo
averiguar premissas do modelo e discrepâncias entre valores observados e preditos;
existência de outliers e observações influentes;
Um modelo útil é capaz de explicar o problema em estudo levando-se em consideração três fatores
adequabilidade, parcimônia e interpretação.
250
200
200
150
150
Frequency
Frequency
100
100
50
50
0
−2 0 2 4 6 8 0 2 4 6 8
16
Distribuições e funções de ligação
Poisson Gama
Histogram of rpois(1000, lambda = 2) Histogram of rgamma(1000, shape = 2, rate = 1)
300
400
250
300
200
Frequency
Frequency
150
200
100
100
50
0
0
0 2 4 6 8 0 2 4 6 8 10 12
Exercı́cio
Mostre que as funções de densidade de probabilidade abaixo pertencem a famı́lia exponential e encontre θ, φ,
b(θ), b′ (θ), b′′ (θ)
■ Y ∼ P oisson(µ) com
y −µ
f (y) = µ y!e
■ Y ∼ Gama(ν, ν/µ)
ν em queν e ν/µ são parâmetros de forma e escala, respectivamente com
1 ν ν−1 ν
f (y) = Γ(ν) µ y exp − µ y
Das distribuições acima encontre utilizando os resultados do exercı́cio anterior:
■ E(Y )
■ V ar(Y )
17
Exercı́cio
The folowing relationships can be describe by generalized linear models. For each one, identify the response
variable and the explanatory variables, select a probability distribution for the response (justifying your choice)
and write down the linear component.
1. The effect of age, sex, height, mean daily food intake and mean daily energy expenditure on a person´s weight.
2. The proportions of laboratory mice that became infected after exposure to bacteria when five different
exposure levels are used and 20 mice are exposed at each level.
3. The relationship between the number of trips per week to the supermarket for a household and the number of
people in the household, the household income and the distance to the supermarket.
Estimação slide 36
◆ assintoticamente eficientes e
◆ com distribuição assintoticamente normal
18
Máxima Verossimilhança
■ Suponha uma população com parâmetro τ e com função de densidade de probabilidade (fdp) conhecida
(f (X|τ ) em que X são os dados).
■ Podemos gerar uma amostra X dado que conhecemos a fdp
■ Exemplo: Idade das crianças internadas no Hospital São João segue uma distribuição normal com média 13
anos e variância igual a 4.
■ E o mundo real?
DEIO/CEAUL Valeska Andreozzi – slide 38
Máxima Verossimilhança
■ No mundo real não conhecemos o parâmetro τ da população
■ Temos em mãos uma amostra X da população e queremos fazer inferência sobre o parâmetro populacional
(τ )
■ Objetivo do MMV
◆ Achar uma estimativa para o parâmetro populacional τ que maximize a probabilidade de encontrarmos a
amostra que possuı́mos.
◆ Em outras palavras, para determinar o estimador de máxima verossimilhança do parâmetro τ , basta achar o
valor de τ que maximiza a fdp f (X|τ ) fixando a amostra X (L(τ |X) função de máxima verossimilhança).
19
Exemplo
■ Distribuição normal com variância conhecida.
■ Seja X=(12, 15, 9, 10, 17, 12, 11, 18, 15, 13) uma amostra aleatória das idades das crianças do Hospital São
João que segue uma distribuição normal de média µ e variância conhecida e igual a 4. Qual a estimativa de
máxima verossimilhança da média µ das idades das crianças?
■ O objetivo é fazer um gráfico da função de log-verossimilhança e achar o ponto máximo que será a estimativa
da média µ.
Solução Analı́tica
1. Temos que x1 , . . . , xn é uma amostra aleatória de X ∼ N (µ, 4),
n 2
o
2. a função de densidade (fdp) para cada observação é dada por f (xi ) = √ 1
2πσ 2
exp − (xi2σ
−µ)
2
Q10
3. assumindo que as observações são independentes a função de verossimilhanca é dada por L(µ) = 1 f (xi ),
4. e a log-verossimilhança é dada por
10
X
l(µ) = ln(f (xi ))
1
10 10
!
1 X X
= −5log(8π) − x2i − 2µ xi + 10µ 2
8 1 1
20
Solução Gráfica R
1. Amostra de uma distribuição normal com variância igual a 4
> x <- c(12, 15, 9, 10, 17, 12, 11, 18, 15, 13)
> x
P10 P10
2. e calculamos as quantidades 1 x2i e 1 xi
3. Intervalo para os possı́veis valores de µ (sabemos que a média aritmética é um estimativa de µ por isso
criamos valores ao redor de 13 = mean(x))
Solução Gráfica no R
4. e a seguir calculamos os valores de l(µ) de acordo com a equação anterior
5. Fazendo o grafico
21
Solução Gráfica no R
−26
−27
−28
−29
l(µ)
−30
−31
−32
11 12 13 14 15
Solução Gráfica no R
6. Obtendo o valor de µ que corresponde ao valor máximo do log da verossimilhança
> mu.vals[lmu==max(lmu)]
[1] 13.18182
> mean(x)
[1] 13.2
22
Aplicando MMV nos MLG
■ Considere o exemplo número de mortes por Aids (exemplo motivação)
■ Yi ∼ P oi(µi ) e
■ log(µi ) = β0 + β1 ti
■ A contribuição de cada observação para a função de verossimilhança é dada por
µy e−µ
P r(Y = y|µ) =
y!
Y µyi e−µi
i
l(β0 , β1 |yi ) = ln
i
yi !
..
.
X
l(β0 , β1 |yi ) = {yi (β0 + β1 ti ) − exp(β0 + β1 ti ) − log(yi !)}
i
23
Estimativa de Máxima Verossimilhança
■ A estimativa do método da máxima verossimilhança é o valor do parâmetro que maximiza o logarı́tmo (log)
da função de verossimilhança
■ Em casos especiais o log das funções de verossimilhança podem ser resolvidos algebricamente
■ Em outros casos é necessário estimar o parâmetro através da maximização numérica, por exemplo através do
método de Newton-Raphson
Método de Newton-Raphson
■ Seja l(β0 , β1 |yi ) = l(β)
■ Para calcular os valores β que maximize a função de verossimilhança temos que derivar e igualar a zero
∂l(β)
= l′ (β) = 0
∂βk
■ Para resolvermos a equação numericamente fazemos uma expansão de Taylor
■ Reescrevendo, temos:
l′ (β (0) )
β = β (0) −
l′′ (β (0) )
24
Método Iterativo
Passo1: Inı́cio: assume qualquer valor inicial para βb(0)
Passo2: Iteração 1: βb(1) = βb(0) + ǫ
Passo3: Iteração k: βb(k) = βb(k−1) + ǫ
Passo4: Volta para o passo 3 até que ǫ seja menor que uma tolerância desejável
′
■ ǫ = − ll′′(β)
(β)
■ No R é utilizado o método iterativo dos mı́nimos quadrados ponderados, que é baseado no método de
Newton-Raphson
■ Critério de parada no R: ǫ = 10−8
■ Caso ǫ não atinja este valor dizemos que o processo não convergiu
em que:
h 2 i
∂ l(β)
■ I(.)−1 é a inversa (que se supõe existir) da matriz de informação de Fisher (I(β) = E − ∂β∂β T )
■ s(β) = ∂l(β)
∂β o vetor de scores
A diferença existente entre este algoritmo e o de Newton-Raphson para resolver sistemas de equações não
∂ 2 l(β)
lineares, reside na utilização da matriz de informação de Fisher em vez da matriz Hessiana (H(β) = ∂β∂β T ). A
vantagem desta substituição deve-se ao facto de, em geral, ser mais fácil calcular a matriz de informação I,
para além de ser sempre uma matriz semi-definida positiva.
25
Estimação do parâmetro de dispersão
O parâmetro de dispersão apesar de poder ser estimado pelo MMV, pode também ser estimado por um método
mais simples. Tal método baseia-se na distribuição de amostragem, para grandes valores de n, da estatı́stica de
Person generalizada:
n
1 X ωi (yi − µi )2
φb =
n − p i=1 V (b
µ)
Introdução
Nesta seção serão apresentados testes de hipóteses sobre o vetor de parâmetro β. Basicamente, dois tipos de
hipóteses serão testados
■ Hipótese da nulidade de um componente do vetor de parâmetro
H0 : β j = 0 versus H1 = βj 6= 0
para algum j.
■ Hipótese da nulidade de um subvetor do vetor de parâmetro
H0 : β r = 0 versus H1 = βr 6= 0
para algum subvetor de r componentes de β. Esta hipótese corresponde a testar submodelos do modelo
original, que será apresentado na seção seguinte.
26
Teste de Wald
■ Através da MMV temos que: βb∼N
a
M V (β, V )
V = I(β)−1
√
EP (βbk ) = V kk
■ WALD: Testa H0 : βk = 0 através da estatı́stica t
c
β
■ t= k
bk )
EP (β
■ Sob a H0 , t segue assintoticamente um distribuição normal com média zero e variância igual a 1
27
Teste de Wald
> summary(glm(weight~age+ sex, data = birth))
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.77332 0.79459 -2.232 0.0367 *
age 0.12089 0.02046 5.908 7.28e-06 ***
sexM 0.16304 0.07281 2.239 0.0361 *
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
28
Teste da razão de verossimilhanças
■ Sob a hipótese nula de que os parâmetros adicionais p − q são iguais a zero, a estatı́stica RV tem uma
distribuição assintótica de um χ2 sendo p − q o número de graus de liberdade
a 2
RV = −2(lp − lq )∼χ p−q
′
Intervalo de confiança para β s
■ Temos que βb∼N
a
M V (β, I(β)−1 )
■ Intervalo de Confiança de (1 − α)%
29
Exemplo
> bw.glm<-glm(weight~age+ sex, data = birth)
> bw.sum<-summary(bw.glm)
> bw.glm$coeff
(Intercept) age sexM
-1.7733218 0.1208943 0.1630393
> sqrt(diag(bw.sum$cov.scaled))
(Intercept) age sexM
0.79458608 0.02046295 0.07280821
> bw.glm$coeff - qnorm(1-(.05/2))*sqrt(diag(bw.sum$cov.scaled))
(Intercept) age sexM
-3.33071055 0.08078694 0.02033521
> bw.glm$coeff + qnorm(1-(.05/2))*sqrt(diag(bw.sum$cov.scaled))
(Intercept) age sexM
-0.2159331 0.1610017 0.3057434
Modelo saturado
■ Para um MLG com n observações, o número máximo de parâmetros é igual a n, isto é, um parâmetro para
cada observação de tal forma que o modelo se ajusta perfeitamente aos dados.
■ Não oferece qualquer simplificação e, como tal, não tem interesse na interpetação do problema, já que não faz
sobressair caracterı́sticas importantes transmitidas pelos dados.
■ O modelo saturado fornece o maior valor que a função de verossimilhança pode atingir.
■ Toda a variação do modelo saturado é atribuı́da ao componente sistemático.
30
Modelo saturado
> summary(glm(weight~factor(1:nrow(birth)), data = birth))
Deviance Residuals:
[1] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Modelo nulo
■ Modelo nulo é um modelo que possui um único parâmetro.
■ Todas as observações tem um parâmetro em comum e igual a
E(Yi ) = µ = y
■ É um modelo de estrutura muito simples, que raramente captura a estrutura inerente aos dados.
■ Toda a variação do modelo nulo é atribuı́da ao componente aleatório.
31
Modelo nulo
> summary(glm(weight~1, data = birth))
Deviance Residuals:
Min 1Q Median 3Q Max
-0.55567 -0.18292 -0.01617 0.21683 0.50533
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.96767 0.05758 51.54 <2e-16 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
D = 2φ {ls − lm }
■ ls = log verossimilhança do modelo saturado (valor máximo)
■ lm = log verossimilhança do modelo em questão
■ D é uma distância entre a log verossimilhança do modelo saturado e a log verossimilhança do modelo em
questão
■ Quanto mais próximo o MLG estimado, µ̂, estiver dos dados observados, y, menor será o valor da função
desvio D
■ Como ls é o maior valor da log verossimilhança temos que lm será sempre menor e consequentemente D é
sempre positiva
32
Função desvio
Representação gráfica da função desvio
Função desvio
Função desvio de um modelo de Poisson
■ Seja a variável resposta Y1 , . . . , Yn independentes e Yi ∼ P oisson(λi ) com função de log-verossimilhança
X X X
l(β, y) = yi ln λi − λi − lnyi !
■ Para o modelo saturado temos as estimativas de máxima verossimilhança para λbi = yi , logo o valor máximo
da função de log-verossimilhança é
X X X
ls (β, y) = yi ln yi − yi − lnyi !
33
Função desvio
Função desvio de um modelo de Poisson
■ Para um modelo com p < n parâmetros podemos utilizar as estimativas de máxima verossimilhança dos
parâmetros do modelo (β) para calcular λ bi e consequentemente os valores ajustados ybi = λ
bi . Logo a função
de log- verossimilhança fica assim definida
X X X
lm (β, y) = yi ln ybi − ybi − lnyi !
Exercı́cio
Escreva a função desvio para um modelo binomial. (Y1 , . . . , Yn independentes e Yi ∼ binomial(mi , πi ))
34
Exemplo: Fatores de risco do peso ao nascer
> attach(birth)
> plot(age,weight,pch=19,col="blue")
> points(age[sex=="F"],weight[sex=="F"],pch=19,col=2)
3.4
3.2
3.0
weight
2.8
2.6
2.4
35 36 37 38 39 40 41 42
age
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.77332 0.79459 -2.232 0.0367 *
age 0.12089 0.02046 5.908 7.28e-06 ***
sexM 0.16304 0.07281 2.239 0.0361 *
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
35
Comparando com modelo linear
■ Função desvio = SQE
> summary(lm(weight~age+sex, data = birth))
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.77332 0.79459 -2.232 0.0367 *
age 0.12089 0.02046 5.908 7.28e-06 ***
sexM 0.16304 0.07281 2.239 0.0361 *
Residual standard error: 0.1771 on 21 degrees of freedom
Multiple R-squared: 0.64, Adjusted R-squared: 0.6057
F-statistic: 18.67 on 2 and 21 DF, p-value: 2.194e-05
> anova(lm(weight~age+sex, data = birth))
Analysis of Variance Table
Response: weight
Df Sum Sq Mean Sq F value Pr(>F)
age 1 1.01380 1.01380 32.3174 1.213e-05 ***
sex 1 0.15730 0.15730 5.0145 0.03609 *
Residuals 21 0.65877 0.03137
2.8
2.6
2.4
35 36 37 38 39 40 41 42
age
36
Outro exemplo: Estudo experimental
> mice<-read.table("mice.dat",header=T)
> dim(mice)
[1] 26 2
> mice
dose response
1 0.0 0
2 0.1 0
3 0.2 0
4 0.3 0
5 0.4 0
6 0.5 1
7 0.6 0
8 0.7 0
...
37
Análise de deviance
Notação
■ Mq → Modelo com pq parâmetros
Análise de deviance
■ Sob a H0 de que o modelo mais simples Mm é melhor, temos o resultado assintótico
a 2
(Dm − Dq )/φ∼χ pq −pm
38
Análise de deviance
■ Para modelos normais em que não conhecemos σ 2 usamos o teste F ao invés do teste χ2
■ Sob a H0 de que o modelo simples Mm é melhor, temos o resultado exato
(Dm − Dq )/pq − pm
∼ Fpq −pm ,n−pq
Dq /(n − pq )
■ No R
> anova(Mm,Mq, test = "Chisq")
39
Exemplo
> mice.reg1<-glm(response~1, data = mice, family=binomial)
> mice.reg2<-glm(response~dose, data = mice, family=binomial)
> anova(mice.reg1,mice.reg2,test = "Chisq")
Analysis of Deviance Table
Model 1: response ~ 1
Model 2: response ~ dose
Resid. Df Resid. Dev Df Deviance P(>|Chi|)
1 25 35.890
2 24 17.639 1 18.250 1.937e-05
AIC = −2l(β) + 2p
40
Exemplo
> mice.reg1<-glm(response~1, data = mice, family=binomial)
> mice.reg2<-glm(response~dose, data = mice, family=binomial)
> extractAIC(mice.reg1)
[1] 1.00000 37.88966
> extractAIC(mice.reg2)
[1] 2.00000 21.63922
■ Modelo Explicativo - Ex.: quantificar a associação entre pressão arterial e variáveis sócio-econômicas (idade e
sexo).
Sempre que possı́vel descreva um modelo teórico da associação entre o desfecho e as covariáveis.
41
Modelo Teórico
Exemplo de seleção de modelo
42
Exemplo no R
bw <- read.table("birth.dat", header = T)
head(bw)
names(bw)
bw$ht <- relevel(bw$ht, "NE")
bw$race <- factor(bw$race,labels=c("Bco", "Ngo", "Out"))
bw$smoke <- factor(bw$smoke)
bw$bwt <- bw$bwt/1000
summary(bw)
bw.mod1 <- glm(bwt ~ age+lwt+race+smoke+ht+ftv, data = bw)
summary(bw.mod1)
anova(bw.mod1,test="F")
mod.both<-step(bw.mod1,direction="both")
mod.both
mod.back<-step(bw.mod1,direction="backward")
mod.back
bw.nulo <- glm(bwt ~ 1, data = bw)
mod.forw<-step(bw.nulo,scope=list(upper=~age+lwt+race+smoke+ht+ftv),
direction="forward")
mod.forw
mod.back
mod.both
Dicas de modelagem
Covariável contı́nua ou discreta
■ Quando usar a covariável contı́nua ou quando categorizar?
43
Dicas de modelagem
Modelos mais complicados
■ Inclusão de termos polinomiais, transformação de covariáveis para capturar a não-linearidade.
■ No caso de termos polinomiais temos que ter cuidado para não introduzir covariáveis altamente
correlacionadas (multicolinearidade)
■ Inclusão de termos de interação: o efeito de uma covariável depende do valor da outra covariável
■ Para avaliar se termos mais complicados nos modelos são realmente necessários, verifique se sua inclusão
reduz significativamente o deviance.
Dicas de modelagem
■ Não são regras e por isso podem ser violadas
1. Se existe uma interação A : B no modelo entre duas covariáveis A e B devemos evitar retirar o efeito
principal das variáveis
2. Se temos um conhecimento prévio de que uma covariável afeta uma variável resposta, podemos mantê-la no
modelo mesmo que a análise de desvio indique que ela não é importante
44
Diagnóstico slide 92
Introdução
Não se deve esquecer que um modelo é apenas uma aproximação da realidade.
Todos os modelos envolvem várias premissas em relação aos dados.
Contudo, na maioria das vezes apenas uma porção dos dados se mostra consoante as premissas do modelo.
Logo, torna-se essencial avaliar se as premissas dos modelos ajustados foram respeitadas para garantir a
interpretabilidade do modelo.
Introdução
Tópicos a serem verificados na etapa de diagnóstico do modelo
■ Verificar se o modelo se ajusta aos dados
■ Premissas do modelo
■ Procurar pontos outliers
■ Procurar pontos influentes
■ Necessidade de inclusão de covariáveis
■ Escolha correta da função de ligação
■ Escolha da escala das covariáveis
DEIO/CEAUL Valeska Andreozzi – slide 94
45
Valores ajustados e resı́duos
■ No caso dos MLG os resı́duos ordinários ri = yi − µ
bi apresentam diferentes variabilidades
■ Logo torna-se necessário padronizar os resı́duos ordinários pelo erro padrão de yi .
■ Em geral, o erro padrão de ri é uma função dos parâmetros do modelo estimado por V (b
µi )
■ Temos também que levar em consideração os efeitos das covariáveis nos resı́duos através da matriz hat.
■ Cálculos relativamente simples, mas morosos, permitem estabelecer que, assintoticamente:
46
Resı́duo de Pearson
■ Resı́duo de Pearson
p
◆ ri = qyi −b µi
= √ybi −bµi
d i)
V ar(Y φV (c
µi )
rip corresponde à contribuição de cada observação para o cálculo da estatı́stica de Pearson generalizada. A
desvantagem do resı́duo de Pearson é que sua distribuição é geralmente assimétrica para modelos não normais.
Resı́duo de Pearson
Resı́duo de Pearson Padronizado
■ Modelo Normal
yi − µ
bi
rip′ = q
b − hii )
φ(1
■ Modelo Poisson
yi − µ
bi
rip′ = p
µ
bi (1 − hii )
■ Modelo Binomial
yi − µ
bi
rip′ = p
µ
bi (1 − µ
bi )(1 − hii )
47
Resı́duo Deviance
■ Resı́duo Deviance
√
◆ rid = sinal(yi − µbi ) di
di = contribuição da i-ésima observação para a função desvio
Resı́duos
■ Resı́duos de Pearson e Deviance devem ser aproximadamente Normais(0,1) para dados que seguem uma
distribuição Normal, de Poisson e Binomial com grandes contagens.
◆ 95% dos resı́duos devem estar entre −2 e 2
■ Para dados Bernoulli e Binomial com pequenas contagens não podemos esperar que os resı́duos de Pearson e
Deviance possuam uma distribuição Normal padronizada, em geral a distribuição é assimétrica. Contudo
◆ a maioria dos resı́duos devem estar entre −2 e 2
◆ e sua variância deve ser unitária
48
Variância constante
Para avaliar evidência de variância não constante utilizamos o seguinte gráfico
■ Gráficos dos resı́duos padronizados vs preditores lineares η ou vs função dos valores ajustados µ
b ou vs ı́ndice
◆ Devemos encontrar um padrão nulo,
◆ Os resı́duos devem estar distribuı́dos em torno do zero com amplitude constante para diferentes valores de µ
b
■ Transformações sugeridas por McCullagh e Nelder
◆ µ
b para o modelo normal
p
◆ 2 µ b para o modelo de Poisson
p
◆ 2sin−1 µ b para o modelo binomial
◆ 2ln(b
µ) para o modelo gamma
Variância constante
bw <- read.table("birth.dat", header = T)
bw$ht <- relevel(bw$ht, "NE")
bw$race <- factor(bw$race,labels=c("Bco", "Ngo", "Out"))
bw$smoke <- factor(bw$smoke)
bw.mod2<-glm(formula = bwt ~ lwt + race + smoke + ht, data = bw)
res<-rstandard(bw.mod2,type="deviance")
plot(bw.mod2$fitted.values,res,xlab="valores ajustados",
ylab="resı́duos deviance padronizados")
lines(lowess(bw.mod2$fitted.values,res),col="red")
abline(h=0,lty=2)
49
Variância constante
2
resíduos deviance padronizados
1
0
−1
−2
−3
valores ajustados
■ Não existe evidência de associação da variável resposta e a nova variável caso um padrão nulo seja encontrado
plot(bw$age,res,xlab="age",ylab="resı́duos deviance padronizados")
lines(lowess(bw$age,res))
abline(h=0,lty=2)
50
Inclusão de nova variável
2
resíduos deviance padronizados
1
0
−1
−2
−3
15 20 25 30 35 40 45
age
51
Relação linear das covariáveis
2
resíduos deviance padronizados
1
0
−1
−2
−3
lwt
52
Relação linear das covariáveis
Component+Residual Plot
1000
Component+Residual(bwt)
0
−1000
−2000
lwt
■ Adicionar termos polinomiais. Podemos incluir termos quadráticos da covariável em questão, ou seja Xj2 , mas
nem sempre a não-linearidade é de natureza parabólica.
■ A adição de termos polinominais pode ser uma solução, contudo apresentam algumas propriedades não
desejáveis (presença de picos e depressões; problemas em modelar dados com threshold)
■ Utilizar transformações Box-Cox. Problemas: perda de interpretação da covariável
■ Uma outra alternativa é incluir termos não lineares através de funções de alisamento (paramétricos ou não
paramétricos). Desta forma são caracterizados os modelos aditivos generalizados.
53
Pontos influentes - Leverage
P
■ b = X βb = HY ⇒ µ
µ bi = H ii yi + j6=i H ih yi
■ H matriz hat
■ hii → Leverage de uma observação yi
■ hii mede a influência de y em µ
b
■ quanto maior hii , maior é o peso de yi no valor ajustado
Pn
■ i=1 hii = p, onde n = número de observações e p = número de parâmetros do modelo.
■ Rule of thumb → hii é considerado grande se for maior que duas ou três vezes p/n. Logo podemos investigar
valores maiores de hi /(p/n) maiores que 2 como sendo possı́veis pontos influentes.
■ Caso os resı́duos desses pontos identificados como influentes não sejam grandes, não precisamos nos
preocupar.
Exemplos
h<-hatvalues(bw.mod2)
p <- dim(model.matrix(bw.mod2))[[2]] #num de parametros
n <- dim(model.matrix(bw.mod2))[[1]] #num de observaç~
oes
plot(h/(p/n), ylab = "Leverage h/(p/n)", xlab = "Índice",
cex.lab = 1.5, pch = 19)
abline(h=2, lty = 2)
5
4
Leverage h/(p/n)
3
2
1
0 50 100 150
Índice
54
Pontos influentes: Cooks Distance
rip′ hii
■ Informação conjunta do Leverage e Resı́duo CDi ≡ p × 1−hii
res <- rstandard(bw.mod2, type="deviance")
plot(h,res)
abline(h=c(-2,2),lty=2)
abline(v=c(2,3)*mean(h),lty=2)
library(car)
plot(cooks.distance(bw.mod2))
#vers~
oes antigas do R: cookd() ao invés de cooks.distance()
0.07
2
0.06
0.05
1
Cooks Distance
0.04
0
res
0.03
−1
0.02
−2
0.01
−3
0.00
0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 0 50 100 150
h Índice
Função de ligação
■ Um método para verificar se a função de ligação escolhida é adequada consite em simplesmente adicionar η 2
(preditor linear) como covariável extra no modelo e examinar a mudança ocorrida na deviance, isto é, fazer o
teste da razão de verossimilhanças. Se o teste da razão de verosimillhanças for significativo podemos dizer que
há evidência de que a função de ligação não é adequada.
■ Observação importante:
A adequação da função de ligação pode ser afetada pela falha em estabelecer escalas corretas para as
variáveis explanatórias no preditor linear. Em particular, se o teste formal construı́do pela adição de η 2 indica
desvio do modelo, isto pode indicar função de ligação errada ou escalas erradas para as variáveis explanatórias
ou ambas. Pontos atı́picos, também, podem afetar a escolha da função de ligação.
■ No source("glmfunc.r") foi construı́do a função goodlink() para testar a adequação da função de ligação
55
Exemplo - Doença Coronariana
Investigar fatores de risco para doença coronarina (609 homens). As variáveis estão definidas da seguinte forma:
id identificação do paciente
chd indica a presença (1) ou ausência (0) de doença coronariana
cat indica nı́vel alto (1) ou normal (0) de catecholamine
age idade em anos
chl nı́vel de colesterol
smk indica se o indivı́duo já fumou alguma vez (1) ou nunca (0)
ecg indica a presença (1) ou ausência (0) de anormalidade no eletrocardiograma
dbp pressão sangüı́nia diastólica
sbp pressão sangüı́nia sistólica
htp indica a presença (1) ou ausência (0) de pressão alta (pressão diastólica > 160 ou sistólica ≤ 65
Doença Coronariana
dcor <- read.table("evans.dat", header = T)
dcor$chd <- factor(dcor$chd)
dcor[1:10,]
id chd cat age chl smk ecg dbp sbp htp
1 21 0 0 56 270 0 0 80 138 0
2 31 0 0 43 159 1 0 74 128 0
3 51 1 1 56 201 1 1 112 164 1
4 71 0 1 64 179 1 0 100 200 1
5 74 0 0 49 243 1 0 82 145 0
6 91 0 0 46 252 1 0 88 142 0
7 111 1 0 52 179 1 1 80 128 0
8 131 0 0 63 217 0 0 92 135 0
9 141 0 0 42 176 1 0 76 114 0
10 191 0 0 55 250 0 1 114 182 1
56
Doença Coronariana
dcor.glm2 <- glm(chd~age+smk+cat:chl+cat:htp, family=binomial,
data=dcor)
summary(dcor.glm2)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.4762 -0.4694 -0.4175 -0.3240 2.5216
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -4.522945 0.893345 -5.063 4.13e-07 ***
age 0.030806 0.015480 1.990 0.04659 *
smk 0.709447 0.303983 2.334 0.01960 *
cat:chl 0.011011 0.002185 5.038 4.69e-07 ***
cat:htp -1.538900 0.503283 -3.058 0.00223 **
Doença Coronariana
Identificar valores outliers
dcor.res<-rstandard(dcor.glm2,type="deviance")
plot(dcor.res,ylab="Resı́duo deviance padronizado",xlab="ı́ndice")
abline(h=0)
y<-as.numeric(dcor.glm2$y)
fit<-dcor.glm2$fitted.values
residuo<-round(data.frame(y=y,fit=fit,resordinario=y-fit,
resdev=dcor.res),2)
residuo[1:10,]
índice
57
Adequação do modelo
■ Função Desvio é uma medida de quanto o modelo se aproxima dos dados observados
■ H0 : Modelo se ajusta aos dados (= modelo é adequado)
D/φ ∼ χ2n−p
Adequação do modelo
Mostre como encontrar as expressões das funções desvio listadas abaixo:
Pn 2
■ Normal: i (yi − µ̂i )
Pn Pn
■ Poisson: 2 [ i yi ln(yi /µ̂i ) − i (yi − µ̂i ))]
■ Binomial:
DEIO/CEAUL Valeska Andreozzi – slide 120
58
Adequação do modelo
> summary(dcor.glm2)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -4.522945 0.893345 -5.063 4.13e-07 ***
age 0.030806 0.015480 1.990 0.04659 *
smk 0.709447 0.303983 2.334 0.01960 *
cat:chl 0.011011 0.002185 5.038 4.69e-07 ***
cat:htp -1.538900 0.503283 -3.058 0.00223 **
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
■ k - é o número de grupos (exemplo 10 grupos compostos pelos decis do valor ajustado da probabilidade)
■ ek - valor esperado do número de casos dentro de cada grupo assumindo que o modelo está correto
■ π̄k = ek /nk
■ Sob a hipótese nula de que o modelo está correto a estatı́stica HL segue uma distribuição χ2k−2
59
Doença Coronariana
Grupo k n o e π̄ 1 − π̄
1 65 1 2.64 0.04 0.96
2 57 3 3.09 0.05 0.95
3 65 8 4.63 0.07 0.93
4 64 7 5.03 0.08 0.92
5 73 4 6.25 0.09 0.91
6 42 6 3.86 0.09 0.91
7 63 3 6.29 0.10 0.90
8 63 7 7.42 0.12 0.88
9 56 11 8.93 0.16 0.84
10 61 21 22.85 0.37 0.63
> HL(dcor.glm2)
$"Estatı́stica Hosmer-Lemeshow"
[1] 9.488762
$"P-valor"
[1] "0.30275"
Erro de predição
■ Outra forma de avaliar o modelo binomial e através do erro de predição
■ valores ajustados > 0, 5 ⇒ ”sucesso”
■ valores ajustados ≤ 0, 5 ⇒ ”fracasso”
■ Cruzar com os valores observados e calcular a proporção de casos preditos corretamente
■ Problema: o modelo que se ajusta bem aos dados não necessariamente faz boa predição
■ Se predição é o objetivo da análise, então a proporção de casos corretamente classificados é um critério ideal
para comparação de modelos
60
Doença Coronariana
> erropred(dcor.glm2)
|-------------------------|
| N |
| N / Table Total |
|-------------------------|
Total Observations in Table: 609
| Observados
Ajustados | FALSE | TRUE | Row Total |
-------------|-----------|-----------|-----------|
0 | 534 | 61 | 595 |
| 0.877 | 0.100 | |
-------------|-----------|-----------|-----------|
1 | 4 | 10 | 14 |
| 0.007 | 0.016 | |
-------------|-----------|-----------|-----------|
Column Total | 538 | 71 | 609 |
-------------|-----------|-----------|-----------|
Proporç~
ao de acertos = 89.33 %
Sensibilidade e Especificidade
D+ D−
T+ a b VPP
T− c d VPN
S E
61
AUC - Curvas ROC
■ A curva ROC é o gráfico da probabilidade de se detectar os verdadeiroo positivos (sensibilidade) e os
verdadeiros negativos (1-especificidade) para diferentes pontos de corte
■ A área sob a curva ROC (AUC), qua varia entre 0 e 1, pode ser usada como um medida de abilidade do
modelo em discriminar quem sofreu o desfecho e quem não sofreu.
■ De acordo com Hosmer e Lemeshow, temos
AUC Diagnóstico
AU C = 0, 5 Modelo sem poder discriminatório
0, 7 ≤ AU C < 0, 8 Discriminação aceitável
0, 8 ≤ AU C < 0, 9 Discriminação excelente
AU C ≥ 0, 9 Discriminação extraordinária
lr.eta = 0.133
0.4
Sens: 47.9%
Spec: 83.3%
PV+: 27.4% Variable est. (s.e.)
PV−: 92.4% (Intercept) −4.523 (0.893)
age 0.031 (0.015)
0.2
1−Specificity
62
Cartão de Referência do R
Cartão de referência para modelos de regressão no R
http://cran.r-project.org/doc/contrib/Ricci-refcard-regression.pdf
63
Identificabilidade e separação
1.0
0.8
0.6
y
0.4
0.2
0.0
5 10 15
◆ Mais genericamente, esse problema pode acontecer se qualquer combinação linear dos preditores x estiver
perfeitamente alinhado com a variável resposta. Por exemplo, suponha o preditor linear η = 5x1 + x2 − x3 .
Se y = 1 se e somente se η > T , então algum dos coeficientes β será igual a ∞.
■ Uma escolha popular para a função de distribuição F está no contexto da distribuição normal
64
Variável latente
■ Seja Yi uma v.a. binária com valores 0 ou 1.
■ Suponha uma v.a. não observável contı́nua Yi∗ que toma qualquer valor real e que Yi = 1 se Yi∗ > T
(T =limiar). Denominamos Yi∗ de resposta latente.
0.4
0.3
Density
0.2
0.1
0.0
−4 −2 0 2 4
variável latente
Variável latente
■ A interpretação de Yi e Yi∗ depende do contexto. Um economista pode pensar em Yi como sendo a escolha
“comprar” ou “alugar” uma casa e Yi∗ como sendo a diferença na utilidade de comprar ou alugar. Um biólogo
pode imaginar que Yi∗ é a dose de um medicamento e Yi a resposta positiva ou negativa do medicamento.
■ Podemos escrever
pi = P (Yi = 1) = P (Yi∗ > T )
■ Para identificar o modelo assumimos o limiar igual a zero (T = 0) e Yi∗ com distribuição normal padronizada
para ter variância unitária
65
Variável latente
■ Suponha que o modelo depende de um vetor de covariáveis:
Yi∗ = x′i β + Ui
com ηi = x′i β. Se a distribuição de Ui for simétrica em zero, temos F (u) = 1 − F (−u), logo
pi = F (ηi )
■ O modelo anterior define um modelo linear generalizado para uma resposta Bernoulli com função de ligação
η = F −1 (pi )
pi = Φ(ηi )
66
Função de ligação probit
As funções de ligação logit e probit são quase funções lineares uma da outra e por isso os resultados são muito
1.0
0.8
0.6
p (x)
0.4
0.2
logit
0.0
probit
library(MASS)
data(Aids2)
names(Aids2)
#pi=Pr(status=dead)
summary(logitm<-glm(status~age,family=binomial,data=Aids2))
summary(probitm<-glm(status~age,family=binomial(link=probit),
data=Aids2))
logitm$coeff/1.6
probitm$coeff
67
Miscelânias 2 slide 140
Quase-verossimilhança
■ A inferência do modelo linear generalizado, até o momento, tem sido baseado supondo o modelo válido:
ω
f (y; θ, φ) = exp (yθ − b(θ)) + c(y, φ)
φ
Quase-verossimilhança
■ Para resolver o problema da não especificação da dsitribuição dos MLGs, recorremos ao conceito da
quase-verossimilhança.
■ Considere somente a especificação do valor médio e da variância de Y
68
Quase-verossimilhança
1
■ E(U ) = 0 e var(U ) = φV (µ) e − E( ∂U
∂µ ) = var(U )
Quase-verossimilhança
■ A função de quase-verossimilhança é então definida por
Z µ Z µ
Y −t
Q(µ, y) = u(t, y)dt = dt
y y φV (t)
■ Esta função além de partilhar de muitas propriedades formais que o logaritmo da função de verossimilhança,
pode ser mesmo uma função de log-verossimilhança
69
Quase-verossimilhança
■ Prova-se que se existir uma função de log-verossimilhança l tal que
∂l y−µ
=
∂µ φV (µ)
com
E(Y ) = µ e var(Y ) = φV (µ),
então l é uma função de log-verossimilhança da famı́lia exponencial.
Quase-verossimilhança
■ Se derivarmos Q(µ, y) em função de βj e igualarmos a zero, obtemos o seguinte sistema de equações:
Xn
yi − µi ∂µi
=0
i=1
V (µi ) ∂βj
Xn
(yi − µi )xij ∂µi
=0
i=1
V (µi ) ∂ηi
■ que não depende de φ
■ Sob condições de regularidades semelhantes às necessárias para os estimadores de máxima verossimilhança,
podemos obter as propriedades assintóticas dos estimadores de quase-verossimilhança βb∗
70
Quase-verossimilhança
■ Em particular, tem-se que:
βb∗ ∼N
a
M V (β, (I ∗ )−1 (βb∗ )V (βb∗ )(I ∗ )−1 (βb∗ ))
em que
∂s∗ (β)
I ∗ (β) = E −
∂β T
V (β) = cov(s∗ (β))
∂Q
e s∗ (β) = ∂β é a função quase-score ou função de estimação generalizada.
■ Com este resultado temos que a mudança essencial em relação aos modelos completamente especificados está
na matriz de covariância de βb∗ .
Quase-verossimilhança
■ Conclusão: o método da quase-verossimilhança permite obter estimadores consistentes e assintoticamente
normais para β com apenas uma perda de eficiência.
■ Para que essa perda seja pequena é necessário que a estrutura de variância proposta seja a mais próxima da
verdadeira estrutura de variância dos dados.
DEIO/CEAUL Valeska Andreozzi – slide 148
71
Quase-verossimilhança
Exemplo no R
72