Você está na página 1de 9

Resumo P1 GLM

 INTRODUÇÃO

1) Modelos Lineares: Modelos de regressão linear, análise de variância, análise de covariância.


A relação entre as variáveis (reposta e explicativas) é descrita por um conjunto de parâmetros, por
meio de uma função linear; condicional aos valores das variáveis explicativas, as respostas são
independentes, tem distribuição Normal e igual variância.
2) GLM: incorporou sob uma teoria unificada, diversos outros modelos, permitem contemplar num
contexto de análise de regressão variáveis respostas com distribuições pertencentes à família
exponencial de distribuições (Binomial, Poisson, Normal, Gama e Normal Inversa).

 REVISÃO SOBRE MODELOS LINEARES

(ver resumo Regressão)

 MODELO LINEAR COM ERROS HETEROCEDÁSTICOS

Quando não podemos pressupor homocedasticidade, é razoável admitir que as variâncias sejam
proporcionais, sendo ωi os pesos, através do método de mínimos quadrados ponderados. Situações em
que é razoável utilizar MMQ ponderados:
1) Se as observações fossem, na verdade, médias de amostras de n observações com variância σ2,
nesse caso Var = σ2/n
2) Se o padrão não constante da variância possa ser descrito por alguma função de uma ou mais
covariáveis (pesos são ωi = 1/ xij).
3) Se as observações estiverem sujeitas a erros de medida que podem assumir diferentes distribuições
(ex. 3 equipamentos diferentes)
No R, incorporamos pesos por meio do argumento weights da função lm.

 FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES

1) A função densidade de probabilidade pode ser expressa na forma:

Onde Θ é o parâmetro natural (ou canônico) e φ é o parâmetro de dispersão da distribuição (que


também pode ter um peso particular a cada observação).

2) Propriedades:
Assim, a variância pode ser fatorada em dois componentes:
O primeiro a(φ) está associado exclusivamente à dispersão de y (não à sua média)
O segundo, usualmente denotado por V(µi) = b’’(θi), chamado de função de variância, é função da
média da distribuição e exprime a relação de média-variância de y.

* Distribuição Binomial: usada para modelagem de dados binários.


* Distribuição Poisson: se eventos ocorrem independente e aleatoriamente no tempo ou espaço,
com taxa média de ocorrência constante, a distribuição atribui probabilidades ao número de
eventos por intervalo de tempo ou região no espaço. Descreve bem dados cuja variância seja
proporcional à média. Caso limite para a distribuição binomial quando n -> inf. É bem aproximada
pela Normal (µ,µ).
* Distribuição Gama: tem duas parametrizações, usada na análise de dados contínuos não negativos
em que a variância aumenta conforme a média e em que o coeficiente de variação é
aproximadamente constante.
* Distribuição Normal Inversa: se aplica a análise de dados contínuos, não negativos com
distribuição acentuadamente assimétrica.
* Distribuição Binomial Negativa: alternativa à Poisson em situações em que a variância dos dados
aumenta mais rapidamente que a média.

 MODELO LINEAR GENERALIZADO

Um GLM é definido pela especificação de três componentes:

1) Componente aleatório: conjunto de variáveis aleatórias independentes com distribuição


pertencente à família exponencial de dispersão. Definição de uma distribuição de probabilidades
para a variável resposta. Ela é discreta ou contínua? Sua distribuição é simétrica? Qual o conjunto de
valores com probabilidade não nula? Deve-se propor um modelo que tenha propriedades
compatíveis à distribuição dos dados. Não se tendo convicção sobre uma particular escolha, pode-se
testar diferentes alternativas ou usar uma abordagem que não exija essa especificação.
2) Componente sistemático: preditor linear do modelo em que são inseridas as covariáveis por meio de
uma combinação linear de parâmetros

Quais variáveis explicativas devem ser consideradas? Como elas serão incorporadas ao modelo?
(avaliar a necessidade de escalonar, transformar, categorizar ou incluir potências de variáveis
numéricas e necessidade de incluir efeitos de interação).
3) Função de ligação: função real, monótona e diferenciável, que “liga” o componente aleatório ao
sistemático. Tem o papel de linearizar a relação entre os componentes aleatório e sistemático do
modelo, deve produzir valores no espaço paramétrico (para µi) para qualquer valor produzido por ηi.
Apresentar propriedades estatísticas e computacionais desejadas. Proporcionar interpretações
práticas para os parâmetros de regressão β.
Função de ligação canônica: transforma a média no parâmetro canônico, que garante algumas
simplificações e propriedades desejadas no processo de ajuste do modelo.
 ESTIMAÇÃO EM MODELOS LINEARES GENERALIZADOS

1) Distribuição assintótica dos estimadores


Os estimadores dos parâmetros de um GLM atendem às propriedades gerais de estimadores de máxima
verossimilhança, assim, assintoticamente:

Em que (X’WX)-1 é a matriz informação de Fisher (ou de informação esperada); X é a matriz do modelo;
W é a matriz diagonal com os pesos:

A estimação dos parâmetros de um GLM pelo método da máxima verossimilhança requer a resolução
de um sistema de equações não lineares dos β’s. Assim, precisamos utilizar métodos iterativos:

2) Newton-Raphson: tem um valor inicial como primeira aproximação, em seguida uma aproximação é
obtida na vizinhança do valor inicial, por um polinômio de segundo grau (série de Taylor). Após a
repetição de uma sequência de aproximações o processo converge para o máximo (quando as
mudanças em β sejam suficientemente pequenas) se a função é bem comportada e a aproximação
inicial é boa.

3) Score de Fisher: utiliza o valor esperado da matriz Hessiana (informação esperada), enquanto o
método de Newton usa a própria Hessiana (informação observada). Para GLMs com função de
ligação canônica, ambas as matrizes são equivalentes.

4) Máxima Verossimilhança por Fisher x MMQ Ponderados: existe uma relação entre os dois métodos
que faz com que apenas precisemos de recursos computacionais que produzam estimativas de
MMQP. *********************(não entendi direito essa parte)
5) Estimação em GLM: com a obtenção dos estimadores, o ajuste pode ser apresentado na escala do
preditor ou na escala da média.

6) Estimação do parâmetro de dispersão: quando φ é desconhecido, precisamos estimá-lo para


avaliação dos erros das estimativas e construção de intervalos de confiança. Um estimador
consistente é definido como:

Onde X2 é a estatística de Pearson e V(µ) é a função de variância:

7) Robustez dos GLMs quanto à especificação incorreta do modelo: os estimadores dos parâmetros de
GLMS são consistentes ainda que a distribuição especificada esteja incorreta, mas desde que a
especificação do preditor linear e da função de ligação esteja correta.
Entretanto, ao assumir uma distribuição incorreta, a função de variância também está errada,
gerando resultados incorretos.

 INFERÊNCIA EM MODELOS LINEARES GENERALIZADOS

Os GLMs podem ter interesse exploratório (com hipóteses ou inferências sobre os parâmetros) ou
preditivo (só interessam os resultados).
Os modelos podem ser restritos (parâmetros restritos à H0) ou irrestritos (parâmetros livres).
*********************(não entendi direito essa parte)

1) Testes de hipóteses do tipo H0: β = β0 e H1: β ≠ β0

Teste da razão de verossimilhança (diferença em y):

Sendo l0 e l1 as log verossimilhanças maximizadas sob restrição e irrestrita, respectivamente.


Seguindo distribuição assintótica χ2 com q graus de liberdade, sendo q o número de parâmetros
fixados em H0.

Teste de Wald (diferença em x):


Sendo β0chapéu a estimativa de β0 e Var(β0chapéu) o bloco da matriz de variâncias dos elementos
de β0chapéu, ambas obtidas sob o modelo irrestrito. Seguindo distribuição assintótica χ2 com q
graus de liberdade, sendo q o número de parâmetros fixados em H 0.

Para o teste de um único parâmetro, com H0: βk = β0, a estatística fica:

Quando φ é conhecido ~ N(0,1), se φ é estimado ~ t(n-p)

Teste escore (derivada):

Sendo S(β0chapéu) e Var(β0chapéu) a função escore e a matriz de variâncias avaliadas sob o modelo
restrito. Seguindo distribuição assintótica χ2 com q graus de liberdade, sendo q o número de
parâmetros fixados em H0.

2) Intervalos de confiança: podem ser obtidos invertendo as respectivas estatísticas de teste.


Um IC assintótico baseado no teste de Wald para um único parâmetro fica:

Também é possível obter um IC baseado em verossimilhança perfilada e para ηx (complicado).

 ANÁLISE DE DEVIANCE

1) Análise de Deviance: é uma generalização da análise de variância aplicada a uma sequência de


GLM’s encaixados (obtidos sequencialmente impondo sucessivas restrições aos parâmetros do
modelo original). A cada passo são acrescentados ou excluídos do modelo efeitos de variáveis
explicativas, de fatores, de interações. Numa tabela, apresenta-se a sequência de modelos
ajustados, as correspondentes deviances, as diferenças entre deviances e os resultados dos testes
associados.
Se o parâmetro de dispersão é conhecido, o teste da qualidade de ajuste de um GLM com p
parâmetros pode ser feito sob a H0 de que o modelo se ajusta bem aos dados, D tem distribuição χ2
com n-p graus de liberdade. Uma alternativa é testar a qualidade do ajuste baseado na estatística de
Pearson (já especificada).
Modelo nulo: modelo mais simples que pode ser especificado, contendo apenas o intercepto, ou
seja, atribui igual média a todas as observações;
Modelo saturado: modelo em que se assume um parâmetro por observação, sendo o modelo mais
geral em que os dados são perfeitamente ajustados;
Modelo proposto: modelo intermediário entre o nulo e o saturado.
Embora os modelos nulo e saturado não sejam de interesse prático, servem como base para
comparação de modelos intermediários.

Deviance escalonada: é a deviance em que os θ’s comparados são referentes aos modelos saturado
e proposto.
Deviance residual: caso mais geral, quando a(φ) = φ, quanto pior o ajuste do modelo, maior a
Deviance

2) Análise de deviance e teste da razão de verossimilhanças:


A diferença das daviances (estatística do TRV) tem distribuição assintótica χ2 com p1-p0 graus de
liberdade, em que p1 e p0 referem-se aos números de parâmetros estimados de M1 (modelo
irrestrito) e M0 (modelo restrito).*********************(não entendi direito essa parte)

 SELEÇÃO DE COVARIÁVEIS

Objetivo: identificação de um modelo parcimonioso, simples, com reduzido número de parâmetros, mas
capaz de ajustar satisfatoriamente os dados. Quando o problema envolve um número pequeno de
covariáveis, podemos usar a análise de deviances, com base em resultados de testes de hipóteses. Para
casos com maior número de covariáveis deve-se utilizar algum algoritmo de seleção. Em qualquer uma
das situações é recomendável analisar primeiramente o efeito marginal de cada covariável.

1) Critérios de informação: modelos especificados com diferentes distribuições podem ter seus ajustes
comparados usando medidas de informação.
Akaike: importante medida para avaliar a qualidade do ajuste de modelos que penaliza a complexidade
do modelo (número de parâmetros). AIC = -2l + 2p, onde l é a log-verossimilhança maximizada.
Queremos um modelo que produza o menor AIC.
BIC: penaliza mais fortemente modelos mais complexos para maiores tamanhos de amostras. BIC = -2l +
ln(n)*p.
2) Algoritmos de seleção: Forward (inicia pelo modelo nulo e vai incluindo as variáveis), backward
(inicia pelo modelo mais complexo e vai retirando as variáveis) e setpwise (inicia pelo modelo mais
complexo, mas pode incluir variáveis no processo).

3) Métodos de regularização: alternativa aos métodos de seleção, têm o objetivo de ajustar um


modelo em que as estimativas dos parâmetros sejam regularizadas em direção a zero, produzindo
estimativas com menor variância. A contrapartida é a produção de algum viés nas estimativas, mas
que deve ser compensada pela menor variância, resultando em maior eficiência. Como viés e
variância andam em direções opostas, os métodos de regularização permitem identificar um ponto
ótimo nesse equilíbrio.
Os métodos baseiam-se na identificação de β0 e β’s que minimizem a função:

λ ≥ 0 é um parâmetro que controla a intensidade da penalização, que deve ser determinado


separadamente;
λ = 0, o termo de penalização não tem efeito e as estimativas produzidas correspondem à máxima
verossimilhança;
λ -> inf a penalização será tão forte que as estimativas produzidas serão igual a zero;
A escolha de λ pode ser feita por validação cruzada, identificando o valor que produz menor erro
quadrático médio.

Regressão ridge: para α = 0, baseado na penalização de segunda ordem;


Técnica Lasso: para α = 1, baseado na penalização de primeira ordem, pode resultar em estimativas
iguais a zero, também pode ser utilizado como técnica de seleção de covariáveis.
Nos dois casos, para cada valor de λ haverá um valor t correspondente que produzirá as mesmas
estimativas. Valores de α no intervalo (0,1) também podem ser aplicados ponderando as duas formas
de penalização.

 DIAGNÓSTICO DO AJUSTE

Objetivo: avaliação da distribuição proposta, avaliação da parte sistemática do modelo, adequação da


função de ligação, identificação e avaliação de observações mal ajustadas e de pontos influentes. O
principal componente é a análise de resíduos.

1) Resíduo de Pearson:
Versão padronizada com
Caso geral Para GLM Poisson Para GLM Binomial
média 0 e variância ~ 1

2) Resíduo componente da Deviance: contribuição de cada observação para a deviance do modelo.


Existe também uma versão padronizada.

3) Análise gráfica de resíduos:


Resíduos x valores ajustados: espera-se dispersão aleatória dos pontos, centrada em zero, com média e
variância constantes e sem valores extremos. É recomendável plotar os resíduos e os valores na escala
do preditor;
Resíduos x variáveis incluídas no modelo: padrões não aleatórios indicam que a variável não está
inserida corretamente no modelo;
Resíduos x variáveis não incluídas no modelo: padrões não aleatórios sinalizam a necessidade (e a
forma) de inclusão da variável no modelo;
Gráfico de resíduos x ordem de coleta dos dados: padrões não aleatórios indicam a dependência das
observações gerada pela ordem de coleta (no tempo ou no espaço);
Gráfico da variável ajustada x preditor linear: para avaliar a adequação da função de ligação. (Ajusta-se
o modelo e extrai-se o preditor linear, ajusta-se um novo modelo com uma nova covariável, se o efeito
do novo preditor não for significativo, então a função de ligação não é adequada).
*********o q q o preditor tem a ver com a função de ligação???*******************

Os resíduos de Pearson e componente de deviance não tem uma boa aproximação com a distribuição
Normal, ainda que o modelo ajustado esteja correto, por isso a avaliação requer a utilização de
envelopes simulados.

4) Resíduo Quantílico Aleatorizado: tem distribuição normal por construção, caso o modelo ajustado
esteja correto. Baseia-se no método da transformação integral de probabilidade. Se o modelo
estiver especificado corretamente, tem distribuição N(0,1).

Para variáveis discretas existe uma adaptação.

5) Envelopes simulados: consistem na plotagem de alguma medida de diagnóstico versus a esperança


das estatísticas de ordem da distribuição normal. Em GLM, a distribuição dos resíduos e das medidas
de influência não é normal, a solução é usar simulação para avaliar adequadamente a disposição dos
pontos em um gráfico meio-normal. Para isso: deve-se obter os valores de uma quantidade
diagnóstica em valor absoluto e ordem crescente, simular 99 amostras e suas quantidades
diagnósticas e computar os percentis 5%, 50% e 95%.
Se a maior parte dos valores observados estiver contida no envelope, há indícios de que o modelo está
bem ajustado aos dados.

6) Diagnóstico de influência: identificar pontos que exercem grande influência sobre o ajuste do
modelo. A estratégia adotada é do tipo leave-one-out, que avalia o quanto os resultados dos
modelos mudam ao desconsiderar uma particular observação.
As principais medidas que fazem uso da estratégia são: resíduos studentizados, DFBetas (avalia a
mudança em coeficientes individualmente) e Distância de Cook (avalia a mudança global no ajuste
do modelo).
Gráficos meio Normais com envelopes simulados: podem ser apropriados para checagem de
observações influentes;
Gráfico de valores ajustados x índice de observação: é importante para a avaliação comparativa dos
resultados.

Ao detectar observações influentes é recomendável: voltar à base e identificar as observações,


verificar se houve algum erro de coleta, avaliar o impacto dessas observações no ajuste, caso o
impacto seja muito grande, reportar no relatório de análise.

7) Multicolinearidade: quase dependência linear entre as colunas o que produz estimativas bastante
instáveis e conclusões comprometidas. Assim como em regressão linear, pode ser feita uma
avaliação preliminar da matriz de correlações. Uma verificação mais formal baseia-se no cálculo do
VIF:

Onde R2 é o coeficiente de determinação de Xj com relação às demais covariáveis. VIF acima de 5 ou


10 pode ser considerado indicador de multicolinearidade.

Você também pode gostar