GAMLSS Paramétrico

Uma aplicação do modelo GAMLSS paramétrico a dados de seguro
de saúde
Gustavo H. A. Pereira Jalmar M. F. Carrasco
Departamento de Estatı́stica, Instituto de Matemática e Estatı́stica, Universidade de São Paulo
1 Introdução
Os modelos lineares generalizados (GLM, Nelder and Wedderburn (1972)) e os modelos aditivos
generalizados (GAM, Hastie and Tibshirani (1990)) são técnicas de modelagem de regressão uni-
variada bastante utilizadas na prática. Embora sejam consideravelmente mais flexı́veis do que o
modelo de regressão linear normal, em suas versões originais eles não permitem o ajuste de variáveis
cuja distribuição não pertence à famı́lia exponencial e assumem que o parâmetro de dispersão não
varia de acordo com as variáveis preditoras.
Nos últimos anos foram propostos diversas extensões dos modelos GLM e GAM utilizando
diferentes métodos de estimação que permitem a inclusão de termos aleatórios (ver, por exemplo,
McCulloch (1997) e Lin and Zhang (1999)). No entanto, embora mais flexı́veis que os modelos
GAM e GLM, eles também assumem que a variável resposta y tem distribuição de probabilidade
que pertence à famı́lia exponencial e geralmente permitem que apenas a média µ possa ser modelada
explicitamente a partir de variáveis preditoras. Além disso, seu ajuste frequentemente depende de
métodos que requerem grande tempo computacional, em situações em que são necessários diversos
ajustes até a seleção do modelo final.
A quantidade de dados coletados requerendo análise estatı́stica vem crescendo ao longo dos anos,
permitindo o ajuste de modelos mais complexos e mais realı́sticos. Assim, Rigby and Stasinopoulos
(2005) introduziram os modelos aditivos generalizados para locação, escala e forma (GAMLSS),
para os quais não é necessário que a distribuição da variável resposta pertença à famı́lia exponencial.
Além disso, todos os parâmetros da distribuição condicional de y podem ser modelados em função
de variáveis explicativas. O modelo pode conter ainda termos paramétricos, não paramétricos e
aleatórios.
Este artigo apresenta uma aplicação de uma importante subclasse destes modelos denominada
GAMLSS paramétrico. Embora essa subclasse inclua apenas termos paramétricos fixos no modelo,
ela é uma importante extensão dos modelos lineares generalizados. Na classe de modelos GAMLSS
paramétrico, a variável resposta y pode assumir distribuições de probabilidade que não pertencem
1
à famı́lia exponencial e todos os parâmetros de y podem ser modelados em função de variáveis
explicativas.
Na Seção 2 são apresentados formalmente os modelos GAMLSS e GAMLSS paramétrico. A
Seção 3 apresenta o pacote GAMLSS do software R, que ajusta esses modelos. A Seção 4 contém
uma aplicação a dados reais de uma seguradora de saúde para os quais o modelo GAMLSS
paramétrico se ajusta melhor do que um modelo linear generalizado. A Seção 5 conclui o artigo.
2 Modelo aditivo generalizado para locação, escala e forma

Os p parâmetros θ> = (θ1 , θ2 , . . . , θp ) de um função (densidade) de probabilidade populacional
f (y|θ) são modelados aqui utilizando modelos aditivos. Especificamente o modelo assume que
que, para i = 1, 2, . . . , n, as observações yi são independentes, condicionalmente a θi , onde θi> =
(θi1 , θi2 , . . . , θip ) é um vetor com p parâmetros relacionado com variáveis explicativas e efeitos
aleatórios. Se os valores das variáveis preditoras forem estocásticos ou se yi depende de seus valores
passados, então f (y|θi ) é entendido como condicional a esses valores.
Seja y > = (y1 , y2 , . . . , yn ) um vetor de observações da variável resposta. Seja ainda, para
k = 1, 2, . . . , p, gk (.) uma conhecida função de ligação monótona relacionando θk com variáveis
preditoras e efeitos aleatórios através de um modelo aditivo dado por
Jk
X
gk (θk ) = ηk = xk β k + Zjk γjk (1)
j=1
0
onde θk e ηk são vetores de tamanho n, βkT = (β1k , β2k , . . . , βJ 0 k ) é um vetor de tamanho Jk , xk é
k
0
uma matriz de delineamento conhecida de tamanho n × Jk , Zjk é uma matriz de delineamento fixa
e conhecida e γjk é uma variável aleatória de dimensão qjk . O modelo (1) é denominado GAMLSS.
Variando Zjk e γjk , pode-se obter diversas variações de modelos contendo termos não paramétricos
e termos aleatórios. No entanto, neste artigo, o interesse é apresentar uma aplicação do modelo
GAMLSS paramétrico para o qual Jj=1
P k
Zjk γjk = 0 e que portanto é dado por
gk (θk ) = ηk = xk β k (2)
Os primeiros dois parâmetros de y no modelo (2) geralmente são caracterizados como parâmetro
de locação e escala, denotados por µ e σ. Os demais, em geral, são parâmetros de forma. Para
a maior parte das distribuições de probabilidade conhecidas, são necessários no máximo dois
parâmetros de forma ν e τ . Desta forma o modelo (2) pode ser reescrito como
g (µ) = η1 = x1 β 1

 1

 g2 (σ) = η2 = x2 β 2
(3)

 g (ν) = η3 = x3 β 3
 3
g4 (τ ) = η4 = x4 β 4
2
O modelo (2) é mais geral que o GLM, porque não exige que o a distribuição de y pertença à
famı́lia exponencial e, conforme fica mais claro em (3), todos os parâmetros de y são modelados
diretamente em função de variáveis preditoras. Os parâmetros dos modelos podem ser estimados
simultaneamente a partir do algoritmo RS (Rigby and Stasinopoulos, 2005) ou CG (Cole and Green,
1992). Esses algoritmos tem a vantagem de não necessitarem estimativas iniciais dos valores de
cada um dos parâmetros associados às variáveis preditoras. É necessário apenas estimativas iniciais
dos valores dos parâmetros originais da distribuição da variável resposta.
3 O pacote GAMLSS
O pacote GAMLSS implementado no software R (Rigby et al., 2004) permite o ajuste de diversos
modelos da classe em estudo. A função (densidade) de probabilidade populacional no modelo
(2) não possui nenhuma forma explı́cita para a variável resposta y. A única restrição é que a
implementação no pacote GAMLSS em relação à distribuição de y é que f (y|θ) e suas primeiras
derivadas com respeito a todos aos parâmetros θ existam.
No pacote GAMLSS já estão implementadas o ajuste de variáveis com várias distribuições de
probabilidade. Já foram incluı́das no pacote tanto distribuições simples, que pertencem à famı́lia
exponencial, quanto várias distribuições que envolvem 3 ou 4 parâmetros. Além disso, é possı́vel,
sem muita dificuldade, acrescentar alguma distribuição de interesse no pacote GAMLSS. Para
algumas distribuições mais de uma parametrização já está implementada.
O pacote GAMLSS permite ainda selecionar modelos a partir de procedimentos automáticos
que utilizam o critério de informação de Akaike generalizado (Akaike, 1983). O pacote fornece
também gráficos de diagnóstico utilizando resı́duos quantı́licos (Dunn and Smyth, 1996).
4 Aplicação
O banco de dados da aplicação corresponde a uma amostra de 1349 internações realizadas por uma
seguradora de saúde brasileira no perı́odo de janeiro a junho de 2007. O objetivo é estudar a relação
entre a variável resposta número de diárias de hospital pagas pela seguradora e as variáveis idade
do paciente, tipo de internação e estado da federação onde a internação foi realizada. Denotando
a variável resposta como Y , temos que Y assume valores maiores ou iguais a 1, já que, mesmo que
o paciente tenha alta no mesmo dia da internação, a seguradora tem que pagar uma diária para o
hospital. Como todas as variáveis adequadas para o ajuste de variáveis de contagem implementadas
no pacote GAMLSS do R tem suporte maior ou igual a 0, trabalharemos com a variável Z = Y − 1.
A variável Z pode ser interpretada como o número de diárias adicionais pagas pela seguradora.
Denotamos por z o vetor de valores assumidos por Z na amostra e z = (z1 , z2 , . . . , z1349 ).
A variável idade do paciente é medida em anos completos, assumindo, na amostra, valores entre
0 e 96 com média de 33 e desvio padrão de 20. Uma possı́vel função de ligação para o ajuste da
média de Z em função das variáveis preditoras é a logarı́tmica, já que a média de Z é maior que 0.
3
Estudo descritivo do log z em função da idade sugeriu que um comportamento linear de log z em
função da idade é razoável com exceção da idade 0 (recém-nascido) para a qual a média amostral
de z é bem mais alta que a dos demais pacientes jovens. Assim, além da variável idade foi inserida
no modelo uma variável indicadora que assume o valor 1 se o paciente tem 0 anos completos e 0
caso contrário. A variável tipo de internação assume os valores 1 - obstétricas (18% da amostra),
2 - eletivas (39%) e 3 - de urgência (43% da amostra) e foi inserida no modelo a partir da criação
de duas variáveis indicadoras. A variável estado da federação assume 1 se a internação foi em São
Paulo (80% da amostra) e 0 se foi em outros estados (20%).
Dentro da classe dos modelos lineares generalizados, um candidato natural para a distribuição
de Z é a distribuição de Poisson com função de ligação logarı́tmica, já que Z é uma variável de
contagem. A Tabela 1 contém estatı́sticas descritivas para a variável Z. Pode-se observar que, a
variável apresenta alta concentração de valores menores ou iguais a 2, assimetria a direita e grande
variabilidade. A tabela sugere também que o tipo de internação tem forte associação com o número
de diárias adicionais pagas pela seguradora. Ainda há forte indı́cios de que a distribuição de Poisson
não é adequada para esta variável, já que nas internações eletivas e de urgência, a variância é muito
superior à média. Pode-se notar ainda que a variância é maior nas internações eletivas do que nas
obstétricas, enquanto a média é maior nas obstétricas do que nas eletivas. Isso sugere que pode ser
necessário ajustar a variância de Z (ou mais de um parâmetro) em função das variáveis preditoras.
Tabela 1: Estatı́sticas descritivas para a variável Número de diárias adicionais pagas
Estatı́stica Tipo de internação Total

Obstétrica Eletiva Urgência
N 239,0 529,0 581,0 1349,0
Média 1,5 0,8 4,3 2,4
Variância 2,0 5,2 92,0 44,8
Desvio Padrão 1,4 2,3 9,6 6,7
Erro padrão 0,1 0,1 0,4 0,2
Mı́nimo 0,0 0,0 0,0 0,0
Primeiro quartil 1,0 0,0 0,0 0,0
Mediana 1,0 0,0 2,0 1,0
Terceiro quartil 2,0 0,0 4,0 2,0
Máximo 14,0 20,0 117,0 117,0
Como a tabela sugere que a distribuição de Poisson não é adequada, ajustou-se um modelo
utilizando a distribuição binomial negativa. Para que este modelo esteja contido na classe dos
modelos lineares generalizados, é necessário que apenas o parâmetro da média seja estimado em
função das variáveis preditoras. Ajustando-se o modelo desta forma, observou-se que o ajuste,
4
embora superior ao observado para a distribuição de Poisson, também não era satisfatório. Assim,
a classe de modelos lineares generalizados não parece ser suficiente para a obtenção de um bom
ajuste para a variável em estudo. Mesmo ajustando-se o parâmetro adicional da binomial negativa
em função das variáveis preditoras, os resı́duos quantı́licos ainda indicam um ajuste insatisfatório.
A distribuição Poisson Gaussiana Inversa (Dean et al., 1989) é uma distribuição discreta ade-
quada para dados de contagem com alta variabilidade. Sua função de probabilidade é dada por
1 µy e1/σ K 1 (α)
2α

2 y−2
PY (y|µ, σ) = (4)
π (ασ)y y!
1 ∞ λ−1
onde α2 = σ12 + 2µ exp{− 12 t(x + x−1 )}dx, que é a função de Bessel modificada
R
σ , Kλ (t) = 2 0 x
tipo 3, y ≥ 0, µ > 0, σ > 0, E(Y ) = µ e V ar(Y ) = µ + µ2 σ.
Ajustou-se um modelo GAMLSS paramétrico assumindo a distribuição Poisson Gaussiana In-
versa para a variável resposta, função de ligação logarı́tmica para µ e σ e tendo como variáveis
preditoras todas as discutidas anteriormente para ambos os parâmetros de Z. Gráficos dos resı́duos
quantı́licos sugerem um ajuste satisfatório com apenas um valor discrepante, que é pouco influente
em relação aos parâmetros associados a µ, que são os de interesse principal do estudo.
Tabela 2: Modelo GAMLSS paramétrico final com distribuição Poisson Gaussiana Inversa para a
variável Número de diárias adicionais
Parâmetro Variável Estimativa Erro Exponencial Nı́vel

original preditora parâmetro padrão estimativa descritivo
µ Intercepto -0,969 0,199 0,38 < 0, 0001
Idade 0,019 0,003 1,02 < 0, 0001
Idade > 0
Idade = 0 1,138 0,217 3,12 < 0, 0001
Obstétrica
Eletiva -0,946 0,146 0,39 < 0, 0001
Urgência 1,480 0,233 4,39 < 0, 0001
Outros estados
São Paulo 0,961 0,185 2,62 < 0, 0001
Urgência*SP -0,814 0,243 0,44 0,0002
σ Intercepto -2,628 0,282 0,07 < 0, 0001
Obstétrica
Eletiva 4,989 0,352 146,79 < 0, 0001
Urgência 3,773 0,300 43,51 < 0, 0001
A Tabela 2 apresenta o modelo final. Pode-se observar que todas as variáveis em estudo são
5
significantes para o parâmetro µ e apenas o tipo de internação é significante para o parâmetro σ.
Como a função de ligação para os dois parâmetros é logarı́tmica, a interpretação dos parâmetros é
mais simples a partir da exponencial das estimativas obtidas. Pode-se observar, por exemplo que,
mantidas as demais variáveis constantes, estima-se que a cada ano de idade do paciente, a média
do número de diárias pagas adicionais pela seguradora aumenta em 2%. Estima-se ainda que a
média do número de diárias pagas adicionais pela seguradora entre pacientes com internação de
urgência fora do estado de São Paulo é 4,4 vezes essa mesma média para pacientes com internação
obstétrica fora do estado de São Paulo. Já entre pacientes do estado de São Paulo esta relação é
de 1,9 (exp(1, 480 − 0, 814)).
5 Conclusão
O artigo apresentou uma aplicação a dados de seguro de saúde do modelo GAMLSS paramétrico,
subclasse dos modelos aditivos generalizados para locação, escala e forma introduzido por Rigby
and Stasinopoulos (2005). Os resultados sugerem que essa classe de modelos é uma boa alternativa
aos modelos lineares generalizados nas situações em que estes não produzem um ajuste satisfatório.
Referências
Akaike, H., 1983. Information measures and model selection. Bulletin of the International Statistical
Institute 50, 277–290.
Cole, T. J., Green, P. J., 1992. Smoothing reference centile curves: the lms method and penalized
likelihood. Statistic in Medicine 11, 1305–1319.
Dean, C., Lawless, J. F., Willmot, G. E., 1989. A mixed poisson-inverse-gaussian regression models.
Canadian Journal of Statistics 17, 171–181.
Dunn, P. K., Smyth, G. K., 1996. Randomised quantile residuals. Journal of Computational and
Graphical Statistics 5, 236–244.
Hastie, T. J., Tibshirani, R. J., 1990. Generalized Additive Models. Cambridge University Press,
Cambridge.
Lin, X., Zhang, D., 1999. Inference in generalized additive mixed models by using smoothing splines.
Journal of the Royal Statistics Society: Series B 61, 381–400.
McCulloch, C. E., 1997. Maximum likelihood algorithms for generalized linear mixed models. Jour-
nal of the American statistical Association 92, 162–170.
Nelder, J. A., Wedderburn, R. W. M., 1972. Maximum likelihood algorithms for generalized linear
mixed models. Journal of the American statistical Association 92, 162–170.
Rigby, R. A., Stasinopoulos, D. M., 2005. Generalized additive models for location, scale and shape.
Journal of the Royal Statistics Society: Series C 54 (3), 507–554.
Rigby, R. A., Stasinopoulos, D. M., Akantziliotou, C., 2004. Instructions on how to use the gamlss
package in r. Technical report 02/04, STORM Research Centre, London Metropolitan University,
London.

GAMLSS Paramétrico

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

GAMLSS Paramétrico

Enviado por

Direitos autorais:

Formatos disponíveis

Uma aplicação do modelo GAMLSS paramétrico a dados de seguro

2 Modelo aditivo generalizado para locação, escala e forma

Tabela 1: Estatı́sticas descritivas para a variável Número de diárias adicionais pagas

Estatı́stica Tipo de internação Total

Parâmetro Variável Estimativa Erro Exponencial Nı́vel

Você também pode gostar