Você está na página 1de 6

Uma aplicação do modelo GAMLSS paramétrico a dados de seguro

de saúde
Gustavo H. A. Pereira Jalmar M. F. Carrasco
Departamento de Estatı́stica, Instituto de Matemática e Estatı́stica, Universidade de São Paulo

1 Introdução
Os modelos lineares generalizados (GLM, Nelder and Wedderburn (1972)) e os modelos aditivos
generalizados (GAM, Hastie and Tibshirani (1990)) são técnicas de modelagem de regressão uni-
variada bastante utilizadas na prática. Embora sejam consideravelmente mais flexı́veis do que o
modelo de regressão linear normal, em suas versões originais eles não permitem o ajuste de variáveis
cuja distribuição não pertence à famı́lia exponencial e assumem que o parâmetro de dispersão não
varia de acordo com as variáveis preditoras.
Nos últimos anos foram propostos diversas extensões dos modelos GLM e GAM utilizando
diferentes métodos de estimação que permitem a inclusão de termos aleatórios (ver, por exemplo,
McCulloch (1997) e Lin and Zhang (1999)). No entanto, embora mais flexı́veis que os modelos
GAM e GLM, eles também assumem que a variável resposta y tem distribuição de probabilidade
que pertence à famı́lia exponencial e geralmente permitem que apenas a média µ possa ser modelada
explicitamente a partir de variáveis preditoras. Além disso, seu ajuste frequentemente depende de
métodos que requerem grande tempo computacional, em situações em que são necessários diversos
ajustes até a seleção do modelo final.
A quantidade de dados coletados requerendo análise estatı́stica vem crescendo ao longo dos anos,
permitindo o ajuste de modelos mais complexos e mais realı́sticos. Assim, Rigby and Stasinopoulos
(2005) introduziram os modelos aditivos generalizados para locação, escala e forma (GAMLSS),
para os quais não é necessário que a distribuição da variável resposta pertença à famı́lia exponencial.
Além disso, todos os parâmetros da distribuição condicional de y podem ser modelados em função
de variáveis explicativas. O modelo pode conter ainda termos paramétricos, não paramétricos e
aleatórios.
Este artigo apresenta uma aplicação de uma importante subclasse destes modelos denominada
GAMLSS paramétrico. Embora essa subclasse inclua apenas termos paramétricos fixos no modelo,
ela é uma importante extensão dos modelos lineares generalizados. Na classe de modelos GAMLSS
paramétrico, a variável resposta y pode assumir distribuições de probabilidade que não pertencem

1
à famı́lia exponencial e todos os parâmetros de y podem ser modelados em função de variáveis
explicativas.
Na Seção 2 são apresentados formalmente os modelos GAMLSS e GAMLSS paramétrico. A
Seção 3 apresenta o pacote GAMLSS do software R, que ajusta esses modelos. A Seção 4 contém
uma aplicação a dados reais de uma seguradora de saúde para os quais o modelo GAMLSS
paramétrico se ajusta melhor do que um modelo linear generalizado. A Seção 5 conclui o artigo.

2 Modelo aditivo generalizado para locação, escala e forma


Os p parâmetros θ> = (θ1 , θ2 , . . . , θp ) de um função (densidade) de probabilidade populacional
f (y|θ) são modelados aqui utilizando modelos aditivos. Especificamente o modelo assume que
que, para i = 1, 2, . . . , n, as observações yi são independentes, condicionalmente a θi , onde θi> =
(θi1 , θi2 , . . . , θip ) é um vetor com p parâmetros relacionado com variáveis explicativas e efeitos
aleatórios. Se os valores das variáveis preditoras forem estocásticos ou se yi depende de seus valores
passados, então f (y|θi ) é entendido como condicional a esses valores.
Seja y > = (y1 , y2 , . . . , yn ) um vetor de observações da variável resposta. Seja ainda, para
k = 1, 2, . . . , p, gk (.) uma conhecida função de ligação monótona relacionando θk com variáveis
preditoras e efeitos aleatórios através de um modelo aditivo dado por
Jk
X
gk (θk ) = ηk = xk β k + Zjk γjk (1)
j=1

0
onde θk e ηk são vetores de tamanho n, βkT = (β1k , β2k , . . . , βJ 0 k ) é um vetor de tamanho Jk , xk é
k
0
uma matriz de delineamento conhecida de tamanho n × Jk , Zjk é uma matriz de delineamento fixa
e conhecida e γjk é uma variável aleatória de dimensão qjk . O modelo (1) é denominado GAMLSS.
Variando Zjk e γjk , pode-se obter diversas variações de modelos contendo termos não paramétricos
e termos aleatórios. No entanto, neste artigo, o interesse é apresentar uma aplicação do modelo
GAMLSS paramétrico para o qual Jj=1
P k
Zjk γjk = 0 e que portanto é dado por

gk (θk ) = ηk = xk β k (2)

Os primeiros dois parâmetros de y no modelo (2) geralmente são caracterizados como parâmetro
de locação e escala, denotados por µ e σ. Os demais, em geral, são parâmetros de forma. Para
a maior parte das distribuições de probabilidade conhecidas, são necessários no máximo dois
parâmetros de forma ν e τ . Desta forma o modelo (2) pode ser reescrito como

g (µ) = η1 = x1 β 1

 1

 g2 (σ) = η2 = x2 β 2
(3)

 g (ν) = η3 = x3 β 3
 3
g4 (τ ) = η4 = x4 β 4

2
O modelo (2) é mais geral que o GLM, porque não exige que o a distribuição de y pertença à
famı́lia exponencial e, conforme fica mais claro em (3), todos os parâmetros de y são modelados
diretamente em função de variáveis preditoras. Os parâmetros dos modelos podem ser estimados
simultaneamente a partir do algoritmo RS (Rigby and Stasinopoulos, 2005) ou CG (Cole and Green,
1992). Esses algoritmos tem a vantagem de não necessitarem estimativas iniciais dos valores de
cada um dos parâmetros associados às variáveis preditoras. É necessário apenas estimativas iniciais
dos valores dos parâmetros originais da distribuição da variável resposta.

3 O pacote GAMLSS
O pacote GAMLSS implementado no software R (Rigby et al., 2004) permite o ajuste de diversos
modelos da classe em estudo. A função (densidade) de probabilidade populacional no modelo
(2) não possui nenhuma forma explı́cita para a variável resposta y. A única restrição é que a
implementação no pacote GAMLSS em relação à distribuição de y é que f (y|θ) e suas primeiras
derivadas com respeito a todos aos parâmetros θ existam.
No pacote GAMLSS já estão implementadas o ajuste de variáveis com várias distribuições de
probabilidade. Já foram incluı́das no pacote tanto distribuições simples, que pertencem à famı́lia
exponencial, quanto várias distribuições que envolvem 3 ou 4 parâmetros. Além disso, é possı́vel,
sem muita dificuldade, acrescentar alguma distribuição de interesse no pacote GAMLSS. Para
algumas distribuições mais de uma parametrização já está implementada.
O pacote GAMLSS permite ainda selecionar modelos a partir de procedimentos automáticos
que utilizam o critério de informação de Akaike generalizado (Akaike, 1983). O pacote fornece
também gráficos de diagnóstico utilizando resı́duos quantı́licos (Dunn and Smyth, 1996).

4 Aplicação
O banco de dados da aplicação corresponde a uma amostra de 1349 internações realizadas por uma
seguradora de saúde brasileira no perı́odo de janeiro a junho de 2007. O objetivo é estudar a relação
entre a variável resposta número de diárias de hospital pagas pela seguradora e as variáveis idade
do paciente, tipo de internação e estado da federação onde a internação foi realizada. Denotando
a variável resposta como Y , temos que Y assume valores maiores ou iguais a 1, já que, mesmo que
o paciente tenha alta no mesmo dia da internação, a seguradora tem que pagar uma diária para o
hospital. Como todas as variáveis adequadas para o ajuste de variáveis de contagem implementadas
no pacote GAMLSS do R tem suporte maior ou igual a 0, trabalharemos com a variável Z = Y − 1.
A variável Z pode ser interpretada como o número de diárias adicionais pagas pela seguradora.
Denotamos por z o vetor de valores assumidos por Z na amostra e z = (z1 , z2 , . . . , z1349 ).
A variável idade do paciente é medida em anos completos, assumindo, na amostra, valores entre
0 e 96 com média de 33 e desvio padrão de 20. Uma possı́vel função de ligação para o ajuste da
média de Z em função das variáveis preditoras é a logarı́tmica, já que a média de Z é maior que 0.

3
Estudo descritivo do log z em função da idade sugeriu que um comportamento linear de log z em
função da idade é razoável com exceção da idade 0 (recém-nascido) para a qual a média amostral
de z é bem mais alta que a dos demais pacientes jovens. Assim, além da variável idade foi inserida
no modelo uma variável indicadora que assume o valor 1 se o paciente tem 0 anos completos e 0
caso contrário. A variável tipo de internação assume os valores 1 - obstétricas (18% da amostra),
2 - eletivas (39%) e 3 - de urgência (43% da amostra) e foi inserida no modelo a partir da criação
de duas variáveis indicadoras. A variável estado da federação assume 1 se a internação foi em São
Paulo (80% da amostra) e 0 se foi em outros estados (20%).
Dentro da classe dos modelos lineares generalizados, um candidato natural para a distribuição
de Z é a distribuição de Poisson com função de ligação logarı́tmica, já que Z é uma variável de
contagem. A Tabela 1 contém estatı́sticas descritivas para a variável Z. Pode-se observar que, a
variável apresenta alta concentração de valores menores ou iguais a 2, assimetria a direita e grande
variabilidade. A tabela sugere também que o tipo de internação tem forte associação com o número
de diárias adicionais pagas pela seguradora. Ainda há forte indı́cios de que a distribuição de Poisson
não é adequada para esta variável, já que nas internações eletivas e de urgência, a variância é muito
superior à média. Pode-se notar ainda que a variância é maior nas internações eletivas do que nas
obstétricas, enquanto a média é maior nas obstétricas do que nas eletivas. Isso sugere que pode ser
necessário ajustar a variância de Z (ou mais de um parâmetro) em função das variáveis preditoras.

Tabela 1: Estatı́sticas descritivas para a variável Número de diárias adicionais pagas

Estatı́stica Tipo de internação Total


Obstétrica Eletiva Urgência
N 239,0 529,0 581,0 1349,0
Média 1,5 0,8 4,3 2,4
Variância 2,0 5,2 92,0 44,8
Desvio Padrão 1,4 2,3 9,6 6,7
Erro padrão 0,1 0,1 0,4 0,2
Mı́nimo 0,0 0,0 0,0 0,0
Primeiro quartil 1,0 0,0 0,0 0,0
Mediana 1,0 0,0 2,0 1,0
Terceiro quartil 2,0 0,0 4,0 2,0
Máximo 14,0 20,0 117,0 117,0

Como a tabela sugere que a distribuição de Poisson não é adequada, ajustou-se um modelo
utilizando a distribuição binomial negativa. Para que este modelo esteja contido na classe dos
modelos lineares generalizados, é necessário que apenas o parâmetro da média seja estimado em
função das variáveis preditoras. Ajustando-se o modelo desta forma, observou-se que o ajuste,

4
embora superior ao observado para a distribuição de Poisson, também não era satisfatório. Assim,
a classe de modelos lineares generalizados não parece ser suficiente para a obtenção de um bom
ajuste para a variável em estudo. Mesmo ajustando-se o parâmetro adicional da binomial negativa
em função das variáveis preditoras, os resı́duos quantı́licos ainda indicam um ajuste insatisfatório.
A distribuição Poisson Gaussiana Inversa (Dean et al., 1989) é uma distribuição discreta ade-
quada para dados de contagem com alta variabilidade. Sua função de probabilidade é dada por
 1 µy e1/σ K 1 (α)


2 y−2
PY (y|µ, σ) = (4)
π (ασ)y y!
1 ∞ λ−1
onde α2 = σ12 + 2µ exp{− 12 t(x + x−1 )}dx, que é a função de Bessel modificada
R
σ , Kλ (t) = 2 0 x
tipo 3, y ≥ 0, µ > 0, σ > 0, E(Y ) = µ e V ar(Y ) = µ + µ2 σ.
Ajustou-se um modelo GAMLSS paramétrico assumindo a distribuição Poisson Gaussiana In-
versa para a variável resposta, função de ligação logarı́tmica para µ e σ e tendo como variáveis
preditoras todas as discutidas anteriormente para ambos os parâmetros de Z. Gráficos dos resı́duos
quantı́licos sugerem um ajuste satisfatório com apenas um valor discrepante, que é pouco influente
em relação aos parâmetros associados a µ, que são os de interesse principal do estudo.

Tabela 2: Modelo GAMLSS paramétrico final com distribuição Poisson Gaussiana Inversa para a
variável Número de diárias adicionais

Parâmetro Variável Estimativa Erro Exponencial Nı́vel


original preditora parâmetro padrão estimativa descritivo
µ Intercepto -0,969 0,199 0,38 < 0, 0001
Idade 0,019 0,003 1,02 < 0, 0001
Idade > 0
Idade = 0 1,138 0,217 3,12 < 0, 0001
Obstétrica
Eletiva -0,946 0,146 0,39 < 0, 0001
Urgência 1,480 0,233 4,39 < 0, 0001
Outros estados
São Paulo 0,961 0,185 2,62 < 0, 0001
Urgência*SP -0,814 0,243 0,44 0,0002
σ Intercepto -2,628 0,282 0,07 < 0, 0001
Obstétrica
Eletiva 4,989 0,352 146,79 < 0, 0001
Urgência 3,773 0,300 43,51 < 0, 0001

A Tabela 2 apresenta o modelo final. Pode-se observar que todas as variáveis em estudo são

5
significantes para o parâmetro µ e apenas o tipo de internação é significante para o parâmetro σ.
Como a função de ligação para os dois parâmetros é logarı́tmica, a interpretação dos parâmetros é
mais simples a partir da exponencial das estimativas obtidas. Pode-se observar, por exemplo que,
mantidas as demais variáveis constantes, estima-se que a cada ano de idade do paciente, a média
do número de diárias pagas adicionais pela seguradora aumenta em 2%. Estima-se ainda que a
média do número de diárias pagas adicionais pela seguradora entre pacientes com internação de
urgência fora do estado de São Paulo é 4,4 vezes essa mesma média para pacientes com internação
obstétrica fora do estado de São Paulo. Já entre pacientes do estado de São Paulo esta relação é
de 1,9 (exp(1, 480 − 0, 814)).

5 Conclusão
O artigo apresentou uma aplicação a dados de seguro de saúde do modelo GAMLSS paramétrico,
subclasse dos modelos aditivos generalizados para locação, escala e forma introduzido por Rigby
and Stasinopoulos (2005). Os resultados sugerem que essa classe de modelos é uma boa alternativa
aos modelos lineares generalizados nas situações em que estes não produzem um ajuste satisfatório.

Referências
Akaike, H., 1983. Information measures and model selection. Bulletin of the International Statistical
Institute 50, 277–290.
Cole, T. J., Green, P. J., 1992. Smoothing reference centile curves: the lms method and penalized
likelihood. Statistic in Medicine 11, 1305–1319.
Dean, C., Lawless, J. F., Willmot, G. E., 1989. A mixed poisson-inverse-gaussian regression models.
Canadian Journal of Statistics 17, 171–181.
Dunn, P. K., Smyth, G. K., 1996. Randomised quantile residuals. Journal of Computational and
Graphical Statistics 5, 236–244.
Hastie, T. J., Tibshirani, R. J., 1990. Generalized Additive Models. Cambridge University Press,
Cambridge.
Lin, X., Zhang, D., 1999. Inference in generalized additive mixed models by using smoothing splines.
Journal of the Royal Statistics Society: Series B 61, 381–400.
McCulloch, C. E., 1997. Maximum likelihood algorithms for generalized linear mixed models. Jour-
nal of the American statistical Association 92, 162–170.
Nelder, J. A., Wedderburn, R. W. M., 1972. Maximum likelihood algorithms for generalized linear
mixed models. Journal of the American statistical Association 92, 162–170.
Rigby, R. A., Stasinopoulos, D. M., 2005. Generalized additive models for location, scale and shape.
Journal of the Royal Statistics Society: Series C 54 (3), 507–554.
Rigby, R. A., Stasinopoulos, D. M., Akantziliotou, C., 2004. Instructions on how to use the gamlss
package in r. Technical report 02/04, STORM Research Centre, London Metropolitan University,
London.

Você também pode gostar