Você está na página 1de 132

Estimação em Pequenas Áreas usando

Modelos Assimétricos
TESE DE DOUTORADO
por

Valmária Rocha da Silva Ferraz

Universidade Federal do Rio de Janeiro


Instituto de Matemática
Departamento de Métodos Estatísticos

2011
Valmária Rocha da Silva Ferraz

Estimação em Pequenas Áreas usando Modelos Assimétricos

Tese de Doutorado apresentada ao Programa de Pós-

graduação em Estatística do Instituto de Matemática

da Universidade Federal do Rio de Janeiro como parte

dos requisitos necessários à obtenção do título de Doutor

em Estatística.

Orientador:

Fernando Moura

Departamento de Métodos Estatísticos

Instituto de Matemática

Universidade Federal do Rio de Janeiro

Rio de Janeiro, RJ - Brasil

julho de 2011
Estimação em Pequenas Áreas usando
Modelos Assimétricos
Valmária Rocha da Silva Ferraz
Orientador: Fernando Moura

Tese submetida ao Corpo Docente do Instituto de Matemática - Departamento

de Métodos Estatísticos da Universidade Federal do Rio de Janeiro - UFRJ, como

parte dos requisitos necessários à obtenção do grau de Doutor em Estatística.

Aprovada por:

Presidente Prof. Fernando Moura

IM-UFRJ

a
Prof . Márcia Branco Prof. Cristiano Ferraz

IME-USP CCEN-UFPE

Prof. Hélio Migon Prof. Carlos Abanto Valle

IM-UFRJ IM-UFRJ

Rio de Janeiro, julho de 2011


FICHA CATALOGRÁFICA

Silva Ferraz, Valmária Rocha.

Estimação em Pequenas áreas

usando modelos assimétricos \


Valmária Rocha da Silva Ferraz.

Rio de Janeiro: UFRJ, IM, DME, 2011.

Tese - Universidade Federal do Rio de Janeiro, IM, DME.

1. Introdução. 2. Revisão de Literatura.

3. Modelo de Área para dados Assimétricos.

4. Extensão para Modelos Dinâmicos.

5. Conclusões e Trabalhos Futuros.

(Doutorado-UFRJ/IM/DME) I. Moura, F. A. S.

II. Universidade Federal do Rio de Janeiro III. Título.


Aos meus pais, Valmir

Benício e Maria de Lourdes,

e ao meu esposo Fernando

Nascimento.
Talvez não tenhamos conseguido fazer o melhor,

mas lutamos para que o melhor fosse feito. Não

somos o que deveríamos ser, não somos o que

iremos ser. . . mas Graças a Deus, não somos o que

éramos".

Martin Luther King


Agradecimentos
Agradeço em primeiro lugar a Deus pelo fôlego de vida, saúde, força e sabedoria

ao longo dessa caminhada.

Ao meu orientador, Fernando Moura, pelo incentivo, paciência, oportunidade e

conança.

Ao meu esposo, Fernando Nascimento, pelo apoio, força, amor, carinho e por

trazer ainda mais alegria à minha vida. Amo você!

À minha família maravilhosa: aos meus pais, Valmir e Maria; aos meus irmãos

Átila, Benite, Crisanto e Izamara; aos meus sobrinhos Letícia, Lara, Pedro e Izaellen;

aos meus cunhados Rafael, Jane, Elton e Roberto; e aos meus sogros Mauri e Neide.

Mesmo de longe, vocês estiveram sempre presentes.

Aos amigos da UFRJ, Marcelo, Adelmo, Marcus Vinícius, Carla, Ana Paula,

Vinícius, Fidel, Luzia, Alexandre, Luiz Ledo, Felipe, Joaquim, Mariana, Patricia,

Josiane, Thiago, Willian, Estelina, Giuseppe, Targino, Nassif, Larissa, João, Camila,

Renatinha, Carol (Jhones), Sheila e Carol (carioca). Obrigada pelas dúvidas tiradas

e pelas trocas de informações. Ir ao LPGE e encontrar pelo menos um de vocês era

sempre produtivo. Já sinto falta dos nossos cafezinhos. Agradecimento especial as

minhas irmãs de orientação Débora, Vera e Kelly. Guardarei em meu coração todos

os momentos de alegria compartilhados com todos vocês.

Aos professores do IM-DME-UFRJ, Nei, Flávia, Dani, Hélio, Alexandra, Marco

Antonio, Marina e Glauco. Só eu sei o quanto aprendi com vocês. Um agradecimento

também ao professor Carlos Abanto, por estar sempre pronto a ajudar e tirar umas

dúvidas. Muito obrigada por tudo.

Ao pessoal da secretaria: Cristiano, Claúdio, Eduardo, Davi e Rosi pelo bom

humor na prestação de serviços. Muito obrigada mesmo!

À CAPES, pelo apoio nanceiro.

Aos amigos e irmãos das Igrejas Batista Betânia do Rio e Batista Nacional de

Teresina, pelas palavras de encorajamento e pelos oceanos de orações.


Aos amigos mais chegados que irmãos, Laninha, Cleide, Ângelo, Alexandre e

Mônica e família. Obrigado por terem um par de ouvidos misericordiosos.

Quero agradecer também aos amigos e professores da UFPI, DM e DIE, dentre

eles, Paulinho, Sissy, Xavier, Aracy, Luiz Claúdio, Helder, Kelson, Keliny, Rita e

Jackélya. Agradeço especialmente a Lya Raquel pelo apoio e disponibilidade na luta

para que eu casse na UFPI. Nunca te agradecerei o suciente.

Ao amigo da república Waguim (in memory ). Um dia a gente vai se encontrar!

A todos aqueles que de alguma maneira contribuíram, ou estiveram na torcida

pela realização deste trabalho.

E que venha o futuro!


Resumo
O objetivo principal deste trabalho é propor duas importantes extensões para o

modelo de estimação em pequenas áreas no nível de área de Fay & Herriot (1979) e

uma extensão para o modelo de estimação em pequenas áreas, no nível de unidade. A

primeira extensão permite que o erro amostral seja não simetricamente distribuído.

Isso é importante para o caso em que os tamanhos das amostras das áreas não

são sucientemente grandes para se utilizar o Teorema Central do Limite (TCL).

Lida-se com isso considerando que o erro amostral segue uma distribuição normal

assimétrica. A segunda extensão propõe modelar conjuntamente os estimadores

diretos, e os estimadores de variância amostral. Procedendo desta forma, consegue-

se levar em conta todas as fontes de incertezas. Além do modelo de área, propomos

um modelo no nível de unidade, que relaxa a suposição de que os erros amostrais

sejam simetricamente distribuídos. Resultados dos estudos de simulações mostraram

a eciência da estimação em recuperar os valores verdadeiros dos parâmetros e

apontam os modelos propostos, de área e de unidade, como sendo mais adequados do

que os modelos usuais, quando a variável de interesse apresenta assimetria. Aplica-

se o modelo de área a dois conjuntos de dados reais: dados de renda e dados

educacionais. Para o modelo de unidade, aplicou-se apenas aos dados de renda.

Ajustou-se os modelos normal e normal assimétrico para ns de comparação. Este

trabalho mostra que os modelos assimétricos propostos são mais ecientes.

Palavras-Chave: Inferência Bayesiana, Distribuição Normal Assimétrica,

Pequenas Áreas e Modelos Hierárquicos.

i
Abstract
The main aim of this work is to propose two important connected extensions of

the Fay & Herriot (1979) area level small area estimation model and an extension to

the unit level small model estimation model that might be of practical and theoretical

interests. The rst extension allows for the sampling error to be non- symmetrically

distributed. This is important for the case that the sample sizes in the areas are

not large enough to rely on the Central Limit Theorem. We deal with this by

assuming that the sample error is skew-normal distributed. The second extension

proposes to jointly model the direct survey estimator and its respective variance

estimator. Proceeding in this way, we manage to take into account all sources

of uncertainties. In addition to the area model, we propose a unit level model

that relaxes the assumption that the sampling errors are symmetrically distributed.

Results from simulation studies showed the eciency recovering the true values of

the parameters and pointing the true model. We apply the model to two real data

sets: income and educational data. We applied the unit level model to the income

data only. Our studies showed that the proposed skew models are more ecient

than the usual normal models when the data are assymetric.

Keywords: Bayesian Inference, small area, hierarchical model and skew-normal.

ii
Sumário

1 Introdução 1
1.1 Revisão Bibliográca . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.3 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 Modelos de Pequenas Áreas e Distribuições Assimétricas 7


2.1 Principais Modelos de Pequenas Áreas . . . . . . . . . . . . . . . . . 7

2.1.1 Modelo no Nível de Área (Tipo A) . . . . . . . . . . . . . . . 8

2.1.2 Modelo no Nível da Unidade (Tipo B) . . . . . . . . . . . . . 9

2.2 Distribuição Normal Assimétrica . . . . . . . . . . . . . . . . . . . . . 12

2.2.1 Caso Univariado . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.2.2 Distribuição Normal Assimétrica Multivariada . . . . . . . . . 15

2.3 Critérios de comparação de Modelos . . . . . . . . . . . . . . . . . . . 17

2.3.1 Critério de Informação Bayesiano (BIC) . . . . . . . . . . . . 17

2.3.2 Critério de Informação dos Desvios (DIC) . . . . . . . . . . . 17

2.3.3 Erro Quadrático Médio Preditivo (EQMp) . . . . . . . . . . . 18

2.3.4 Erro Absoluto Médio Preditivo (EAMp) . . . . . . . . . . . . 18

2.3.5 Desvio Preditivo Esperado (EPD) . . . . . . . . . . . . . . . . 19

3 Modelo Assimétrico no Nível de Área 20


3.1 Modelo Assimétrico no Nível de Área . . . . . . . . . . . . . . . . . . 20

3.2 Modelo Conjunto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.2.1 Especicação da Distribuição a Priori para o Parâmetro de

Assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.2.2 Distribuições a Priori . . . . . . . . . . . . . . . . . . . . . . . 26

iii
3.2.3 Distribuição a Posteriori . . . . . . . . . . . . . . . . . . . . . 26

3.3 Simulação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.3.1 Simulação 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.3.2 Simulação 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.3.3 Estudo de simulação . . . . . . . . . . . . . . . . . . . . . . . 43

3.3.4 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3.4 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.4.1 Aplicação 1: Dados de Renda . . . . . . . . . . . . . . . . . . 50

3.4.2 Aplicação 2: Dados Educacionais . . . . . . . . . . . . . . . . 63

3.4.3 Conclusão das Aplicações . . . . . . . . . . . . . . . . . . . . 66

4 Modelo Assimétrico no Nível de Unidade 68


4.1 Modelo assimétrico no nível de unidade com λ comum (MNAC) . . . 69

4.2 Modelo assimétrico no nível de unidade com λi hierárquico (MNAH) . 70

4.3 Estudo de Simulação para o modelo assimétrico no nível da unidade. 71

4.3.1 Simulação 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

4.3.2 Simulação 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

4.3.3 Conclusão das Simulações . . . . . . . . . . . . . . . . . . . . 86

4.4 Aplicação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

4.4.1 Previsão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

4.5 Conclusão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

5 Conclusões e Extensões 94

Bibliograa 96

Apêndice 100

iv
Lista de Tabelas

3.1 Medidas resumo da distribuição a posteriori dos parâmetros para

simulação com dados gerados com erros NA e λ = 8. . . . . . . . . . 30

3.2 Critérios de comparação de modelos para simulação com dados

gerados com erros NA e λ = 8. . . . . . . . . . . . . . . . . . . . . . . 31

3.3 Medidas resumo da distribuição a posteriori dos parâmetros para

simulação com dados gerados com erros NA e λ = −8. . . . . . . . . 32

3.4 Critérios de comparação de modelos para simulação com dados

gerados com erros NA e λ = −8. . . . . . . . . . . . . . . . . . . . . . 38

3.5 Medidas resumo para a distribuição a posteriori dos parâmetros para

os dados simulados gerados com erro normal. . . . . . . . . . . . . . . 39

3.6 Critérios de escolha de modelos para os dados simulados gerados com

erro normal com ajustes normal e normal assimétrico. . . . . . . . . . 42

3.7 Medidas resumos das médias a posteriori dos parâmetros para as 500

amostras simuladas do modelo normal assimétrico, considerando os

ajustes normal e normal assimétrico. . . . . . . . . . . . . . . . . . . 44

3.8 Medidas resumos das médias a posteriori dos parâmetros para as

500 amostras simuladas do modelo normal, considerando os ajustes

normal e normal assimétrico. . . . . . . . . . . . . . . . . . . . . . . . 45

3.9 Medidas de ajuste para estimação pontual e intervalar das médias das

pequenas áreas para as 500 amostras simuladas dos dados gerados do

modelo normal assimétrico considerando os ajustes normal e normal

assimétrico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.10 Medidas resumo para a distribuição a posteriori dos parâmetros para

os dados de renda segundo os ajustes do modelo normal assimétrico

e normal para amostra de 5%. . . . . . . . . . . . . . . . . . . . . . . 54

v
3.11 Medidas resumo para a distribuição a posteriori dos parâmetros para

os dados de renda segundo ajuste do modelo normal assimétrico e do

modelo normal para amostras de 10%. . . . . . . . . . . . . . . . . . 55

3.12 Critérios de escolha de modelos para ajustes dos dados de renda nas

amostras de 5% e 10%. . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.13 Medidas resumo para a distribuição a posteriori dos parâmetros para

os dados educacionais segundo ajustes normal e normal assimétrico. . 64

3.14 Critérios de escolha de modelos para aplicação dos dados educacionais. 64

4.1 Medidas resumo dos parâmetros da simulação para os dados

assimétricos no nível da unidade com λ comum a todas as áreas. . . . 73

4.2 Medidas resumo dos parâmetros da simulação para os dados

assimétricos de unidade com λi hierárquico. . . . . . . . . . . . . . . 79

4.3 Medidas de ajuste para dados gerados do modelo assimétrico com λ


comum e λi hierárquico, considerando os ajustes assimétrico e normal. 84

4.4 Medidas resumo para a distribuição a posteriori dos parâmetros para

os dados de renda segundo os ajustes do modelo normal, NAC e NAH

para amostra de 10%. . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

4.5 Critérios de escolha de modelos para aplicação dos dados de renda

com amostra de 10%. . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

vi
Lista de Figuras

2.1 Densidades normais assimétricas. . . . . . . . . . . . . . . . . . . . . 14

3.1 Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2 ,


σν2 e λ para dados simulados com parâmetro λ = 8 com intervalo

de 95% de credibilidade considerando ajuste normal assimétrico. A

linha vertical cheia representa o valor verdadeiro e as linhas verticais

tracejadas os quantis 2,5% e 97,5% . . . . . . . . . . . . . . . . . . . 33

3.2 Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2 e

σν2 para dados simulados com parâmetro λ = 8 e intervalo de 95%

de credibilidade considerando ajuste normal. A linha vertical cheia

representa o valor verdadeiro e as linhas verticais tracejadas os quantis

2,5% e 97,5%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.3 Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2 ,


σν2 e λ para dados simulados com parâmetro λ = −8 com intervalo

de 95% de credibilidade considerando ajuste normal assimétrico. A

linha vertical cheia representa o valor verdadeiro e as linhas verticais

tracejadas os quantis 2,5% e 97,5%. . . . . . . . . . . . . . . . . . . . 35

3.4 Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2 e

σν2 para dados simulados com parâmetro λ = −8 com intervalo de

95% de credibilidade considerando ajuste normal. A linha vertical

cheia representa o valor verdadeiro e as linhas verticais tracejadas os

quantis 2,5% e 97,5%. . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.5 Intervalo de Credibilidade de 95% para os µi obtidos da simulação

com erros NA. A barra vertical (|) representa o intervalo de 95% de

credibilidade, o traço (-) representa a média a posteriori e o asterisco

(∗) representa o valor verdadeiro. . . . . . . . . . . . . . . . . . . . . 37

vii
3.6 Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2 , σν2
e λ para os dados gerados com erro normal, considerando ajuste NA

e intervalo de 95% de credibilidade. A linha vertical cheia representa

o valor verdadeiro e as linhas verticais pontilhadas os quantis 2,5% e

97,5% . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.7 Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2


2
e σν para ajuste normal, com os dados gerados com erro normal e

intervalo de 95% de credibilidade. A linha vertical cheia representa

o valor verdadeiro e as linhas verticais pontilhadas os quantis 2,5% e

97,5% . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.8 Razão do Erro Quadrático Médio (REQM) e Razão do Erro Absoluto

Médio (REAM) para as médias das pequenas áreas sob o ajuste

normal e normal assimétrico. . . . . . . . . . . . . . . . . . . . . . . . 46

3.9 Medidas de ajustes MEQMp, MEAMp, Cobertura média e

comprimento médio para as 500 amostras simuladas do modelo

normal assimétrico para as 140 pequenas áreas. . . . . . . . . . . . . 48

3.10 Densidade da distribuição a posteriori dos parâmetros β0 , β1 , β2 ,


σν2 e λ para aplicação com dados de renda com amostra de 5%,

considerando os ajustes Normal Assimétrico (NA) e Normal (N). . . . 52

3.11 Densidade da distribuição a posteriori dos parâmetros β0 , β1 , β2 ,


σν2 e λ para aplicação com dados de renda com amostra de 10%,

considerando o ajuste Normal Assimétrico (NA) e Normal (N). . . . . 53

3.12 Boxplots das Conditional Predictive Ordinates (CPOs) para os

modelos normal e normal assimétrico, plotados para as amostras de

5% e 10%. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

3.13 Intervalo de credibilidade de 95% para dados de renda. As barras

verticais representam os intervalos de credibilidade de 95% e “•” é

o valor verdadeiro da média versus o valor predito. . . . . . . . . . . 59

3.14 Diferença entre a estimativa do ajuste normal assimétrico e normal,


(N A) (N )
ηyi = µ̂i − µ̂i para dados de renda. . . . . . . . . . . . . . . . . 60

3.15 Comparação dos dois ajustes: valor amostral ȳi versus sua estimativa

ȳˆi para dados de renda. . . . . . . . . . . . . . . . . . . . . . . . . . . 62

viii
3.16 Densidade da distribuição a posteriori dos parâmetros β0 , β1 , σν2 e

λ para aplicação com dados de educacionais considerando os ajustes

Normal Assimétrico (NA) e Normal (N). . . . . . . . . . . . . . . . . 65

3.17 Comparação dos dois ajustes para aplicação com dados educacionais:

valor amostral ȳi versus estimativas ȳˆi . . . . . . . . . . . . . . . . . . 66

4.1 Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2 , σν2


e λ = −1 com intervalo de 95% de credibilidade, para simulação com

dados assimétricos no nível da unidade com ajuste NAC. . . . . . . . 74

4.2 Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2 , σν2 ,


e λ=0 com intervalo de 95% de credibilidade, para simulação com

dados assimétricos no nível da unidade com ajuste NAC. . . . . . . . 75

4.3 Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2 , σν2


e λ=5 com intervalo de 95% de credibilidade, para simulação com

dados assimétricos no nível da unidade com ajuste NAC. . . . . . . . 76

4.4 Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2 , σν2


e λ = 10 com intervalo de 95% de credibilidade, para simulação com

dados assimétricos no nível da unidade com ajuste NAC. . . . . . . . 77


2
4.5 Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2 , σν ,

σλ2 e λ = −1 com intervalo de 95% de credibilidade, para simulação


com dados assimétricos no nível da unidade com ajuste NAH. . . . . 80

4.6 Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2 ,


σν2 , σλ2 e λ = 0 com intervalo de 95% de credibilidade, para simulação

com dados assimétricos no nível da unidade com ajuste NAH. . . . . 81

4.7 Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2 ,


σν2 , σλ2 e λ = 5 com intervalo de 95% de credibilidade, para simulação

com dados assimétricos no nível da unidade com ajuste NAH. . . . . 82

4.8 Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2 , σν2 ,


σλ2 e λ = 10 com intervalo de 95% de credibilidade, para simulação

com dados assimétricos no nível da unidade com ajuste NAH. . . . . 83

ix
4.9 Intervalos de Credibilidade de 95% para µi em quatro pequenas áreas

do estudo de simulação 2 com dados gerados do modelo NAH com λ=


5. A barra vertical (|) representa o intervalo de 95% de credibilidade,

o traço (-) representa a média a posteriori e o asterisco (∗) representa

o valor verdadeiro. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

4.10 Intervalo de Credibilidade de 95% para as médias de cada pequena

área obtidos nos ajustes Normal, NAC e NAH. A barra vertical (|)

representa o intervalo de 95% de credibilidade, o traço (-) representa

a média a posteriori e o asterisco (∗) representa o valor verdadeiro. . 91

4.11 Boxplot das diferenças relativas entre as médias das estimativas a

posteriori e os verdadeiros valores das médias. . . . . . . . . . . . . . 92

4.12 Boxplot dos coecientes de variação baseado na amostra, no modelo

normal, NAC e NAH. . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

x
Capítulo 1

Introdução

A demanda por informações estatísticas no nível de pequenas áreas geográcas,

tais como municípios, distritos ou mesmo bairros tem apresentado um crescimento

considerável nos últimos anos. Este crescimento tem sido motivado, por um lado pela

legislação vigente, que dene a distribuição de verbas federais a partir de critérios

populacionais, e por outro lado pela necessidade das autoridades locais em obter

um quadro preciso e atualizado da sua área de jurisdição. Os governos estaduais e

federal também necessitam de informações geográcas mais desagregadas, a m de

identicar sub-regiões menos desenvolvidas, auxiliando na elaboração de planos de

desenvolvimento regionais, o que pode acarretar em tamanho de amostras pequeno,

dentro de cada domínio. Outras vezes, interessa-se em obter informações em

subestratos de uma população (por exemplo, informações da renda familiar média

abaixo de um certo limite), o que também pode apresentar tamanhos de amostras

pequenos dentro de cada domínio.

Deste modo, muitas vezes, os domínios (sub-regiões) são demasiadamente

pequenos, levando ao mesmo problema de tamanhos de amostras pequenos. O

pequeno tamanho da amostra pode ser atribuído ao custo de coletar os dados, às

diculdades operacionais da pesquisa, ou até mesmo à necessidade não antecipada

da informação, no momento em que a pesquisa foi planejada. Estes cenários

estabelecem problemas estatísticos, típicos daqueles estudados em estimação em


pequenas áreas. Neste contexto, a estimação de uma característica de interesse

nessas pequenas áreas é obtida a partir de informações em outras áreas consideradas

1
2

similares à área em questão e/ou informações obtidas em ocasiões anteriores.

Abordagens baseadas em modelos são amplamente empregadas na estimação em

pequenas áreas. Eles emprestam informações dos dados disponíveis em todos os

domínios (áreas). Estes tipos de modelos utilizam variáveis auxiliares que estão

disponíveis em registros administrativos, censos, etc. O tipo do modelo empregado

depende do nível em que ambas as variáveis, resposta e auxiliares, estão disponíveis.

Tradicionalmente, na estimação em pequenas áreas, por meio de modelos, têm-se

assumido que os erros aleatórios sejam independentes e identicamente distribuídos,

provenientes de alguma distribuição simétrica em torno de zero, sendo a principal

delas a distribuição normal. Os principais modelos utilizados em pequenas áreas

são os modelos no nível de área e no nível de unidade. No modelo no nível de área,

apenas uma medida é utilizada para representar toda a área, como por exemplo o

estimador direto da média. No modelo no nível de unidade é necessário conhecer os

valores da característica de interesse para cada unidade pertencente à amostra.

Neste trabalho, propõe-se modelos para pequenas áreas em que a distribuição dos

erros segue uma distribuição assimétrica. Azzalini (1985) propõe uma maneira de

obter classes de distribuições assimétricas, cuja função densidade de probabilidade

(f.d.p) da classe resultante é o produto de uma f.d.p simétrica em torno de zero,

por uma função de distribuição acumulada (f.d.a), na qual a derivada também é

simétrica em torno de zero, sendo o argumento desta f.d.a multiplicado por um

parâmetro que controla a assimetria da distribuição resultante. Aqui, concentra-se

na distribuição normal assimétrica dos erros amostrais do modelo, que tem como

caso particular a distribuição normal quando o parâmetro que controla assimetria é

igual a zero.

Além disso, em pequenas áreas é comum assumir que as variâncias dos erros

amostrais são conhecidas. Essa suposição parece pouco realista, e por isso,

neste trabalho, as variâncias são tratadas no modelo proposto como quantidades

desconhecidas a serem estimadas conjuntamente com os outros parâmetros do

modelo.

Neste capítulo, faz-se uma revisão da literatura de estimação em pequenas áreas.

Apresenta-se, também, duas seções com os objetivos e a organização deste trabalho.


3

1.1 Revisão Bibliográca


Na literatura, vários métodos têm sido propostos e empregados com a nalidade

de fornecer estimativas em pequenas áreas. Muitos destes métodos envolvem o

uso de informações auxiliares provenientes de um censo ou registro administrativo,

combinado com informações das pequenas áreas obtidas através de uma amostra

de unidades populacionais. Esta combinação se dá por meio de um modelo

explicitamente assumido. Nesta abordagem, a variável de interesse (dependente)

é usualmente obtida através de uma amostra, e os previsores são um conjunto de

variáveis auxiliares disponíveis para todas as unidades da população, no nível de área

(modelo de área) ou no nível da unidade (modelo de unidade). Cada observação pode

ser modelada por um preditor linear mais um erro. Assumem-se, frequentemente,

que os erros são normalmente distribuídos com médias iguais a zero e variâncias

iguais para todas as áreas. O vetor de parâmetros do preditor linear é estimado

através do método dos mínimos quadrados, utilizando-se a informação amostral de

todas as pequenas áreas.

Estudos empíricos mostram que os estimadores de regressão captam pouca

variação entre as pequenas áreas e, consequentemente, as estimativas obtidas são

consideravelmente concentradas em torno de um valor médio de previsão. Outras

metodologias utilizam modelos de componentes de variância, a m de permitir

alguma variação entre as pequenas áreas que não possam ser atribuídas a diferenças

entre valores das variáveis auxiliares. Battese & Fuller (1981) e Battese, Harter &

Fuller (1988), propõem o modelo do intercepto aleatório para estimar a média de

uma característica de interesse em cada pequena área. O modelo apresentado em

Battese & Fuller (1981) assume duas componentes de erro; a primeira componente

com variâncias iguais para todas as áreas e a outra com uma variância especíca

para cada área. Neste modelo, assume-se que a fração de amostragem é desprezível.

Modelos no nível da unidade não são muito utilizados porque os dados nem

sempre estão disponíveis no nível mais desagregado. Na prática, modelos no

nível de área são mais utilizados. Os procedimentos utilizados em ambos os

modelos abrangem uma variedade de métodos utilizados para obter estimativas para

áreas geográcas ou domínios de estudo, nos quais os tamanhos das amostras são

demasiadamente pequenos para fornecerem estimativas diretas conáveis.


4

Um modelo de área muito utilizado é o modelo de Fay-Herriot (Fay & Herriot,

1979), que envolve tanto os erros relacionados ao desenho amostral quanto os erros

relacionados ao modelo.

Moura & Holt (1999) propuseram um modelo de dois níveis, com o objetivo

de fornecer estimativas de pequenas áreas, utilizando dados a partir de pesquisas

por amostragem. Este modelo constitui-se numa extensão do modelo de Battese

& Fuller (1981). O uso de modelos de múltiplos níveis é justicado pelo fato de

permitirem a variação entre as áreas a partir de: i) diferenças na distribuição das

variáveis no nível das unidades; ii) diferenças na distribuição das variáveis no nível

das áreas; e iii) a inclusão de componentes de variância especíca de cada área, para

acomodarem variações locais que não possam ser explicadas por covariáveis nos

níveis de unidade e de área. Qualquer um dos parâmetros de regressão do modelo

(em vez de apenas o intercepto, como proposto por Battese & Fuller, 1981), podem

variar aleatoriamente em relação às pequenas áreas. Moura (1994) apresenta um

estudo detalhado utilizando os dados do Censo Experimental de Limeira (1988), no

qual mostra que tais modelos são adequados para realizarem previsões no nível de

pequenas áreas. Neste estudo, as pequenas áreas foram consideradas como sendo os

setores censitários.

Uma aplicação comum para levar em conta possíveis efeitos de amostragem

é ponderar as medidas amostrais por pesos amostrais, denidos como o inverso

das probabilidades de seleção (veja Pfeermann, 2002, p. 137). Prasad & Rao

(1999) propuseram um modelo no nível de unidade considerando que não existe

variação entre as médias das pequenas áreas e com efeitos xos e aleatórios, supondo

normalidade para os dois efeitos. O estimador da média da pequena área é obtido

por meio deste modelo e, além disso, é proposto que sejam substituídas as médias

por médias ponderadas.

Outras aplicações na literatura reportam ao uso de modelos hierárquicos

bayesianos para estimação em pequenas áreas. You & Rao (2000) propõem uma

extensão do modelo de Moura & Holt (1999), assumindo uma hierarquia para o

parâmetro de precisão do modelo. Desta forma, a incerteza associada aos parâmetros

nos vários níveis do modelo é levada em conta.

Moura & Migon (2002) propõem um modelo logito hierárquico para previsão

de proporções em pequenas áreas, levando em consideração os possíveis efeitos de


5

heterogeneidade espacial e não estruturada.

Uma abordagem usual na estimação em pequenas áreas é obter uma estimativa

suavizada da variância amostral e, em seguida, tratá-la como conhecida no modelo.

Veja Dick (2007) para mais detalhes. Uma abordagem alternativa pode ser

encontrada em Arora & Lahiri (1997) e You & Chapman (2006). Seus trabalhos

propõem incorporar a incerteza nas estimativas da variância amostral, modelando-

as. You & Chapman (2006), também propuseram que no modelo de Fay-Herriot

as variâncias dos erros de amostragem sejam estimadas individualmente, através de

estimadores diretos. Neste caso, é suposto que as variâncias sejam desconhecidas e

estimadas por estimadores não viesados, como a variância amostral. Foi assumido

também que os estimadores dessas variâncias são condicionalmente independentes

dos estimadores direto da variável de interesse, e que tem a distribuição amostral

dada pela densidade da distribuição qui-quadrado com (ni − 1) graus de liberdade,

onde ni é o tamanho da amostra na i-ésima área.

Arellano-Valle, Bolfarine & Lachos (2007) desenvolveram um modelo normal

assimétrico para regressão mista com variáveis dependentes, mostrando que há um

ganho signicativo em relaxar a suposição de normalidade dos erros xos e aleatórios.

O custo seria a utilização de técnicas de otimização em softwares estatísticos já

existentes.

Neste trabalho, propõe-se duas extensões para o modelo de Fay-Herriot,

considerando uma distribuição não simétrica para os erros amostrais, e outra

considerando que as variâncias dos erros amostrais sejam desconhecidas e estimadas

conjuntamente com os outros parâmetros do modelo. Essa proposta abrange

situações em que os dados são moderadamente assimétricos.

1.2 Objetivos
O objetivo principal deste trabalho é propor duas importantes extensões do modelo

de Fay-Herriot e uma extensão para o modelo de unidade. A primeira extensão

permite que os erros amostrais não sejam simetricamente distribuídos. Dentre

as várias distribuições assimétricas, optou-se por utilizar a distribuição normal

assimétrica para modelar os erros. A segunda extensão consiste em retirar a


6

suposição de que as variâncias dos erros amostrais sejam conhecidas e estimá-

las conjuntamente com os outros parâmetros do modelo, a partir de um enfoque

bayesiano hierárquico. A extensão do modelo de unidade consiste em relaxar a

suposição de que os erros sejam simetricamente distribuídos. Optou-se, também,

pela distribuição normal assimétrica.

1.3 Organização do Trabalho


Este trabalho organiza-se da forma descrita a seguir. No Capítulo 2, apresenta-

se os principais modelos de pequenas áreas, segundo Rao (2003): i) modelo no

nível de área, ii) modelo no nível da unidade. Ainda nesse capítulo, apresenta-se a

distribuição normal assimétrica e suas principais propriedades e se mostra, também,

as medidas de ajustes que foram utilizadas para comparar os modelos.

No Capítulo 3, expõe-se o modelo proposto no nível de área, mostrando como foi

feita a estimação dos parâmetros e simulações que comprovam a eciência do modelo

proposto. Na Seção 3.4, duas aplicações com dados reais são apresentadas, uma

utilizando dados de renda e outra de dados educacionais de escolas do Rio de Janeiro.

No Capítulo 4, propõe-se um modelo no nível da unidade com erro assimétrico sob

duas abordagens: uma considerando o mesmo parâmetro de assimetria para todas

as áreas e outra considerando assimetria diferente para as áreas. Apresenta-se, na

Seção 4.3, um estudo de simulação e na Seção 4.4 uma aplicação. Por m, no

Capítulo 5, são apresentadas as conclusões e extensões deste trabalho.


Capítulo 2

Modelos de Pequenas Áreas e


Distribuições Assimétricas

Abordagens baseadas em modelos estatísticos são recomendadas para o problema de

estimação em pequenas áreas. Neste capítulo, descreve-se os principais modelos de

pequenas áreas, incluindo o modelo de Fay-Herriot e suas limitações. Apresenta-

se a distribuição normal assimétrica univariada, multivariada, e suas principais

propriedades. Descreve-se, também, alguns critérios de comparação de modelos

utilizados.

2.1 Principais Modelos de Pequenas Áreas


Abordagens baseadas em modelos são amplamente utilizadas em estimação em

pequenas áreas. Seguindo a terminologia de Rao (2003), pode-se classicar os

modelos de pequenas áreas em dois tipos: modelo no nível de área (Tipo A) e

modelo no nível da unidade (Tipo B).

7
8

2.1.1 Modelo no Nível de Área (Tipo A)


Empregando a notação encontrada em Rao (2003), seja θi = g(µi ), onde µi é a média
populacional da pequena área i, para alguma função g(·) conhecida, relacionada ao
0
vetor de variáveis auxiliares zi = (z1i , . . . , zpi ) , para uma área especíca i, por meio

do modelo linear

0
θi = zi β + vi , i = 1, . . . , M, (2.1)

0
onde β = (β1 , . . . , βp ) é um vetor p×1 de coecientes de regressão. Além disso,

os vi 's são efeitos aleatórios independentes e identicamente distribuídos (iid), com

Em (vi ) = 0 e Vm (vi ) = σv2 , onde Em e Vm


denotam respectivamente a esperança
iid 2
e a variância sob o modelo. Frequentemente, assume-se que vi ∼ N (0, σv ), ∀i =

1, . . . , M .
Em algumas aplicações, nem todas as áreas são selecionadas na amostra.

Suponha que se tenha M áreas na população e somente m áreas são selecionadas.

Considera-se que as áreas amostradas também obedecem o modelo populacional.

Para fazer inferência sobre as médias das pequenas áreas sobre o modelo (2.1),

assume-se que os estimadores diretos de µi estejam disponíveis para as m áreas

amostradas. Assim, temos

θ̂i = g(µ̂i ) = θi + ei , i = 1, . . . , m, (2.2)

onde os erros amostrais ei são independentes, com

E(ei | θi ) = 0, V (ei | θi ) = ψi2 . (2.3)

É comum supor que as variâncias, ψi2 , sejam conhecidas. Esta suposição pode ser

completamente restrita em algumas aplicações. Por exemplo, o estimador direto θ̂i


pode ser viesado para θi , sob o plano amostral empregado, se g(·) é uma função não
linear e o tamanho da amostra ni da i-ésima área é pequeno. Raramente as variâncias

ψi2 são conhecidas, e uma forma de lidar com o fato é suavizar as variâncias estimadas
ψ̂i2 , de modo a obter maior estabilidade para ψi2 , e tratá-las como verdadeiras.

Combinando (2.1) com (2.2), tem-se:

0
θ̂i = zi β + vi + ei i = 1, . . . , m. (2.4)
9

Note que (2.4) envolve tanto os erros do desenho amostral ei quanto os erros do

efeito aleatório vi . Os erros ei e vi são considerados independentes. O modelo (2.4)

é um caso especial de um modelo linear misto.

A suposição de que Ep (ei | θi ) = 0 no modelo (2.2) nem sempre é válida, por

exemplo, se o estimador direto do desenho é viciado. Neste caso, pode-se propor o

seguinte modelo:

θ̂i∗ = θ̂i + e∗i , i = 1, . . . , m, (2.5)

com E(e∗i | θ̂i ) = 0, isto é, θ̂i∗ é não viciado. Vale a pena ressaltar que, neste caso,

os modelos amostrais e de ligação não são iguais. Pode-se combinar (2.5) com o

modelo de ligação (2.1) para produzir um modelo linear misto da forma (2.4).

Modelos do Tipo A são bastante utilizados na prática, por exemplo, para estimar

a renda, grau de escolaridade de crianças pobres numa região, etc. Esses modelos

também têm sido utilizados no contexto de mapeamento de doenças, estimando

taxas de incidência e de mortalidade regional.

A maioria dos modelos de nível de área são inspirados no modelo Fay-Herriot.

Fay & Herriot (1979) estimaram a renda per capita em pequenas áreas nos EUA

com população menor que 1000 habitantes, utilizando como variável resposta à

média amostral. Foi suposto que as variâncias ψi2 são conhecidas, assumindo que o
0
vetor de dimensão-k das variáveis zi = (zi1 , zi2 , . . . , zik ) relaciona-se com as médias
0
µi em cada área i, e que µi 's são independentes com distribuição N (zi β, σv2 ), onde

β é um vetor de k parâmetros desconhecidos. O modelo pode ser escrito como:

θ̂i = θi + ei
θi = µi + vi , (2.6)

onde: θ̂i é o estimador direto (ou uma função dele) da verdadeira média populacional
iid iid
da pequena área i, θi ; vi ∼ N (0, σv2 ) e ei ∼ N (0, σi2 /ni ).

2.1.2 Modelo no Nível da Unidade (Tipo B)


Outro tipo de modelo para estimação em pequenas áreas, abordado em Rao (2003),
0
é o modelo no nível da unidade. Seja xij = (xij1 , . . . , xijp ) os dados auxiliares
10

disponíveis para cada elemento populacional j na i-ésima área. Além disso, a variável

de interesse, yij , está relacionada com xij através de um modelo de regressão linear

misto:

0
yij = xij β + vi + eij ; j = 1, . . . , Ni , i = 1, . . . , m. (2.7)

Também é assumido que os efeitos de uma área especíca vi são iid com

Em (vi ) = 0 e Vm (vi ) = σv2 , eij = kij ẽij onde kij são constantes xas e ẽij são

variáveis aleatórias iid e independentes dos vi 's. Além disso, é suposto que:

Em (ẽij ) = 0; Vm (ẽij ) = σe2 .

Frequentemente, são assumidos que os ẽij e os vi são normalmente distribuídos. Os

parâmetros de interesse são geralmente as médias das pequenas áreas ou os totais.

Rao (2003) também assume que uma amostra de tamanho ni é selecionada de

Ni unidades na i-ésima área (i = 1, . . . , m), e que os valores amostrais também

satisfazem ao modelo (2.7). A última suposição é satisfeita sob amostragem aleatória

simples de cada área, ou mais geralmente para desenhos amostrais que usam as

informações auxiliares xij na seleção da amostra. Com efeito, escrevendo-se (2.7)

na forma matricial:

yiP = XPi β + vi 1Pi + ePi , i = 1, . . . , m, (2.8)

0
onde XPi é Ni × p, yiP , 1Pi e ePi são vetores Ni × 1 e 1Pi = (1, . . . , 1) . Particiona-se

(2.8) em duas partes, a parte amostrada e a parte não amostrada:

       
yi Xi 1i ei
yiP =  =  β + vi  + , (2.9)
yi∗ X∗i 1∗i e∗i

onde o subescrito (∗) denota as unidades não amostradas. Se o modelo é válido para

a amostra, então a inferência sobre Θ = (β 0 , σv2 , σe2 )0 é baseada em:

Z
f (yi |XPi , Θ) = f (yi , yi∗ |XPi , Θ)dyi∗ , i = 1, . . . , m, (2.10)

onde f (yi , yi∗ |XPi , Θ) é a distribuição conjunta de yi e yi∗ . Por outro lado, sendo
0
ai = (aij , . . . , aiNi ) com aij = 1 se j pertence a amostra, e aij = 0 caso contrário, a
11

distribuição dos dados amostrais (yi , ai ) é dada por


Z
f (yi , ai |XPi , Θ) = f (yi , yi∗ |XPi , Θ)f (ai |yi , yi∗ , XPi )dyi∗
Z
= [f (ai |XPi )]f (yi , yi∗ |XPi , Θ)dyi∗ ,

com f (ai |yi , yi∗ , XPi ) = f (ai |XPi ), isto é, a probabilidade da amostra selecionada
P
não depende de yi , mas pode depender de XPi (uso de planos amostrais não

informativos). Neste caso, não existe viés na seleção, e pode-se assumir que os

valores da amostra também obedecem ao modelo, isto é, usa-se f (yi |XPi , Θ) para se
fazer inferência sobre Θ (Smith, 1983).

Se a amostra selecionada depende de uma variável auxiliar, digamos zPi , que não
está incluída em XPi , então a distribuição dos dados amostrais (yi , ai ) é
Z
f (yi , ai |XPi , zPi , Θ) = [f (ai |zPi , XPi )]f (yi , yi∗ |XPi , zPi , Θ)dyi∗ .

A inferência sobre Θ é baseada em f (yi |XPi , zPi , Θ), que é diferente de (2.10) a menos
que zPi seja independente de yiP dado XPi . Neste caso, não se pode assumir que o

modelo (2.8) seja válido para os valores amostrais. Pode-se estender o modelo (2.8)

através da inclusão de zPi , e então fazer um teste de signicância para os coecientes


de regressão associados usando os dados amostrais. Se a hipótese nula for rejeitada,

então, assume-se que o modelo original (2.8) também é válido para os valores da

amostra (Skinner, 1994).

O modelo (2.8) não é apropriado sob amostragem de conglomerado em

dois estágios nas pequenas áreas, porque os efeitos de conglomeração não são

incorporados neste modelo.

Battese & Fuller (1981) e Battese et al. (1988) propõem o modelo (2.7) para

estimar a média da produção de soja por segmento para 12 pequenas áreas do

estado americano de Iowa, usando como variável auxiliar dados obtidos por satélite,

juntamente com dados obtidos através de uma amostra.

Para estimar as médias da variável resposta, escreve-se Ȳi como:

Ȳi = fi ȳi + (1 − fi )Ȳi∗ (2.11)

onde fi = ni /Ni e ȳi , Ȳi∗ denotam respectivamente as médias dos elementos

amostrados e não amostrados. Segue, por (2.11) que a estimação da média da

pequena área Ȳi é equivalente a predizer a variável aleatória Ȳi∗ sob o modelo (2.7).
12

Se a população de tamanho Ni for grande, então as médias das pequenas áreas

podem ser obtidas por:

0
Ȳi = X̄i β + vi (2.12)

0
note que Ȳi = X̄i β + vi + Ēi e Ēi ≈ 0, onde Ēi é a média dos Ni erros eij e X̄i é a
P
média conhecida dos X̄i .

Os modelos descritos acima não são adequeados para dados assimétricos. Tem-

se observado que o comportamento dos dados nem sempre possui uma forma

simétrica. Isso motivou alguns pesquisadores a estudarem distribuições cujas

densidades possuem formas assimétricas. Estudos mostram que, por exemplo, dados

de renda são assimétricos, e possuem caudas pesadas em alguns casos. Por isso,

propõe-se uma modelagem de pequenas áreas, permitindo que a distribuição dos

erros possam seguir uma distribuição assimétrica.

2.2 Distribuição Normal Assimétrica


Obter uma classe de distribuições paramétricas que apresente uma transição

contínua da normalidade para a não normalidade foi a grande motivação para a

proposta da distribuição normal assimétrica, para modelar os erros amostrais.

Muitas famílias de f.d.p (função densidade de probabilidade) têm a distribuição

normal como caso limite, como a distribuição t de Student com ν graus de liberdade,

quando ν → ∞. Entretanto, existem poucas classes de distribuições paramétricas

que incluem a normal como um de seus membros e não apenas como um caso limite.

Dentre as classes que incluem propriamente a normal, algumas possuem expressões

mais estruturadas para a f.d.p e outras são obtidas de modo articial.

Azzalini (1985) dene uma família de distribuições paramétricas e tratável

matematicamente que inclui, propriamente, a distribuição normal padrão, porém

com um parâmetro extra que permite controlar a assimetria da distribuição. Os

membros desta família recebem o nome de normal assimétrica. Vê-se, ainda, que

esta família permite uma transição contínua da normalidade para a não normalidade

através da variação de um único parâmetro. Em Azzalini (1986) são apresentadas

novas propriedades da distribuição normal assimétrica.


13

Azzalini & Valle (1996) denem uma família paramétrica multivariada como

extensão dos resultados obtidos em Azzalini (1986), na qual as f.d.p marginais

são normais assimétricas. Aqui, como no caso univariado, essa família inclui a

distribuição normal simétrica multivariada como um caso particular.

Apresenta-se a distribuição normal assimétrica univariada e suas propriedades

na subseção 2.2.1 e na subseção 2.2.2 apresenta-se a distribuição normal assimétrica

multivariada.

2.2.1 Caso Univariado


O ponto de partida desta seção para modelagem de estimação em pequenas áreas

para dados assimétricos é dado pelo lema, apresentado em Azzalini (1985).

Lema 2.2.1 Seja f uma f.d.p simétrica em torno de 0, e G uma f.d.a (função de

distribuição acumulada) absolutamente contínua, tal que a derivada de G, g ≡ G0 é

simétrica em torno de 0. Então,

2f (x)G(λx), x∈R

é uma f.d.p para qualquer número real λ.

A partir do Lema 2.2.1, pode-se propor uma innidade de distribuições

assimétricas, mas a escolha mais usual é trabalhar com f.d.p e f.d.a que sejam

mais conhecidas. A primeira escolha é trabalhar com f e G, sendo a f.d.p e f.d.a

de uma variável aleatória normal padrão, respectivamente. A seguir, dene-se a

distribuição normal assimétrica, assim como algumas propriedades. Para maiores

detalhes, consultar Genton (2004).

Denição 2.2.2 Se uma variável aleatória X tem f.d.p dada por


   
1 x−µ x−µ
φ(x | µ, σ, λ) = 2 φ Φ λ , x∈R
σ σ σ
onde φ e Φ são a f.d.p e a f.d.a de uma variável aleatória normal padrão,

respectivamente. Então, diz-se que X tem distribuição normal assimétrica (N A),

com parâmetros µ (posição), σ (escala) e λ (forma). Para simplicar, denota-se por

X ∼ N A(µ, σ, λ) e no caso µ=0 e σ=1 por X ∼ N A(λ).


14

O comportamento da distribuição normal assimétrica, N A(λ), para diferentes

valores do parâmetro de forma λ com posição µ = 0 e σ = 1 xos, é mostrado

na Figura 2.1. Note que a medida que o parâmetro λ cresce, a assimetria também

cresce. Para valores negativos de λ as curvas são assimetricamente deslocadas para

a esquerda.

Figura 2.1: Densidades normais assimétricas.

Algumas propriedades da classe de distribuições normais assimétricas são

descritas abaixo.

1. A densidade N A(0) é a densidade N (0, 1).

2. Quando λ → ∞, φ(x|λ) converge para uma distribuição normal truncada em

0, N TR+ (0, 1). Se λ → −∞, φ(x|λ) converge para uma distribuição normal

truncada em 0, N TR− (0, 1).

3. Se X ∼ N A(λ), então X 2 ∼ χ21 , onde χ2n é uma distribuição Qui-quadrada com


n graus de liberdade. Como a distribuição X2 não depende de λ, os momentos
pares de X são iguais aos momentos pares da distribuição normal padrão.
15

4. Se X ∼ N A(λ), então µ + σX ∼ N A(µ, σ, λ).

5. Se X é uma variável aleatória N (0, 1), então


E(Φ(hX + k)) = Φ(k/ 1 + h2 )

∀ h, k ∈ R. Assim, a função geradora de momentos da distribuição normal

assimétrica, N A(µ, σ, λ) é dada por

(t − µ)2
   
λ(t − µ)
Ψ(t) = 2 exp Φ √ .
2σ 2 σ 1 + λ2
Este resultado é importante para o cálculo dos momentos ímpares de X.

6. Se X ∼ N A(µ, σ, λ), então

r
λσ 2
E(X|µ, σ, λ) = µ+ √ (2.13)
1 + λ2 π
λ2
 
2 2
V ar(X|µ, σ, λ) = σ 1− ·
π 1 + λ2
r r r
2 2 2
E(X 3 |µ, σ, λ) = µ3 + 3µ3 σδ + 3µσ 2 + 3σ 3 δ − σ3δ3
π π π
2 −3/2
   r
4 2δ 2
γ = δ3 −1 1−
π π π
onde γ é o coeciente de assimetria com −0, 99527 < γ < 0, 99527 sendo

δ = λ/ 1 + λ2 .

7. Sejam U e V variáveis aleatórias independentes tal que U ∼ N (0, 1) e

V ∼ N (0, 1). Então

λ 1
X=√ |U | + √ V ∼ N A(λ). (2.14)
1 + λ2 1 + λ2
Todas as propriedades acima de 1-6 podem ser encontrados em Genton (2004),

e a propriedade 7 foi mostrada por Henze (1986).

2.2.2 Distribuição Normal Assimétrica Multivariada


Azzalini & Valle (1996) introduziram uma versão multivariada da distribuição

normal assimétrica. Os autores ressaltaram o relevante potencial das aplicações


16

desta generalização, dado que no caso multivariado há uma maior escassez de

distribuições capazes de modelar dados não normais em comparação com o caso

univariado, em especial quando as marginais possuem moderada assimetria.

A família de distribuições normais assimétricas multivariadas caracteriza-se por

incluir a distribuição normal multivariada como um de seus membros, e possuir as

distribuições normais assimétricas univariadas como suas marginais.

Azzalini & Valle (1996) apresentaram dois métodos para a construção desta

família de distribuições multivariadas: via transformação das marginais e via

condicionamento.

Denição 2.2.3 Seja X um vetor aleatório cuja densidade é dada por

0
fk (x) = 2φ(x; Ω)Φ(α x), com x ∈ Rk ,
0 0 0 0
onde α = (λ Ψ−1 ∆−1 )/(1 + λ Ψ−1 λ) ; ∆ = ((1 − δ12 )1/2 , . . . , (1 − δk2 )1/2 ); λ =
0 0
(λ(δ1 ), . . . , λ(δk )) ; e Ω = ∆(Ψ + λλ )∆. Então, diz-se que X tem distribuição

normal assimétrica k -dimensional, com o vetor λ para o parâmetro de forma

(ou assimetria) e Ψ para parâmetro de dependência. A notação é dada por:

X ∼ N Ak (0, λ, Ψ).

Na modelagem de dados reais é necessário introduzir parâmetros de posição e de

escala nas distribuições normais assimétricas multivariadas.

Azzalini & Capitanio (1999) examinaram propriedades probabilísticas da

distribuição normal assimétrica multivariada, com ênfase especial em problemas

de relevância estatística, forma linear e forma quadrática. A seguir, cita-se duas

proposições importantes desse trabalho, referente à transformação linear que se usará

posteriormente.

Proposição 2.2.4 Se X ∼ N Ak (0, Ω, α), e A é uma matriz não singular k×k tal
0
que A ΩA é uma matriz de correlação, então

0 0
A X ∼ N Ak (A ΩA, A−1 α).
17

Proposição 2.2.5 Seja X ∼ N Ak (Ω, α), e A é uma matriz como em 2.2.4 e

considere a transformação linear


 
0
A1
..
 
0
Y=AX= X
 
.
 
0
Ah
onde os vetores colunas A1 , . . . , Ah tem dimensão m1 , . . . , mh respectivamente.

Então Yi ∼ N Ami (ΩYi , αYi ) onde

0
ΩYi = Ai ΩAi ,
0 0
(Ai ΩAi )−1 A Ωα
α Yi = 0 0 .
{1 + α0 (Ω − ΩAi (Ai ΩAi )−1 Ai Ω)α}1/2

2.3 Critérios de comparação de Modelos


Nesta seção far-se-à uma breve revisão dos critérios de adequação e/ou seleção de

modelos. Neste trabalho foram adotados cinco critérios de comparação de modelos,

são eles: BIC, DIC, EQMp, EAMp e EPD.

2.3.1 Critério de Informação Bayesiano (BIC)


Este critério foi proposto por Schwarz (1978), e é um dos primeiros e mais utilizados

critérios de comparação de modelos. Este método penaliza o número de parâmetros,

de acordo com o tamanho da amostra.

O BIC pode ser estimado utilizando iterações do MCMC (assumindo

convergência) por:

log ((fv (y | Θi ))
PI
i=1
BIC = −2 + q log(n), (2.15)
I
onde fv (y | Θi ) é a função de verossimilhança, Θi é o vetor de parâmetros Θ na

i-ésima iteração do MCMC, com i = 1, . . . , I , q é o número de parâmetros do

modelo e n é o tamanho da amostra. O primeiro termo do BIC avalia o ajuste do

modelo e o segundo termo é a penalização, de acordo com o número de parâmetros.

Comparando vários modelos, o melhor, segundo o BIC, é aquele que tiver o menor

valor.
18

2.3.2 Critério de Informação dos Desvios (DIC)


O DIC, introduzido por Spiegelhalter, Best, Carlin & Linde (2002), se baseia na

função de distribuição a posteriori da estatística dos desvios.

Para encontrar o DIC, considere uma medida D(Θ | y), dada por:

D(Θ | y) = −2 log(fv (y|Θ)),

onde fv (y|Θ) é a função de verossimilhança.

O DIC é calculado por

DIC = D̄(Θ | y) + pD(Θ | y),

onde pD é conhecido como número efetivo de parâmetros, e avalia a complexidade

do modelo, e pode ser calculado por

pD(Θ | y) = D̄(Θ | y) − D̂(Θ | y),

onde D̄(Θ | y) = E[D(Θ | y)] e D̂(Θ | y) = −2 log(f (y|Θ̂)), com Θ̂ sendo uma

estimativa da média a posteriori de Θ, ou seja, no caso de um vetor Θ = (θ1 , . . . , θm ).


I I
!
1 X (j) 1 X (j)
D̂(Θ) = D θ ,..., θ ,
I j=1 1 I j=1 m
(j)
onde θi é o i-ésimo parâmetro na j -ésima iteração do algoritmo MCMC.

Embora este método tenha sido utilizado com muita frequência nos últimos anos,

recomenda-se ter cuidado com algumas restrições, como por exemplo o número

efetivo de parâmetros, que em alguns casos pode ser negativo. O DIC pode

apresentar diculdades nos casos onde não há a garantia de que a função de

verossimilhança seja log-côncava e quando há mais de uma moda na distribuição

dos parâmetros. Comparando vários modelos, o melhor, segundo o DIC, é aquele

que tiver o menor valor.

2.3.3 Erro Quadrático Médio Preditivo (EQMp)


O erro quadrático médio preditivo é dado por

I X
n (k)
X (yi − ŷ )2 i
EQM p = ,
j=1 i=1
nI
19

(k)
onde yi é o valor observado para a i-ésima área e ŷi é a estimativa do valor esperado

para a i-ésima observação na j -ésima iteração do algoritmo MCMC. O modelo que

obtiver menor EQMp, é apontado como melhor modelo.

2.3.4 Erro Absoluto Médio Preditivo (EAMp)


O erro absoluto médio preditivo é dado por:

I X
n (k)
X |yi − ŷ | i
EAM p = ,
j=1 i=1
nI

(k)
onde yi é o valor observado para a i-ésima área e ŷi é a estimativa do valor esperado

para a i-ésima área na j -ésima iteração do algoritmo MCMC. O modelo que obtiver
menor EAMp, é apontado como melhor modelo.

2.3.5 Desvio Preditivo Esperado (EPD)


O último critério usado para comparação de modelos, proposto por Gelfand &

Ghosh (1998), é o Desvio Preditivo Esperado (EPD). Este critério é obtido como

minimização da perda a posteriori de um dado modelo M. Quando a perda

quadrática é considerada, o EPD pode ser calculado explicitamente. Neste caso,


Pn c
Pn
EP D = i=1 σi2 + c+1 i=1 (µi − yi )2 , onde µi e σi2 são a média e a variância da

distribuição preditiva, respectivamente µi = E[Yi,rep |yi,obs ] e σi2 = V ar[Yi,rep |yi,obs ]).


O modelo que minimiza este critério é selecionado. O c é uma constante que calibra
a importância da variância e dos devios da média. Neste trabalho, considera-se que

a variação e os desvios da média têm a mesmo peso.


Capítulo 3

Modelo Assimétrico no Nível de Área

Neste capítulo é proposto um modelo para estimação em pequenas áreas para

dados assimétricos a partir de distribuições assimétricas univariadas. Todas as

quantidades desconhecidas do modelo são estimadas através de enfoque bayesiano

e justica-se a escolha do modelo e a escolha da priori associada ao parâmetro

de assimetria. Para alguns dos casos apresentados, as distribuições a posteriori

têm formas fechadas desconhecidas, então técnicas de simulação Monte Carlo via

Cadeias de Markov (MCMC) são utilizadas para obter amostras das respectivas

distribuições a posteriori, como em Gamerman & Lopes (2006). Para diminuir a

correlação das cadeias dos parâmetros, utiliza-se o amostrador da fatia Neal (2003)

dentro do amostrador de Gibbs (Geman & Geman, 1984; Gelfand & Smith, 1990).

Neste capítulo, apresentou-se o modelo proposto no nível de área. Esse modelo

considera que os erros amostrais seguem uma distribuição normal assimétrica. Ainda

neste capítulo, mostrou-se simulações e duas aplicações a dados reais, e comparou-

se o modelo proposto com o modelo de Fey-Herriot, considerando a variância

desconhecida e estimada.

3.1 Modelo Assimétrico no Nível de Área


Considere a média amostral θ̂i . Segundo a Propriedade 3 do Capítulo 2, página 14,

é razoável supor que θ̂i e φ̂i = σ̂i /ni sejam condicionalmente independentes, pois os

20
21

momentos pares da distribuição normal assimétrica são iguais aos momentos pares

da distribuição normal.

Baseado no modelo de Fay-Herriot (2.6), propõs-se o seguinte modelo assimétrico

ao nível de área:


θ̂i = µi + ei , com ei ∼ N A(0, φi , λi ),
µi = X̄0i β + νi com νi ∼ N (0, σν2 ). (3.1)


onde φi = σi2 /ni , λi = λ/ ni e µi é uma função das variáveis aleatórias auxiliares

X̄i , na i-ésima área, e dos parâmetros xados e desconhecidos β, e λi é o parâmetro

de assimetria. Considerou-se que os erros amostrais ei são independentes e com



distribuição normal assimétrica ei ∼ N A(0, φi , λi ). Para os erros νi , considerou-

se que estes sejam independentes e que νi ∼ N (0, σν2 ). Porém, pode-se assumir

uma distribuição não simétrica para os mesmos, como uma distribuição normal

assimétrica, mas preferiu-se assumir distribuição não simétrica apenas para os erros

aleatórios ei 's e não para ambos.

Para obter um modelo em que a distribuição da variável resposta convirja para

a normal quando n aumenta, modelou-se o parâmetro de posição como uma função

linear das covariáveis e dos efeitos aleatórios de área. Nota-se que quando o tamanho

da amostra aumenta, o parâmetro de forma, λi tende a zero, e a média e a variância,

respectivamente, tendem para os parâmetros de posição e escala da distribuição

normal. Portanto, a distribuição amostral de θ̂i converge para a distribuição

normal, satisfazendo o Teorema Central do Limite. Gupta & Kollo (2003) dá uma

justicativa formal para a suposição de que o parâmetro de assimetria, λi , seja

inversamente proporcional à raiz quadrada do tamanho da amostra.

Observe que θ̂i |µi segue uma distribuição normal assimétrica e que cada µi |X0i β

segue uma distribuição normal, mais precisamente: θ̂i |µi ∼ N A(µi , φi , λi ) e
µi |X0i β ∼ N (X0i β, σν2 ).
Amostras de densidade da distribuição normal assimétrica X ∼ N A(ξ, σ, λ)
podem ser hierarquicamente geradas pelo uso da seguinte representação estocástica

utilizando (2.14):

Xi |Wi , ξ, λ, σ ∼ N (ξ + σδWi , σ 2 (1 − δ 2 )),


Wi ∼ HN (0, 1). (3.2)
22


onde HN (0, 1) denota a distribuição Half-Normal padrão e δ = λ/( 1 + λ2 ).

3.2 Modelo Conjunto


Tomando o modelo de Fay-Herriot (2.6), supondo agora que o erro
iid √
ei ∼ N A(0, φ, λi ), e que a distribuição conjunta da média e da variância
amostral (θ̂i , φ̂i ) sejam condicionalmente independentes, pode-se escrever o modelo

conjuntamente:

p √
θ̂i |µi , φi , λ, ni ∼ N A(µi , φi , λ/ ni ), i = 1, . . . , M
φ̂i |ni , φi ∼ Ga[0, 5(ni − 1); 0, 5(ni − 1)φ−1
i ] (3.3)

onde: ni é o tamanho da amostra na i-ésima área de uma população de tamanho Ni ,


i = 1, . . . , m; µi = X0i β + νi é uma função linear das variáveis auxiliares Xi no nível

de área; β é um vetor de parâmetros xo e desconhecido e νi é o efeito aleatório

da área i. Y ∼ Ga[a; b] denota que Y segue uma distribuição gama, cuja função
ba a−1
densidade de probabilidade é dada por: f (y|a, b) = Γ(a)
y exp(−by).
O estimador da variância amostral, φ̂i , em (3.3) fornece informação sobre o

parâmetro de escala φi . O estimador φ̂i é supostamente não viciado para φi .


Para o caso em que se tem uma amostra aleatória simples dentro das áreas,

desconsiderando a fração de amostragem, tem-se que θ̂i = ȳi e φ̂i = n−1 2


i si , onde

s2i = (ni −1)−1 nj=1 (yij − ȳi )2 é um estimador não viesado da variância populacional
P i

σi2 = (Ni − 1)−1 N 2


P i
j=1 (yij − Ȳi ) .

O modelo em (3.3) é completado introduzindo uma estrutura hierárquica no

parâmetro φi . Assume-se que φi segue uma distribuição Inversa Gama (IG). Para

completar o modelo, atribuiu-se prioris próprias com variância grande, de tal forma

que ela seja não informativa.

O parâmetro de assimetria da distribuição normal assimétrica, denominado de

λ, é um parâmetro que requer mais cuidado na estimação. Além disso, se quer que

a distribuição normal assimétrica convirja para uma distribuição normal à medida

em que o tamanho da amostra cresça, para obedecer ao TCL.

O modelo (3.3) pode ser derivado de um caso particular de uma amostra aleatória

simples com reposição, assumindo um modelo normal assimétrico multivariado no


23

nível de unidade e, em seguida, obtendo a distribuição conjunta da média amostral e

do estimador da sua variância amostral, sob a suposição de que os dados de unidade

seguem uma distribuição normal assimétrica multivariada.

Justicativa adicional para o modelo de área conjunto


O modelo conjunto (3.3) é obtido por meio de algumas suposições da distribuição

conjunta da variável resposta no nível de unidade dentro das áreas. Suponha

que para cada área amostrada i = 1, . . . , m, a distribuição dos vetores


0
ni × 1 da variável resposta yi = (yi1 , . . . , yini ) é uma distribuição normal

assimétrica multivariada, conforme denido em Azzalini & Capitanio (1999):

Yi ∼ N Ani (ξYi , ΩYi , αYi ) com parâmetros ξYi = 1ni µi , ΩYi = σi2 Ini e

αYi = n−1
i λ1ni , onde 1ni é um vetor ni × 1 com todas as componentes iguais a

1. Então a densidade de Yi é dada por

0
fYi (yi ) = 2φni (y − ξYi ; ΩYi )Φ{αi ∆−1
i (y − ξYi )},

onde φni (z; Ωi ) denota a densidade da distribuição normal de dimensão ni com média
zero e matrix de covariância Ωi e ∆i é uma matrix diagonal com elementos iguais a

σi .
Usando uma simples extensão da proposição 5 em Azzalini & Capitanio (1999),
0
(ver também Gupta & Chen (2003)), não é difícil mostrar que ȳi = n−1
i 1ni Yi tem

uma distribuição normal assimétrica com parâmetros de locação, escala e forma



dados por µi , φi = σi2 /ni e λi = λ/ ni , respectivamente.

Além disso, a variância amostral s2i é Ga{0, 5(ni − 1), (ni − 1)0, 5σi−2 } e
2
condicionalmente independente de ȳi dado µi , σi e λi , o que implica a formulação

do modelo para os φi como indicado em 3.3 para o caso particular de uma amostra

aleatória simples sem reposição.

3.2.1 Especicação da Distribuição a Priori para o Parâmetro


de Assimetria
A estimação do parâmetro de assimetria apresenta algumas diculdades quando

métodos de máxima verossimilhança ou de momentos são empregados. O método


24

dos momentos não pode ser aplicado quando o coeciente de assimetria da amostra

está fora da faixa de admissibilidade (−0, 9953; 0, 9953). A função de verossimilhança

pode ser mal comportada, resultando em uma estimativa de máxima verossimilhança

innita. Além disso, a matriz de informação de Fisher é singular em λ = 0, e existe a


possibilidade de máximo local. Azzalini (1985) sugere fazer uma re-parametrização

centrada.

Vários autores, recentemente, têm estudado este problema de estimação do

parâmetro de assimetria. Liseo & Loperdo (2006) propõem a utilização de uma

priori de referência com base no método citado em Berger & Bernardo (1992).

Para o caso do modelo univariado, esta priori é também a priori de Jereys.

Liseo & Loperdo (2006) mostram que a distribuição a posteriori existe e propõem

uma maneira de calcula-lá numericamente. Bayes & Branco (2007) propõem uma

aproximação da priori de Jereys através da distribuição t-Student e comparam, por

meio de um estudo de simulação, o estimador de máxima verossimilhança (EMV)

com o obtido via uma distribuição a priori uniforme de uma transformação de



δ = λ/ 1 + λ2 . O estudo de simulação apresentado em Bayes & Branco (2007),

conrma a superioridade dos métodos de estimação Bayesiana com relação ao

método de estimação de máxima verossimilhança.

Os principais resultados usados neste trabalho para atribuir uma priori para

λ podem ser encontrados em Sugden, Smith & Jones (2000). Eles formalmente

derivaram a regra de Cochran para o tamanho mínimo da amostra, para assegurar

uma cobertura de 95% do intervalo de credibilidade. A regra de Cochran (Cochran

(1977), página 42) arma que, para as populações em que o principal desvio da

normalidade consiste da assimetria, o tamanho mínimo da amostra é dado por

nmin = 25γ 2 , onde γ é o coeciente de assimetria de Fisher, que é dado pela razão

entre o terceiro momento central e o cubo do desvio padrão amostral. Assim,

se usa a distribuição normal assimétrica como uma aproximação da verdadeira

distribuição da média amostral obtida por uma amostra aleatória simples, tem-se

obrigatoriamente que (ver Sugden et al. (2000) para mais detalhes):

P r(Zn ≤ 1, 96) > 0, 97 e P r(Zn ≤ −1, 96) < 0, 03 ∀ n ≥ 25γ 2 (3.4)

np o−1 
onde Zn = V (X̄n ) X̄n − E(X̄n ) .

Para o modelo 3.3, Zn tem distribuição N A(µZ(n) , σZ(n) , λ/ n), onde
25

q nq o−1 nq o−1
2 2 2 √ λ
µZ(n) = − δ
π (n)
1 − (2/π)δ(n) , σZ(n) = 1 − (2/π)δ(n) e δ(n) = n+λ2
.

Aplicando a desigualdade (3.4) à função de distribuição normal assimétrica,

temos:

−1 −1
P r(Zn ≤ 1, 96) = Φ(σZ(n) {1.96 − µZ(n) }) − 2Γ(σZ(n) {1, 96 − µZ(n) }) (3.5)

−1 −1
P r(Zn ≤ −1, 96) = Φ(σZ(n) {−1.96 − µZ(n) }) − 2Γ(σZ(n) {−1, 96 − µZ(n) }) (3.6)

R ∞ R αs
onde Γ(z, α) = z 0
φ(s)φ(t)dtds é a função estudada por Owen (1956).
Note que as desigualdades 3.5 e 3.6 são funções de λ e n.
λ > 0, encontramos Para
p
numericamente que ambas as desigualdades em (3.4) são satisfeitas se 25γ 2 < 1, 1.
p
Analogamente, se λ < 0, obtemos 25γ 2 > −1, 1. Assim, se não se tem certeza do
sinal de λ, pode-se denir a seguinte restrição:

− 5, 5γ < λ < 5, 5γ. (3.7)

Finalmente, precisa-se obter uma previsão ou estimação do coeciente de

assimetria γ. Atribuiu-se uma priori para γ no intervalo [−a, a] tal que

P (−a < γ < a) = 0, 99. Combinando com a equação (3.7), tem-se:

P r(−5, 5 × a < λ < 5, 5 × a) = 0, 99.

Se assume-se uma priori normal para λ, centrada em zero, tem-se que o desvio-

padrão da priori de λ é dada por σλ = (5, 5 × a)/2, 576. Para os dados de renda, na

Secção 3.4, xa-se a em 2, 3, o que resulta em σλ ≈ 5. Portanto, a priori para λ é

dada por λ ∼ N (0, 25).

Aspectos Computacionais
As distribuições a posteriori de alguns parâmetros do modelo de área proposto

não podem ser obtidas de forma fechada. Portanto, é necessário utilizar métodos

numéricos. Uma alternativa, que é usada frequentemente e de fácil emplementação

é gerar amostras destas distribuições baseadas no algoritmo MCMC (Cadeias de

de Markov via Monte Carlo). Para facilitar os cálculos aplica-se a representação

hierárquica de densidade normal assimétrica indicado em (3.2) à primeira equação

descrita em (3.3) e obteve-se:


26

θˆi |Wi , µi , λ, ni , φi ∼ N (µi +


p
φi δi Wi ; φi (1 − δi2 ))
Wi ∼ HN (0, 1). (3.8)

Desta maneira, ao invés de realizar estimação dos parâmetros diretamente da

distribuição normal assimétrica, estimou-se θˆi e Wi que possui forma mais tratável.

Com a inserção da variável latente Wi , a densidade conjunta pode ser reescrita

por

f (θ̂i , φ̂i |·) = f (θ̂i |·)f (φ̂i |·)f (wi ).

3.2.2 Distribuições a Priori


Para realizar a inferência bayesiana e encontrar a distribuição a posteriori dos

parâmetros, é necessário atribuir uma distribuição a priori para os parâmetros.

Seja Θ = (λ, σν2 , β, µ, φ) o vetor de parâmetros a serem estimados e (a, b) os

hiper parâmetros. Assume-se que sua distribuição a priori é dada por:

π(Θ) = π(λ)π(σν2 )π(φ, a, b)π(µ, β)


π(Θ) = π(λ)π(σν2 )π(φ|a, b)π(a)π(b)π(µ|β)π(β)
Ym
2
π(Θ) = π(λ)π(σν )π(a)π(b)π(β) [π(φi |a, b)π(µi |β)].
i=1

Escreveu-se π(µ, β) e π(φ, a, b) na forma hierárquica, e considerou-se que os µi


são independentes dado β e que os φi 's também sejam independentes dado a e b.
Para os parâmetros φi e σν2 foram escolhidas distribuições a priori Inversa Gama

e para λ, β e µi prioris normais, como segue:

φi |a, b ∼ IG(a, b),


σν2 ∼ IG(c, d),
βk ∼ N (ak , bk ), para todo k=1,. . . ,p

λ ∼ N (e, f ), e

µi |β, σν2 ∼ N (X0 β, σν2 ).


27

onde ak = 0, bk = 1000, para todo k , c = d = 0, 01 e (e = 0, f = 25), de acordo com

a seção 3.2.1.

Para os hiperparâmetros a e b atribuiu-se prioris vagas Ga(0, 01; 0, 01).

3.2.3 Distribuição a Posteriori


A função de verossimilhança aumentada do modelo é dada por:

m
Y
L(Θ; D, W) = f (θ̂i |Θ)f (φ̂i |φi , ni )f (wi )
i=1
m √ !
Y 1 −(θ̂i − (µi + φi δi wi ))2
= exp
2φi (1 − δi2 )
p
2
i=1 2π(1 − δ i )φ i
  −1   ni2−1 !
ni − 1 ni − 1 −(ni − 1)φ̂i
× Γ exp
2 2φi 2φi
r
wi2
 
2
× exp − .
π 2

onde D = {(θ̂i , φ̂i ), i = 1, . . . , m} é o conjunto de todos os dados disponíveis

na pequena área i, e w = (w1 , . . . , wm ) é o vetor de parâmetros introduzido na

representação da distribuição normal assimétrica em (3.8).

Dadas as distribuições a priori de acordo com a Subseção 3.2.2 e a

função de verossimilhança L(Θ; D, W), tem-se a distribuição a posteriori

π(Θ|D, W) ∝ L(Θ; D, W) · π(Θ).


As distribuições condicionais completas e o algoritmo para se obterem amostras

destas condicionais completas, estão detalhados no Apêndice A.

As expressões correspondentes para o modelo normal, que é um caso particular

do modelo proposto quando λ = 0, podem ser vistos no Apêndice B.

3.3 Simulação
Foram feitas simulações considerando que os dados possuem erros normais e normais

assimétricos. Nas duas situações, os dois modelos foram ajustados para ns de
28

comparação e para vericar através de alguns critérios de comparação, se a estimação

aponta o melhor modelo como sendo o mesmo modelo gerado na simulação.

As simulações foram feitas sob diferentes congurações. Através da estimação

dos parâmetros, pode-se ter uma evidência empírica da precisão do método em

recuperar verdadeiros valores dos parâmetros. Com isso, tem-se uma base para

realizar a estimação pelo modelo proposto em dados reais, apresentada na Seção

3.4.

No estudo de simulação para dados de área, temos dois casos. No primeiro,

chamado de Simulação 1, foram gerados valores de uma amostra com erros amostrais

normais assimétricos com parâmetros de assimetria positivo e negativo. No segundo,

chamado de Simulação 2, foram gerados valores de uma amostra com erros amostrais

normais. Em ambos os casos, foram ajustados os modelos normal e normal

assimétrico para ns de comparação.

Utilizou-se o algoritmo MCMC para se gerar amostras da distribuição a posteriori

dos parâmetros de interesse. Foram feitas 200000 iterações das quais as 100 000

primeiras foram descartadas e tomada uma a cada 20 para serem evitados problemas

de autocorrelação nas cadeias. A linguagem usada para implementação do algoritmo

MCMC foi o software R, contudo no estudo de simulação foi usado o software

WinBugs.

Duas covariáveis xi = (x1i , x2i ) foram geradas de uma distribuição normal padrão
N (0, 1). Utilizou-se m = 140 pequenas áreas com ni variando de 6 a 59. Estes

tamanhos de amostras são os mesmos observados para o conjunto de dados de renda,

estudado na Seção 3.4.1 . Os φi 's foram gerados de uma distribuição Inversa Gama

IG(a, b), com a=1 e b = 10. Os valores utilizados para os parâmetros regressores
2
foram β = (8, 0.8, 3) e σν = 2. Os valores de λ utilizados nas simulações foram 8 e

−8.

3.3.1 Simulação 1
Os dados foram gerados de uma distribuição normal assimétrica com λ = 8 e λ = −8,
e ajustados os modelos normal e normal assimétrico. Utilizou-se os critérios BIC,

DIC e EPD para vericar o melhor ajuste.


29

Nas Tabelas 3.1 e 3.3, tem-se os valores verdadeiros dos parâmetros, a média e

mediana a posteriori dos parâmetros via MCMC, os desvios padrão (dp) e os quantis

2,5% e 97,5% para os ajustes normal e normal assimétrico. Também, nas Tabelas

3.2 e 3.4 têm-se os critérios de seleção de modelos BIC, DIC e EPD. Além disso, a

cobertura citada nestas tabelas se refere à proporção dos valores estimados dos µi
nas 140 pequenas áreas, que estão dentro do intervalo de 95% de credibilidade.

A Tabela 3.1 mostra as medidas resumos da distribuição a posteriori dos

parâmetros obtidos via MCMC para os dados gerados com λ = 8 sob os ajustes

normal e normal assimétrico. O desvio padrão do parâmetro λ se destaca em relação


aos demais com dp = 2, 84. Os valores dos parâmetros estimados no ajuste normal

assimétrico e normal são bem próximos. Na Tabela 3.2 observa-se que o DIC e

o EPD conseguem identicar o verdadeiro modelo. A proporção de µi nas 140

pequenas áreas contidas dentro do intervalo de credibilidade de 95% é maior para o

modelo normal assimétrico.

Na Tabela 3.3, tem-se as medidas resumos das distribuições a posteriori dos

parâmetros estimados via MCMC para os dados gerados com λ = −8, através

dos ajustes normal e normal assimétrico. Também, as estimativas dos dois ajustes

caram bem próximas. O parâmetro λ tem o maior intervalo de credibilidade, e

parece subestimado pela média a posteriori para essa amostra. Mais uma vez o

DIC e EPD conseguem identicar o modelo verdadeiro, segundo a Tabela 3.4. A

proporção dos µi 's que estão contidos nos respectivos intervalos de credibilidade para
o ajuste normal assimétrico é maior que a referida proporção, considerando o ajuste

normal.

A Figura 3.1 mostra os histogramas da distribuição a posteriori dos parâmetros

gerados com λ = 8. A linha vertical cheia representa o valor verdadeiro e as linhas

verticais tracejadas os quantis 2,5% e 97,5%. O parâmetro β0 está bem próximo

do quantil 2, 5%; porém, é importante perceber que o intervalo de credibilidade é

pequeno. Todos os parâmetros estão dentro do intervalo de credibilidade para essa

amostra. O comportamento das estimativas é similar considerando o ajuste normal,

exceto para o parâmetro β0 , como mostra a Figura 3.2. Este efeito parece aumentar

à medida que o valor da estimativa de λ aumenta. Isso se dá devido ao fato de que,

no modelo normal assimétrico, o valor esperado do intercepto é igual a β0 mais um

termo adicional, que é dado pelo valor esperado do erro normal assimétrico.
30

Tabela 3.1: Medidas resumo da distribuição a posteriori dos parâmetros para

simulação com dados gerados com erros NA e λ = 8.


Valor
Parâmetros média dp 2,5% mediana 97,5%
Verdadeiro

Ajuste NA

σν2 2 1,81 0,35 1,21 1,78 2,56

β0 8 8,11 0,18 7,77 8,1 8,49

β1 0,8 1,11 0,24 0,64 1,11 1,6

β2 3 2,39 0,46 1,5 2,39 3,31

λ 8 8,3 2,84 3,6 7,97 14,77

a 1 0,57 0,06 0,46 0,57 0,7

b 10 11,05 2,04 7,47 10,91 15,43

Ajuste Normal

σν2 2 2,11 0,46 1,36 2,05 3,11

β0 8 8,71 0,18 8,36 8,71 9,06

β1 0,8 0,97 0,26 0,43 0,94 1,47

β2 3 2,72 0,50 1,73 2,73 3,70

a 1 0,52 0,06 0,41 0,52 0,65

b 10 8,8 1,95 5,3 8,61 13,07


31

Tabela 3.2: Critérios de comparação de modelos para simulação com dados gerados

com erros NA e λ = 8.
Ajuste Normal Assimétrico Ajuste Normal
Medidas
θ̂i φ̂i Total θ̂i φ̂i Total

BIC 2510,61 3281,04 5791,65 1898,69 2599,27 4497,96

DIC 490,21 1268,65 1758,86 560,66 1320,04 1880,7

D̄ 410,41 1180,84 1591,25 495,26 1195,84 1691,1

D̂ 330,61 1093,03 1423,64 429,86 1071,64 1501,5

pD 79,8 87,81 167,61 65,4 124,20 189,6

EQM p 1,65 71,77 - 2,52 64,51 -

EAM p 0,88 6,32 - 1,06 4,21 -

Cobertura 0,95 - - 0,90 - -

EP D 365,79 694,28

Na Figura 3.3 apresenta-se os histogramas da distribuição a posteriori dos

parâmetros gerados de uma distribuição normal assimétrica com λ = −8. A linha

vertical cheia representa o valor verdadeiro e as linhas verticais tracejadas os quantis

2,5% e 97,5%. Apesar do parâmetro λ está subestimado para essa amostra, todos os
parâmetros estão dentro do intervalo de credibilidade. Na Figura 3.4, os histogramas

dos parâmetros mostram que no ajuste normal os parâmetros também foram bem

estimados para essa amostra.

A Figura 3.5 mostra os intervalos de credibilidades de 95% para os µi 's nas 140

pequenas áreas. A barra vertical (|) representa o intervalo de 95% de credibilidade,

o traço (-) representa a média a posteriori de µi , e o asterisco (∗) representa o valor

verdadeiro. Pode-se observar que as médias a posteriori dos µi 's são próximas dos

respectivos valores verdadeiros e que a maioria dos µi 's das 140 pequenas áreas estão
dentro do intervalo de credibilidade de 95%.
32

Tabela 3.3: Medidas resumo da distribuição a posteriori dos parâmetros para

simulação com dados gerados com erros NA e λ = −8.


Valor
Parâmetros média dp 2,5% mediana 97,5%
Verdadeiro

Ajuste NA

σν2 2 1,99 0,40 1,34 1,95 2,89

β0 8 7,98 0,20 7,57 7,99 8,35

β1 0,8 0,68 0,25 0,2 0,69 1,16

β2 3 3,21 0,46 2,33 3,2 4,12

λ -8 -6,31 2,35 -11,48 -6,06 -2,38

a 1 0,56 0,06 0,44 0,55 0,7

b 10 8,57 1,7 5,56 8,49 12,14

Ajuste Normal

σν2 2 1,37 0,34 0,79 1,34 2,17

β0 8 7,94 0,16 7,63 7,94 8,25

β1 0,8 0,46 0,23 0,01 0,46 0,92

β2 3 3,59 0,44 2,73 3,59 4,42

a 1 0,79 0,09 0,63 0,79 0,99

b 10 10,52 1,88 7,53 10,21 18,86


33

Figura 3.1: Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2 , σν2 e

λ para dados simulados com parâmetro λ = 8 com intervalo de 95% de credibilidade


considerando ajuste normal assimétrico. A linha vertical cheia representa o valor

verdadeiro e as linhas verticais tracejadas os quantis 2,5% e 97,5%

0.8
2.0

1.5

0.6
1.5

1.0

0.4
1.0

0.5

0.2
0.5
0.0

0.0

0.0

7.5 8.0 8.5 9.0 0.5 1.0 1.5 2.0 1 2 3 4

(a) β0 - NA (b) β1 - NA (c) β2 - NA


0.15

1.0
0.8
0.10

0.6
0.4
0.05

0.2
0.00

0.0

5 10 15 20 1.0 1.5 2.0 2.5 3.0 3.5

(d) λ - NA (e) σν2 - NA


34

Figura 3.2: Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2 e σν2


para dados simulados com parâmetro λ = 8 e intervalo de 95% de credibilidade

considerando ajuste normal. A linha vertical cheia representa o valor verdadeiro e

as linhas verticais tracejadas os quantis 2,5% e 97,5%.

1.5
2.0
1.5

1.0
1.0

0.5
0.5
0.0

0.0

8.0 8.5 9.0 9.5 0.0 0.5 1.0 1.5 2.0

(a) β0 - Normal (b) β1 - Normal


0.8

0.8
0.6

0.6
0.4

0.4
0.2

0.2
0.0

0.0

1 2 3 4 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5

(c) β2 - Normal (d) σν2 - Normal


35

Figura 3.3: Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2 , σν2 e λ


para dados simulados com parâmetro λ = −8 com intervalo de 95% de credibilidade
considerando ajuste normal assimétrico. A linha vertical cheia representa o valor

verdadeiro e as linhas verticais tracejadas os quantis 2,5% e 97,5%.


2.0

0.8
1.5
1.5

0.6
1.0
1.0

0.4
0.5
0.5

0.2
0.0

0.0

0.0

7.5 8.0 8.5 0.0 0.5 1.0 1.5 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

(a) β0 - NA (b) β1 - NA (c) β2 - NA


1.0
0.15

0.8
0.6
0.10

0.4
0.05

0.2
0.00

0.0

−15 −10 −5 0 1.0 1.5 2.0 2.5 3.0 3.5 4.0

(d) λ - NA (e) σν2 - NA


36

Figura 3.4: Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2 e σν2


para dados simulados com parâmetro λ = −8 com intervalo de 95% de credibilidade
considerando ajuste normal. A linha vertical cheia representa o valor verdadeiro e

as linhas verticais tracejadas os quantis 2,5% e 97,5%.


2.5

1.5
2.0
1.5

1.0
1.0

0.5
0.5
0.0

0.0

7.4 7.6 7.8 8.0 8.2 8.4 8.6 0.0 0.5 1.0

(a) β0 - Normal (b) β1 - Normal


1.2
0.8

1.0
0.8
0.6

0.6
0.4

0.4
0.2

0.2
0.0

0.0

2.0 2.5 3.0 3.5 4.0 4.5 5.0 0.5 1.0 1.5 2.0 2.5 3.0

(c) β2 - Normal (d) σν2 - Normal


− −* −
*

15
* − −
−*
− −* −−* *
* *− −*−* −−*
− * − * − −
−* − − *
* * * * −
* −
* **− * * − *

10
−* − − *
* * − − −*−* *−* − −* − −− −*− −* *
−−* − * *−−*−− − − * − −* *
* −* * *
− * * *
*− − −* −**−* −− −−
− − − − * *
− − * −*−−* −* −*−−*−*−* * − * * * −*−* * *−*−
− *
− *
− −* −*−
− −−*
* * * * − −* −*− *
* * − −** − *− *− − −−*−*− −*−*−*−−−*−*−*
− *− * − −

5
* * − − * − ** *−* * *−** *− * * −** −−*** −*
*
− −* * − −
−* −

(a) NA com λ = 8
*
−*−* * * −* **
−*
*
−*

0
1 4 7 11 15 19 23 27 31 35 39 43 47 51 55 59 63 67 71 75 79 83 87 91 95 99 104 109 114 119 124 129 134 139

−* −*
−*

15
Figura 3.5: Intervalo de Credibilidade de 95% para os

*
−*
µi

−* *
− *− * *−* −
* **
− * − −*
* − −− −−* − −
− ** −* *
−* −* −

10
−−−** −* −* *
*
−* −**−*
− −* *
−*− − − *
− −* −*
−* *
* * −−* −*− −*
* −
−*−*−*− *−*−** *−−*− − −− −− − −* −− *
* * * − **
− * * −* *−*−*−− − * −− − * * * * * *
− − −* −− −*−*
− * −* − *
−*
− − * ** * − −* * −* − −* * −
* − * * − −**− −* −*
− * − *− −− * −−*

5
−*−*
* − *
− − *−*−* * *−−* −−− −**−*−*−*

* *
− **

(b) NA com λ = −8
* −*−−*−−*−** *−*
−* * *−− * * * −
*− −
* *

1 4 7 11 15 19 23 27 31 35 39 43 47 51 55 59 63 67 71 75 79 83 87 91 95 99 104 109 114 119 124 129 134 139


(-) representa a média a posteriori e o asterisco (∗) representa o valor verdadeiro.
erros NA. A barra vertical (|) representa o intervalo de 95% de credibilidade, o traço
obtidos da simulação com
37
38

Tabela 3.4: Critérios de comparação de modelos para simulação com dados gerados

com erros NA e λ = −8.


Ajuste Normal Assimétrico Ajuste Normal
Medidas
θ̂i φ̂i Total θ̂i φ̂i Total

BIC 2507,83 3228,13 5735,96 1897,78 2565,26 4463,04

DIC 491 1223,29 1714,29 551,38 1282,80 1834,18

D̄ 407,64 1127,93 1535,57 494,35 1161,83 1656,18

D̂ 324,27 1032,57 1356,84 437,32 1040,86 1478,18

pD 83,37 95,36 178,93 57,03 120,97 178,00

EQM p 1,73 54,20 - 2,62 54,30 -

EAM p 0,73 4,49 - 1,09 3,63 -

Cobertura 0,97 - - 0,86 - -

EP D 322,95 643,71

3.3.2 Simulação 2
Foram gerados dados considerando o modelo normal. As covariáveis x1 e x2 foram

geradas de uma distribuição normal padrão N (0, 1). Os valores de m e dos ni , e

demais parâmetros foram os mesmos utilizados na Simulação 1. Os φi foram gerados


de uma distribuição IG(a, b). Considerou-se também as mesmas prioris utilizadas

na Simulação 1.

A Tabela 3.5 mostra o valor verdadeiro, a média a posteriori, o desvio-padrão,

a mediana a posteriori, e os quantis 2,5% e 97,5% dos parâmetros, para os ajustes

normal e normal assimétrico. As estimativas de todos os parâmetros estão dentro

do intervalo de credibilidade de 95%, e são próximos nos dois ajustes. A média

a posteriori do λ foi igual a 0, 86 para o ajuste normal assimétrico, e o zero está

contido no intervalo de credibilidade de 95%, indicando que se rejeitou a hipótese

de assimetria quando os dados são normais.

As Figuras 3.6 e 3.7 mostram o histograma da distribuição a posteriori dos

parâmetros. Observe que todos os parâmetros estimados estão dentro do intervalo

de 95% de conança para os dois ajustes.


39

Tabela 3.5: Medidas resumo para a distribuição a posteriori dos parâmetros para os

dados simulados gerados com erro normal.

Valor Ajuste Normal Assimétrico


Parâmetros
verdadeiro Média dp 2,5% Mediana 97,5 %

β0 8 7,87 0,24 7,39 7,87 8,32

β1 0,8 0,6 0,36 -0,12 0,60 1,30

β2 3 3,43 0,73 2,01 3,42 4,91

σν2 2 1,73 0,45 1,01 1,67 2,77

λ 0 0,86 1,06 -1,1 0,79 3,06

a 1 0,58 0,07 0,46 0,58 0,73

b 10 10,47 2,14 6,67 10,33 14,84

Ajuste Normal

β0 8 8,02 0,16 7,70 8,02 8,34

β1 0,8 0,65 0,37 -0,07 0,64 1,38

β2 3 3,31 0,75 1,86 3,29 4,80

σν2 2 1,63 0,42 0,95 1,58 2,59

a 1 0,58 0,07 0,46 0,58 0,73

b 10 10,48 2,03 6,69 10,38 14,65


40

Figura 3.6: Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2 , σν2


e λ para os dados gerados com erro normal, considerando ajuste NA e intervalo de

95% de credibilidade. A linha vertical cheia representa o valor verdadeiro e as linhas

verticais pontilhadas os quantis 2,5% e 97,5%

0.5
1.0
1.5

0.4
0.8
1.0

0.3
0.6

0.2
0.4
0.5

0.1
0.2
0.0

0.0

0.0

7.0 7.5 8.0 8.5 −0.5 0.0 0.5 1.0 1.5 2.0 1 2 3 4 5 6

(a) β0 - NA (b) β1 - NA (c) β2 - NA


0.4

0.8
0.3

0.6
0.2

0.4
0.1

0.2
0.0

0.0

−2 0 2 4 6 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0

(d) λ - NA (e) σν2 - NA


41

Figura 3.7: Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2 e

σν2 para ajuste normal, com os dados gerados com erro normal e intervalo de 95%

de credibilidade. A linha vertical cheia representa o valor verdadeiro e as linhas

verticais pontilhadas os quantis 2,5% e 97,5%


2.5

1.0
2.0

0.8
1.5

0.6
1.0

0.4
0.5

0.2
0.0

0.0

7.5 8.0 8.5 −1.0 −0.5 0.0 0.5 1.0 1.5 2.0

(a) β0 - Normal (b) β1 - Normal


1.0
0.5

0.8
0.4

0.6
0.3

0.4
0.2

0.2
0.1
0.0

0.0

1 2 3 4 5 6 1 2 3 4

(c) β2 - Normal (d) σν2 - Normal


42

A Tabela 3.6 mostra os critérios de escolha de modelos para os dados simulados

gerados de uma distribuição normal com ajustes normal e normal assimétrico.

Segundo os critérios DIC e EPD o melhor modelo é o normal assimétrico. O EQMp e

EAMp são melhores para as componentes θ̂i . A proporção de valores verdadeiros das

140 pequenas áreas dentro do intervalo de 95% de credibilidade também apresenta

melhores resultados para as componentes θ̂i .

Tabela 3.6: Critérios de escolha de modelos para os dados simulados gerados com

erro normal com ajustes normal e normal assimétrico.

Ajuste NA Ajuste Normal


Medidas
θ̂i φ̂i Total θ̂i φ̂i Total

BIC 2602,02 3257,93 5859,95 1912,32 2570,85 4483,17

DIC 566,83 1248,30 1815,13 572,75 1289,6 1862,35

D̄ 501,82 1157,73 1659,55 508,89 1167,42 1676,31

D̂ 436,81 1067,16 1503,98 445,03 1045,25 1490,28

pD 65,01 90,57 155,57 63,86 122,17 186,03

EQMp 3,72 107,83 - 3,75 99,41 -

EAMp 1,18 5,10 - 1,23 5,01 -

Cobertura 0,84 - - 0,81 - -

EPD 650,01 750,57

Mesmo que os erros dos dados sejam normais, não há perda em considerá-los

como sendo normais assimétricos, segundo todos os critérios, com exceção do BIC.

Isso ocorre devido ao BIC penalizar o maior número de parâmetros do modelo normal

assimétrico.
43

3.3.3 Estudo de simulação


O objetivo deste estudo de simulação é comparar os resultados obtidos na modelagem

normal assimétrica com os resultados obtidos na modelagem normal, para a média

a posteriori dos parâmetros da amostra de 10% dos dados de renda da Seção 3.4.1,

considerando não apenas uma amostra dos dados simulados. Com esse objetivo,

foram geradas 500 amostras de uma população sob o modelo normal e normal

assimétrico, com o mesmo número de áreas da amostra de 10% (140) e utilizado

como parâmetros verdadeiros as estimativas dos parâmetros obtidos para a amostra

de 10% (ver Tabela 3.11). Os tamanhos das amostras nas áreas foram os mesmos

da amostra de 10%.

Os valores das duas variáveis auxiliares também foram mantidos xos em todas

as simulações e obtidos do conjunto de dados reais de renda. Assim, teve-se que

gerar apenas os valores de di = (ȳi , Si2 ) sob o modelo normal e normal assimétrico,
conforme visto em (3.1) e (3.3) para cada área i = 1, . . . , 140 e amostras simuladas

s = 1, . . . , 500.
No algoritmo MCMC fez-se 50000 iterações, das quais as 5000 primeiras foram

descartadas para cada s = 1, . . . , 500. Tomou-se uma a cada 20 iterações para a

estimação a posteriori dos parâmetros.

A Tabela 3.7 mostra a média das médias a posteriori dos parâmetros do modelo,

a média da raiz quadrada do erro quadrático médio predito (MREQMp) e a

cobertura média dos parâmetros com intervalos de 95% de credibilidade das 500

amostras simuladas do modelo normal assimétrico. Pode ser visto que existem

poucas diferenças entre as médias das estimativas dos dois modelos, com exceção

do intercepto β0 . O mesmo comportamento é observado para MREQMp, quando

ajustados os modelos normal e normal assimétrico. Tanto a taxa de cobertura

empírica quanto o MREQMp para o parâmetro β0 é muito inferior a dos outros

parâmetros. Isso se dá devido ao fator de correção da normal assimétrica, (ver

propiedades da NA na Seção 2.2.1). Além disso, como já foi relatado, o parâmetro

de assimetria é um parâmetro de difícil estimação. A MREQMp de λ é 2,18, mas a

taxa de cobertura de λ é de 96%.

Na Tabela 3.8 tem-se a média das médias a posteriori dos parâmetros do modelo,

a média da raiz quadrada do erro quadrático médio predito (MEQMp) e a cobertura


44

média dos parâmetros com intervalos de 95% de credibilidade das 500 amostras

simuladas do modelo normal. Mesmo quando o verdadeiro modelo é o normal,

observa-se que as MREQMp são bem próximas, exceto para o parâmetro β0 . Isto

revela que, quando os dados são gerados a partir do modelo mais simples (normal),

ajustando-se o modelo mais complexo (normal assimétrico) não causa nenhuma piora

na eciência ou no viés dos parâmetros estimados. Como esperado, a média das

médias dos parâmetros, nas 500 amostras, também são bem próximas para ambos

os ajustes.

Tabela 3.7: Medidas resumos das médias a posteriori dos parâmetros para as 500

amostras simuladas do modelo normal assimétrico, considerando os ajustes normal

e normal assimétrico.

Valor Ajuste Normal Assimétrico Ajuste Normal


Parâmetros
Verdadeiro Média MREQMp Cobertura Comprimento Média MREQMp Cobertura Comprimento
β0 7,84 7,98 0,23 94,0 0,84 8,63 0,80 0,0 0,57

β1 0,76 0,77 0,31 94,8 1,20 0,78 0,32 96,4 1,24

β2 2,90 2,88 0,60 93,8 2,28 2,94 0,61 95,8 2,36

σν2 1,53 1,40 0,36 92,8 1,38 1,09 0,55 72,0 1,22

λ 7,28 5,84 2,18 96,0 9,82 - - - -

a 1,39 1,41 0,18 94,2 0,65 1,41 0,18 93,8 0,66

b 48,900 49,89 8,16 94,0 29,02 50,13 8,26 94,0 29,16

As medidas resumo da Tabela 3.9 são relativas às médias de todas as médias das

pequenas áreas. Por isso, vale a pena comparar o desempenho dos indicadores para

cada área na Figura 3.8. Observe a diferença entre as medidas MEQM, cobertura e

comprimento em ambos os ajustes. Considerando que os dados são normais, há uma

equivalência no ajuste dos dois modelos. Isso mostra que não há perda em ajustar

o modelo normal assimétrico, mesmo quando os dados são normais. Se os dados

são normais assimétricos há um ganho signicativo em ajustar o modelo normal

assimétrico, principalmente em relação à MEQM (que é de 0,79 para o ajuste NA e

1,79 para o ajuste N) e a cobertura média (que é de 94,7% para o ajuste NA e 89%
45

Tabela 3.8: Medidas resumos das médias a posteriori dos parâmetros para as 500

amostras simuladas do modelo normal, considerando os ajustes normal e normal

assimétrico.

Valor Ajuste Normal Ajuste Normal Assimétrico


Parâmetros
Verdadeiro Média MREQMp Cobertura Comprimento Média MREQMp Cobertura Comprimento
β0 7,84 7,83 0,16 95,0 0,62 7,86 0,32 93,6 1,19

β1 0,76 0,76 0,36 94,0 1,36 0,76 0,36 93,6 1,36

β2 2,90 2,91 0,69 93,6 2,59 2,91 0,69 94,4 2,59

σν2 1,53 1,58 0,42 94,2 1,56 1,72 0,44 94,0 1,70

λ 0 - - - - -0,20 1,95 93,0 7,16

a 1,39 1,42 0,17 96,0 0,66 1,41 0,17 95,8 0,66

b 48,90 49,96 7,52 94,4 29,06 49,92 7,50 95,8 29,04

para o ajuste N).

Tabela 3.9: Medidas de ajuste para estimação pontual e intervalar das médias das

pequenas áreas para as 500 amostras simuladas dos dados gerados do modelo normal

assimétrico considerando os ajustes normal e normal assimétrico.

Ajuste Normal Assimétrico Ajuste Normal

Modelo
MEQM MEAM Cobertura Comprimento MEQM MEAM Cobertura Comprimento
Média(%) Médio Média(%) Médio
NA 0,79 8,10 94,7 3,25 1.01 11,01 94,2 3,70

Normal 1,79 9,78 89,0 3,21 0,89 10,71 94,5 3,60

A Figura 3.8 mostra a razão do erro quadrado médio (REQM) e a razão do

erro absoluto médio (REAM) quando são preditas as médias das pequenas áreas

sob os modelos normal assimétrico e normal, plotados contra o respectivo tamanho

da pequena área. É evidente, a partir dessa gura, que o ganho em eciência,

segundo REQM e o REAM, tende a diminuir à medida que o tamanho da amostra


46

aumenta. Este não é um resultado inesperado porque a assimetria da distribuição

para a i-ésima área do modelo (3.3) converge para a normal, quando o tamanho da

amostra da pequena área ni aumenta; portanto, ambos os modelos devem produzir

praticamente os mesmos preditores para ni grande.

As medidas REQM e REAM para a pequena área i são respectivamente

denidas como:
P500 N 2
P500
s=1 (µ̂i,s − µi,s ) /µi,s s=1 |µ̂N
i,s − µi,s |/µi,s
REQMi = P500 N A e REAMi = P500 ,
2
s=1 (µ̂i,s − µi,s ) /µi,s s=1 |µ̂N A
i,s − µi,s |/µi,s

onde µN
i,s e µN
i,s
A
representam, respectivamente, o preditor da média da pequena área

sob o modelo normal e normal assimétrico para uma dada área i obtida na simulação
s e µi,s denota o valor verdadeiro.

Figura 3.8: Razão do Erro Quadrático Médio (REQM) e Razão do Erro Absoluto

Médio (REAM) para as médias das pequenas áreas sob o ajuste normal e normal

assimétrico.

A Figura 3.9 mostra a média das medidas de ajuste para cada pequena área,

considerando o ajuste normal assimétrico versus o ajuste normal. Valores acima da

reta (N=NA) indicam que os valores do ajuste normal são maiores do que os valores
47

do ajuste normal assimétrico. Esta gura mostra a eciência do modelo assimétrico

proposto medido pela MEQMp (média do erro quadrático médio), MEAMp (média

do erro absoluto médio), cobertura média e pelo comprimento médio dos intervalos

das 500 simulações para cada área. Nota-se que em (a) e (b), tanto MEQMp quanto

MEAMp estão acima da reta, indicando que o modelo normal assimétrico, em média,

é melhor do que o modelo normal, pois possuem menores medidas de ajustes. As

Figuras (c) e (d) mostram que a cobertura média e o comprimento médio são maiores

para o ajuste normal assimétrico. Os valores da cobertura média tornam ainda mais

evidente a eciência do modelo proposto neste trabalho, quando comparado com o

modelo normal.
48

Figura 3.9: Medidas de ajustes MEQMp, MEAMp, Cobertura média e comprimento

médio para as 500 amostras simuladas do modelo normal assimétrico para as 140

pequenas áreas.

20
● ●
12
10

15
● ●
8

● ●
● ● ●
●●
N

N



●● ●

6


●●



●●

●●●

10
● ●
●●
●●

●●
● ●

●●●

4



●●


●●●


●●
●●
●●


●●
●●

●●● ●
●●


●●


●●
2

● ●●





● ●●



●●●


●●
● ●
● ●
●●


5





●● ●

2 4 6 8 10 12 5 10 15 20

NA NA

(a) MEQMp (b) MEAMp


5.5


65 70 75 80 85 90 95

●●
●●●

●●

●●








●●●



●●
●●
●● ●●
● ●

●●
●●
●●●

5.0

●●




●●
●●

●●
●●

●●
●●
●●●
●●

●●



●●●●
●●

● ●

4.5



N

4.0

● ●
● ●


3.5

●●●●

● ●●

●●
●● ●●




●●


●●

●●

●● ●

●●



●●

●●
3.0

●●

●●



●●






● ●

65 70 75 80 85 90 95 3.0 3.5 4.0 4.5 5.0 5.5

NA NA

(c) Cobertura Média (d) Comprimento Médio


49

3.3.4 Conclusões
O estudo de simulação mostrou que a estimação do modelo assimétrico proposto

no nível de área é eciente, tanto para dados com assimetria positiva quanto com

assimetria negativa. Os parâmetros parecem bem estimados em ambos os casos.

Os critérios de seleção de modelos DIC e EPD mostraram-se ecientes para

comparar os modelos, pois em todos os casos o modelo com menor DIC e EPD foi

o modelo gerado.

Na Seção 3.3.3, foi mostrado um estudo de simulação completo, considerando

500 amostras simuladas, que conrmam alguns resultados obtidos nas Simulações

1 e 2. Segundo as medidas de ajustes: média do erro quadrático médio, média do

erro absoluto médio, cobertura média e comprimento médio, para as 500 amostras

simuladas do modelo normal assimétrico para as 140 pequenas áreas, o modelo

assimétrico mostrou-se mais eciente.


50

3.4 Aplicação
Este capítulo apresenta duas aplicações em pequenas áreas. Uma para dados de

renda e outra para dados de avaliações educacionais. A primeira aplicação consiste

em estimar a renda familiar de setores censitários de um município brasileiro e a

segunda tem como objetivo estimar a média escolar de um teste de matemática

aplicado a alunos de uma determinada série do ensino fundamental no município do

Rio de Janeiro. O modelo proposto é comparado com o modelo normal, segundo

os critérios de comparação BIC (Schwarz, 1978), DIC (Spiegelhalter et al., 2002), e

EPD (Gelfand & Ghosh, 1998) para as duas aplicações.

O modelo proposto é como o descrito no Capítulo 3 e foram utilizadas as mesmas

prioris para todos os parâmetros. Os valores apresentados foram baseados em 200000

iterações do algoritmo MCMC, nas quais as primeiras 100000 foram descartadas,

consideradas como aquecimento da cadeia e tomadas uma a cada 20 iterações,

reduzindo a autocorrelação das cadeias dos parâmetros.

3.4.1 Aplicação 1: Dados de Renda


Os dados utilizados para avaliar o modelo proposto neste trabalho foram os mesmos

descritos em Moura & Holt (1999). Os dados foram extraídos de um Censo

Demográco Experimental, que consiste de informações sobre 38.740 domicílios em

140 áreas de enumeração (pequenas áreas). Essas áreas são setores censitários. A

variável de interesse é a renda média familiar. O principal objetivo é fazer estimação

da renda média familiar para cada uma das 140 áreas. Como em Moura & Holt

(1999), duas variáveis foram escolhidas para ser o conjunto de covariáveis auxiliares:

o número de quartos no domicílio (1 − 11+), {x1 }, e o nível de escolaridade do

chefe de família (escala ordinal de 0 − 5), {x2 }. Centrou-se ambas as covariáveis em

torno de suas respectivas médias populacionais. Diferentemente de Moura & Holt

(1999), que assume-se a informação disponível no nível da unidade, assumimos nesta

aplicação que as informações contidas em nosso conjunto de dados estão disponíveis

somente no nível de área e para todas as áreas. Como se sabe qual a verdadeira

renda média de cada área, pode-se comparar a estimativa de cada pequena área com

sua média verdadeira. O número de domicílios por área na população varia de 57 a


51

588. Considera-se que os dados disponíveis são a média e a variância amostral para

cada pequena área, di = (ȳi , s2i ), com i = 1, . . . , 140.


Avaliou-se dois conjuntos de dados separadamente. O primeiro foi o mesmo

utilizado em Moura & Holt (1999), e foi obtido por meio de uma amostra aleatória de

10% em cada área. O segundo, foi obtido por uma subamostra de 50% pertencente

à amostra de 10%. Assim, a segunda amostra utilizada é de 5% para cada área.

Portanto, as dimensões das amostras do primeiro e do segundo conjunto de dados

(ni ) variam de 6 a 59 e de 3 a 30, respectivamente. Estes dois conjutos de dados

amostrais foram construídos para avaliar o desempenho da abordagem proposta,

quando o tamanho das amostras, em média, são moderados, e quando eles são

bastante pequenos. As frações de amostragem (f = n/N ) foram respectivamente

iguais a 10% e 5%. Não se fez nenhuma correção de fração de amostragem na

formulação do modelo para esta aplicação especíca.

Uma análise preliminar da variável renda revela que existe uma assimetria

considerável. O coeciente de assimetria de Fisher é de cerca de 2, 3. Isto sugere que

a abordagem proposta possa ser mais adequada que aquela baseada na distribuição

normal para os erros amostrais. Para efeitos de comparação, o modelo normal

também foi ajustado.

Na Figura 3.10 tem-se as densidades da distribuição a posteriori dos parâmetros

estimados, segundo os modelos normal assimétrico e normal, para amostra de

5%. As densidades da distribuição a posteriori dos parâmetros, para as duas

abordagens normal e normal assimétrica têm comportamentos parecidos, exceto

para o intercepto β0 . O parâmetro σν2 apresenta um comportamento um pouco

assimétrico à direita. Esses comportamentos são similares para amostra de 10%

apresentados na Figura 3.11.

As Tabelas 3.10 e 3.11 apresentam algumas medidas síntese para os parâmetros

da distribuição a posteriori dos ajustes normal e normal assimétrico para as amostras

de 5% e de 10%. Observa-se que o parâmetro de assimetria λ é signicativamente

maior que zero para ambas as amostras. Estes resultados estão de acordo com

a expectativa de que os dados de renda tenham uma assimetria positiva. Ao

se comparar as estimativas dos parâmetros para os modelos normal e normal

assimétrico para cada uma das amostras, pode-se notar que todas as estimativas são

iguais ou um pouco menores para o modelo normal assimétrico. Nota-se, também,


52

Figura 3.10: Densidade da distribuição a posteriori dos parâmetros β0 , β1 , β2 , σν2 e

λ para aplicação com dados de renda com amostra de 5%, considerando os ajustes

Normal Assimétrico (NA) e Normal (N).


1.2

0.6
2.0

NA N
1.0

NA

0.5
N
NA
1.5

0.8

0.4
0.6

0.3
1.0

0.4

0.2
0.5

0.2

0.1
0.0

0.0

0.0

7.0 7.5 8.0 8.5 9.0 −1.0 −0.5 0.0 0.5 1.0 1.5 2.0 1 2 3 4 5 6 7

(a) β0 (b) β1 (c) β2


0.15

NA
1.2

N
NA
1.0

0.10
0.8
0.6

0.05
0.4
0.2

0.00
0.0

0.5 1.0 1.5 2.0 2.5 3.0 3.5 5 10 15 20 25

(d) σν2 (e) λ


53

Figura 3.11: Densidade da distribuição a posteriori dos parâmetros β0 , β1 , β2 , σν2 e

λ para aplicação com dados de renda com amostra de 10%, considerando o ajuste

Normal Assimétrico (NA) e Normal (N).


2.5

1.4

0.7
N N
NA NA
N
1.2

0.6
2.0

NA
1.0

0.5
1.5

0.8

0.4
0.6

0.3
1.0

0.4

0.2
0.5

0.2

0.1
0.0

0.0

0.0

7.5 8.0 8.5 9.0 0.0 0.5 1.0 1.5 2.0 1 2 3 4 5

(a) β0 (b) β1 (c) β2

NA
1.2

0.15

N
NA
1.0
0.8

0.10
0.6
0.4

0.05
0.2

0.00
0.0

0.5 1.0 1.5 2.0 2.5 3.0 3.5 0 5 10 15 20

(d) σν2 (e) λ


54

que o desvio-padrão de λ é maior que os desvios dos demais parâmetros. Para

amostra de 10%, os valores estimados da distribuição normal e normal assimétrica

parecem mais próximos do que para a amostra de 5%. Isso se dá devido aos tamanhos

da amostra de 10% serem maiores do que os tamanhos da amostra de 5%.

Tabela 3.10: Medidas resumo para a distribuição a posteriori dos parâmetros para

os dados de renda segundo os ajustes do modelo normal assimétrico e normal para

amostra de 5%.
Ajuste Normal Assimétrico
Parâmetros
Média dp 2,5% Mediana 97,5 %

β0 7,23 0,19 6,87 7,22 7,61

β1 0,50 0,35 -0,18 0,5 1,19

β2 3,11 0,65 1,87 3,12 4,38

σν2 1,39 0,37 0,76 1,35 2,22

λ 8,6 2,83 4,08 8,20 14,87

a 1,2 0,15 0,92 1,19 1,48

b 36,84 6,24 24,68 37,03 48,23

Ajuste Normal

β0 8,38 0,20 8,01 8,38 8,79

β1 0,55 0,41 -0,23 0,54 1,38

β2 3,84 0,74 2,39 3,85 5,27

σν2 1,10 0,39 0,50 1,05 2,04

a 1,19 0,12 0,97 1,19 1,43

b 35,78 4,32 27,34 35,85 43,64


55

Tabela 3.11: Medidas resumo para a distribuição a posteriori dos parâmetros para

os dados de renda segundo ajuste do modelo normal assimétrico e do modelo normal

para amostras de 10%.

Ajuste Normal Assimétrico


Parâmetros
Média dp 2,5% Mediana 97,5 %

β0 7,83 0,18 7,49 7,83 8,20

β1 0,77 0,32 0,16 0,76 1,42

β2 2,89 0,57 1,79 2,89 4,01

σν2 1,52 0,39 0,84 1,49 2,36

λ 7,33 2,77 3,12 6,88 13,82

a 1,35 0,12 1,13 1,35 1,6

b 46,79 5,15 38,37 46,04 57,48

Ajuste Normal

β0 8,60 0,17 8,28 8,60 8,94

β1 0,78 0,33 0,14 0,79 1,43

β2 3,37 0,59 2,23 3,37 4,54

σν2 1,21 0,35 0,64 1,18 2,01

a 1,40 0,15 1,13 1,40 1,71

b 49,21 6,70 38,19 49,09 61,85


56

Critérios de Comparação de modelos

Nesta seção utiliza-se alguns critérios de comparação de modelos para vericar se o

modelo normal assimétrico ajusta melhor os dados de renda do que o modelo normal,

para ns de predição, principalmente quando o tamanho da amostra não é grande

o suciente para se utilizar os resultados assintóticos estabelecidos pelo Teorema

Central do Limite. Foi feita uma comparação entre os modelos normal assimétrico

e normal, através dos critérios de seleção de modelos DIC, EQMp, EAMp e EPD.

Nas aplicações, o critério BIC não foi utilizado, pois ele não se mostrou eciente nas

simulações em detectar o modelo verdadeiro. [Ver Seção 3.3].

Na Tabela 3.12 são apresentados o DIC, juntamente com a média a posteriori dos

desvios (D̄ ) e o desvio da média a posteriori (D̂ ). Como os dados são formados pelo

par (ȳi , s2i ), estas medidas foram calculadas separadamente para cada uma destas

duas estatísticas. Medidas globais são obtidas pelo somatório (ver a linha Total

em Tabela 3.12). O modelo com o menor DIC deve ser o modelo preferido. Como

para esse conjunto de dados o valor verdadeiro da média em cada pequena área é

conhecido, calculou-se o EQMp e o EAMp para m de vericação do melhor modelo

segundo estes critérios. Além desses critérios, o EPD também foi calculado. Para

todas as medidas, o melhor ajuste é o que apresenta menor valor.

A Tabela 3.12 apresenta um sumário das medidas de comparação do modelo

normal e normal assimétrico para dados de renda. Pode ser visto, nesta tabela,

que os critérios DIC, EQMp, EAMp e EPD apresentam resultados menores para o

modelo normal assimétrico do que para o modelo normal. Note que, de acordo com

a Tabela 3.12, as medidas de comparação de ajuste para s2i são praticamente iguais
2
em ambos os modelos, já que os modelos para si são os mesmos.

Na Tabela 3.12 também apresenta-se o valor do Preditive Probability (PP) que


(rep) (obs) (obs) (obs) (rep)
é dada por P (ȳi < ȳi |ȳi ), onde ȳi é o valor observado, e ȳi é o valor

replicado utilizando o modelo preditivo. O valor mais próximo de 50% indica o

melhor modelo. O valor da medida PP na Tabela 3.12, refere-se a média dos PP's

nas 140 pequenas áreas. Observe que para o modelo normal assimétrico, o PP é

mais próximo de 50% do que o PP do modelo normal.


Amostra de 5%

Ajustes dados DIC D̄ D̂ PD EQMp EAMp EPD PP

NA ȳ 582,35 545,48 508,61 36,87 2,00 1,09

amostras de 5% e 10%.
s2 1302,94 1220,15 1137,37 82,78 3818,72 47,85 1097,92 54%

Total 1885,29 1765,63 1645,98 119,65 - -

Normal ȳ 631,46 589,69 547,93 41,76 2,65 1,16

s2 1313,34 1215,24 1117,14 98,10 3708,44 38,99 1695,91 57%

Total 1944,80 1804,93 1665,07 139,86 - -

Amostra de 10%

data DIC D̄ D̂ PD EQMp EAMp EPD PP

NA ȳ 520,95 443,39 365,83 77,56 1,54 0,92

s2 1241,69 1134,87 1028,06 106,81 3385,75 45,69 650,12 53,7%

Total 1762,64 1578,26 1393,89 184,37 - -

Normal ȳ 568,47 510,16 451,86 58,30 2,10 1,00

s2 1253,58 1138,54 1023,51 115,03 2629,21 29,31 1111,33 56%

Total 1822,05 1648,70 1475,37 173,33 - -


Tabela 3.12: Critérios de escolha de modelos para ajustes dos dados de renda nas
57
58

Figura 3.12: Boxplots das Conditional Predictive Ordinates (CPOs) para os modelos

normal e normal assimétrico, plotados para as amostras de 5% e 10%.

Amostra de 5% Amostra de 10%


0.30

0.30
0.25

0.25
0.20

0.20
CPO

CPO
0.15

0.15
0.10

0.10
0.05

0.05
0.00

0.00
NA N NA N

A validação cruzada de densidades preditivas, também chamado de conditional

predictive ordinates (CPOs), foi feita para cada i = 1, . . . , 140 do par do conjunto

de dados, di = (ȳi , s2i ). Foram considerado os dois ajustes e para as duas frações de
amostragem. A denição utilizada aqui para a CPO da i-ésima área é feita através da

estimação da distribuição preditiva para todos os dados exceto di . Assim, o modelo

com maior CPOs indica melhor ajuste dos dados observados. Usa-se leave-one-out

method, pois este é adequado quando o número de exemplos rotulados N , é pequeno,


(ver Picard & Cook (1984)). Isto implica em ajustar o modelo 140 vezes para cada

um dos dois modelos, considerando as duas frações de amostragem, 5% e 10%. A

Figura 3.12 mostra os boxplots das CPOs calculada para cada um dos ajustes e

para cada fração de amostragem considerada. Aqui, novamente, o modelo normal

assimétrico ajusta melhor os dados do que o modelo normal, principalmente para

amostra de 5%. Este resultado conrma os resultados obtidos segundo o critério de

comparação de modelo DIC.

Na Figura 3.13 tem-se o valor predito ȳˆi versus o valor verdadeiro das médias

Ȳ . A linha vertical (|) indica o intervalo de credibilidade de 95%. O tamanho das

áreas foi ordenado de forma crescente. Nota-se que os intervalos de credibilidade do

ajuste normal assimétrico contém mais os valores das médias verdadeiras do que do

ajuste normal, tanto para a amostra de 5% quanto para amostra de 10%.


59

Figura 3.13: Intervalo de credibilidade de 95% para dados de renda. As barras

verticais representam os intervalos de credibilidade de 95% e “•” é o valor verdadeiro


da média versus o valor predito.

● ●

● ●
20

20
● ●

● ● ● ●

● ●
Valores Verdadeiros

● ●
● ●
● ●
Valor Verdadeiro ●

15

15
● ● ● ●
● ● ●

● ●
● ●
● ●
● ●
● ● ●●

● ●● ●● ●
● ●● ●
● ●
● ● ●
● ●● ●● ●●● ●
● ●
● ●● ● ● ●● ● ●
● ●
10

● ● ● ●
10

●● ● ● ● ●● ● ●
● ● ●
● ●
● ● ● ●●


●● ●● ● ●●
● ● ●●
● ●
● ●●

● ● ●●● ●●●●● ●●
● ● ●● ●● ● ●●●● ●
●●
● ● ● ●●
● ●● ● ●● ●
● ● ● ● ●● ● ● ●
● ● ●●
● ● ● ●● ●
●●● ●●●●● ●● ● ●● ●●●



●●● ● ● ● ● ● ●●● ●
●● ● ● ●●●
● ●●● ● ●●
● ● ●●
●● ● ● ● ● ●●●●●● ● ●●

●●● ● ●
● ●
● ● ●● ● ● ●● ● ●●
●● ● ● ● ● ●● ●
● ● ●
5


5

● ●


0 5 10 15 20 5 10 15 20

Valores Preditos Valor Predito

(a) Amostra de 5% ajuste Normal (b) Amostra de 5% ajuste NA





20


20


● ●


Valores Verdadeiros


● ●
Valor Verdadeiro

● ● ●

15


15

● ●● ●
● ● ●
● ●
● ●
● ●

● ● ●●

● ●●

● ● ●● ●
● ●● ●


● ● ●
●● ● ● ●
● ●● ●●

● ●●● ●● ●● ● ●
10

● ●● ● ●
● ●
10

● ● ●● ●
●●● ●● ●● ● ●
● ● ● ●●

●● ● ● ●
● ●● ● ●● ●●●
● ● ●● ● ●
● ●● ●● ● ● ●●● ●● ●
● ● ●●● ● ● ● ● ● ●● ●
●●

● ● ● ●
●●
●●● ● ● ●● ● ●
● ●
●● ●● ●●

● ●●● ●
●● ●
● ● ● ● ●● ●● ● ●● ●
● ●● ●●●●● ●
●●● ●● ● ●● ● ●● ●● ● ● ●
●● ●●●●●●●● ● ● ●
●●
● ● ● ● ● ●● ●● ● ●● ●
●● ● ● ●● ● ●
● ●● ● ● ● ●●●
● ●
● ●
5


5

● ●

● ●

0 5 10 15 20 5 10 15 20

Valores Preditos Valor Predito

(c) Amostra de 10% ajuste Normal (d) Amostra de 10% ajuste NA


60

Figura 3.14: Diferença entre a estimativa do ajuste normal assimétrico e normal,


(N A) (N )
ηyi = µ̂i − µ̂i para dados de renda.
5
4
3
2
1
0
−1

1 4 7 11 15 19 23 27 31 35 39 43 47 51 55 59 63 67 71 75 79 83 87 91 95 99 104 109 114 119 124 129 134 139

n_i

(a) Amostra de 5%
8
6
4
2
0

1 4 7 11 15 19 23 27 31 35 39 43 47 51 55 59 63 67 71 75 79 83 87 91 95 99 104 109 114 119 124 129 134 139

n_i

(b) Amostra de 10%


61

A Figura 3.14 apresenta os valores padronizados para os dados estimados. No

eixo das ordenadas tem-se a diferença entre os valores preditos, considerando o ajuste

normal assimétrico e o ajuste normal, respectivamente. A notação utilizada para


(N A) (N )
essa medida é ηyi = µ̂i − µ̂i . No eixo das abscissas tem-se os tamanhos das
m = 140 pequenas áreas ordenados de forma crescente. Tanto para amostra de 5%

quanto para amostra de 10%, os valores estão bem distribuídos em torno de zero,

isto mostra que não há vício em nenhum dos modelos. Porém, as medidas ηyi de

cada pequena área são maiores para amostra de 5% do que para amostra de 10%.

Este gráco mostra que a medida em que o tamanho da amostra ni aumenta, as

estimativas do modelo normal assimétrico e normal tendem a se aproximar. Isso é

mais notório para amostra de 10%, em que os respectivos tamanhos das pequenas

áreas são maiores.

A Figura 3.15 mostra os valores amostrais versus os valores estimados. Para

o ajuste normal assimétrico, nas amostras de 5% e de 10%, as observações estão

mais próximas da reta identidade. Para o ajuste normal, as observações estão mais

distantes da reta, principalmente para a amostra de 5%. Os pontos distantes da

reta, na parte superior de cada gráco, representam as áreas em que a renda média

dos chefes do domicílio é alta.


62

Figura 3.15: Comparação dos dois ajustes: valor amostral ȳi versus sua estimativa

ȳˆi para dados de renda.


20

20
15

15
10

10
5

5 10 15 20 5 10 15 20

(a) Amostra de 5% ajuste Normal (b) Amostra de 5% ajuste NA


20

20
15

15
10

10
5

5 10 15 20 5 10 15 20

(c) Amostra de 10% ajuste Normal (d) Amostra de 10% ajuste NA


63

3.4.2 Aplicação 2: Dados Educacionais

Este conjunto de dados foi extraído de um estudo de avaliação educacional realizado

no Estado do Rio de Janeiro, em 2001, com crianças em escolas primárias. A

população é composta por 57 escolas com um total de 2209 alunos. O número de

alunos por escola Ni varia de 7 a 67. O interesse deste estudo foi avaliar a prociência

média escolar de uma determinada série, por meio das notas dos alunos, obtidas nos

testes de matemática e português, de acordo com uma escala pré-denida. Nesta

aplicação não se tem os dados censitários de todos os alunos. Portanto, não foi

possível comparar os valores estimados com os verdadeiros.

Partiu-se do princípio de que a fração de amostragem é pequena para poder se

utilizar o modelo proposto. Cada pequena área (escola) possui apenas uma variável

explicativa x1 , que representa o grau de escolaridade máximo dos pais. Para esse

banco de dados, ajustou-se os modelos normal assimétrico e normal, e comparou-se

os dois ajustes.

Foi utilizado o algoritmo MCMC com 200000 iterações e das quais as 100000

primeiras observações foram descartadas e, em seguida, foram selecionadas uma a

cada 20 das 100000 iterações restantes. Utilizou-se o software R.

Na Tabela 3.13 encontram-se os valores estimados dos parâmetros via MCMC. O

parâmetro de assimetria λ apresentou valor não signicativo. A média a posteriori

do parâmetro de assimetria resultou em valor negativo e com desvio padrão de

4,28. Observa-se que as outras medidas dos parâmetros são próximas para ambos

os ajustes, inclusive os quantis de 2,5% e 97,5%.

A Tabela 3.14 mostra os resultados dos critérios DIC e EPD utilizados para

comparação dos modelos. Aqui, o melhor modelo indicado pelo DIC e EPD é

o modelo normal assimétrico. Embora o parâmetro de assimetria (λ) seja muito

pequeno, os critérios DIC, EPD e PP apontam o modelo normal assimétrico como

o mais adequado aos dados.

A Figura 3.16 mostra as densidades da distribuição a posteriori dos parâmetros

para os ajustes normal assimétrico e normal. Observa-se que as densidades, para

ambos os ajustes, são muito próximas.


64

Tabela 3.13: Medidas resumo para a distribuição a posteriori dos parâmetros para

os dados educacionais segundo ajustes normal e normal assimétrico.

Parâmetros Ajuste Normal Assimétrico

Média dp 2 ,5% Mediana 97 ,5

β0 22,08 0,79 20,53 22,08 23,65

β1 7,19 1,94 3,35 7,22 11,03

σν2 3,53 0,96 1,95 3,43 5,76

λ -1,97 3,18 -9,27 -1,64 3,87

a 1,70 0,23 1,27 1,69 2,15

b 58,57 8,18 45,45 58,98 72,15

Ajuste Normal

β0 21 ,82 0 ,70 20 ,45 21 ,81 23 ,21

β1 7 ,28 1 ,95 3 ,41 7 ,28 11 ,17

σν2 3 ,36 0 ,95 1 ,86 3 ,24 5 ,51

a 1 ,76 0 ,26 1 ,35 1 ,72 2 ,31

b 59 ,70 9 ,45 47 ,71 54 ,74 76 ,95

Tabela 3.14: Critérios de escolha de modelos para aplicação dos dados educacionais.

Ajuste Normal Assimétrico Ajuste Normal

Medidas ȳ s2 Total ȳ s2 Total

BIC 879,89 1141,56 2021,45 651,95 911,42 1563,37

DIC 210,87 485,21 696,08 219,24 495,24 714,48

D̄ 172,36 434,38 606,24 179,07 438,38 617,45

D̂ 133,84 383.55 519,39 138,71 381,53 520,24

pD 38,52 50,83 86,85 40,36 56,85 97,21

PP 0,50 0,49

EP D 118,90 150,00
65

Figura 3.16: Densidade da distribuição a posteriori dos parâmetros β0 , β1 , σν2


e λ para aplicação com dados de educacionais considerando os ajustes Normal

Assimétrico (NA) e Normal (N).

0.25
N
NA
0.5

0.20
N
NA
0.4

0.15
0.3

0.10
0.2

0.05
0.1

0.00
0.0

19 20 21 22 23 24 25 0 5 10 15

(a) β0 (b) β1
0.5

0.15

N
NA
0.4

0.10
0.3

NA
0.2

0.05
0.1

0.00
0.0

2 4 6 8 10 −20 −15 −10 −5 0 5 10

(c) σν2 (d) λ


66

Figura 3.17: Comparação dos dois ajustes para aplicação com dados educacionais:

valor amostral ȳi versus estimativas ȳˆi .


30

30
28

28
26

26
24

24
22

22
20

20

20 22 24 26 28 30 20 22 24 26 28 30

(a) Normal Assimétrico (b) Normal

A Figura 3.17 apresenta os valores observados da prociência dos alunos versus

os valores estimados. A disposição das observações em ambos os modelos são muito

próximas. A diferença das estimativas está, na maioria dos casos, na segunda casa

decimal. Isso mostra que os ajustes são bem parecidos.

3.4.3 Conclusão das Aplicações


Na aplicação de renda em que os erros possuíam um forte comportamento

assimétrico, pode-se notar que o modelo que leva em conta essa assimetria foi

superior ao modelo convencional, assumindo-se erros normais. Notou-se que existe

uma assimetria à direita na distribuição. A formulação do modelo proposto também

permitiu observar que a covariável grau de escolaridade tem inuência na média da

renda, ajudando a explicar o comportamento da variável de interesse.

Na aplicação com os dados educacionais houve uma leve assimetria à esquerda.

O intervalo de credibilidade da estimação do parâmetro de assimetria contém o zero,

sugerindo que os dados não têm assimetria e que o modelo normal pode ser adequado
67

para estimar os valores esperados das observações. É importante lembrar que o DIC

e EPD apontaram o modelo assimétrico como mais eciente. Em outras palavras, há

ganho preditivo ao se ajustar o modelo normal assimétrico na aplicação com dados

educacionais.

Os resultados das medidas de ajuste mostraram a superioridade dos modelos

assimétricos em comparação com os modelos usuais simétricos. Segundo o DIC o

melhor modelo foi o que considera assimetria nos dados para ambas as aplicações.

Isso também foi conrmado pelo EPD. Na primeira aplicação, em que os valores

verdadeiros da variável de interesse está disponível, ca ainda mais evidente a

eciência do modelo proposto ao se comparar os respectivos EAMp e EQMp.


Capítulo 4

Modelo Assimétrico no Nível de


Unidade

Além do modelo proposto no capítulo anterior, com as observações no nível de

área, é interessante propor um modelo no nível da unidade, cujos erros aleatórios

sejam normais assimétricos. Para isso, propõe-se dois casos: i) o primeiro, modelo

assimétrico no nível de unidade que considera o parâmetro de assimetria comum para

todas as áreas, chamado de Modelo Normal Assimétrico com λ Comum (MNAC);

e ii) o segundo, modelo assimétrico no nível de unidade, com um parâmetro de

assimetria variando de área para área, com estrutura hierárquica, chamado de

Modelo Normal Assimétrico Hierárquico (MNAH).

Essa motivação se dá devido à possibilidade do parâmetro de assimetria poder

ser igual ou diferente em cada pequena área. No modelo de área, só está disponível

uma observação para cada área, o que torna difícil a estimação desse parâmetro

se considerados diferentes para cada área. Nos modelos propostos neste capítulo,

tem-se ni observações para cada área.

A vantagem da estimação no nível de unidade em relação ao nível de área é que

se pode fazer previsão para cada unidade populacional não pertencente à amostra,

e não somente para a média de toda pequena área.

68
69

4.1 Modelo assimétrico no nível de unidade com λ


comum (MNAC)
O modelo proposto, baseado no modelo do nível de unidade e na suposição do erro

sendo normal assimétrico, pode ser escrito como: para a unidade j da pequena área

i,
p
yij |µij , λi , φi ∼ N A(µij , φi , λi ), (4.1)

0
onde µij = xij β + νi com νi ∼ N (0, σν2 ); φi |a, b ∼ IG(a, b), λi = λ para todo i.
Baseado na Propriedade 7 do Capítulo 2 pode-se inserir uma variável latente

para facilitar o processo de estimação via MCMC. Ou seja, pode-se escrever

p
yij |Wij , µij , λ, φi ∼ N [µij + φi δwij ; φi (1 − δ 2 )], (4.2)


onde δ = λ/ 1 + λ2 e Wij ∼ HN (0, 1) é a variável latente.

Seja Θ = (µ, β, φ, λ, σν , a, b) o vetor de parâmetros a serem estimados, onde

µ = (µ1 , . . . , µm ) com µi = (µi1 , . . . , µij ) para todo i e φ = (φ1 , . . . , φm ). Usando a

representação estocástica, a verossimilhança é dada por

ni
m Y
Y
L(D, w|Θ) = f (yij |Θ, w).f (wij )
i=1 j=1
m Y ni √
−(yij − (µij + φi δwij ))2
 
Y 1
= p exp
i=1 j=1 2π(1 − δ 2 )φ
i 2φi (1 − δ 2 )
r 2 
wij

2
× exp − , (4.3)
π 2

onde D = (yij ) é o vetor de dados disponíveis, com j = 1, . . . , ni , e i = 1, . . . , m


e w são os parâmetros introduzido para a representação estocástica da distribuição

normal assimétrica. A distribuição a priori para Θ pode ser escrito como segue:

m ni
!
Y Y
π(Θ) = π(λ)π(σν2 )π(a)π(b)π(β) π(φi |a, b) [π(µij |β)] . (4.4)
i=1 j=1

As prioris utilizadas para os parâmetros foram σν2 ∼ IG(0, 01; 0, 01),


βk ∼ N (0, 1000), para todo k = 1, . . . , p e φi ∼ IG(a, b) onde a e b são
70

hiperparâmetros com distribuição gama Ga(0, 01; 0, 10). A priori utilizada para
1
λ ∼ t(0, 2
; 2), onde t(e, f ; gl) denota a distribuição t-Student centrada em e com

escala f e gl graus de liberdade. Essa priori foi escolhida baseada em Bayes &

Branco (2007). Com essa priori, tem-se que a transformação de δ = λ/ 1 + λ2
fornece uma priori não informativa U (−1, 1).
Combinando (4.3) e (4.4), a distribuição conjunta dos dados D e dos parâmetros
Θ mais w é dada por:

π(Θ, w, D) = L(D, w|Θ) × π(Θ). (4.5)

Mais detalhes sobre o processo de estimação por MCMC, inclusive as condicionais

completas, encontram-se no Apêndice C1.

4.2 Modelo assimétrico no nível de unidade com λi


hierárquico (MNAH)
A diferença desse modelo para a Seção 4.1 é que ele permite que o parâmetro de

assimetria λ seja diferente para cada pequena área. Assim, o modelo segue como

p
yij |µij , λi , φi ∼ N A(µij , φi , λi ) (4.6)

0
onde µij = xij β + νi com νi ∼ N (0, σν2 ); φi |a, b ∼ IG(a, b) e λi |λ, σλ2 ∼ N (λ, σλ2 ),
com i = 1, . . . , m e j = 1, . . . , ni . λi depende de um hiperparâmetro λ.
Note que
√ p
Pode-se escrever yij |· ∼ N [µij + φi δi wij ; φi (1 − δi2 )], onde δi = λi / 1 + λ2i e

Wij ∼ HN (0, 1) é a variável latente.

Seja Θ = (µ, β, φ, λ, σν , a, b) o vetor de parâmetros a serem estimados, onde µ =


(µ1 , . . . , µm ) com µi = (µi1 , . . . , µij ) para todo i e j = 1, . . . , ni , φ = (φ1 , . . . , φm )
e λ = (λ1 , . . . , λm ). Usando a representação estocástica, a verossimilhança é dada

por

ni
m Y
Y
L(D, w|Θ) = f (yij |Θ, w).f (wij )
i=1 j=1
m Y ni √
−(yij − (µij + φi δi wij ))2
 
Y 1
= exp
2φi (1 − δi2 )
p
i=1 j=1 2π(1 − δi2 )φi
71
r 2 
wij

2
× exp − , (4.7)
π 2
com j = 1, . . . , ni , e i = 1, . . . , m, e w são os parâmetros introduzido para

a representação estocástica da distribuição normal assimétrica. Portanto, a

distribuição a priori para Θ pode ser escrito como segue:


 
m
Y ni
Y
π(Θ) = π(λ)π(σλ2 )π(σν2 )π(a)π(b)π(β) π(φi |a, b)π(λi |λ, σλ2 ) π(µij |β) .(4.8)
i=1 j=1

As prioris utilizadas para os parâmetros foram as mesmas escolhidas para o

modelo de unidade da Seção 4.1. Para o parâmetro σλ2 e para os hiperparâmetros a


e b, foi utilizado uma priori Inversa Gama, IG(0, 01; 0, 01).
Combinando (4.7) e (4.8), a distribuição conjunta dos dados D e dos parâmetros
Θ mais w é dada por:

π(Θ, w, D) = L(D, w|Θ) × π(Θ). (4.9)

Mais detalhes sobre o processo de estimação podem ser encontrados no Apêndice

C2.

4.3 Estudo de Simulação para o modelo assimétrico


no nível da unidade.
Para avaliar a qualidade das estimações, zeram-se estudos de simulação dos modelos

propostos neste capítulo. Na primeira simulação, Simulação 1, foram geradas

observações segundo o modelo em que o parâmetro de assimétria λ é comum a

todas as áreas. Na segunda simulação, denominada de Simulação 2, foram geradas

observações segundo o modelo onde o parâmetro de assimétria λi possui uma

estrutura hierárquica e varia de acordo com a área. Nas duas simulações, a estimação

sob o modelo normal assimétrico é comparada com a estimação do modelo normal,

segundo alguns critérios de comparação de modelos.

As observações foram geradas segundo o modelo assimétrico com λ = −1, λ = 0,


λ = 5 e λ = 10. Para o modelo assimétrico hierárquico, os valores de λi foram
72

gerados segundo uma distribuição normal com N (λ, σλ2 ). Escolhe-se σλ2 = 0, 1 por

supor que a variância dentro das áreas é pequena.

As covariáveis x1ij e x2ij foram geradas de uma distribuição normal padrão

N (0, 1). Os valores de m e dos ni foram os mesmos da amostra de 10% dos dados

de renda, visto na Seção 3.4.

4.3.1 Simulação 1
A Simulação 1, refere-se a simulações baseadas no modelo no nivel de unidades

assimétrico, considerando mesmo parâmetro de assimetria em todas as áreas. Foram

feitas 80000 iterações, das quais as 30000 primeiras foram descartadas, e tomada

uma a cada 20. Utilizou-se os software R, Ox e Winbugs. A parte gráca foi feita

utilizando o R. As observações foram geradas através do OX e ajustou-se o modelo

via MCMC utilizando o WinBugs.

A Tabela 4.1 mostra as medidas resumos das posteriori dos parâmentros,

considerando o mesmo λ para todas as áreas. Observou-se que todos os parâmetros

estão dentro do intervalo de credibilidade, e que a média a posteriori estima bem os

verdadeiros parâmetros. O σν2 é o único parâmetro que não está contido dentro do

intervalo de credibilidade de 95% em todas as simulações. Mesmo assim, o limite

inferior desse intervalo é muito próximo do valor verdadeiro.

As Figuras 4.1, 4.2, 4.3 e 4.4 mostram o histograma da distribuição a posteriori

dos parâmetros. Pode observar que em todas as simulações os valores verdadeiros

dos parâmetros, representado pela linha cheia em vertical, estão dentro do intervalo

de credibilidade de 95% (representado pelas linhas verticais tracejadas), com exceção

do parâmetro σν2 , cujo valor verdadeiro está próximo do quantil 2,5%.


73

Tabela 4.1: Medidas resumo dos parâmetros da simulação para os dados assimétricos
no nível da unidade com λ comum a todas as áreas.
Valor
Parâmetros Média dp 2,5% Mediana 97,5%
Verdadeiro
MNAC: λ = −1
σν2 5 6,397 0,810 4,981 6,308 8,190
β0 9 9,396 0,234 8,949 9,387 9,864
β1 1 0,981 0,024 0,935 0,982 1,028
β2 3 3,014 0,030 2,956 3,013 3,076
λ -1 -1,22 0,120 -1,448 -1,224 -0,970
MNAC: λ=0
σν2 5 6,64 0,846 5,267 6,599 8,499
β0 9 9,555 0,878 7,952 9,563 11,05
β1 1 0,978 0,0301 0,923 0,9763 1,039
β2 3 3,002 0,039 2,918 3,005 3,078
λ 0 -0,1893 0,367 -0,843 -0,164 0,470
MNAC: λ=5
σν2 5 6,580 0,810 5,189 6,506 8,403
β0 9 9,174 0,221 8,739 9,176 9,596
β1 1 0,993 0,014 0,965 0,993 1,019
β2 3 2,997 0,019 2,959 2,998 3,035
λ 5 5,146 0,354 4,484 5,135 5,888
MNAC: λ = 10
σν2 5 6,591 0,804 5,200 6,526 8,347
β0 9 9,205 0,219 8,768 9,205 9,635
β1 1 0,991 0,011 0,969 0,991 1,014
β2 3 2,995 0,015 2,964 2,995 3,025
λ 10 9,716 0,948 8,093 9,662 11,97
74

Figura 4.1: Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2 ,


σν2 e λ = −1 com intervalo de 95% de credibilidade, para simulação com dados
assimétricos no nível da unidade com ajuste NAC.
1.5

12
15

10
1.0

8
10

6
0.5

4
5

2
0.0

8.5 9.0 9.5 10.0 0.90 0.95 1.00 1.05 2.90 2.95 3.00 3.05 3.10 3.15

(a) β0 (b) β1 (c) β2


0.5

3.0
2.5
0.4

2.0
0.3

1.5
0.2

1.0
0.1

0.5
0.0

0.0

4 5 6 7 8 9 10 −1.6 −1.4 −1.2 −1.0 −0.8

(d) σν2 (e) λ


75

Figura 4.2: Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2 , σν2 , e


λ = 0 com intervalo de 95% de credibilidade, para simulação com dados assimétricos
no nível da unidade com ajuste NAC.
0.8

10
12
10

8
0.6

6
0.4

4
4
0.2

2
2
0.0

7.5 8.0 8.5 9.0 9.5 10.0 10.5 0.90 0.95 1.00 1.05 2.90 2.95 3.00 3.05 3.10

(a) β0 (b) β1 (c) β2


2.0
0.4

1.5
0.3

1.0
0.2

0.5
0.1
0.0

0.0

4 5 6 7 8 9 10 −0.4 −0.2 0.0 0.2 0.4 0.6

(d) σν2 (e) λ


76

Figura 4.3: Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2 , σν2 e


λ = 5 com intervalo de 95% de credibilidade, para simulação com dados assimétricos
no nível da unidade com ajuste NAC.
25

20
1.5

20

15
1.0

15

10
10
0.5

5
5
0.0

8.5 9.0 9.5 10.0 0.94 0.96 0.98 1.00 1.02 1.04 2.94 2.96 2.98 3.00 3.02 3.04 3.06

(a) β0 (b) β1 (c) β2


0.5

1.4
1.2
0.4

1.0
0.3

0.8
0.6
0.2

0.4
0.1

0.2
0.0

0.0

5 6 7 8 9 10 4.5 5.0 5.5 6.0

(d) σν2 (e) λ


77

Figura 4.4: Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2 ,


σν2 e λ = 10 com intervalo de 95% de credibilidade, para simulação com dados
assimétricos no nível da unidade com ajuste NAC.

25
1.5

30

20
1.0

20

15
10
0.5

10

5
0.0

8.5 9.0 9.5 10.0 0.96 0.98 1.00 1.02 2.94 2.96 2.98 3.00 3.02 3.04

(a) β0 (b) β1 (c) β2


0.5

0.4
0.4

0.3
0.3

0.2
0.2

0.1
0.1
0.0

0.0

4 5 6 7 8 9 10 8 10 12 14

(d) σν2 (e) λ


78

4.3.2 Simulação 2
A Simulação 2 refere-se a simulações feitas baseadas no modelo no nível de unidade

assimetrico, considerando variação no parâmetro de assimetria para cada área, e

assumindo uma estrutura hierárquia para este parâmetro. Foram feitas 40000

iterações, das quais as 15000 primeiras foram descartadas, e tomada uma a cada

10. Utilizou-se os software R, Ox e Winbugs. A parte gráca foi feita utilizando o

R. As observações foram geradas através do OX e ajustou-se o modelo via MCMC

utilizando o WinBugs.

A Tabela 4.2 mostra as medidas resumos das posteriori dos parâmentros,

considerando λi hierárquico. Observou-se que todos os parâmetros estão dentro

do intervalo de credibilidade, e que a média a posteriori estima bem os verdadeiros

parâmetros.

As Figuras 4.5, 4.6, 4.7 e 4.8 mostram o histograma da distribuição a posteriori

dos parâmetros. Pode-se observar que em todas as simulações os valores verdadeiros

dos parâmetros, representados pela linha cheia em vertical, estão dentro do intervalo

de credibilidade de 95% (representado pelas linhas verticais tracejadas). Para

o parâmetro σλ2 , embora a distribuição a posteriori não seja simétrica, o valor

verdadeiro do parâmetro está dentro do intervalo de credibilidade da distribuição.

A Tabela 4.3 mostra as medidas de ajuste para dados gerados do modelo NAC

e NAH. Observou-se que os dois modelos assimétricos NAC e NAH têm maior

capacidade preditiva do que o modelo normal, segundo os critérios DIC e EPD.

Porém, como os modelos assimétricos possuem mais parâmetros, o BIC penaliza

estes modelos em algumas situações, dando vantagem para o modelo normal.

A Figura 4.9 apresenta o intervalo de credibilidade da média a posteriori para

cada indivíduo da amostra, para quatro áreas com tamanhos iguais a 6, 20, 30 e 59,

respectivamente, cosiderando o modelo assimétrico hierárquico com λ = 5. Observa-

se que todos os valores estão dentro do intervalo de credibilidade de 95% nas quatro

áreas, e que quando o número de observações ni aumenta, as médias a posteriori

cam mais próximas dos valores verdadeiros dos µi .


79

Tabela 4.2: Medidas resumo dos parâmetros da simulação para os dados assimétricos
de unidade com λi hierárquico.
Valor
Parâmetros Média dp 2,5% Mediana 97,5%
Verdadeiro
MNAH: λ = −1
σν2 5 6,02 0,8 4,63 5,94 7,81
σα2 0.1 0,05 0,06 0,01 0,03 0,23
β0 9 9,26 0,34 8,46 9,29 9,83
β1 1 1,03 0,02 0,98 1,02 1,07
β2 3 3,00 0,03 2,93 3,00 3,06
λ -1 -1,07 0,17 -1,30 -1,09 -0,64
MNAH: λ=0
σν2 5 5,84 0,86 4,26 5,8 7,63
σα2 0.1 0,08 0,11 0,00 0,04 0,36
β0 9 9,6 0,66 8,28 9,64 10,8
β1 1 1,03 0,03 0,97 1,03 1,09
β2 3 3,00 0,04 2,92 3,00 3,07
λ 0 -0,24 0,28 -0,76 -0,26 0,31
MNAH: λ=5
σν2 5 6,07 0,75 4,78 6,01 7,76
σα2 0.1 0,27 0,37 0,01 0,12 1,38
β0 9 9,26 0,21 8,84 9,26 9,69
β1 1 1,00 0,01 0,97 1,00 1,03
β2 3 3,00 0,02 2,96 3,00 3,04
λ 5 4,78 0,31 4,12 4,82 5,29
MNAH: λ = 10
σν2 5 6,11 0,75 4,80 6,06 7,78
σα2 0.1 0,79 1,31 0,01 0,26 3,84
β0 9 9,28 0,20 8,88 9,28 9,68
β1 1 0,99 0,01 0,97 0,99 1,01
β2 3 3,00 0,02 2,98 3,00 3,04
λ 10 9,12 0,63 8,09 9,09 10,57
80

2
Figura 4.5: Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2 , σν ,
σλ2 e λ = −1 com intervalo de 95% de credibilidade, para simulação com dados
assimétricos no nível da unidade com ajuste NAH.
1.4

12
1.2

15

10
1.0

8
0.8

10

6
0.6

4
0.4

2
0.2
0.0

7.5 8.0 8.5 9.0 9.5 10.0 10.5 0.95 1.00 1.05 1.10 2.90 2.95 3.00 3.05 3.10

(a) β0 (b) β1 (c) β2


3.0
14
0.5

12

2.5
0.4

10

2.0
0.3

1.5
6
0.2

1.0
4
0.1

0.5
2
0.0

0.0
0

4 5 6 7 8 9 10 0.0 0.2 0.4 0.6 −1.5 −1.0 −0.5 0.0

(d) σν2 (e) σλ2 (f) λ


81

2
Figura 4.6: Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2 , σν ,
σλ2 e λ = 0 com intervalo de 95% de credibilidade, para simulação com dados
assimétricos no nível da unidade com ajuste NAH.

10
14
0.5

12

8
10
0.4

6
8
0.3

4
0.2

2
0.1

2
0.0

8.0 8.5 9.0 9.5 10.0 10.5 11.0 11.5 0.95 1.00 1.05 1.10 2.85 2.90 2.95 3.00 3.05 3.10 3.15

(a) β0 (b) β1 (c) β2


1.5
10
0.4

1.0
0.3

6
0.2

0.5
0.1

2
0.0

0.0
0

4 6 8 10 0.0 0.2 0.4 0.6 0.8 1.0 1.2 −1.0 −0.5 0.0 0.5

(d) σν2 (e) σλ2 (f) λ


82

2
Figura 4.7: Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2 , σν ,
σλ2 e λ = 5 com intervalo de 95% de credibilidade, para simulação com dados
assimétricos no nível da unidade com ajuste NAH.

20
25
1.5

15
20
1.0

15

10
10
0.5

5
5
0.0

8.5 9.0 9.5 10.0 0.94 0.96 0.98 1.00 1.02 1.04 2.95 3.00 3.05

(a) β0 (b) β1 (c) β2


0.5

1.2
4
0.4

1.0
3

0.8
0.3

0.6
2
0.2

0.4
0.1

0.2
0.0

0.0
0

4 5 6 7 8 9 0.0 0.5 1.0 1.5 2.0 2.5 4.0 4.5 5.0 5.5

(d) σν2 (e) σλ2 (f) λ


83

2
Figura 4.8: Histograma da distribuição a posteriori dos parâmetros β0 , β1 , β2 , σν ,
σλ2 e λ = 10 com intervalo de 95% de credibilidade, para simulação com dados
assimétricos no nível da unidade com ajuste NAH.

25
30
2.0

20
25
1.5

20

15
15
1.0

10
10
0.5

5
5
0.0

8.8 9.0 9.2 9.4 9.6 9.8 0.96 0.98 1.00 1.02 1.04 2.96 2.98 3.00 3.02 3.04 3.06

(a) β0 (b) β1 (c) β2


0.7
1.2
0.5

0.6
1.0
0.4

0.5
0.8

0.4
0.3

0.6

0.3
0.2

0.4

0.2
0.1

0.2

0.1
0.0

0.0

0.0

4 5 6 7 8 9 0 5 10 15 8 9 10 11

(d) σν2 (e) σλ2 (f) λ


84

Tabela 4.3: Medidas de ajuste para dados gerados do modelo assimétrico com λ
comum e λi hierárquico, considerando os ajustes assimétrico e normal.

Dados gerados do MNAC com λ = −1 Dados gerados do MNAH com λ = −1


Ajuste NAC Ajuste Normal Ajuste NAH Ajuste Normal
BIC 51451,26 51469,56 52578,31 51419,55
DIC 18439,23 18466,74 18408,28 18422,61
D̄ 18227,51 18254,07 18189,54 18204,07
D̂ 18015,79 18041,4 17970,8 17985,53
PD 211,72 212,67 218,74 218,54
EPD 6,76×10
8 9,19×109 7,14×10
8 9,20×109
PP 0,5 0,86 0,5 0,87
Dados gerados do MNAC com λ=0 Dados gerados do MNAH com λ=0
Ajuste NAC Ajuste Normal Ajuste NAH Ajuste Normal
BIC 52922,56 52917,14 53863,53 52690,57
DIC 19899,4 19909,25 19652,94 19688,91
D̄ 19698,81 19701,65 19474,76 19475,08
D̂ 19498,22 19494,05 19296,58 19261,25
PD 200,59 207,6 178,18 213,83
EPD 3,99×10
8 1, 22 × 1010 9,64×10
9 1, 20 × 1010
PP 0,50 0,90 0,50 0,90
Dados gerados do MNAC com λ=5 Dados gerados do MNAH com λ=5
Ajuste NAC Ajuste Normal Ajuste NAH Ajuste Normal
BIC 48681,11 49249,68 49891,95 49260,52
DIC 15674,97 16254,11 15708,22 16254,50
D̄ 15457,36 16034,2 15503,18 16045,03
D̂ 15239,75 15814,28 15298,13 15835,56
PD 217,61 219,91 205,04 209,47
EPD 1,74×10
8 1, 67 × 1010 4,24×10
8 1, 65 × 1010
PP 0,50 0,97 0,50 0,98
Dados gerados do MNAC com λ = 10 Dados gerados do MNAH com λ = 10
Ajuste NAC Ajuste Normal Ajuste NAH Ajuste Normal
BIC 48132,02 49053,52 49331,54 49059,81
DIC 15126,55 16060,43 15146,3 16056,65
D̄ 14908,27 15838,03 14942,77 15844,33
D̂ 14689,99 15615,63 14739,24 15632,01
PD 218,28 222,4 203,53 212,32
EPD 4,19×10
8 1, 68 × 1010 1,62×10
8 1, 66 × 1010
PP 0,50 0,98 0,50 0,98
85

Figura 4.9: Intervalos de Credibilidade de 95% para µi em quatro pequenas áreas


do estudo de simulação 2 com dados gerados do modelo NAH com λ = 5. A barra
vertical (|) representa o intervalo de 95% de credibilidade, o traço (-) representa a
média a posteriori e o asterisco (∗) representa o valor verdadeiro.
30


* −
*
25


*

*

*
20
15
10


*

1 2 3 4 5 6

(a) n117 = 6
25


*
20


* −
*
15


* −
* −
*

* −
*

* −
* −
* −
*
10


*

* −
*

* −
*

* −
* −
*
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

(b) n27 = 20


*

15

*

*

* −
* −
10

*

*

* −
* −
* −
* −
* −
*

* −
* −
*
− −
5

− * − − *
* − * *
− * −
* *
− −
0

− * *
− *
* −
*

−5

*
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

(c) n103 = 30


*
15


*

* −
* −
* −
*
10


* −
* −
* −
* −
* −
* −
* −
* −−
*

* −
* −
* * −* −
* −
*

* −
* −
* −
* −
*− −
* −
*−*

* *

* −
*
5


* −
*− −
* −
* −
* −
*

* * −
*

* −
* −
* *−
− *

* −
*

* −
* −
*−*
0


* −
* −
*

* −
*
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59

(d) n67 = 59
86

4.3.3 Conclusão das Simulações


O estudo de simulação mostrou que a estimação dos modelos de unidade assimétricos

NAC e NAH são ecientes, tanto para dados com assimetria positiva quanto com

assimetria negativa, com assimetria grande ou pequena. Os parâmetros são bem

estimados em ambos os casos, e em quase todos eles o intervalo de credibilidade

de 95% contém o verdadeiro valor do parâmetro, sendo estes intervalos pequenos,

indicando que a estimação dos parâmetros é precisa.

Os critérios de seleção de modelos DIC e EPD mostram-se ecientes para

comparar os modelos, pois em todos os casos o modelo com menor DIC e EPD foi o

modelo gerado. Isso mostra que estes critérios podem apontar qual o melhor modelo

para dados reais. É necessário ter cuidado ao utilizar o BIC, pois nas simulações ele

aponta como melhor modelo o mais simples, com menor número de parâmetros.

4.4 Aplicação
Esta seção apresenta uma aplicação em pequenas áreas para dados de renda. A

amostra considerada foi obtida por meio de uma amostra aleatória de 10% em cada

área. Os dados utilizados para avaliar o modelo proposto neste trabalho foram os

mesmos descritos em Moura & Holt (1999) e na Seção 3.4.1; contudo, considerou-se

os dados no nível de unidade. A aplicação consiste em estimar a renda familiar de

setores censitários de um município brasileiro, utilizando as covariáveis X1ij e X2ij ,


que representam, repectivamnete, o número de quartos no domicílio e o grau de

escolaridade do chefe da família, ambas as variáveis padronizadas pela média. Foram

ajustados os dois modelos assimétricos no nível de unidade (MNAC e MNAH), além

do modelo normal, para ns de comparação, segundo os critérios de comparação

BIC (Schwarz, 1978), DIC (Spiegelhalter et al., 2002), e EPD (Gelfand & Ghosh,

1998).

Os modelos propostos são como o descrito nas Seções 4.1 e 4.2 e foram utilizadas

as mesmas prioris para todos os parâmetros. Os valores apresentados foram baseados

em 60000 iterações do algoritmo MCMC, nas quais as primeiras 20000 foram

descartadas, consideradas como aquecimento da cadeia e tomadas uma a cada 20

iterações, reduzindo a autocorrelação das cadeias dos parâmetros.


87

Na Tabela 4.4, nota-se que as médias a posteriori dos dois modelos assimétricos

são bem parecidos. A estimação do parâmetro β0 no ajuste normal é o que mais se

diferencia dos ajustes assimétricos. Isso se dá devido ao fator de correção do valor

esperado da distribuição normal assimétrica, onde E(X) − µij = f (λi , φi ).


Na Tabela 4.5, observou-se que segundo os critérios BIC e EPD, o modelo

assimétrico que considera assimetria comum entre as áreas é melhor que os demais

modelos, embora os valores sejam bem próximos dos obtidos no modelo assimétrico

hierárquico. Segundo o DIC, o melhor modelo é o modelo assimétrico com hierarquia

no λi . Isso indica que os dois modelos assimétricos são parecidos, tendo capacidade

preditiva similares, o que indica que existe pouca variação nas pequenas áreas em

relação a este parâmetro de assimetria. Em todas as medidas, observou-se uma

grande vantagem dos modelos assimétricos em relação ao modelo normal, indicando

a necessidade de impor assimetria na estimação do modelo. Embora o NAC e o NAH

apresentem resultados similares, não se pode concluir que para todas as aplicações

a assimetria seja comum para todas as áreas. Em algumas aplicações pode ocorrer

uma grande variação de assimetria entre as áreas. Nestas situações, espera-se que

modelo NAH possua capacidade preditiva signicativamente maior que a do modelo

NAC.
88

Tabela 4.4: Medidas resumo para a distribuição a posteriori dos parâmetros para os
dados de renda segundo os ajustes do modelo normal, NAC e NAH para amostra
de 10%.
Média dp 2,5% Mediana 97,5 %
Parâmetros
Ajuste Normal
β0 8,64 0,14 8,37 8.64 8.93
β1 1,08 0,05 0,97 1,08 1,19
β2 2,15 0,07 2,00 2,15 2,29
σν2 1,11 0,34 0,54 1,08 1,82
Ajuste NAC
β0 1,61 0,10 1,42 1,60 1,80
β1 0,35 0,04 0,28 0,35 0,42
β2 1,13 0,06 1,01 1,12 1,24
σν2 0,47 0,12 0,25 0,46 0,74
λ 8,82 0,73 7,56 8,78 10,29
Ajuste NAH
β0 1,62 0,09 1,44 1,62 1,81
β1 0,34 0,04 0,27 0,34 0,41
β2 1,12 0,05 1,02 1,12 1,23
σν2 0,38 0,12 0,17 0,37 0,64
λ 10,68 1,13 8,06 10,61 13,12
σλ2 11,39 5,31 3,56 10,46 24,25

Tabela 4.5: Critérios de escolha de modelos para aplicação dos dados de renda com
amostra de 10%.
Medidas Ajuste NAH Ajuste NAC Ajuste Nromal
BIC 58152,12 57037,71 58236,37
DIC 23955,18 23990,99 25197,29
D̄ 23763,35 23813,96 25020,88

D̂ 23571,52 23636,93 24844,47


pD 191,83 177,03 176,41
EP D 9
5, 21 × 10 3,89×10 9 9
9, 55 × 10
PP 0,46 0,46 0,84
89

4.4.1 Previsão
Nesta subseção, foi feita a previsão para valores não observados da aplicação de renda

para amostra de 10%. Como esses dados são censitários, tem-se os valores de toda

a população. Com isso, pode-se fazer comparações entre os modelos normal, NAC

(normal assimétrico com λ comum a todas as áreas) e NAH (normal assimétrico

com λi hierárquico) e vericar qual o modelo cujas estimativas estão mais próximas

dos valores verdadeiros das médias das pequenas áreas.

Moura & Migon (2002) construiram um modelo para proporções de pequenas

áreas cujas previsões são relacionadas ao conjunto de variáveis auxiliares disponíveis

para todas as unidades da população. Assim, a distribuição a posteriori para cada

proporção da pequena área θi pode ser obtida através da distribuição preditiva de

yij para cada unidade não amostrada j∈


/ Si , i = 1, . . . , m.
Para fazer a estimativa da média populacional de uma determinada área i,
utilizou-se os valores amostrados e previu-se todos os valores não observados, por

meio da distribuição a posteriori dos parâmetros e das covariáveis. Então, na iteração

k, o valor amostrado da média populacional na pequena área i, é dado por:

P P (k)
(k) j∈Si / i yij
yij + j ∈S
µi = (4.10)
Ni
onde Si é o conjunto dos índices das unidades que fazem parte da amostra da pequena
área i e Ni é o tamanho da população na área i. A esperança e a variância a
1
PI (k)
posteriori são, repectivamente, estimadas por E(µi |D) = k k=1 µi , e V (µi |D) =
1
PI (k)
k k=1 [µi − E(µi |D)]2 , para k = 1, . . . , I . Assim, para o indivíduo não observado

j da pequena área i, na iteração k, tem-se


q
(k) (k) (k) (k)
yij ∼ N A(µij , φi , λi ). (4.11)

(k) 0
onde, segundo o modelo proposto, µij ∼ N (Xij β (k) , (σν2 )(k) ). Os somatórios
P (k)
/ i yij , que é o termo utilizado para calcular a média de toda a área
j ∈S i, foram

estimados de acordo com cada modelo ajustado. Note que para fazer a previsão para

toda a população é necessário ter disponível os valores das covariáveis para todos os

indivíduos da população.

A Figura 4.10 mostra os intervalos de credibilidade de 95% para as médias das

pequenas áreas, obtidos sob os ajustes Normal, NAC e NAH. A barra vertical (|)
90

representa o intervalo de 95% de credibilidade, o traço (-) representa a média a

posteriori e o asterisco (∗) representa o valor verdadeiro. Pode-se observar que os

ajustes assimétricos possuem estimativas parecidas, e que quase todos os valores

verdadeiros estão dentro do intervalo de credibilidade da média da pequena área.

No ajuste normal, os comprimentos dos intervalos de credibilidade são pequenos, e

não contemplam a maioria das médias verdadeiras na maioria das áreas. Isso mostra

que os modelos assimétricos possuem maior poder de previsão intervalar do que o

modelo normal.

ˆN
ȳ i −Ȳi
ˆN AC −Ȳi

Na Figura 4.11 temos o boxplot das diferenças no item (a), i no item
Ȳi Ȳi
ˆN

AH
−Ȳi N N AC N AH
(b) e i
Ȳi
ˆi , ȳˆi
no item (c), onde Ȳi , ȳ ˆi
e ȳ denotam, respectivamente, as

médias populacionais, as médias a posteriori em relação aos ajustes normal, NAC

e NAH para cada área i. Pode-se observar que os ajustes assimétricos apresentam

boxplot parecidos e que o modelo normal apresenta melhor previsão pontual para

esse conjunto de dados.

Uma outra medida importante para avaliação da previsão é o coeciente de

variação. A Figura 4.12 mostra o boxplot dos coecientes de variação, segundo

os estimadores diretos da amostra e segundo os ajustes normal e assimétricos

(NAC e NAH). Para a média amostral, o coeciente de variação é dado por



s2i (1−ni /Ni )/ni )
CV (Ȳ ) = ȳ
, onde s2i e ȳ são respectivamente, a variância e a média

amostral. Para os demais modelos, o coeciente de variação foi calculado através da

razão direta entre a raiz quadrada da variância a posteriori e a média a posteriori.

Pode-se observar que os ajustes que consideram um modelo de previsão de toda a

população tem menor variação do que os estimadores diretos da amostra. Portanto,

há um ganho em fazer previsão utilizando todos os indivíduos da população: os

observados e os valores previstos para os não observados. Entre os modelos que

utilizam a previsão, o que tem menor coeciente de variação é o modelo normal.


91

Figura 4.10: Intervalo de Credibilidade de 95% para as médias de cada pequena área
obtidos nos ajustes Normal, NAC e NAH. A barra vertical (|) representa o intervalo
de 95% de credibilidade, o traço (-) representa a média a posteriori e o asterisco (∗)
representa o valor verdadeiro.

*
*
20

*
* *
*
*− * *
*
15

− * * *
− − * * * − *
− −
− *−
− *− * −−* * * −
* * *
−* * * − − − * * − * −
−−− * − *− * − * * *−
** − * −− *− *− * −− −− −
* − − −

*− − − * −*
10

− *− − * − −* − − − − *−− * − −* − − *
* *− * −− −−
− ** −−
*
* * − −
** − −* −
* *−* − − − − −
* *− − −−*−−
* −− −−
*
*−
* * * * − − *− − − * − −
* * − *− **−* *−*−−
−− * *−* −*

* *− −− − − − −−*− −*− −
−−−
* *− * * −
** *−

* * * * −* * − − − − * ** −*−* −*− − −− **
* * *** *** * * * **−** * ** *
5

* *
*
1 4 7 11 15 19 23 27 31 35 39 43 47 51 55 59 63 67 71 75 79 83 87 91 95 99 104 109 114 119 124 129 134 139

(a) Ajuste Normal


35
30
25

− − −
* *

20

*− −
* − * − * −
− * *
−* −
* −−− − − *− *
15

* − * − − − *
* * −

* *−* − *
* *− * −*− − − * −−* −
− − −*− * −−− −−− −*− − −− −
− − **−
− − − * −
*− * * * * * *
− *− * −− −
10

−* − * −
* −−* *
* −* * − * * − − − * − −
−* *− − − −
−* *− * ** − − * * * *− *− −*−** −
*** − * **− − *−* −
* − *−*
*− * * −
* *−* * − − **−* − −
*− −−* **− * * *−*−
− −*− −*−
− − −−*− *−
− −−*−*− −
** ** * − −
* −* * *** −* * −
* −
*− ** − * ***
* * * −
**−* * *−

* **−
**
5

* * *
1 4 7 11 15 19 23 27 31 35 39 43 47 51 55 59 63 67 71 75 79 83 87 91 95 99 104 109 114 119 124 129 134 139

(b) Ajuste NAC


35
30
25

− − −
−* *
20

*− −
* − * − *
− −
*
−* −
* −−−
− *− * − *
15

− * − − − *
* * * −− * − *− * −
− − − *
*−*− − − −* − −−− −− − −− −*− − −** − − −
* − * *** * − −* * * −− * * −− − * − − − −
* *
10

−* *− −
* −* *− −* *− *− *− ** − * −* −*−** − *** −
* −−* * − −
*−−*
* − − * − −
* * − *−* * ** −
*− * * −
* *−* * − − * *− −** * − − *− −
−− *− − −
*** −−* * *−*− −− − * −**−
− −− − −−
*− *−*− −−−
** * − * *** ***− * ** − * *
− ***−* −* *− *
*−
* **−*
− *−
* * ****
*−
*
5

* * *
1 4 7 11 15 19 23 27 31 35 39 43 47 51 55 59 63 67 71 75 79 83 87 91 95 99 104 109 114 119 124 129 134 139

(c) Ajuste NAH


92

Figura 4.11: Boxplot das diferenças relativas entre as médias das estimativas a
posteriori e os verdadeiros valores das médias.
0.6


0.4
0.2
0.0
−0.2
−0.4

(a) Normal (b) NAC (c) NAH

Figura 4.12: Boxplot dos coecientes de variação baseado na amostra, no modelo


normal, NAC e NAH.



0.25


0.20

● ●


0.15

● ●
● ●

● ●


0.10


0.05

Amostral Normal NAC NAH


93

4.5 Conclusão
Após realizar simulações e estimação do modelo assimétrico no nível de unidade,

pode-se concluir que a estimação consegue recuperar os valores verdadeiros dos

parâmetros. O parâmetro de assimetria parece ser bem estimado, tanto pela média a

posteriori quanto pela mediana. Nas medidas de ajuste foi observado que a maioria

delas acerta em apontar como melhor modelo o modelo simulado, em comparação

com o modelo normal. Em algumas situações, o BIC apontou como melhor modelo

o modelo normal.

Na aplicação, segundo os critérios de comparação BIC, DIC e EPD, os modelos

assimétricos foram melhores do que o modelo normal. Isso mostra que há ganho em

considerar assimetria no modelo de unidade. Além disso, observou-se que o poder

de previsão intervalar dos modelos assimétricos, NAC e NAH são mais ecientes.

O modelo normal apresentou poder de previsão pontual maior do que os modelos

assimétricos, segundo as diferenças relativas dos ajustes e o coeciente de variação.

Uma outra alternativa para tentar melhorar a estimação pontual dos modelos

assimétricos, pode ser feito tornando a esperança do erro igual a zero. Assim,

r
p 2 p
yij |µij , λi , φi ∼ N A(µij − δi φi , φi , λi )
π
p
onde δi = λi / 1 + λ2i . Dessa forma, E(eij ) = 0.
Os resultados obtidos na previsão, segundo essa parametrização, mostraram

valores semelhantes aos do modelo não parametrizado. Houve um pequeno ganho

no somatório das diferenças relativas. Para o modelo assimétrico NAC, a soma das
P140 ȳˆNi AC −Ȳi
diferenças relativas i=1 ( Ȳi
) foi 11,29, enquanto considerando erro centrado,
a soma das diferenças relativas foi de 10,82. Para o modelo assimétrico NAH, a soma
P140 ȳˆNi AH −Ȳi
das diferenças relativas i=1 ( Ȳi
) foi 11,42, e passou para 10,93 ao considerar
o erro centrado em zero.
Capítulo 5
Conclusões e Extensões

Baseando-se no trabalho realizado, pode-se tirar as seguintes conclusões:

• Foi desenvolvida uma nova metodologia para estimar dados em pequenas áreas,

que leva em consideração a assimetria dos dados e relaxa a suposição de que a

variância é conhecida. Para o modelo no nível de área, quando o tamanho

da amostra cresce, a distribuição da variável resposta converge para uma

distribuição normal, obedecendo assim o Teorema Central do Limite.

• O modelo de área proposto, através da aplicação de dados de renda, mostrou-

se mais eciente que o modelo que não considera assimetria. O critério DIC,

embora com várias restrições na literatura, pareceu ser um bom critério de

comparação, de acordo com os resultados da aplicação de renda em que se

conhece o valor verdadeiro.

• Nas aplicações do modelo de área, o EPD e DIC apontou como melhor modelo

o modelo normal assimétrico. Observou-se, também, por meio do estudo de

simulação, que o modelo proposto é mais eciente que o modelo usual (normal)

para estimar as médias das pequenas áreas, quando os dados apresentam

assimetria. Além disso, não há perdas signicativas ao se ajustar o modelo

normal assimétrico quando os dados são gerados de acordo com o modelo

normal. A cobertura dos intervalos de credibilidade é próxima ao xado em

95%.

• Embora a estimativa do parâmetro de assimetria no modelo de área apresente

desvio padrão um pouco alto, isso parece não interferir na estimação da

94
95

quantidade de interesse (média das pequenas áreas). É visto na literatura

que o parâmetro de assimetria da normal assimétrica não é de fácil estimação.

• Nos modelos assimétricos de unidade, NAC e NAH, após realizar simulações e

estimação, pode-se concluir que a estimação consegue recuperar os valores

verdadeiros dos parâmetros. O parâmetro de assimetria parece ser bem

estimado nos dois casos, tanto pela média a posteriori quanto pela mediana.

Isso se dá pelo fato de se ter mais observações disponíveis por pequena área.

Além disso, foi possível propor um modelo hierárquico, NAH onde λi varia

para cada área.

• Nas medidas de ajuste foi observado que a maioia delas acerta em apontar

como melhor modelo o modelo simulado, em comparação com o modelo

normal.

• Na aplicação dos modelos assimétricos de unidade, segundo os critérios de

comparação, os modelos assimétricos foram melhores do que o modelo normal.

Isso mostra que há ganho em considerar assimetria no modelo de unidade.

Além disso, observou-se que o poder de previsão intervalar dos modelos

assimétricos NAC e NAH são mais ecientes.

Trabalhos futuros:

• Comparar os modelos assimétricos no nível de área (agregado) e no nível

da unidade (desagregado) para vericar se o modelo agregado consegue

estimativas tão boas, ou próximas, do modelo desagregado.

• Propor um modelo dinâmico conjunto para o modelo no nível de área, com

hierarquia no parâmetro de assimetria, como segue:


2
Seja θ̂i,t = ȳi,t o estimador direto e φi = Si,t o estimador da variância e t o

tempo para cada área i, então o modelo dinâmico proposto é dado por


ȳˆi,t | µi,t , λ, nit , σi2 ∼ N A(µi,t , n−1 2
it σi , λ/ nit )
2
| nit , σi2 ∼ Ga 0.5 ∗ (nit − 1), 0.5(nit − 1)σi−2

Si,t
µi,t = µi,t−1 + wi,t . (5.1)

Detalhes sobre as condicionais completas estão no Apêndice D.


Referências Bibliográcas

Arellano-Valle, R. B., Bolfarine, H. & Lachos, V. H. (2007).

Bayesian inference for skew-normal linear mixed models. Journal of Applied

Statistics 34(6) 663682.

Arora, V. & Lahiri, P. (1997). On the superiority of the bayesian method

over the blup in small area estimation problems. Statistica Sinica 7 1053

1063.

Azzalini, A. (1985). A class of distributions wich includes the normal ones.

Scandinavian Journal of Statistics 12 171178.

Azzalini, A. (1986). Further results on a class of distributions which includes

the normal ones. Scandinavian Journal of Statistics 46 199208.

Azzalini, A. & Capitanio, A. (1999). Statistical applications of the

multivariate skew normal distribution. Journal of the Royal Statistical

Society, Series B 61 579602.

Azzalini, A. & Capitanio, A. (2003). Distributions generated by

perturbations of symmetry with emphasis on a multivariate skew t

distribtuion. Journal of the Royal Statistical Society, Series B 65 367389.

Azzalini, A. & Valle, A. D. (1996). The multivariate skew normal

distribution. Biometrika 83 715726.

Battese, G. E. & Fuller, W. A. (1981). Prediction of county crop

areas using survey and satellite data. Journal of the American Statistical

Association 500505.

96
97

Battese, G. E., Harter, R. M. & Fuller, W. A. (1988). An error

components model for prediction of county crop areas using survey and

satellite data. Journal of the American Statistical Association 83 2836.

Bayes, C. L. & Branco, M. D. (2007). Bayesian inference for the skewness

parameter of the scalar skew-normal distribution. Brazilian Journal of

Probability and Statistics 21 141163.

Berger, J. O. & Bernardo, J. M. (1992). On the development of reference

priors. Bayesian Statistics.

Cochran, W. G. (1977). Sampling Techniques. Jonh Wiley and Sons.

Dick, P. (2007). Modeling net undercoverage in the 1991 canadian census.

Survey Methodology 21 4554.

Fay, R. E. & Herriot, R. A. (1979). Estimation of income from small

places: An application of james-stein procedures to census data. Journal of

the American Statistical Association 74 269277.

Gamerman, D. & Lopes, H. F. (2006). Markov chain Monte Carlo:

Stochastic simulation for Bayesian inference. Chapman and Hall/CRC.

Gelfand, A. & Ghosh, S. K. (1998). Model choice: A minimun posterior

predictive loss approach. Biometrika 85 111.

Gelfand, A. & Smith, A. (1990). Sampling based approaches to calculating

marginal densities. Journal of the American Statistical Association 85 398

409.

Geman, S. & Geman, D. (1984). Stochastic relaxation, gibbs distributions

and bayesian restoration of images. IEEE Transactions on Pattern Analysis

and Machine Intelligence 6 721741.

Genton, M. (2004). Skew-elliptical distributions and their applications (1

ed.). New York: Chapman and Hall.

Gupta, A. K. & Chen, T. (2003). On the sample characterization criterion

for normal distributions. Journal of Statistical Computation and Simulation

73(3) 155163.
98

Gupta, A. K. & Kollo, T. (2003). Density expansions based on the

multivariate skew normal distribution. Sankya 65 821835.

Henze, N. (1986). A probabilistic representation of the skew-normal

distribution. Scandinavian Journal of Statistics 13 271275.

James, W. & Stein, C. (1961). Estimation with quadratic loss.

Proceedings of the Fourth Berkeley Sympossium of Mathematical Statistics

and Probability 1 361379.

Liseo, B. & Loperfido, N. (2006). A note on reference prioris for a scalar

skew-normal distribution. Journal of Statistical Planning and Inference 136

373389.

Moura, F. A. S. (1994). Small Area Estimation Using Multilevel Models.

Tese de Doutorado: University of Southampton.

Moura, F. A. S. (2008). Estimação em Pequenos Domínios (18


o SINAPE).

ABE.

Moura, F. A. S. & Holt, D. (1999). Small area estimation using multilevel

models. Survey Methodology 25 7380.

Moura, F. A. S. & Migon, H. S. (2002). Bayesian spatial models for small

area estimation of proportions. Statistical Modelling 2 183201.

Neal, R. (2003). Slice sampling (with discussion). Annals of Statistics 31

705767.

Owen, D. (1956). Tables for computing bivariate normal probabilities. Annals

of Mathematics and Statistics 27 10751090.

Pfeffermann, D. (2002). Small area estimation - new developments and

directions. International Statistical Review 70 125143.

Picard, R. R. & Cook, R. D. (1984). Cross-validation of regression models.

Journal of the American Statistical Association 79(387) 575583.

Prasad, N. & Rao, J. (1999). On robust small area estimation using a

simple randon eetcs model. Survey Methodology 25 6772.


99

Rao, J. N. K. (2003). Small Area Estimation. New Jersey: Wiley Series in

Survey Methodology.

Schwarz, G. (1978). Estimating the dimension of a model. Annals of

Statistics 6(2) 461464.

Skinner, C. (1994). Sample models and weights. Proceeding of the section

on survey research methods American Statistical association, Washington

133142.

Smith, T. (1983). On the validity of inferences from non-random samples.

Journal of the Royal Statistical Society Series A 146 394403.

Spiegelhalter, D. J., Best, N. G., Carlin, B. P. & Linde, A. (2002).

Bayesian measures of model complexity and t. Journal of the Royal

Statistical Society Series B 64 134.

Sugden, R., Smith, T. & Jones, R. (2000). Cochran's rule for simple

random sampling. Journal of the Royal Statistical Society Series B 62 787

793.

You, Y. & Chapman, B. (2006). Small area estimation using area level

models and estimated sampling variance. Survey Methodology 20 315.

You, Y. & Rao, J. N. K. (2000). Hierarquical bayes of small area mean

using multi-level models. Survey Methodology 26 173181.


Apêndice

Apêndice A: Modelo Assimétrico no nível de Área


Condicionais Completas
Encontramos as seguintes condicionais completas para σν2 , β0 β1 , β2 , µi e wi :
m
" #
m X (µi − β0 − β1 x1i − β2 x2i )2
σν2 |· ∼ GI c + ,d + ,
2 2
i=1
m
" !  #
1 −1 1 −1
 
X µi − β1 x1i − β2 x2i a0 m m
β0 |· ∼ N + + , +
σν2 b0 σν2 b0 σν2 b0
i=1
" m
! P
m 2 −1  Pm 2 −1 #
X x1i (µi − β0 − β2 x2i ) a1 i=1 x1i 1 i=1 x1i 1
β1 |· ∼ N + + , +
σν2 b1 σν2 b1 σν2 b1
i=1
" m
!  Pm 2 −1  Pm 2 −1 #
X x2i (µi − β0 − β1 x1i ) a2 x
i=1 2i 1 i=1 2ix 1
β2 |· ∼ N + + , +
σν2 b2 σν2 b2 σν2 b2
i=1
" √ ! #
(θ̂i − φi wi δi ) X0 β 1 −1 1 −1
  
1 1
µi |· ∼ N + 2 + , +
φi (1 − δi2 ) σν φi (1 − δi2 ) σν2 φi (1 − δi2 ) σν2
" ! −1  −1 #
δi (θ̂i − µi ) δi2 δi2
wi |· ∼ N √ 1+ , 1+ .
φi (1 − δi2 ) (1 − δi2 ) (1 − δi2 )

Não existe forma fechada das distribuições a posteriori para os demais

parâmetros. Assim, usamos Gibbs para amostrar µi , σν2 , β0 , β1 e β2 , e

algoritmo de Gibbs com passos de Metropolis-Hasting para estimar φ i , a, b


e λ.

100
101

Algoritmo
Num passo (s) da iteração, a atualização dos parâmetros no passo (s + 1) é

dado por:

 amostrando σν2 :
" m
#
(s) (s) (s) (s)
(s+1) m X (µi − β0 − β1 x1i − β2 x2i )2
σν2 |· ∼ GI c + , d + ,
2 i=1
2
 atualizando β0 :
 !−1 !−1 
m (s)
!
X µ − β1 (s) x1i − β2 (s) x2i a0 m 1 m 1
β0 (s+1) |· ∼ N  i
+ + , + 
i=1 σν2 (s+1) b0 σν2 (s+1) b0 σν2 (s+1) b0

 atualizando β1 :
 !−1 !−1 
m (s) (s+1) (s)
! Pm Pm
x1i (µ − β − β x2i ) 2 2
(s+1) a1 i=1 x1i 1 i=1 x1i 1
X
i 0 2
β1 |· ∼ N  + + , + ,
i=1 σν2 (s+1) b1 σν2 (s+1) b1 σν2 (s+1) b1

 atualizando β2 :
 !−1 !−1 
m
!
(s+1) (s+1) Pm 2
Pm 2
(s+1)
X x2i (µi − β −β 0x1i ) 1 a2 i=1 x2i 1 i=1 x2i 1
β2 |· ∼ N  + + , + 
i=1 σν2 (s+1) b2 σν2 (s+1) b2 σν2 (s+1) b2

 atualizando µi :
√ (s) (s) (s)
 ! !−1 !−1 
(s+1) (θ̂i − ( φi wi δi )) X0 β 1 1 1 1
µi |· ∼N (s)
+ + , + ,
φi (s) (1 − δi2 )/ni σν2 (s+1) φi (s) (1 − δi2
(s)
) σν2 (s+1) φi (s) (1 − δi2
(s)
) σν2 (s+1)

 atualizando wi :
 ! !−1 !−1 
(s) (s+1) (s) (s)
(s+1) δ (θ̂i − µi ) δi2 δi2
wi |· ∼ N  √i (s) (s)
1+ (s)
, 1+ (s)
.
φi (1 − δi2 ) (1 − δi2 ) (1 − δi2 )

 amostrando λ. Para atualizar λ é proposto um valor

λ∗ | λ(s) ∼ N (λ(s) , Vλ ),
onde Vλ é uma variância escolhida adequadamente de acordo com o

comportamento da cadeia. Assim, λ(s+1) = λ∗ com probabilidade αλ


onde,

π(Θ∗ |y)
 
αλ = min 1, ,
π(Θ̃|y)
(s+1) (s+1) (s+1) (s+1)
Θ∗ = (σν2 , β0 , β1 , β2 , w(s+1) , λ∗ , µ(s+1) , φ(s) ) e
(s+1) (s+1) (s+1) (s+1)
Θ̃ = (σν2 , β0 , β1 , β2 , w(s+1) , λ(s) , µ(s+1) , φ(s) ).
102

 amostrando φi . Para i = 1, . . . , m, φi ∗ é amostrado de uma


(s) (s) ∗ (s) (s) ∗ (s)
Ga[φi /Vφi ; φi /Vφi ]. Assim, E(φi |φi ) = φi e V ar(φi |φi ) = Vφi .
φi (s+1) recebeφ∗i αφi , onde
com probabilidade

( )
π(Θ∗ |y) fG (φi (s) |φi ∗ )
α φi = min 1, · ,
π(Θ̃|y) fG (φi ∗ |φi (s) )
(s+1) (s+1) (s+1) (s+1) (s+1) (s)
Θ∗ = (σν2 , β0 , β1 , β2 , w(s+1) , λ(s+1) , (σi2 )k<i , φi ∗ , (φi )k>i , µ(s+1) ) e
(s+1) (s+1) (s+1) (s+1) (s+1) (s)
Θ̃ = (σν2 , β0 , β1 , β2 , w(s+1) , λ(s+1) , (φi )k<i , (φi )k≥i , µ(s+1) );
103

Apêndice B: Modelo Normal


O modelo normal aqui estudado é dado por

θ̂i = µi + ¯i com ¯i ∼ N (0, σi2 /ni )


µi = x0i β + νi com νi ∼ N (0, σν2 ) (5.2)

onde xi são as covariáveis, β o vetor de coecientes dimensão p + 1, com

i = 1, . . . , m. Observou-se que θ̂i |µi ∼ N (µi , σi2 /ni ) e µi |x0i β ∼ N (x0i β, σν2 ).
Escreveu-se π(µ, β) na forma hierárquica, e considerou-se que µi dado β e
Qm
σi2 são independentes. Desta forma, tem-se que π(µ|xβ) = i=1 π(µi |β) e
Qm 2
π(σ) = i=1 π(σi ).

Assume-se que os erros ¯i e νi são independentes e identicamente distribuídos

com ¯i ∼ N (0, σi2 ) e νi ∼ N (0, σν2 ), respectivamente. Para os parâmetros

σi2 e σν2 foram escolhidas distribuições a priori Gama Inversa e para β e


0
(µi |x β) prioris normais. Diferentemente do que é considerado no modelo Fay-

Herriot, supõe-se que os erros amostrais são desconhecidos e que os mesmos

são estimados, conjuntamente com os demais parâmetros do modelo.

Para realizar a abordagem bayesiana e encontrar a distribuição a posteriori

dos parâmetros é necessário atribuir uma distribuição a priori para os hiper-

parâmetro.

Sabendo que a média amostral e sua variância amostral são

independentes, então se pode considerar o modelo conjunto como sendo

f (θ̂i , σ̂i2 |·) = f (θ̂i |·)f (σ̂i2 |·), com σ̂i2 |ni , σi2 ∼ Ga[0, 5(ni − 1); 0, 5(ni − 1)σi−2 ].
Detalhando o modelo normal, tem-se:

 O vetor de parâmetros a serem estimados igual a Θ = (σν2 , β, µ, σ, a, b).


 A distribuição conjunta de Θ
0
π(Θ) = π(µ|Xi β)π(β)π(σν2 )π(σ)π(a)π(b)
"m #
Y  0

= π(σν2 )π(β)π(a)π(b) π(σi2 |a, b)π(µi |β) π(µi |Xi β) .
i=1
104

 A função de verossimilhança

m
Y
L(Θ|y) = f (θ̂i |Θ)f (s2i |σi2 , ni )
i=1
m
!
Y 1 −(θ̂i − µi )2
L(Θ|y) = exp
2σi2 /ni
p
2
i=1 2πσi /n i
 ni2−1
−(ni − 1)s2i
  
ni − 1
× exp .
2σi2 2σi2

 As prioris:

σi2 |a, b ∼ GI(a, b),


σν2 ∼ GI(c = 2.001, d = 1.001),
βk ∼ N (ak = 0, bk = 1000), para todo k=1,. . . ,p
µi |β, σν2 ∼ N (X0i β, σν2 ).

Para os hiperparâmetros a e b escolheu-se prioris vagas Ga(0, 01; 0, 01).


 Posteriori:

π(Θ|y) ∝ L(Θ|y)π(Θ).

Condicionais Completas
Encontramos as seguintes condicionais:

m
" #
m X (µi − β0 − β1 x1i − β2 x2i )2
σν2 |· ∼ GI c + , d + ,
2 2
i=1
" m !  #
X µi − β1 x1i − β2 x2i a0  m 1 −1 1 −1
 
m
β0 |· ∼ N + + , +
σν2 b0 σν2 b0 σν2 b0
i=1
" m !
X x1i (µi − β0 − β2 x2i ) a1  Pm x2 −1  Pm 2 −1 #
i=1 1i 1 i=1 x1i 1
β1 |· ∼ N + + , +
σν2 b1 σν2 b1 σν2 b1
i=1
" m
X x2i (µi − β0 − β1 x1i ) a2
! P
m 2 −1  Pm 2 −1 #
i=1 x2i 1 i=1 x2i 1
β2 |· ∼ N + + , +
σν2 b2 σν2 b2 σν2 b2
i=1
" ! #
X0 β 1 −1 1 −1
  
θ̂i ni ni
µi |· ∼ N + 2 + , +
σi2 /ni σν σi2 σν2 σi2 σν2
" #
ni (θ̂i − µi )2 (ni − 1)s2i
σi2 |· ∼ GI a + , b + + .
2 2/ni 2
105

Todos os parâmetros do modelo possuem distribuição condicional completa

conhecida. Para encontrar a distribuição a posteriori de cada parâmetro

foram utilizadas técnicas MCMC, utilizando o algoritmo de Gibbs. Para os

hiperparâmetros a e b utilizou-se algoritmo de Gibbs com passos de Metropolis-


Hasting.

Algoritmo
Num passo (s) da iteração, a atualização dos parâmetros no passo (s + 1) é

dado por:

 amostrando σν2 :
"m
#
(s) (s) (s) (s) 2
(s+1) m X (µ i − β 0 − β1 x 1i − β 2 x 2i )
σν2 |· ∼ GI c + , d + ,
2 i=1
2

 atualizando β0 :
 !−1 !−1 
m (s)
!
X µ − β1 (s) x1i − β2 (s) x2i a0 m 1 m 1
β0 (s+1) |· ∼ N  i
+ + , + 
i=1 σν2 (s+1) b0 σν2 (s+1) b0 σν2 (s+1) b0

 atualizando β1 :
 !−1 !−1 
m (s) (s+1) (s)
! Pm Pm
x1i (µ − β − β x2i ) 2 2
(s+1) a1 i=1 x1i 1 i=1 x1i 1
X
i 0 2
β1 |· ∼ N  + + , + ,
i=1 σν (s+1)
2 b1 σν2 (s+1) b1 σν2 (s+1) b1

 atualizando β2 :
 !−1 !−1 
m
!
(s+1) (s+1) Pm 2
Pm 2
(s+1)
X x2i (µi − β −β 0x1i ) 1 a2 i=1 x2i 1 i=1 x2i 1
β2 |· ∼ N  + + , + 
i=1 σν2 (s+1) b2 σν2 (s+1) b2 σν2 (s+1) b2

 atualizando µi :
 ! !−1 !−1 
(s+1) θ̂i X0 β ni 1 ni 1
µi |· ∼N (s)
+ + , + ,
σi2 /ni σν2 (s+1) σi2
(s)
σν2 (s+1) σi2
(s)
σν2 (s+1)

 amostrando σi2 :
" #
(s+1) 2 2
(s+1) n i (θ̂i − µ i ) (ni − 1)s i
σi2 |· ∼ GI a(s) + , b(s) + + .
2 2/ni 2
106

Apêndice C: Modelo Assimétrico no Nível de


Unidade
Apêndice C1: MNAC
Resumindo o modelo tem-se:

 o vetor de parâmetros a serem estimados:

Θ = (µi· , wi· , β0 , . . . , βp , λ, σν2 , φ1 , . . . , φm , a, b)

com µi· = (µi1 , . . . , µini ), wi· = (wi1 , . . . , wini ) e i = 1, . . . , m;


 a distribuição conjunta de Θ
0
π(Θ) = π(µ|Xij β)π(β)π(λ)π(σν2 )π(φ|a, b)π(a)π(b)
"m ni
!#
0
Y Y
= π(λ)π(σν2 )π(β)π(a)π(b) π(φi |a, b)π(µi |β) π(µij |Xij β) ;
i=1 j=1

 a verossimilhança

ni
m Y
Y
L(Θ; y) = f (yij |µij , wij )f (wij )
i=1 j=1
m Y ni √
(yij − (µij + φi δwij ))2
 
Y 1
= p exp
i=1 j=1 2πφi (1 − δ 2 ) 2φi (1 − δ 2 )
r 2 
wij

2
× exp − ;
π 2
 prioris:

φi |a, b ∼ GI(a, b),


σν2 ∼ GI(c = 2.001, d = 1.001),
βk ∼ N (ak = 0, bk = 1000), para todo k=1,. . . ,p
λ ∼ t(0, e = 1/2; gl = 2), e
µij |β, σν2 ∼ N (X0ij β, σν2 );

para os hiperparâmetros a e b escolheu-se prioris vagas Ga(0, 01; 0, 01).


 Posteriori:

π(Θ|y) ∝ L(Θ|y)π(Θ)
.
107

Condicionais Completas
Encontrou-se as seguintes condicionais completas para os parâmetros do
modelo desagregado:
 
Pm m X ni 2
n i
X (µ ij − β 0 − β x
1 1ij − β x
2 2ij )
σν2 |· ∼ GI c + i=1 , d + ,
2 i=1 j=1
2
  
m X ni  Pm −1  Pm −1
X µ ij − β x
1 1ij − β x
2 2ij a 0 i=1 in 1 i=1 in 1
β0 |· ∼ N  2
+  2
+ , + 
i=1 j=1
σ ν b 0 σ ν b 0 σν2 b0
  P !−1 !−1 
m X ni m Pni 2
Pm Pni 2
X x 1ij (µ ij − β 0 − β x
2 2ij ) a 1 i=1 x
j=1 1ij 1 i=1 x
j=1 1ij 1
β1 |· ∼ N  2
+  2
+ , 2
+ 
i=1 j=1
σ ν b 1 σ ν b1 σ ν b1
  P !−1 !−1 
m X ni m Pni 2
Pm Pni 2
X x 2ij (µ ij − β 0 − β x
1 1ij ) a 2 i=1 x
j=1 2ij 1 i=1 x
j=1 2ij 1
β2 |· ∼ N  2
+  2
+ , 2
+ 
i=1 j=1
σ ν b 2 σ ν b2 σ ν b2
" √ −1  −1 #
(yij − φi wij δ) x0ij β

1 1 1 1
µij |· ∼ N + 2 + , +
φi (1 − δ 2 ) σν φi (1 − δ 2 ) σν2 φi (1 − δ 2 ) σν2
" −1  −1 #
δ2 δ2

δ(yij − µij )
wij |· ∼ N √ 1+ , 1+ .
φi (1 − δ 2 ) (1 − δ 2 ) (1 − δ 2 )

Não existe forma fechada das distribuições a posteriori para os demais

parâmetros λ, φi , a e b. Assim, usou-se Gibbs para amostrar µij , σν2 , wij ,


β0 , β1 e β2 , e algoritmo de Gibbs com passos de Metropolis-Hasting para

estimar φi , a, b e λ.

Algoritmo
Num passo (s) da iteração, a atualização dos parâmetros no passo (s + 1) é

dado por:

 amostrando σν2 :
" Pm m X ni (s) (s) (s) (s)
#
2
(s+1) n
i=1 i
X (µ ij − β0 − β1 x 1ij − β2 x 2ij )
σν2 |· ∼ GI c + ,d + ,
2 i=1 j=1
2

 atualizando β0 :
  !−1 !−1 
ni (s)
m X µij − β1 (s) x1ij − β2 (s) x2ij
Pm Pm
a0  i=1 ni 1 i=1 ni 1
X
(s+1)
β0 |· ∼ N  + + , + 
i=1 j=1 σν2 (s+1) b0 σν2 (s+1) b0 σν2 (s+1) b0
108

 atualizando β1 :
  !−1 !−1 
ni
m X (s) (s+1) (s) P m P ni Pm Pni
(s+1)
X x1ij (µij − β0 − β2 x2ij ) a1  i=1 j=1 x21ij 1 i=1 j=1 x21ij 1
β1 |· ∼ N  + + , + ,
i=1 j=1 σν2 (s+1) b1 σν2 (s+1) b1 σν2 (s+1) b1

 atualizando β2 :
  P m P ni !−1 P m P ni !−1 
ni
m X (s+1) (s+1)
(s+1)
X x2ij (µij − β0 − β1 x1ij ) a2  i=1 j=1 x22ij 1 i=1 j=1 x22ij 1
β2 |· ∼ N  + + , + ,
i=1 j=1 σν2 (s+1) b2 σν2 (s+1) b2 σν2 (s+1) b2

 atualizando µij :
 √ (s) (s)
 !−1 !−1 
(s+1) (yij − φi wij δ (s) ) X0 β  1 1 1 1
µij |· ∼ N  + + , + ,
φi (s) (1 − δ 2 (s) ) σν2 (s+1) φi (s) (1 − δ 2 (s) ) σν2 (s+1) φi (s) (1 − δ 2 (s) ) σν2 (s+1)

 atualizando wij :
 !−1 !−1 
(s+1) ! (s) (s)
(s+1) δ (s) (y ij − µij ) δ2 δ2
wij |· ∼ N  √ (s)
1+ , 1+ .
φi (1 −δ 2 (s) ) (1 − δ 2 (s) ) (1 − δ 2 (s) )

 amostrando λ. Para atualizar λ é proposto um valor

λ∗ | λ(s) ∼ N (λ(s) , Vλ ),

onde Vλ é uma variância escolhida adequadamente de acordo com o

comportamento da cadeia. Assim, λ(s+1) = λ∗ com probabilidade αλ


onde,

π(Θ∗ |y)
 
αλ = min 1, ,
π(Θ̃|y)
(s+1) (s+1) (s+1) (s+1) (s+1)
Θ∗ = (σν2 , β0 , β1 , β2 , wij , λ∗ , µ(s+1) , φ(s) ) e
(s+1) (s+1) (s+1) (s+1) (s+1)
Θ̃ = (σν2 , β0 , β1 , β2 , wij , λ(s) , µ(s+1) , φ(s) ).

 amostrando φ. Para i = 1, . . . , m, φi ∗ é amostrado de uma


(s) (s) ∗ (s) (s) ∗ (s)
Ga[φi /Vφi , φi /Vφi ]. Assim, E(φi |φi ) = φi e V ar(φi |φi ) = Vφi .
(s+1) ∗
Os φi recebe φi com probabilidade αφi , onde
( )
π(Θ∗ |y) fG (φi (s) |φi ∗ )
αφi = min 1, · ,
π(Θ̃|y) fG (φi ∗ |φi (s) )
(s+1) (s+1) (s+1) (s+1) (s+1) (s+1) (s)
Θ∗ = (σν2 , β0 , β1 , β2 , wij , λ(s+1) , (φi )k<i , φi ∗, (φi )k>i , µ(s+1) )
(s+1) (s+1) (s+1) (s+1) (s+1) (s+1) (s)
Θ̃ = (σν2 , β0 , β1 , β2 , wij , λ(s+1) , (φi )k<i , (φi )k≥i , µ(s+1) ).
109

Apêndice C2: MNAH


Resumindo o modelo tem-se:

 o vetor de parâmetros a serem estimados:

Θ = (µi· , wi· , β0 , . . . , βp , λ1 , . . . , λm , λ, σν2 , σλ2 , φ1 , . . . , φm , a, b)

com µi· = (µi1 , . . . , µini ), wi· = (wi1 , . . . , wini ) e i = 1, . . . , m;


 a distribuição conjunta de Θ
0
π(Θ) = π(µ|Xij β)π(β)π(λ|λ, σλ2 )π(λ)π(σλ2 )π(σν2 )π(φ|a, b)π(a)π(b)
"m ni
!#
0
Y Y
= π(λ)π(σν2 )π(σλ2 )π(β)π(a)π(b) π(φi |a, b)π(µi |β) π(µij |Xij β) ;
i=1 j=1

 a verossimilhança

ni
m Y
Y
L(Θ; y) = f (yij |µij , wij )f (wij )
i=1 j=1
m Y ni √
(yij − (µij + φi δi wij ))2
 
Y 1
= exp
2φi (1 − δi2 )
p
2
i=1 j=1 2πφi (1 − δi )
r 2 
wij

2
× exp − ;
π 2

 prioris:

φi |a, b ∼ GI(a, b),


σν2 ∼ GI(c = 2.001, d = 1.001),
σλ2 ∼ GI(c = 2.001, d = 1.001),
βk ∼ N (ak = 0, bk = 1000), para todo k=1,. . . ,p
λi ∼ N (λ, σλ2 )
λ ∼ t(0, e = 1/2; gl = 2), e
µij |β, σν2 ∼ N (X0ij β, σν2 );

para os hiperparâmetros a e b escolheu-se prioris vagas Ga(0, 01; 0, 01).


 Posteriori:

π(Θ|y) ∝ L(Θ|y)π(Θ)

.
110

Condicionais Completas
Encontrou-se as seguintes condicionais completas para os parâmetros do
modelo desagregado:
 
Pm m X ni 2
ni X (µij − β0 − β1 x1ij − β2 x2ij ) 
σν2 |· ∼ GI c + i=1 , d + ,
2 i=1 j=1
2
" m
#
m X (λi − λ)2
σλ2 |· ∼ GI c + , d + ,
2 i=1
2
  
m X ni  Pm −1  Pm −1
X µ ij − β 1 x 1ij − β 2 x 2ij a 0 i=1 n i 1 i=1 n i 1
β0 |· ∼ N  2
+  2
+ , 2
+ 
i=1 j=1
σ ν b0 σ ν b 0 σ ν b 0
  P !−1 !−1 
m X ni m Pni Pm Pni 2
X x 1ij (µ ij − β 0 − β 2 x 2ij ) a 1 i=1 j=1 x21ij 1 i=1 j=1 x1ij 1
β1 |· ∼ N  2
+  2
+ , 2
+ 
i=1 j=1
σ ν b 1 σ ν b1 σ ν b1
  P !−1 !−1 
m X ni m Pni Pm Pni 2
X x 2ij (µ ij − β 0 − β 1 x 1ij ) a 2 i=1 j=1 x22ij 1 i=1 j=1 x2ij 1
β2 |· ∼ N  2
+  2
+ , 2
+ 
i=1 j=1
σ ν b 2 σ ν b2 σ ν b2
" √ −1  −1 #
(yij − φi wij δi ) x0ij β

1 1 1 1
µij |· ∼ N + 2 + , +
φi (1 − δi2 ) σν φi (1 − δi2 ) σν2 φi (1 − δi2 ) σν2
" −1  −1 #
δi2 δi2

δi (yij − µij )
wij |· ∼ N √ 1+ , 1+ .
φi (1 − δi2 ) (1 − δi2 ) (1 − δi2 )

Não existe forma fechada das distribuições a posteriori para os demais

parâmetros λi , λ, φi , a e b. Assim, usou-se Gibbs para amostrar µij , σν2 ,


wij , σλ2 , β0 , β1 e β2 , e algoritmo de Gibbs com passos de Metropolis-Hasting

para estimar φi , a, b, λ e λi .

Algoritmo
Num passo (s) da iteração, a atualização dos parâmetros no passo (s + 1) é

dado por:

 amostrando σν2 :
" Pm m X ni (s) (s) (s) (s)
#
2
(s+1) i=1 ni
X (µ ij − β0 − β1 x 1ij − β2 x 2ij )
σν2 |· ∼ GI c + ,d + ,
2 i=1 j=1
2
111

 atualizando σλ2 :
"
m
#
(s)
(s+1) m X (λi − λ(s) )2
σλ2 |· ∼ GI c + , d + ,
2 i=1
2

 atualizando β0 :
  !−1 !−1 
ni (s)
m X µij − β1 (s) x1ij − β2 (s) x2ij
Pm Pm
a0  i=1 ni 1 i=1 ni 1
X
(s+1)
β0 |· ∼ N  + + , + 
i=1 j=1 σν2 (s+1) b0 σν2 (s+1) b0 σν2 (s+1) b0

 atualizando β1 :
  !−1 !−1 
ni
m X (s) (s+1) (s) P m P ni Pm Pni
(s+1)
X x1ij (µij − β0 − β2 x2ij ) a1  i=1 j=1 x21ij 1 i=1 j=1 x21ij 1
β1 |· ∼ N  + + , + ,
i=1 j=1 σν2 (s+1) b1 σν2 (s+1) b1 σν2 (s+1) b1

 atualizando β2 :
  P m P ni !−1 P m P ni !−1 
ni
m X (s+1) (s+1)
(s+1)
X x2ij (µij − β0 − β1 x1ij ) a2  i=1 j=1 x22ij 1 i=1 j=1 x22ij 1
β2 |· ∼ N  + + , + ,
i=1 j=1 σν2 (s+1) b2 σν2 (s+1) b2 σν2 (s+1) b2

 atualizando µij :
 √ (s) (s) (s)
 !−1 !−1 
(s+1) (yij − φi wij δi ) X0 β  1 1 1 1
µij |· ∼ N  (s)
+ + , + ,
φi (s) (1 − δi2 ) σν2 (s+1) φi (s) (1 − δi2
(s)
) σν2 (s+1) φi (s) (1 − δi2
(s)
) σν2 (s+1)

 atualizando wij :
 !−1 !−1 
(s) (s+1) ! (s) (s)
(s+1) δi (yij − µij ) δi2 δi2
wij |· ∼ N  √ (s) (s)
1+ (s)
, 1+ (s)
.
φi (1 − δi2 ) (1 − δi2 ) (1 − δi2 )

 amostrando λ. Para atualizar λ é proposto um valor

λ∗ | λ(s) ∼ N (λ(s) , Vλ ),

onde Vλ é uma variância escolhida adequadamente de acordo com o

comportamento da cadeia. Assim, λ(s+1) = λ∗ com probabilidade αλ


onde,

π(Θ∗ |y)
 
αλ = min 1, ,
π(Θ̃|y)
(s+1) (s+1) (s+1) (s+1) (s+1) (s+1)
Θ∗ = (σν2 , σλ2 , β0 , β1 , β2 , wij , λ∗ , µ(s+1) , λ(s) , φ(s) )
(s+1) (s+1) (s+1) (s+1) (s+1) (s+1)
Θ̃ = (σν2 , σλ2 , β0 , β1 , β2 , wij , λ(s) , µ(s+1) , λ(s) , φ(s) ).
112

 amostrando λi . Para atualizar λi , com i = 1, . . . , m, é proposto um valor

(s+1) (s+1)
λ∗i | λ(s+1) , σλ2 ∼ N (λ(s+1) , σλ2 ),

(s+1)
assim, λi = λ∗i com probabilidade αλ onde,

π(Θ∗ |y)
 
αλi = min 1, ,
π(Θ̃|y)
(s+1) (s+1)
, λ(s+1) , µ(s+1) , (λi )k<i , (λi )∗ , (λi )k>i , φ(s) )
(s+1) (s+1) (s+1) (s+1) (s+1) (s)
Θ∗ = (σν2 , σλ2 , β0 , β1 , β2 , wij
(s+1) (s+1) (s+1) (s+1) (s+1) (s+1) (s+1) (s)
Θ̃ = (σν2 , σλ2 , β0 , β1 , β2 , wij , λ(s+1) , µ(s+1) , (λi )k<i , (λi )k≥i , , φ(s) ).

 amostrando φ. Para i = 1, . . . , m, φi ∗ é amostrado de uma

Ga[φi (s) /Vφi , φi (s) /Vφi ]. Assim, E(φi ∗ |φi (s) ) = φi (s) e V ar(φi ∗ |φi (s) ) = Vφi .
Os φi (s+1) recebe φi ∗ com probabilidade α φi , onde

( )
π(Θ∗ |y) fG (φi (s) |φi ∗ )
αφi = min 1, · ,
π(Θ̃|y) fG (φi ∗ |φi (s) )
(s+1) (s+1) (s+1) (s+1) (s+1) (s+1) (s+1) (s)
Θ∗ = (σν2 , β0 , β1 , β2 , wij , λ(s+1) , (σλ2 ) , λ(s+1) , (φi )k<i , φi ∗, (φi )k>i , µ(s+
(s+1) (s+1) (s+1) (s+1) (s+1) (s+1) (s+1) (s)
Θ̃ = (σν2 , β0 , β1 , β2 , wij , λ(s+1) , (σλ2 ) , λ(s+1) , (φi )k<i , (φi )k≥i , µ(s+1) ).
113

Apêndice D: Extensão Dinâmica


Sabendo que ȳit |µit é uma distribuição normal assimétrica e que µit |X0it β

é uma distribuição normal, mais precisamente: ȳit |µit ∼ N A(µit , φi , λi ) e
√ √
µit |X0it β ∼ N (X0it β, σν2 ), com φi = σi2 / nit .
A partir da reparametrização vista na Propriedade 2.14, o modelo dinâmico

proposto ȳit |µit ∼ N A(µit , φi , λi ), considerando Wi como sendo uma

HN (0, 1), é dado por

π(ȳit , wit |µit ) = π(ȳit |µit , wit )π(wit ),



onde π(ȳit | wit ) ∼ N (µit + φit δi wit , φi (1 − δi2 )) e π(wit ) ∼ HN (0, 1) com

δi = √ λi 2 .
1+λi

Com essa reparametrização, o modelo conjunto encontrado é

f (ȳit , s2it |·) = f (ȳit |·)f (s2it |·)f (wit ).


O vetor de parâmetros a serem estimados igual a

Θ = (λ, σν2 , σλ2 , β, λ, a, b, µ1 , . . . , µm , φ)

e sua distribuição a priori

m
Y
π(Θ) = π(λ, λ, σλ2 )π(σν2 ) π(φ, a, b)π(µ, β)
i=1
m
Y T
Y
= π(λ)π(σν2 )π(σλ2 )π(a)π(b)π(β) [π(φi |a, b)π(λi ) π(µit |β)].
i=1 t+1

Para os parâmetros (φi |a, b) e σν2 foram escolhidas distribuições a priori Gama

Inversa e para λ, β e (µi |β) priori Normal, como segue:

φi |a, b ∼ GI(a, b),


σν2 ∼ GI(c = 2.001, d = 1.001),
σλ2 ∼ GI(c = 2.001, d = 1.001),
βk ∼ N (ak = 0, bk = 1000), para todo k=1,. . . ,p

λi ∼ N (λ, σλ2 )
λ ∼ t(0, 1/2; 2), e

µit |β, σν2 ∼ N (X0it β, σν2 ).


114

Para os hiperparâmetros a e b escolheu-se prioris vagas Ga(0, 01; 0, 01).


A função de verossimilhança que é dada por

m Y
Y T
L(Θ; y) = f (yit |µit , wit )f (wit )
i=1 t=1
m Y T √
(yit − (µit + φi δi wit ))2
 
Y 1
= exp
2φi (1 − δi2 )
q
i=1 t=1 2πφi (1 − δi2 )
r
2
 
2 wit
× exp − ;
π 2

e a Posteriori

π(Θ|y) ∝ L(Θ|y)π(Θ).
Encontrou-se as seguintes condicionais completas para os parâmetros do
modelo dinâmico de área proposto:

m X T
" #
mT X (µit − β0 − β1 x1it − β2 x2it )2
σν2 |· ∼ GI c + ,d + ,
2 i=1 t=1
2
m
" #
2 m X (αi − λ)2
σα |· ∼ GI c + , d + ,
2 i=1
2
" m T !  #
1 −1 1 −1
X X µit − β1 x1it − β2 x2it  
a0 mT
β0 |· ∼ N + + , +
i=1 t=1
σν2 b0 σν2 b0 σνm T 2 b0
 !−1 
m X T
! Pm PT 2
! −1 Pm PT 2
X x1it (µit − β0 − β2 x2it ) a1 i=1 t=1 x1it 1 i=1 t=1 x1it 1
β1 |· ∼ N  + + , + 
i=1 t=1
σν2 b1 σν2 b1 σν2 b1
 !−1 !−1 
m X T
! P
m PT 2
Pm PT 2
X x2it (µit − β0 − β1 x1it ) a2 i=1 t=1 x2it 1 i=1 t=1 x2it 1
β2 |· ∼ N  + + , + 
i=1 t=1
σν2 b2 σν2 b2 σν2 b2
" √  #
x0it β 1 −1 1 −1
  
nit (ȳit − phii wit δi /) 1 1
µit |· ∼ N + + , +
φi (1 − δi2 ) σν2 φi (1 − δi2 ) σν2 φi (1 − δi2 ) σν2
" ! −1  −1 #
δi (ȳit − µit ) δi2 δi2
wit |· ∼ N √ 2
1+ 2
, 1+ 2
.
φi (1 − δi ) (1 − δi ) (1 − δi )

Não existe forma fechada das distribuições a posteriori para os demais

parâmetros. Assim, usou-se amostrador de Gibbs com passos de Metropolis-

Hasting para estimar φi , a, b, λi e λ, de maneira similar ao algoritmo do

capítulo anterior.

Você também pode gostar