CARArvore

1 Grafos
Teorema 1 (Teorema da Matriz - Árvore de Kirchhoff ) Seja L a matriz laplaciana de G, adj(L)

a matriz adjunta de L e seja J a matriz com mesma ordem de L e com todas entradas iguais a 1. Então,
adj(L) = τ (G)J,
onde τ (G) é o número de árvores geradoras de G.
Algoritmo 1: Prim
Entrada:
Saı́da: T (t)
1 inı́cio
2 fim
3 retorna TM
2 CAR
Seja Y1 , ..., Yn são observações feitas nas areas 1, ..., n de dados de area, denotamos j ∼ i se j é um
vizinho de i. O modelo mais comum na estatı́stica espacial é o modelo CAR, especificado em termos da
distribuição condicional completa de Yi |Y−i ,
σY2
Yi |Y−i ∼ N (µi + ρY (Y − µ)i , ), (1)
dGi
onde: dGi é o número de vizinhos do nó i no grafo, (Y − µ)i = j∼i (MG−1 AG )ij (Yj − µj ) é a média dos
P
vizinhos do nó i, MG = diag(dG1 , . . . , dGn ), AG = (aij ) tal que aij = I(i ∼ j) a matriz de adjacência,
por tanto, define uma distribuição conjunta válida para o vetor Y dada por uma distribuição normal
multivariada:
Y ∼ N (µ, σY2 (MG − ρY AG )−1 ).
3 CAR
Considere um grafo B = (G, E), onde E são as arestas no gráfico, ou conexões na estrutura, definem os
vizinhos, que são usados para modelar a dependência espacial. b é um vetor de n variáveis aleatórias nos
nós de um gráfico (ou junções de um lattice). Sejam b1 , ..., bn as observações feitas nas areas 1, . . . , n de
dados de area, denotamos j ∼ i se j é um vizinho de i. O modelo mais comum na estatı́stica espacial é o
modelo CAR, o termo condicional, no modelo CAR é usado porque cada elemento do processo aleatório é
especificado condicionalmente nos valores dos nós vizinhos, assim, especificado em termos da distribuição
condicional completa de bi |b−i ,
σG2
bi |b−i ∼ N (µi + ρG (b − µ)i , ), (2)
dGi
onde dGi é o número de vizinhos do nó i no grafo G, é a média dos vizinhos do nó i é:
X
(b − µ)i = (dGi )−1 (bj − µj )
EG
onde, E G = {(i, j) ∈ E(G) : j ∼ i} é o conjunto de arestas que pertencem ao grafo G. Seja AG = (aij )
tal que aij = 1 se, e somente se, as áreas i e j são vizinhos e MG = diag(dG1 , dG2 , . . . , dGn ). Não é
óbvio que (2) leva a uma distribuição conjunta completa para b. [Besag, 1974] usa o lema de Brook
[Banerjee et al., 2004] para mostrar que quando a matriz (MG − ρG AG )−1 é definido positiva e simétrica
tem que:
1
b ∼ N (µ, (ΣGCAR )−1 ),
com (ΣGCAR )−1 = σG2 (MG − ρG AG )−1 . Para que a covariância seja definida positiva, se tem que ρG <
1 −1/2 −1/2
λn onde λn é o menor valor próprio de MG AG M G , a demonstração pode ser encontrada em
[Banerjee et al., 2004].
3.1 Computação do modelo CAR

Esses modelos condicionais são geralmente designados como modelos condicionais Autoregressivos (CAR).
As vantagens de tais formulações condicionais são mais evidentes em modelos espaciais bayesianos, onde
os procedimentos padrão de amostragem de Gibbs, para estimativa de parâmetros exigem apenas a especi-
ficação de todas as distribuições condicionais. É comum atribuir as distribuções a priori : σG2 ∼ IG(α, β),
µ ∼ N (a, b) e ρ ∼ U(0, 1). Os parâmetros σG e µ podem ser amostrados diretamente. O parâmetro ρ não
tem uma distribuição conhecida e uma amostragem Metropolis-Hasting é necessária.
Embora a estimativa com o modelo CAR seja mais simples na computação, em comparação com outros
métodos geoestatı́sticos, na função de probabilidade dada por:

2 −n G − 12 1 t G
b ∝ (σG ) |ΣCAR | exp − 2 (b − µ) (ΣCAR )(b − µ)
2 (3)
2σG
a matriz de precisão ΣGCAR aparece; essa matriz é o resultado de invertir a matriz de covariância e, apesar
de que seja esparsa, quando o número de nós é grande, ele pode gerar atrasos computacionais. Em busca
de uma alternativa, queremos neutralizar esse processo, usando uma matriz de covariância ainda mais
esparsa, mas que não tem perda de informação.
4 CAR Árvore
Queremos reduzir o processo de modelagem de dados de área espacial com o modelo CAR, alterando
o tipo de gráfico, através de uma abordagem Bayesiana propondo uma distribuição a priori para a dis-
tribuição do grafo. Neste trabalho, é proposto um grafo tipo árvore, que otimizaria e reduziria o gasto
computacional.
A distribuição a priori, denotada por P (G) fornece uma maneira ideal de introduzir qualquer informação
prévia disponı́vel sobre as relações de independência condicional entre as variáveis em b. Podemos,
por exemplo, exigir que um ou mais arestas devem estar presentes ou ausentes do grafo, para ter em
conta os conhecimentos adquiridos em estudos anteriores. Podemos também exigir que alguns arestas
sejam orientados em uma direção especı́fica quando essa direção é a única que faz sentido à luz da
lógica subjacente ao fenômeno que está sendo modelado. No entanto, como nada é conhecido sobre o
comportamento das variáveis, a opção mais comum para P (G) é uma priori não informativa sobre o espaço
dos possı́veis árvores, atribuindo a mesma probabilidade a cada árvore, então a distribuição a priori para
a árvore T é uma distribuição uniforme no espaço das árvores de abrangência do grafo original G, isto é,
1
T ∼ P(T ) =
K
onde, K é o número de árvores geradoras de G. O modelo CAR proposto para o vetor b, é definido por
autoregressões de bi e seus vizinhos definido pela árvore T gerado do grafo original. Assim,
σT2
bi |b−i , T ∼ N (µi + ρT (b − µ)i , ), (4)
dTi
com,
X
(b − µ)i = (dTi )−1 (bj − µj )
ET
2
onde, dTi e o número de vizinhos da área i na árvore T e E T = {(i, j) ∈ E(T ) : j ∼ i} é o conjunto de
arestas que pertencem à árvore T , logo,
b|T ∼ M V N (µ, σT2 (M T − ρT AT )−1 ),

em que M T é uma matriz diagonal com o número de vizinhos e a matriz AT é a matriz de adjacência
definidos pela árvore T . ρT e σT2 também são os parâmetros definidos pela árvore.
Também distribuições a priori são atribuı́das para os outros parâmetros:
µ ∼ N (a, b),
σT2 ∼ InvGamma(α, β), α > 0, β > 0,

ρT ∼ U nif (0, 1).
Uma vez que as distribuições a priori foram especificadas, as distribuições posteriores podem ser encon-
tradas e amostras da distribuição a posteriori dos parâmetros simuladas. No caso de prioris Normal e
Gamma, a distribuição condicional completa é conhecida, para o caso da distribuição posterior da árvore
T e do ρ, não é possı́vel obter distribuições condicionais com forma conhecida, por tanto é necessário
usar o método MCMC para simular amostras da distribuição a posteriori de esses parâmetros.
5 Matrizes de pesos
Na prática, as matriz WT são geralmente usados para construir modelos CAR, onde WG é uma matriz de
pesos com wij = 1/dGi quando os nós i e j são vizinhos no grafo G, caso contrário, wij = 0. Para modelos
CAR é definido como a matriz diagonal com KG com ki,i = (dGi )−1 . A matriz da covarianza do modelo
CAR-estandardizado pode ser escrito equivalentemente como:
(ΣGCAR )−1 = σG2 (I − ρG WG )−1 KG ,

o resultado é análoga para qualquer grafo, portanto, para a árvore T deve ser cumprido que:
(ΣTCAR )−1 = σT2 (I − ρT WT )−1 KT .
5.1 Fator de correção para ρG

Seja
X
E G (bi |b−i ) = µi + ρG (dGi )−1 (bj − µj )
EG
a esperança marginal da variável bi determinada pelo grafo G original e E T (bi |b−i ) denota a esperança
marginal da variável bi determinada pelo grafo T gerado pelo grafo G, então,
E(bi |b−i ) = ET (E(bi |b−i , T ))

!
X
T −1
= ET µi + ρT (di ) (bj − µj )
ET
!
1X X
= µi + ρT (dTi )−1 (bj − µj )
k T T E
e com a equação 5.1, temos:

!−1 !
X 1 X X T −1
ρG = ρT (dGi )−1 (bj − µj ) (di ) (bj − µj )
k
EG TT E
3
5.2 Fator de correção para σG2
[Assunção and Krainski, 2009] mostraram que estes parâmetros são altamente influenciados pela estru-
tura de vizinhança dada pelo grafo, neste caso, a árvore vai a mudar toda a estrutura, assim, uma vez
que eles são gerados sob diferentes grafos, um relacionamento entre os parâmetros dados pela árvore e
pelo grafo original deve ser definido.
Dado que:
b ∼ Nn (µ, (ΣGCAR )−1 ),

e
b|T ∼ Nn (µ, (ΣTCAR )−1 ),

podemos supor que para o conjunto de dados b, deve ser cumprido que:
V arG (bi ) = V arT (bi )
assim,
V ar(bi ) = ET (V ar(bi |T )) + V ar(E(bi |T )),

= ET [σT2 (I − ρT WT )−1 KT ]ii + V arT (µ),

1 X
[σT2 (I − ρT WT )−1 KT ]ii

=
K
T
Se admitimos que σT2 é o mesmo para todo T

1 X
σG2 (I − ρG WG )−1 KG = σT2 [(I − ρT WT )−1 KT ]ii
K
T
1 X
σG2 = σT2 [(I − ρT WT )−1 KT ]ii [KG−1 (I − ρG WG )]ii
K
T
6 Distribuição à posteriori
Nos queremos obter a distribuição à posteriori dos parâmetros considerando uma distribuição a priori
CAR para Y :
Y |T ∼ M V N (µ, σT2 (M T − ρT AT )−1 ),

e adotamos a distribuições a priori para os outros parâmetros:
T ∼ P(T )
σT2 ∼ InvGamma(α, β), α > 0, β > 0
ρT ∼ U nif (0, 1)
µ ∼ N (a, b),
assim, verossimilhança para os dados:

n 1 1 t
Y ∝ (σT2 )− 2 |MT − ρAT |− 2 exp − 2 (Y − µ) (MT − ρT AT )(Y − µ) (5)
2σT
4
A implementação do modelo CAR é muito mais simples computacionalmente com um grafo definido
com uma árvore, uma vez que são utilizadas matrizes esparsas. Nos modelos CAR, o inverso da matriz
de covariância é chamado de matriz de precisão, aparece na função de verossimilhança de Y e, por ser
esparso, torna a ocupação mais rápida, mesmo para um m grande. Então, a verossimilhança para o
modelo do CAR com dois subtituçãos convenientes:
1 1 1 1
|MT − ρT AT | = |MT2 (I − ρT C)MT2 |, onde C = MT2 AT MT2 ,
já que C é uma matriz simétrica então é ortogonalmente diagonalizável, [Noble et al., 1989], logo C =
ΓλΓt onde Γ é uma matriz invertı́vel cujos vetores de coluna são autovetores de C, e λ são os autovalores
de C, assim,
1 1
= |MT2 (I − ρT ΓλΓt )MT2 |,
1 1
= |MT2 Γ||I − ρT λ||Γt MT2 |,
Yn
∝ (1 − ρT λi ),
i=1
por outro lado,

t t t
(Y − µ) (MT − ρT AT )(Y − µ) = (Y − µ) MT (Y − µ) − ρT (Y − µ) AT (Y − µ),
 
Xn n
X X
= dTi (Y − µ)2i − ρT (Y − µ)i  (Y − µ)j  ,
i=1 i=1 j∼i, (i,j)∈E(T )
onde, j ∼ i significa que a região i e j são vizinhos. Então, substituindo na equação 5 se obtem:
n
n 1
Y
Y ∝ (σT2 )− 2 (1 − ρT λi )− 2 ×
i=1
 Pn Pn P 
i=1 dTi (Y − µ)2i − ρT i=1 (Y − µ)i j∼i, (i,j)∈E(T ) (Y − µ)j
exp − 
2σT2
6.1 Distribuições condicionais

Se pode obter as distribuições condicionais para cada um dos parâmetros (µ, σT2 , ρT , T ).
A distribuição condicional de σT2 :
σT2 |µ, ρT , T , Y ∝
 Pn Pn P 
n i=1 dTi (Y − µ)2i − ρT i=1 (Y − µ)i j∼i, (i,j)∈E(T ) (Y − µ)j
(σT2 )− 2 exp − 
2σT2

β
×(σT2 )−α−1
exp − 2 ,
σT
  Pn Pn P 
n 1 i=1 dTi (Y − µ)2i − ρT i=1 (Y − µ)i j∼i, (i,j)∈E(T ) (Y − µ)j
∝ (σT2 )− 2 −α−1 exp − 2 β +  ,
σT 2
5
 Pn Pn P 
n i=1 dTi (Y − µ)2i − ρT i=1 (Y − µ)i j∼i, (i,j)∈E(T ) (Y − µ)j
∼ IG  + α, + β .
2 2
P
Para a distribuição condicional de µ. Seja j∼i Yj = Ȳj , por tanto:
µ|ρT , σT2 , T , Y ∝
  
n n
1 X X X X
exp − 2  dT (Yi − µ)2 − ρT (Yi − µ)( Yj − µ) ×
2σT i=1 i i=1 j∼i j∼i

1
exp − 2 (µ − a)2 ,
2b
  
n n
1 X X X
∝ exp − 2  dT (Yi − µ)2 − ρT (Yi − µ)(Ȳj − µ) ×
2σT i=1 i i=1 j∼i

1
exp − 2 (µ − a)2 ,
2b
n n n
!
1 X X X
∝ exp{− 2 dTi Yi2 −2 Yi dTi µ+ dTi 2
µ +
2σT i=1 i=1 i=1
n n n
!
ρT X X X
Yi Ȳj − µ dTi (Yi + Ȳj ) + dTi µ2 } ×
2σT2 i=1 i=1 i=1

1
exp − 2 (µ2 − 2µa + a2 ) ,
2b
n Pn T n
1 X T 2 i=1 Yi di µ 1 X T 2
∝ exp{− d Y + − d µ +
2σT2 i=1 i i σT2 2σT2 i=1 i
n n n
ρT X µρT X T ρT X 2 T
Y Ȳ
i j − d (Yi + Ȳj ) + µ di −
2σT2 i=1 2σT2 i=1 i 2σT2 i=1
µ2 2µa a2
2
+ 2 − 2 },
2b 2b 2b
dTj ,
P
para simplificar a notação, nós substituı́mos N = j∼i
n n
µ X T µ2 N µρT X T ρT N µ2
∝ exp{ 2 Y d
i i − 2 − 2 di (Yi + Ȳj ) + −
σT i=1 2σT 2σT i=1 2σT2
µ2 µa
2
+ 2}
2b b
µ2

ρT N 1 N
∝ exp{− − + + −
2 σT2 b2 σT2
| {z }
τ12
n n
!
1 X ρT X a
µ Yi dTi − 2 dTi (Yi + Ȳj ) + 2 }
σT2 i=1
2σT i=1
b
| {z }
µ1
6
( µ1 )
µ2 µ2

τ2
exp − τ12 + µµ1 = exp − 1 + µ 11
2 2 τ2 τ12
1
( 2 )
1 µ1
completando quadrado: = exp − 1 µ − 2
2 τ2 τ1
1
então,

µ1 1
µ|ρT , σT2 ,T ,Y ∼ N , . (6)
τ12 τ12
Os parâmetros µ e σT2 podem ser amostrados diretamente.
Mas, a distribução posterior da árvore T e ρ não e conhecida:
 Pn P 
n
Y 1
ρT i=1 (Y − µ)i j∼i, (i,j)∈E(T ) (Y − µ)j
ρT |µ, σT2 , T , Y ∝ (1 − ρT λi )− 2 exp −  P (ρ),
i=1
2σT2
Para amostrar da distribuição a posteriori de ρT fazemos um reparametrizacion U = logit(ρT ). Este

método de transformar o espaço de parâmetros por meio de um método de alterar variáveis dentro do
algoritmo Metropolis-Hastings é útil para problemas com espaços de parâmetros restritos, neste caso
ρT ∈ (0, 1), [Givens and Hoeting, 2012]. Agora podemos executar uma cadeia aleatória em U , gerando
uma proposta u∗ de uma distribução gaussiana. A razão do Metropolis-Hastings para o valor u∗ proposto
no tempo (t) é dado por:
f (logit−1 (u∗ ))|J(u∗ )|

f (logit−1 ((ut )))|J(u(t) )|

i=1 (Y −µ)i ( j∼i, (i,j)∈E(T ) (Y −µ)j )
Pn P
Qn − 21 ρT
com ρ∗T −1
= logit (u), f (ρT ) = i=1 (1 − ρT λi ) exp − 2σ 2
e |J(u)|
T
é o jacobiano para a transformação ρT para u.
No caso da árvore T , temos a distribução condicional:

 Pn P 
Yn
1
ρ T i=1 (Y − µ) i j∼i, (i,j)∈E(T ) (Y − µ)j
T |µ, σT2 , ρT , Y ∝ (1 − ρT λi )− 2 exp − 2
.
i=1
2σ T
Note que o valor de λi depende da matriz de adjacência da árvore escolhida. É necessário usar um método
MCMC e o que melhor se adapta ao problema é a Metrópolis. Então o método inicia em t = 0 com a
seleção da árvore aleatorio T (0) ; dado T (t) , o algoritmo para gerar de T (t+1) é:
• Gera um candidato T (∗) de uma distribuição proposta, neste caso, e gerada de uma uniforme.
• Calcule a razão R(T (t) , T ∗ ), em que:

g(T (∗) )
R(T (t) , T ∗ ) = ,
g(T (t) )
com
  
n n
1
Y X X
g(T (n) ) = (1 − ρT λi )− 2 exp −(2σT2 )−1 ρT (Y − µ)i  (Y − µ)j  ,
i=1 i=1 j∼i, (i,j)∈E(T )
• Gere um valor para T (t+1) de acordo com

(
(t+1) T (∗) , com probabilidade min{R(T (t) , T ∗ ), 1},
T =
T (t) , caso contrário.
7
7 Avaliação Experimental
Nesta seção, analisa-se alguns conjuntos de dados simulados considerando nosso modelo, o modelo CAR
Árvore. O primeiro exemplo, os dados são simulados para seis nós, assim, pode-se mostrar como as
árvores são geradas em cada etapa. Depois, se considera três tipos de grafos com: 50, 100 e 200 nós.
Para cada exemplo, vamos medir a eficiência computacional do modelo CAR e o modelo CAR Árvore,
aplicou ao conjunto de dados dada por cada grafo; também, como um caso especial, vamos escolher só
uma árvore gerada do grafo original e com esta árvore, estimamos os parâmetros. Isto, vai dar-nos uma
indicação, de como as árvores podem melhorar a eficácia do modelo.
A eficiência computacional pode ser medida de várias formas, (alocação de memória, tempo de execução,
etc), mas apenas para comparação, vamos medir o tempo de execução com a função proc.time., esta
determina o tempo real e de CPU (em segundos) desde que o processo começou em R. O console exibe
3 valores:
• User é o tempo da CPU dedicado à execução das instruções do processo,
• System é o tempo de CPU usado pelo sistema operacional (o kernel) seguindo as instruções do
processo (abrir arquivos, iniciar outros processos ou ver o relógio do sistema, etc.),
• Elapsed é o tempo real decorrido desde o inı́cio do processo.

E para cada exemplo, o tempo de execução é exibido.
7.1 Grafo com 6 nós

Para fins de ilustração, aplicaremos o modelo proposto para o grafo da Figura 1 com seis nós, este grafo,
pelo Teorema 1, possui quince árvores geradoras, mostradas na Figura 2
4 5
1
2
3
Figura 1: Grafo de 6 nós
6 6 3 6
5
3
5 3
4
5 6
6 4 3 6
5
2
2 1
3 3
4 2
5
6 1 5
4
5 2
3
4
1 1 4 1
2
1 6
2
4
2
5
1 3 4 1
(1) A9 (2) A10 (3) A11 (4) A12
(1) A1 (2) A2 (3) A3 (4) A4 4 4 3
1
2
5 1
4 4 6 1 5
5
6 6
1
4
2
1 6 2
3 5
5 5
6
2
5
3 3 4
2
2 4
3
1
2
3 3 1 6
(5) A13 (6) A14 (7) A15
(5) A5 (6) A6 (7) A7 (8) A8
Figura 2: Árvores geradoras para o grafo com seis nós.
8
2
2 a 4
d c
f
e
1
b 3
Referências
[Assunção and Krainski, 2009] Assunção, R. and Krainski, E. (2009). Neighborhood dependence in baye-
sian spatial models. Biometrical Journal, 51(5):851–869.
[Banerjee et al., 2004] Banerjee, S., P. Carlin, B., and E. Gelfand, A. (2004). Hierarchical Modeling and
Analysis of Spatial Data, volume 101.
[Besag, 1974] Besag, J. (1974). Spatial interaction and the statistical analysis of lattice systems. Journal
of the Royal Statistical Society. Series B (Methodological), 36(2):192–236.
[Givens and Hoeting, 2012] Givens, G. H. and Hoeting, J. A. (2012). Computational statistics. John
Wiley & Sons, Hoboken, NJ, USA, 2 edition.
[Noble et al., 1989] Noble, B., Daniel, J., and Pozo, V. (1989). Algebra lineal aplicada. Prentice Hall.

CARArvore

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

CARArvore

Enviado por

Direitos autorais:

Formatos disponíveis

1 Grafos

Teorema 1 (Teorema da Matriz - Árvore de Kirchhoff ) Seja L a matriz laplaciana de G, adj(L)

Y ∼ N (µ, σY2 (MG − ρY AG )−1 ).

3.1 Computação do modelo CAR

b|T ∼ M V N (µ, σT2 (M T − ρT AT )−1 ),

Também distribuições a priori são atribuı́das para os outros parâmetros:

σT2 ∼ InvGamma(α, β), α > 0, β > 0,

(ΣGCAR )−1 = σG2 (I − ρG WG )−1 KG ,

(ΣTCAR )−1 = σT2 (I − ρT WT )−1 KT .

5.1 Fator de correção para ρG

E(bi |b−i ) = ET (E(bi |b−i , T ))

e com a equação 5.1, temos:

b ∼ Nn (µ, (ΣGCAR )−1 ),

b|T ∼ Nn (µ, (ΣTCAR )−1 ),

V arG (bi ) = V arT (bi )

V ar(bi ) = ET (V ar(bi |T )) + V ar(E(bi |T )),

Se admitimos que σT2 é o mesmo para todo T

Y |T ∼ M V N (µ, σT2 (M T − ρT AT )−1 ),

σT2 ∼ InvGamma(α, β), α > 0, β > 0

por outro lado,

6.1 Distribuições condicionais

A distribuição condicional de σT2 :

Para amostrar da distribuição a posteriori de ρT fazemos um reparametrizacion U = logit(ρT ). Este

f (logit−1 (u∗ ))|J(u∗ )|

é o jacobiano para a transformação ρT para u.

No caso da árvore T , temos a distribução condicional:

• Calcule a razão R(T (t) , T ∗ ), em que:

• Gere um valor para T (t+1) de acordo com

• Elapsed é o tempo real decorrido desde o inı́cio do processo.

7.1 Grafo com 6 nós

Figura 1: Grafo de 6 nós

(1) A1 (2) A2 (3) A3 (4) A4 4 4 3

(5) A13 (6) A14 (7) A15

(5) A5 (6) A6 (7) A7 (8) A8

Figura 2: Árvores geradoras para o grafo com seis nós.

Você também pode gostar