Você está na página 1de 9

1 Grafos

Teorema 1 (Teorema da Matriz - Árvore de Kirchhoff ) Seja L a matriz laplaciana de G, adj(L)


a matriz adjunta de L e seja J a matriz com mesma ordem de L e com todas entradas iguais a 1. Então,

adj(L) = τ (G)J,
onde τ (G) é o número de árvores geradoras de G.

Algoritmo 1: Prim
Entrada:
Saı́da: T (t)
1 inı́cio
2 fim
3 retorna TM

2 CAR
Seja Y1 , ..., Yn são observações feitas nas areas 1, ..., n de dados de area, denotamos j ∼ i se j é um
vizinho de i. O modelo mais comum na estatı́stica espacial é o modelo CAR, especificado em termos da
distribuição condicional completa de Yi |Y−i ,

σY2
Yi |Y−i ∼ N (µi + ρY (Y − µ)i , ), (1)
dGi
onde: dGi é o número de vizinhos do nó i no grafo, (Y − µ)i = j∼i (MG−1 AG )ij (Yj − µj ) é a média dos
P

vizinhos do nó i, MG = diag(dG1 , . . . , dGn ), AG = (aij ) tal que aij = I(i ∼ j) a matriz de adjacência,
por tanto, define uma distribuição conjunta válida para o vetor Y dada por uma distribuição normal
multivariada:

Y ∼ N (µ, σY2 (MG − ρY AG )−1 ).

3 CAR
Considere um grafo B = (G, E), onde E são as arestas no gráfico, ou conexões na estrutura, definem os
vizinhos, que são usados para modelar a dependência espacial. b é um vetor de n variáveis aleatórias nos
nós de um gráfico (ou junções de um lattice). Sejam b1 , ..., bn as observações feitas nas areas 1, . . . , n de
dados de area, denotamos j ∼ i se j é um vizinho de i. O modelo mais comum na estatı́stica espacial é o
modelo CAR, o termo condicional, no modelo CAR é usado porque cada elemento do processo aleatório é
especificado condicionalmente nos valores dos nós vizinhos, assim, especificado em termos da distribuição
condicional completa de bi |b−i ,

σG2
bi |b−i ∼ N (µi + ρG (b − µ)i , ), (2)
dGi
onde dGi é o número de vizinhos do nó i no grafo G, é a média dos vizinhos do nó i é:
X
(b − µ)i = (dGi )−1 (bj − µj )
EG

onde, E G = {(i, j) ∈ E(G) : j ∼ i} é o conjunto de arestas que pertencem ao grafo G. Seja AG = (aij )
tal que aij = 1 se, e somente se, as áreas i e j são vizinhos e MG = diag(dG1 , dG2 , . . . , dGn ). Não é
óbvio que (2) leva a uma distribuição conjunta completa para b. [Besag, 1974] usa o lema de Brook
[Banerjee et al., 2004] para mostrar que quando a matriz (MG − ρG AG )−1 é definido positiva e simétrica
tem que:

1
b ∼ N (µ, (ΣGCAR )−1 ),
com (ΣGCAR )−1 = σG2 (MG − ρG AG )−1 . Para que a covariância seja definida positiva, se tem que ρG <
1 −1/2 −1/2
λn onde λn é o menor valor próprio de MG AG M G , a demonstração pode ser encontrada em
[Banerjee et al., 2004].

3.1 Computação do modelo CAR


Esses modelos condicionais são geralmente designados como modelos condicionais Autoregressivos (CAR).
As vantagens de tais formulações condicionais são mais evidentes em modelos espaciais bayesianos, onde
os procedimentos padrão de amostragem de Gibbs, para estimativa de parâmetros exigem apenas a especi-
ficação de todas as distribuições condicionais. É comum atribuir as distribuções a priori : σG2 ∼ IG(α, β),
µ ∼ N (a, b) e ρ ∼ U(0, 1). Os parâmetros σG e µ podem ser amostrados diretamente. O parâmetro ρ não
tem uma distribuição conhecida e uma amostragem Metropolis-Hasting é necessária.

Embora a estimativa com o modelo CAR seja mais simples na computação, em comparação com outros
métodos geoestatı́sticos, na função de probabilidade dada por:
 
2 −n G − 12 1 t G
b ∝ (σG ) |ΣCAR | exp − 2 (b − µ) (ΣCAR )(b − µ)
2 (3)
2σG
a matriz de precisão ΣGCAR aparece; essa matriz é o resultado de invertir a matriz de covariância e, apesar
de que seja esparsa, quando o número de nós é grande, ele pode gerar atrasos computacionais. Em busca
de uma alternativa, queremos neutralizar esse processo, usando uma matriz de covariância ainda mais
esparsa, mas que não tem perda de informação.

4 CAR Árvore
Queremos reduzir o processo de modelagem de dados de área espacial com o modelo CAR, alterando
o tipo de gráfico, através de uma abordagem Bayesiana propondo uma distribuição a priori para a dis-
tribuição do grafo. Neste trabalho, é proposto um grafo tipo árvore, que otimizaria e reduziria o gasto
computacional.

A distribuição a priori, denotada por P (G) fornece uma maneira ideal de introduzir qualquer informação
prévia disponı́vel sobre as relações de independência condicional entre as variáveis em b. Podemos,
por exemplo, exigir que um ou mais arestas devem estar presentes ou ausentes do grafo, para ter em
conta os conhecimentos adquiridos em estudos anteriores. Podemos também exigir que alguns arestas
sejam orientados em uma direção especı́fica quando essa direção é a única que faz sentido à luz da
lógica subjacente ao fenômeno que está sendo modelado. No entanto, como nada é conhecido sobre o
comportamento das variáveis, a opção mais comum para P (G) é uma priori não informativa sobre o espaço
dos possı́veis árvores, atribuindo a mesma probabilidade a cada árvore, então a distribuição a priori para
a árvore T é uma distribuição uniforme no espaço das árvores de abrangência do grafo original G, isto é,
1
T ∼ P(T ) =
K
onde, K é o número de árvores geradoras de G. O modelo CAR proposto para o vetor b, é definido por
autoregressões de bi e seus vizinhos definido pela árvore T gerado do grafo original. Assim,

σT2
bi |b−i , T ∼ N (µi + ρT (b − µ)i , ), (4)
dTi
com,
X
(b − µ)i = (dTi )−1 (bj − µj )
ET

2
onde, dTi e o número de vizinhos da área i na árvore T e E T = {(i, j) ∈ E(T ) : j ∼ i} é o conjunto de
arestas que pertencem à árvore T , logo,

b|T ∼ M V N (µ, σT2 (M T − ρT AT )−1 ),


em que M T é uma matriz diagonal com o número de vizinhos e a matriz AT é a matriz de adjacência
definidos pela árvore T . ρT e σT2 também são os parâmetros definidos pela árvore.

Também distribuições a priori são atribuı́das para os outros parâmetros:

µ ∼ N (a, b),

σT2 ∼ InvGamma(α, β), α > 0, β > 0,


ρT ∼ U nif (0, 1).
Uma vez que as distribuições a priori foram especificadas, as distribuições posteriores podem ser encon-
tradas e amostras da distribuição a posteriori dos parâmetros simuladas. No caso de prioris Normal e
Gamma, a distribuição condicional completa é conhecida, para o caso da distribuição posterior da árvore
T e do ρ, não é possı́vel obter distribuições condicionais com forma conhecida, por tanto é necessário
usar o método MCMC para simular amostras da distribuição a posteriori de esses parâmetros.

5 Matrizes de pesos
Na prática, as matriz WT são geralmente usados para construir modelos CAR, onde WG é uma matriz de
pesos com wij = 1/dGi quando os nós i e j são vizinhos no grafo G, caso contrário, wij = 0. Para modelos
CAR é definido como a matriz diagonal com KG com ki,i = (dGi )−1 . A matriz da covarianza do modelo
CAR-estandardizado pode ser escrito equivalentemente como:

(ΣGCAR )−1 = σG2 (I − ρG WG )−1 KG ,


o resultado é análoga para qualquer grafo, portanto, para a árvore T deve ser cumprido que:

(ΣTCAR )−1 = σT2 (I − ρT WT )−1 KT .

5.1 Fator de correção para ρG


Seja
X
E G (bi |b−i ) = µi + ρG (dGi )−1 (bj − µj )
EG

a esperança marginal da variável bi determinada pelo grafo G original e E T (bi |b−i ) denota a esperança
marginal da variável bi determinada pelo grafo T gerado pelo grafo G, então,

E(bi |b−i ) = ET (E(bi |b−i , T ))


!
X
T −1
= ET µi + ρT (di ) (bj − µj )
ET
!
1X X
= µi + ρT (dTi )−1 (bj − µj )
k T T E

e com a equação 5.1, temos:


!−1 !
X 1 X X T −1
ρG = ρT (dGi )−1 (bj − µj ) (di ) (bj − µj )
k
EG TT E

3
5.2 Fator de correção para σG2
[Assunção and Krainski, 2009] mostraram que estes parâmetros são altamente influenciados pela estru-
tura de vizinhança dada pelo grafo, neste caso, a árvore vai a mudar toda a estrutura, assim, uma vez
que eles são gerados sob diferentes grafos, um relacionamento entre os parâmetros dados pela árvore e
pelo grafo original deve ser definido.

Dado que:

b ∼ Nn (µ, (ΣGCAR )−1 ),


e

b|T ∼ Nn (µ, (ΣTCAR )−1 ),


podemos supor que para o conjunto de dados b, deve ser cumprido que:

V arG (bi ) = V arT (bi )

assim,

V ar(bi ) = ET (V ar(bi |T )) + V ar(E(bi |T )),


= ET [σT2 (I − ρT WT )−1 KT ]ii + V arT (µ),


1 X
[σT2 (I − ρT WT )−1 KT ]ii

=
K
T

Se admitimos que σT2 é o mesmo para todo T


1 X
σG2 (I − ρG WG )−1 KG = σT2 [(I − ρT WT )−1 KT ]ii
K
T
1 X
σG2 = σT2 [(I − ρT WT )−1 KT ]ii [KG−1 (I − ρG WG )]ii
K
T

6 Distribuição à posteriori
Nos queremos obter a distribuição à posteriori dos parâmetros considerando uma distribuição a priori
CAR para Y :

Y |T ∼ M V N (µ, σT2 (M T − ρT AT )−1 ),


e adotamos a distribuições a priori para os outros parâmetros:

T ∼ P(T )

σT2 ∼ InvGamma(α, β), α > 0, β > 0

ρT ∼ U nif (0, 1)

µ ∼ N (a, b),
assim, verossimilhança para os dados:
 
n 1 1 t
Y ∝ (σT2 )− 2 |MT − ρAT |− 2 exp − 2 (Y − µ) (MT − ρT AT )(Y − µ) (5)
2σT

4
A implementação do modelo CAR é muito mais simples computacionalmente com um grafo definido
com uma árvore, uma vez que são utilizadas matrizes esparsas. Nos modelos CAR, o inverso da matriz
de covariância é chamado de matriz de precisão, aparece na função de verossimilhança de Y e, por ser
esparso, torna a ocupação mais rápida, mesmo para um m grande. Então, a verossimilhança para o
modelo do CAR com dois subtituçãos convenientes:

1 1 1 1
|MT − ρT AT | = |MT2 (I − ρT C)MT2 |, onde C = MT2 AT MT2 ,

já que C é uma matriz simétrica então é ortogonalmente diagonalizável, [Noble et al., 1989], logo C =
ΓλΓt onde Γ é uma matriz invertı́vel cujos vetores de coluna são autovetores de C, e λ são os autovalores
de C, assim,

1 1
= |MT2 (I − ρT ΓλΓt )MT2 |,
1 1
= |MT2 Γ||I − ρT λ||Γt MT2 |,
Yn
∝ (1 − ρT λi ),
i=1

por outro lado,


t t t
(Y − µ) (MT − ρT AT )(Y − µ) = (Y − µ) MT (Y − µ) − ρT (Y − µ) AT (Y − µ),
 
Xn n
X X
= dTi (Y − µ)2i − ρT (Y − µ)i  (Y − µ)j  ,
i=1 i=1 j∼i, (i,j)∈E(T )

onde, j ∼ i significa que a região i e j são vizinhos. Então, substituindo na equação 5 se obtem:
n
n 1
Y
Y ∝ (σT2 )− 2 (1 − ρT λi )− 2 ×
i=1
 Pn Pn P 
i=1 dTi (Y − µ)2i − ρT i=1 (Y − µ)i j∼i, (i,j)∈E(T ) (Y − µ)j
exp − 
2σT2

6.1 Distribuições condicionais


Se pode obter as distribuições condicionais para cada um dos parâmetros (µ, σT2 , ρT , T ).

A distribuição condicional de σT2 :

σT2 |µ, ρT , T , Y ∝

 Pn Pn P 
n i=1 dTi (Y − µ)2i − ρT i=1 (Y − µ)i j∼i, (i,j)∈E(T ) (Y − µ)j
(σT2 )− 2 exp − 
2σT2
 
β
×(σT2 )−α−1
exp − 2 ,
σT
  Pn Pn P  
n 1 i=1 dTi (Y − µ)2i − ρT i=1 (Y − µ)i j∼i, (i,j)∈E(T ) (Y − µ)j
∝ (σT2 )− 2 −α−1 exp − 2 β +  ,
σT 2

5
 Pn Pn P  
n i=1 dTi (Y − µ)2i − ρT i=1 (Y − µ)i j∼i, (i,j)∈E(T ) (Y − µ)j
∼ IG  + α, + β .
2 2
P
Para a distribuição condicional de µ. Seja j∼i Yj = Ȳj , por tanto:

µ|ρT , σT2 , T , Y ∝
  
n n
1 X X X X
exp − 2  dT (Yi − µ)2 − ρT (Yi − µ)( Yj − µ) ×
2σT i=1 i i=1 j∼i j∼i
 
1
exp − 2 (µ − a)2 ,
2b
  
n n
1 X X X
∝ exp − 2  dT (Yi − µ)2 − ρT (Yi − µ)(Ȳj − µ) ×
2σT i=1 i i=1 j∼i
 
1
exp − 2 (µ − a)2 ,
2b

n n n
!
1 X X X
∝ exp{− 2 dTi Yi2 −2 Yi dTi µ+ dTi 2
µ +
2σT i=1 i=1 i=1
n n n
!
ρT X X X
Yi Ȳj − µ dTi (Yi + Ȳj ) + dTi µ2 } ×
2σT2 i=1 i=1 i=1
 
1
exp − 2 (µ2 − 2µa + a2 ) ,
2b

n Pn T n
1 X T 2 i=1 Yi di µ 1 X T 2
∝ exp{− d Y + − d µ +
2σT2 i=1 i i σT2 2σT2 i=1 i
n n n
ρT X µρT X T ρT X 2 T
Y Ȳ
i j − d (Yi + Ȳj ) + µ di −
2σT2 i=1 2σT2 i=1 i 2σT2 i=1
µ2 2µa a2
2
+ 2 − 2 },
2b 2b 2b
dTj ,
P
para simplificar a notação, nós substituı́mos N = j∼i

n n
µ X T µ2 N µρT X T ρT N µ2
∝ exp{ 2 Y d
i i − 2 − 2 di (Yi + Ȳj ) + −
σT i=1 2σT 2σT i=1 2σT2
µ2 µa
2
+ 2}
2b b

µ2
 
ρT N 1 N
∝ exp{− − + + −
2 σT2 b2 σT2
| {z }
τ12
n n
!
1 X ρT X a
µ Yi dTi − 2 dTi (Yi + Ȳj ) + 2 }
σT2 i=1
2σT i=1
b
| {z }
µ1

6
( µ1 )
µ2 µ2
 
τ2
exp − τ12 + µµ1 = exp − 1 + µ 11
2 2 τ2 τ12
1
(  2 )
1 µ1
completando quadrado: = exp − 1 µ − 2
2 τ2 τ1
1

então,
 
µ1 1
µ|ρT , σT2 ,T ,Y ∼ N , . (6)
τ12 τ12
Os parâmetros µ e σT2 podem ser amostrados diretamente.
Mas, a distribução posterior da árvore T e ρ não e conhecida:

 Pn P 
n
Y 1
ρT i=1 (Y − µ)i j∼i, (i,j)∈E(T ) (Y − µ)j
ρT |µ, σT2 , T , Y ∝ (1 − ρT λi )− 2 exp −  P (ρ),
i=1
2σT2

Para amostrar da distribuição a posteriori de ρT fazemos um reparametrizacion U = logit(ρT ). Este


método de transformar o espaço de parâmetros por meio de um método de alterar variáveis dentro do
algoritmo Metropolis-Hastings é útil para problemas com espaços de parâmetros restritos, neste caso
ρT ∈ (0, 1), [Givens and Hoeting, 2012]. Agora podemos executar uma cadeia aleatória em U , gerando
uma proposta u∗ de uma distribução gaussiana. A razão do Metropolis-Hastings para o valor u∗ proposto
no tempo (t) é dado por:

f (logit−1 (u∗ ))|J(u∗ )|


f (logit−1 ((ut )))|J(u(t) )|
 
i=1 (Y −µ)i ( j∼i, (i,j)∈E(T ) (Y −µ)j )
Pn P
Qn − 21 ρT
com ρ∗T −1
= logit (u), f (ρT ) = i=1 (1 − ρT λi ) exp − 2σ 2
e |J(u)|
T

é o jacobiano para a transformação ρT para u.

No caso da árvore T , temos a distribução condicional:


 Pn P 
Yn
1
ρ T i=1 (Y − µ) i j∼i, (i,j)∈E(T ) (Y − µ)j
T |µ, σT2 , ρT , Y ∝ (1 − ρT λi )− 2 exp − 2
.
i=1
2σ T

Note que o valor de λi depende da matriz de adjacência da árvore escolhida. É necessário usar um método
MCMC e o que melhor se adapta ao problema é a Metrópolis. Então o método inicia em t = 0 com a
seleção da árvore aleatorio T (0) ; dado T (t) , o algoritmo para gerar de T (t+1) é:
• Gera um candidato T (∗) de uma distribuição proposta, neste caso, e gerada de uma uniforme.

• Calcule a razão R(T (t) , T ∗ ), em que:


g(T (∗) )
R(T (t) , T ∗ ) = ,
g(T (t) )
com
  
n n
1
Y X X
g(T (n) ) = (1 − ρT λi )− 2 exp −(2σT2 )−1 ρT (Y − µ)i  (Y − µ)j  ,
i=1 i=1 j∼i, (i,j)∈E(T )

• Gere um valor para T (t+1) de acordo com


(
(t+1) T (∗) , com probabilidade min{R(T (t) , T ∗ ), 1},
T =
T (t) , caso contrário.

7
7 Avaliação Experimental
Nesta seção, analisa-se alguns conjuntos de dados simulados considerando nosso modelo, o modelo CAR
Árvore. O primeiro exemplo, os dados são simulados para seis nós, assim, pode-se mostrar como as
árvores são geradas em cada etapa. Depois, se considera três tipos de grafos com: 50, 100 e 200 nós.

Para cada exemplo, vamos medir a eficiência computacional do modelo CAR e o modelo CAR Árvore,
aplicou ao conjunto de dados dada por cada grafo; também, como um caso especial, vamos escolher só
uma árvore gerada do grafo original e com esta árvore, estimamos os parâmetros. Isto, vai dar-nos uma
indicação, de como as árvores podem melhorar a eficácia do modelo.

A eficiência computacional pode ser medida de várias formas, (alocação de memória, tempo de execução,
etc), mas apenas para comparação, vamos medir o tempo de execução com a função proc.time., esta
determina o tempo real e de CPU (em segundos) desde que o processo começou em R. O console exibe
3 valores:
• User é o tempo da CPU dedicado à execução das instruções do processo,

• System é o tempo de CPU usado pelo sistema operacional (o kernel) seguindo as instruções do
processo (abrir arquivos, iniciar outros processos ou ver o relógio do sistema, etc.),

• Elapsed é o tempo real decorrido desde o inı́cio do processo.


E para cada exemplo, o tempo de execução é exibido.

7.1 Grafo com 6 nós


Para fins de ilustração, aplicaremos o modelo proposto para o grafo da Figura 1 com seis nós, este grafo,
pelo Teorema 1, possui quince árvores geradoras, mostradas na Figura 2

4 5

1
2
3

Figura 1: Grafo de 6 nós

6 6 3 6

5
3

5 3
4
5 6
6 4 3 6

5
2

2 1
3 3
4 2
5
6 1 5
4
5 2
3

4
1 1 4 1
2

1 6
2

4
2
5

1 3 4 1
(1) A9 (2) A10 (3) A11 (4) A12

(1) A1 (2) A2 (3) A3 (4) A4 4 4 3

1
2

5 1

4 4 6 1 5
5

6 6
1
4
2
1 6 2

3 5
5 5
6
2

5
3 3 4
2
2 4

3
1

2
3 3 1 6

(5) A13 (6) A14 (7) A15

(5) A5 (6) A6 (7) A7 (8) A8

Figura 2: Árvores geradoras para o grafo com seis nós.

8
2
2 a 4

d c
f
e

1
b 3

Referências
[Assunção and Krainski, 2009] Assunção, R. and Krainski, E. (2009). Neighborhood dependence in baye-
sian spatial models. Biometrical Journal, 51(5):851–869.

[Banerjee et al., 2004] Banerjee, S., P. Carlin, B., and E. Gelfand, A. (2004). Hierarchical Modeling and
Analysis of Spatial Data, volume 101.
[Besag, 1974] Besag, J. (1974). Spatial interaction and the statistical analysis of lattice systems. Journal
of the Royal Statistical Society. Series B (Methodological), 36(2):192–236.

[Givens and Hoeting, 2012] Givens, G. H. and Hoeting, J. A. (2012). Computational statistics. John
Wiley & Sons, Hoboken, NJ, USA, 2 edition.
[Noble et al., 1989] Noble, B., Daniel, J., and Pozo, V. (1989). Algebra lineal aplicada. Prentice Hall.

Você também pode gostar