Você está na página 1de 96

CE-056:

Fundamentos de Geoestatstica

Paulo Justiniano Ribeiro Junior


Departamento de Estatstica
Universidade Federal do Parana

Segundo semestre de 2004

EEndereco para correspondencia: Departamento de Estatstica, Universidade Federal do Parana,


mail: Paulo.Ribeiro@est.ufpr.br

PARTE I:

INTRODUC
AO

1. Exemplos Basicos de dados espaciais


2. Terminologia para estatstica espacial
3. Outros exemplos de dados geoestatsticos
4. Caractersticas de Problemas Geoestatsticos
5. Quest
oes Centrais em Geoestatstica

1. Estatstica Espacial:
Exemplos Basicos

300000

(a) Taxas de c
ancer por regi
oes administrativas
o estons de cinza correspondem a` variaca
timada do risco relativo de cancer coloretal em 36 zonas eleitorais da cidade de Birmingham, UK.

1.0

1.1

1.2

1.3

290000
285000
280000
275000

Northings (meters)

295000

0.9

395000

400000

405000

410000

Eastings (meters)

415000

420000

100

200

300

400

500

600

o no Estado do Parana
(b) Precipitaca
Medidas de chuva em 143 postos meteo
rologicos.

Medias historicas
para o perodo de Maio o seca).
Junho (estaca
Maiores detalhes: tese de Jacinta L. Zamboti
(2001).

200

300

400

500

600

700

800

es bacterianas no sul da Inglaterra


(c) Infecco
Localizaco es das residencias de 651 casos
notificados num per odo de 1 ano na regi
ao
central do sul da Inglaterra.

140

100

N-S (km)
120

80


380

400

420
440
E-W (km)

460

2. Terminologia para estatstica espacial


o espacial discreta
(a) Variaca
Estrutura basica.
Yi : i = 1, ..., n

raramente ocorre naturalmente


como estrategia pragmatica

util
modelos s
ao tipicamente definidos indiretamente a partir de condicionais
[Yi|Yj , j 6= i]
o espacial contnua
(b) Variaca
Estrutura basica.
Y (x) : x IR2

dados (yi, xi) : i = 1, ..., n, localizaco es xi podem ser:

n
ao estocastica
(ex.
grade cobrindo

a regi
ao em estudo A) ou estocastica,
porem
independente do processo Y (x)
(c) Processo pontual espacial

Estrutura basica.
Conjunto contavel
de pon

tos xi IR2, generados estocasticamente.


` vezes dados s
as
ao agregados em regi
oes

o de metodos esEstatstica espacial e a seleca


o espacial tem
tatsticos nos quais a localizaca

papel explcito na analise


dos dados.
Dois temas estrategicos
n
ao confundir formato dos dados com o processo subjacente.
a escolha do modelo pode ser influenciada
pelos objetivos cientficos do estudo

3. Outros Exemplos de Problemas Geoestatsticos


(a) Dados de chuva na Suca
200

N-S (km)

150

100

50

0
0

100

200

300

E-W (km)

es com tamanhos dos pontos proporcionais aos valoLocalizaco


o
res observados de precipitaca

467 postos na Suca

medidas diarias
de chuva em 8 de Maio de
1986
dados do projeto:
Spatial Interpolation Comparison 97
ftp://ftp.geog.uwo.ca/SIC97/.

(b) Ilha de Rongelap


o decor estudo do resduo de contaminaca
rente de testes de armas nucleares durante a decada de 50
ilha evacuada em 1985. Segura para reo
ocupaca
pesquisa produz medidas com rudo Yi de
o de cesio radioativo
concentraca

-2000
-3000

-4000

-5000

N-S

-1000

1000

particular interesse em nveis maximos


de
o de cesio
concentraca

-6000

-5000

-4000

-3000
E-W

-2000

-1000

(c) Especies de lquens


o espacial
fatores associados a distribuica
da presenca de lquens em troncos de

avores
resposta 0/1: presenca ou ausencia

11000
10000
9000

YCOORD

12000

covariaveis:
di
ametro, umidade, sombreamento, cobertura do tronco, viva

4000

5000

6000

XCOORD

7000

(d) Malaria em Gambia


na vila i, dado Yij = 0/1 denota ausencia ou

presenca de malaria
no sangue da crianca
j

covariaveis
ao nvel de vilas:
o (coordenadas), presenca de
localizaca

ndice de vegetaca
o decentro de saude,
rivado de satelite

covariaveis
ao nvel de criancas:
idade, uso e tratamento de mosquiteiro

interesses: efeito das covariaveis


e padr
ao
o residual
espacial da variaca
1600

o oo
o oo

ooo

o
oo
oo
o

1500

o
oooo

o oooooooooo
o

ooo o
o
ooo
o

ooo oooooo
o ooo
Western
1400

N-S (km)

Central

Eastern

o oo o
o o oo oo
o o

o o
o
o o
ooo oo o
o o o o ooo o
oo oo

o ooo
o
o oo ooo oo

300

oo
o
oo ooo o
o ooooooooooo o
o

400

500
E-W (km)

600

4. Caractersticas Principais dos Problemas Geoestatsticos


dados consistem em respostas Yi associadas
es xi
com localizaco
em princpio, Y pode ser determinado em
o x dentro da regi
qualquer localizaca
ao espacialmente contnua A
assume-se que {Y (x) : x A} e um processo

estocastico
xi e tipicamente fixo. Se as localizaco es xi s
ao

geradas por um processo estocastico


pontual, assume-se que este processo e independente de Y (x)
o de
objetivos cientficos incluem a predica
um ou mais funcionais de processo (sem
rudo) {S(x) : x A}

400
300

400

500

600

700

800

300
200
100

150

200

200

250

500
400

Coord X

100 200 300 400 500 600 700 800

400
350
300
200

250

data

300
250
200

data

350

400

Coord X

200

300

400

500

Coord X

600

700

100

200

300
Coord Y

400

Coord Y

data

300

350

300
200
100

Coord Y

400

450

500

600

Exemplo basico: chuva no Parana

1200
1000

6000

800

5000

semivariance
600

4000
semivariance
3000

400

2000

200

1000
0
0

100

200
distance

300

400

100

200
distance

300

400

retirada de
variogramas para dados originais (esquerda) e apos

600
500
400
Coord Y
300
200
100
160

200

218

300

277

400

500
Coord X

336

600

395

700

100

200

Coord Y
300

400

500

600

tendencia, com modelo ajustado (direita).

800

135

200

310

300

485

400

500
Coord X

660

600

834

700

800

Krigagem: mapas de valores preditos (esquerda) e vari


ancias de
o (direita).
predica

5. Quest
oes Centrais
Delineamento
quantas localizaco es?
quantas medidas?
o das localizaco
es?
configuraca
o?
o que deve-se medir em cada localizaca
Modelagem
modelo probabilstico para o sinal [S]
modelo de probabilidade condicional para
as medidas, [Y |S]
o
Estimaca
valores para parametros desconhecidos do
modelo
inferencias sobre os parametros ou
funco es destes
o
Predica
o condicional
avalia-se [T |Y ], a distribuica
o
aos dados do objetivo de predica

Geostatstica Tradicional:
o pa evita referencia explcita a` especificaca
rametrica dos modelos
variogramas como instrumento de inferencia
o e escolha)
(Matheron: estimaca
em geral usa-se estruturas complexas de variogramas
concentra-se em estimadores lineares
metodos e paradigmas especficos para:
o pontual (SK, OK, KTE, UK)
predica
o de funcionais n
predica
ao lineares (IK,
DK, ...)
o de densidades preditivas (IK,
estimaca
DK)
simulaco es das preditivas (SGSIM, SISIM,
...)
kriging menu

PARTE II:
DO MODELO
ESPECIFICAC
AO
GEOESTATISTICO

1. Model based geostatistics


2. A Caminho de um Modelo Espacial
3. O Modelo Gaussiano em Detalhes
o de Correlaca
o
4. Funca
5. Efeitos Direcionais
6. Modelos N
ao-Estacionarios

1. Model based geostatistics


Model based geostatistics means that we adopt
a model-based approach to this class of problems, by which we mean that we start with an
explicit stochastic model and derive associated
methods of parameter estimation, interpolation
and smoothing by the application of general statistical principles.
o
Notaca
(Yi, xi) : i = 1, ..., n
{xi : i = 1, ..., n} e o plano amostral
{Y (x) : x A} e o processo de medida
{S(x) : x A} e o processo do sinal
o
T = F(S) e o objetivo de predica
[S, Y ] = [S][Y |S] e o modelo geoestatstico

o de um
2. A caminho da especificaca
modelo especial
Perspectiva historica
- paradigmas para in
ferencia
(a) Modelos estatsticos:
o de dados
reduca
o e predica
o
escolha, estimaca
(b) Gauss e Legendre
estudos de astronomia
erros normais
discrepancia dados e modelo: min. quadrados
1o e 2o momentos
(c) Fisher e verossimilhanca
o da verossimilhanca
uso e interpretaca
o com min. quad.:
relaca
2l = 12 (yi i)2

maximo,
curvaturas, inferencia, etc
Royall, 1997
pragmatismo e delineamentos
(d) Inferencia: Model-based vs design-based

Perspectiva historica
- Modelos Lineares Genera
lizados
Modelo linear
Y = X +
pode ser escrito como:
Y N (, 2)
= X
e generalizado de 2 formas
Y Q(, ...)
= g() = X
n
ao mais requer
normalidade
vari
ancia constante
o com escala
preocupaca
verossimilanca em destaque
deviance: D() = l(y, y) l(y, )
extens
oes
modelagem de superdispers
ao
modelos mixtos

modelos hierarquicos
(multinvel)
inferencia Bayesiana

Modelo linear generalizado linear classico

Yi : i = 1, ..., n
mutuamente independentes, com i = E[Yi]
Pk
o de ligaca
o co h(i) = j=1 fij j , com funca
nhecida h().
Modelo Linear Generalizado Mixto
Yi : i = 1, ..., n
mutuamente independentes, com i = E[Yi],
` ralizaco es de um conjunto de
conditional as

de variaveis
aleatorias
latentes Ui,
P
h(i) = Ui + kj=1 fij j ,
o de ligaca
o conhecida h().
para uma funca
A modelo espacial (geoestatstico)
Yi : i = 1, ..., n
mutuamente independentes, com i = E[Yi],
` realizaco es de um conjunto de
conditional as

de variaveis
aleatorias
latentes Ui,
Pp
h(i) = Ui + j=1 fij j ,
o de ligaca
o conhecida h(),
para uma funca
Ui = S(xi)
onde {S(x) : x IR2} e um processo es
tocastico
espacial.
Pk
h(i) = Ui + j=1 fij j ,

data
4.0 4.5 5.0 5.5 6.0 6.5 7.0
0.0

0.2

0.4

0.6

0.8

1.0

locations

o ilustrando os componentes do modelo: dados Y (xi ) (ponsimulaca


tos), sinal S(x) (linha curva) e media (linha horizontal).

3. O Modelo Gaussiano

(a) S() e um processo Gaussiano estacionario


com
i. E[S(x)] = 0,
ii. Var{S(x)} = 2
iii. (u) = Corr{S(x), S(x u)};
o condicional de Yi dado S() e
(b) a distribuica
Gaussiana com media + S(xi) e variancia
2;
(c) Yi : i = 1, ..., n s
ao mutuamente independentes, condicional a` S().

o equivalente para o modelo


Uma formulaca
Gaussiano:
Yi = + S(xi) + Zi : i = 1, ..., n.
onde Zi : i = 1, ..., n s
ao mutuamente independentes e identicamente distribudos com Zi
N(0, 2).
o conjunta de Y e
Desta forma a distribuica
multivariada Normal,
Y MVN(1, 2R + 2I)
onde:
1 denota um vetor de 1s com n elementos
I e matrix identidade n n
R e uma matrix n n com (i, j)th elemento (uij )
onde
uij = ||xi xj ||, e distancia Euclideana entre xi e
xj .

o
4. Especificaca
o
correlaca

da

o
funca

A famlia de Matern
o de correlaca
o dada por
Funca
(u) = {21()}1(u/)K(x/)
e s
ao parametros
o de Bessel de ordem
K() denota funca

valida
para > 0 e > 0.
= 0.5: modelo exponencial
: modelo Gaussiano

S(x) e d 1 vezes diferenciavel

de

1.0

correlation

0.8
0.6
0.4
0.2
0.0
0.0

0.2

0.4

0.6

0.8

1.0

distance

Tres exemplos de funco es de Matern com = 0.2 and = 1 (linha solida),


= 1.5 (linha
interrompida) and = 2 (pontos).

1.5
1.0
0.5

0.0
0.5
1.0
1.5

0.0

0.2

0.4

0.6

0.8

1.0

es de processos em 1-D com funco es de correlaca


o de de Matern com = 0.2 e
simulaco

= 0.5 (linha solida),


= 1 (linha interrompida) and = 2 (linha pontilhada).

VARIOGRAMAS
o variograma de um processo Y (x) e a
o
funca
1
V (x, x0) = Var{Y (x) Y (x0)}
2
para o modelo linear Gaussiano, com u =
||x x0||,
V (u) = 2 + 2{1 (u)}

os parametros estruturais basicos


s
ao
efeito pepita (nugget): 2
patamar (sill): 2 + 2 = Var{Y (x)}
o alcance (range): , tal que (u) = 0(u/)
variogramas s
ao definidos para uma classe
o
mais ampla de processos, em comparaca
com correlogramas e covariogramas
variogramas s
ao largamente utilizados em
geoestatstica

5. Extens
oes do modelo basico
(a) Modelos Gaussianos transformados
O modelo Gaussiano e claramente inapropriado para distribuico es assimetricas.
Certos dados podem indicar relaco es entre media e variancia, que violam o modelo
Gaussiano.
o Box Par
ametro extra da transformaca
Cox introduz certa flexibilidade.
O modelo fica ent
ao definido da forma:
assume-se Y M V N (F , 2V )
dados y = (y1, ..., yn), s
ao gerados por uma
o do modelo linear Gaussitransformaca

ano Y = h1
(Y ) tal que:
(
(yi ) 1
if 6= 0

Yi = h(Y ) =
log(yi) if = 0

(b) Efeitos Direcionais


Condico es ambientais podem induzir efei o do solo,
tos direcionais (vento, formaca
etc)
o espacial
como consequencia a correlaca
o
pode variar com a direca
1.0

1.0

0.1

1.0
0.1

0.5

0.3

0.
6

0.5

.7

0.0

0.7

0.0

0.6

0.5

0.4

0.5

0.4

0.3

0.5

0.2

0.2

0.1

1.0

1.0

1.0 0.5 0.0

0.2
0.4
0.6

0.5 0

0.8

0.0

0.5

0.3

0.5

0.7

0.5

0.5

1.0

1.0 0.5 0.0

1.0
0.5

1.0

1.0 0.5 0.0

0.5

1.0

o para modelo isotropico

contornos de correlaca
(esq.) e dois

modelos anisotropicos
(centro e dir.)

anisotropia geometrica:
possvel (e simples)

abordagem.
dois par
ametros extra: a
ngulo de anisotropia A e raz
ao de anisotropia R .
o e contraca
o/expans
rotaca
ao das coordenadas originais:

1
0
cos(A) sin(A)
(x10, x20) = (x1, x2)
0 1
sin(A) cos(A)
R

ode anisotropia geometrica


Correca
Original Space, 1 = 0, 2 = 2

32

33

34

35

36

0.8

25

26

27

28

29

30

19

20

21

22

23

24

0.4

0.6

1.0

31

0.6

Isotropic Space

31

32

33

34

35

36

25

26

27

28

29

30

19

20

21

22

23

24

13

18

10

11

12

0.0

17

0.2

16

0.2

15

0.0

14

0.2

0.4

0.2

0.4

0.6

0.8

1.0

Original Space, 1 = 120, 2 = 2

14

15

16

17

18

10

11

12

0.0

0.2

0.4

0.6

0.8

1.0

Isotropic Space

32

33

34

35

36

25

26

27

28

29

30

0.6

1.0

31

0.8

0.8

0.0

13

0.4

6
12
18

19

20

21

22

23

24

0.2

0.6

24
30
36

15

16

17

18

28
34

27

10

11

12

0.0

0.2

0.4

0.6

0.8

1.0

3
9

14

20

7
13

26
32

2
8

19
25

31

1.4

1.2

1.0

0.8

0.6

0.4

0.2

0.0

32

33

34

35

36

25

26

27

28

29

30

0.8

31

1.0

Isotropic Space

1.0

Original Space, 1 = 45, 2 = 2

0.8

0.0

0.6

0.4

0.2

4
10

16
22
x
15
21

33

0.2

14

0.0

0.4

13

23
29

35

5
11

17

36

19

20

21

22

23

34
33

24

0.4

0.6

0.6

35

32
31

26

14

15

16

17

18

0.2

0.4

13

21
20

19

22
x
15

10

11

12

0.0

0.0
9

0.0

0.2

0.4

0.6

0.8

1.0

12
6

11
5

10
4
3
2

0.4

0.2

0.2

16

8
7

18
17

14
13

24
23

28
27

25

30
29

0.6

0.4

0.2

0.0

0.2

0.4

0.6

(c) Modelos n
ao estacionarios
Modelos com medias
n
ao constantes

(ou, incluindo covariaveis)

Substituir a media constante por


(x) = F =

k
X

j fj (x)

j=1

para medidas fj (x) das covariaveis


(lineares ou n
ao lineares).
Nota: corresponde a krigagem universal
e krigagem com tend
encia externa.
Variaca
n
ao estacionaria
o aleatoria

Variabilidade intrinsica:
pressuposto
mais fraco de estacionaridade (processo

com incrementos estacionarios,


como pas
seios aleatorios
em series temporais),
largamente utilizados como modelo de o espacial discreta (Befaultpara variaca
sag, York and Molie, 1991).
o espacial (SampMetodos de deformaca
son and Guttorp, 1992) buscam estacio es (complexas)
naridade por transformaco

do espaco geografico,
x.
preciso ter em mente o balanco entre a o
E
aumento da flexibilidade de modelos mais
gerais contra a sobre-modelagem de dados
o
esparsos, que leva a pobre identificaca
dos parametros.

PARTE III:
ESPACIAL
PREDIC
AO

o em processos estocasticos
1. Predica
o Geostatstica
2. Predica
o no Modelo Gaussiano
3. Predica
4. O que a krigagem faz com os dados?
o de Funcionais
5. Predica

o em processos estocasticos
1. Predica
General results for prediction
goal: predict the realised value of a (scalar)
r.v. T , using data y a realisation of a (vector)
r.v. Y .
predictor: of T is any function of Y , T = t(Y )
best choice: needs a criterion
MMSPE: the best predictor minimises
M SP E(T ) = E[(T T )2]
Theorem 1.
The minimum mean square error predictor of T
is
T = E(T |Y ).
Theorem 2.
(a) The prediction mean square error of T is
E[(T T )2] = EY [Var(T |Y )],
(the prediction variance is an estimate of the
MSPE).
(b) E[(T T )2] Var(T ), with equality if T and Y
are independent random variables.

Comments
We call T the least squares predictor for T ,
and Var(T |Y ) its prediction variance
Var(T ) Var(T |Y ) measures the contribution
of the data (exploiting dependence between
T and Y )
point prediction, prediction variance are
summaries
complete answer is the distribution [T |Y ]
not transformation invariant:
T the best predictor for T does NOT necessarily imply that g(T ) is the best predictor for
g(T ).

o Geostatstica
2. Predica
Suppose the target for prediction is T = S(x)
A predictor for T is a function T = T (Y )
The mean square prediction error (MSPE) is
M SP E(T ) = E[(T T )2]
The the predictor which minimises MSPE is
T = E[S(x)|Y ]
Two approaches:
Model-based geostatistics:
specify a probability model for [Y, T ]
choose T to minimise M SP E(T ) amongst
all functions T (Y )
Traditional (linear) geostatistics:
Assume that T is linear in Y , so that
n
X
T = b0(x) +
bi(x)Yi
i=1

Choose bi to minimise M SP E(T ) within the


class of linear predictors
Coincident results under Gaussian assumptions

o sob o modelo Gaussiano


3. Predica
assume that the target for prediction is T =
S(x)
[T, Y ] are jointly multivariate Gaussian.
T = E(T |Y ), Var(T |Y ) and [T |Y ] can be easily
derived from a standard result:

Theorem 4. Let X = (X1, X2) be jointly multivariate Gaussian, with mean vector = (1, 2)
and covariance matrix

11 12
,
21 22

ie X MVN(, ). Then, the conditional distribution of X1 given X2 is also multivariate Gaussian, X1|X2 MVN(1|2, 1|2), where
1|2 = 1 + 121
22 (X2 2 )
and
1|2 = 11 121
22 21 .

For the geostatistical model:


[T, Y ] is multivariate Gaussian with mean vector 1 and variance matrix

2 0

r
2r 2I + 2R

where r is a vector with elements ri = (||xxi||) :


i = 1, ..., n.
Hence, using Theorem 4 with X1 = T and X2 =
Y , we find that the minimum mean square error predictor for T = S(x) is
T = + 2r0( 2I + 2R)1(Y 1)

(1)

with prediction variance


Var(T |Y ) = 2 2r0( 2I + 2R)1 2r.

(2)

Notes
1. Because the conditional variance does not
depend on Y , the prediction mean square error
is equal to the prediction variance.
2. Equality of prediction mean square error and
prediction variance is a special property of the
multivariate Gaussian distribution, not a general result.
3. In conventional geostatistical terminology,

construction of the surface S(x),


where T = S(x)
is given by (1), is called simple kriging. This
name is a reference to D.G. Krige, who pioneered the use of statistical methods in the South
African mining industry (Krige, 1951).

4. O que a krigagem faz com os dados?


The minimum mean square error predictor for
S(x) is given by

T = S(x)
= +

n
X

wi(x)(Yi )

i=1
n
X

= {1

i=1

wi(x)} +

n
X

wi(x)Yi

i=1

the predictor S(x)


compromises between its
unconditional mean and the observed data
Y
the nature of the compromise depends on
the target location x, the data-locations xi
and the values of the model parameters.
call the wi(x) the prediction weights.

4.1 Effects on predictions


(a) Varying the correlation function
2

predicted signal

0.0

0.2

0.4

0.6

0.8

1.0

locations

Predictions from 10 equally spaced data-points using exponential (solid line) or Matern of order 2 (dashed line) correlation functions.

0.5

predicted signal

0.0
0.5
1.0
1.5
2.0
2.5
0.0

0.2

0.4

0.6

0.8

1.0

locations

Predictions from 10 randomly spaced data-points using exponential (solid line) or Matern of order 2 (dashed line) correlation functions.

(b) Varying the correlation parameter

2.0

predicted signal

1.5
1.0
0.5
0.0

0.5
0.0

0.2

0.4

0.6

0.8

1.0

locations

Predictions from 10 randomly spaced data-points using the


Matern ( = 2) correlation function and different values of :
0.05 (solid line), 0.1 (dashed line) and 0.5 (thick dashed line).

(c) Varying the noise-to-signal ratio


2.0

predicted signal

1.5
1.0
0.5
0.0

0.5
0.0

0.2

0.4

0.6

0.8

1.0

locations

Predictions from 10 randomly spaced data-points


using the Matern correlation function and different
values of 2: 0 (solid line), 0.25 (dashed line) and 0.5
(thick dashed line).

prediction variance

0.4

0.3

0.2

0.1

0.0
0.0

0.2

0.4

0.6

0.8

1.0

locations

Prediction variances from 10 randomly spaced datapoints using the Matern correlation function and different values of 2: 0 (solid line), 0.25 (dashed line) and
0.5 (thick dashed line).

4.2 Effects on kriging weights


(a) The prediction weights: varying
prediction weights
0.2 0.0 0.2 0.4 0.6

= 0.05

prediction weights
0.2 0.0 0.2 0.4 0.6

=0

0.2

0.4
0.6
data locations

0.8

0.2

0.4
0.6
data locations

prediction weights
0.2 0.0 0.2 0.4 0.6

= 0.3

prediction weights
0.2 0.0 0.2 0.4 0.6

= 0.15

0.8

0.2

0.4
0.6
data locations

0.8

0.2

0.4
0.6
data locations

0.8

Prediction weights for 10 equally spaced data-points with


target location x = 0.50.

i. varying parameter = 0, 0.05, 0.15, 0.30


ii. locations: equally spaced xi = 0.05 + 0.1i :
i = 1, ..., 10
iii. prediction location: x = 0.50
iv. correlation function: Matern with = 2
v. nugget: 2 = 0

(b) The prediction weights: varying


= 0.5
prediction weights
0.2 0.0 0.2 0.4 0.6

prediction weights
0.2 0.0 0.2 0.4 0.6

=1

0.2

0.4
0.6
data locations

0.8

0.2

0.4
0.6
data locations

0.8

=5
prediction weights
0.2 0.0 0.2 0.4 0.6

prediction weights
0.2 0.0 0.2 0.4 0.6

=2

0.2

0.4
0.6
data locations

0.8

0.2

0.4
0.6
data locations

0.8

Prediction weights for 10 equally spaced data-points with


target location x = 0.50.

i. varying parameter = 0.5, 1, 2, 5


ii. locations: equally spaced xi = 0.05 + 0.1i :
i = 1, ..., 10
iii. prediction location: x = 0.50
iv. correlation function: Matern with = 0.1
v. Nugget: 2 = 0

(c) The prediction weights: varying 2

prediction weights
0.0
0.4
0.8

2 = 0.1

prediction weights
0.0
0.4
0.8

2 = 0

0.2

0.4
0.6
data locations

0.8

0.2

0.4
0.6
data locations

prediction weights
0.0
0.4
0.8

2 = 0.5

prediction weights
0.0
0.4
0.8

2 = 0.25

0.8

0.2

0.4
0.6
data locations

0.8

0.2

0.4
0.6
data locations

0.8

Prediction weights for 10 equally spaced data-points with


target location x = 0.45.

i. varying parameter 2 = 0, 0.1, 0.25, 0.5


ii. locations: equally spaced xi = 0.05 + 0.1i :
i = 1, ..., 10
iii. prediction location: x = 0.45
iv. correlation function: Matern with = 2
and = 0.1

o de Funcionais
5. Predica
Let T be any linear functional of S,
Z
T =
w(x)S(x)dx
A

for some prescribed weighting function w(x).


Under the Gaussian model:
[T, Y ] is multivariate Gaussian;
[T |Y ] is univariate Gaussian;
the conditional mean and variance are:
Z
E[T |Y ] =
w(x)E[S(x)|Y ]dx
A

Z Z
w(x)w(x0)Cov{S(x), S(x0)}dxdx0

Var[T |Y ] =
A

Note in particular that


Z

T =
w(x)S(x)dx
A

In words:

given a predicted surface S(x),


it is legitimate
simply to calculate any linear property of this
surface and to use the result as the predictor
for the corresponding linear property of the
true surface S(x)
it is NOT legitimate to do this for prediction
of non-linear properties

for example, the maximum of S(x)


is a very
bad predictor for the maximum of S(x) (this
problem will be addressed later)

PARTE IV:
DE PARAMETROS

ESTIMAC
AO

1. Propriedades do Segundo Momento


o usando Variogramas
2. Estimaca
o por Verossimilhanca
3. Estimaca
o plug-in
4. Predica
5. Estudo de Caso
6. Comentarios e Extens
oes

1. Propriedades do segundo momento


o
o variograma e a funca
1
V (x, x0) = Var{Y (x) Y (x0)}
2
para u = ||x x0||,
V (u) = 2 + 2{1 (u)}

os parametros estruturais basicos


s
ao
efeito pepita (nugget): 2
patamar (sill): 2 + 2 = Var{Y (x)}
o alcance (range): , tal que (u) = 0(u/)

implicaco es praticas:

qualquer vers
ao razoavel
do modelo linear Gaussiano tem pelo menos tres
par
ametros de covariancia
um volume da dados substancial pode ser

necessario
para estimar maior numero
de
par
ametros
a famlia Matern possui um parametro extra para determinar a suavidade do processo S(x)

o
Paradigmas para estimaca
Metodos Ad-hoc (baseados em variogramas)
calcule o variograma emprico

ajuste um modelo teorico


de variograma

Metodos baseados na verossimilhanca


tipicamente sob pressupostos de Gaussianidade

Otimos
sob as condico es declaradas
maior demanda computacional
podem n
ao ser robustos
o Bayesiana,
Implementaca
o e predica
o combinadas
estimaca
cada vez mais aceitos

o usando Variogramas
2. Estimaca
O variograma e definido por
1
V (x, x0) = Var{Y (x) Y (x0)}
2

se Y (x) e estacionario,
1
V (x, x0) = V (u) = E[{Y (x) Y (x0)}2]
2
onde u = ||x x0||
sugere uma estimativa emprica para V (u):
V (u) = average{[y(xi) y(xj )]2}
onde cada media e tomada entre todos os pares [y(xi), y(xj )] tal que ||xi xj || u
para processo com media n
ao constante a
tendencia pode ser removida:
defina ri = Yi (xi)
defina V (u) = average{(ri rj )2},
onde cada media e tomada entre todos os
pares (ri, rj )

(a) A nuvem variografica


defina as quantidades:
ri = Yi (xi)
uij = ||xi xj ||
(ri rj )2
vij =
2

a nuvem de variograma e um grafico


de
pontos (uij , vij )

semivariance
50000
100000

150000

Exemplo: Dados de chuva na Suca

50

100
distance

150

200

(b) O variograma emprico


obtido a partir da nuvem de variograma
tomando medias de classes de distancia:
u h/2 uij < u + h/2
forma k classes de distancias, cada uma
media de nk pares,
o de media do
muito sensvel a` especificaca
processo (x)

5000

semivariance
10000

15000

Exemplo: Dados de chuva na Suca

50

Variograma emprico

100
distance

150

200

(c) O ajuste de variogramas


Estime os par
ametros minimizando um
particular criterio
por exemplo, mnimos quadrados generalizados (Cressie, 1993)
X
S() =
nk {[Vk V (uk ; )]/V (uij ; )}2
k

onde Vk e a media das nk ordenadas vij do


variograma.
Outros criterios: OLS, WLS com diferentes
pesos, GLS, quasi-verossimilhanca.

semivariance
40
60
80

100

Exemplo: Dados de chuva na Suca

20

WLS 1
WLS 2
OLS

50

100
distance

150

200

Ajuste de variograma emprico por WLS com pesos dados por


nk apenas (linha grossa), WLS com pesos sugeridos pro Cressie
(linha cheia) o OLS (linha pontilhada)

(d) Comentarios sobre uso de variogramas


para infer
encia
i. Variogramas dos dados originais e
resduos podem ser muito diferentes
Exemplo: Dados do Parana

6000

5000

4000

1000

800

600

400

2000

1000

3000

200

0
0

100

200

300

400

100

200

300

400

variogramas empricos dos dados originais (esq.) e resduos


regress
apos
ao em latitude, longitude e altitude (dir.)

variograma de dados originais reflete (in o de tendencia geografica

clui) variaca
de
larga escala.
variograma de resduos elimina esta
o
fonte de variaca


ii. Qu
ao instaveis
empricos?

s
ao

os

variogramas

sob o modelo linear Gaussiano:


vij V (uij )21
the vij s
ao correlacionados
iii. variogramas de diferentes realizaco es do
mesmo processo podem ser bem diferentes

1.0

0.8

Semi-variance

0.4

0.6

0.2

0.0
0.0

0.2

0.4

0.6

0.8

1.0

Distance

linha solida
mostra o variograma verdadeiro do processo
linha finas mostram variogramas
empricos de tres realizaco es do mesmo
processo (modelo)
as altas correlaco es entre V (u) para sucessivos u conferem uma suavidade enganadora

iv. Ajuste de modelos por mnimos quadrados


corresponde a um sistema de equaco es
o que produz estimativas vide estimaca
ciadas de ,
mesmo assim e largamente utilizado na

pratica
potencialmente perigoso devido as
correlaco es inerentes aos sucessivos Vk s
o baseada em objeto que e por si
v. estimaca
estimado
vi. e possivel ajustar o modelo diretamente
aos dados e n
ao ao variograma.

o por verossimilhanca
3. Estimaca
O modelo Gaussiano e dado por:
Yi|S N(S(xi), 2)
S(xi) = (xi) + Sc(xi)

Sc() e um processo estocastico


Gaussiano
com parametros de covari
ancia ( 2, , ),
Pk
(xi) = F = j=1 fk (xi)k , onde fk (xi) e vetor

o xi
de covariaveis
na localizaca
Y MVN(F , 2R + 2I)
o de verossimilhaca e :
e a funca
`(, , , , ) 0.5{log |( 2R + 2I)| +
(y F )0( 2R + 2I)1(y F )}.
o (numerica) produz as
para qual maximizaca

estimativas de maxima
verossimilhanca
Modelos Gaussianos transformados
A log-verossimilhanca e :
1
{log | 2V |
2
+(h(y) F )0{ 2V }1(h(y) F )}
n
X
1
+
log (yi)

`(, , ) =

i=1

para = (, , , ).

ML: tipicamente usada sob pressupostos de


normalidade

estimativas otimas
sob os pressupostos declarados
porem computacionalmente caros e podem
n
ao ser robustos
dificuldades computacionais para grande

numero
de dados
o
Implementaca
Bayesiana
combinando
o e predica
o tem sido cada vez
estimaca
mais aceita (ao menos entre estatsticos!).
Para famlia de Matern considere tomar em
um conjunto discreto {0.5, 1, 2, 3, ..., N }

o plug-in
4. Predica
Em geral o interesse esta em predizer
o do processo S() em um
o valor da realizaca
ponto
ou a media de S() em uma regi
ao
Z
T = |B|1 S(x)dx
B

onde |B| denota a area


da regi
ao B.
Para o modelo Gaussiano o preditor de
minmos quadrados de T = S(x) e :
T = + 2r0( 2I + 2R)1(Y 1)
o
e a variancia de predica
Var(T |Y ) = 2 2r0( 2I + 2R)1 2r

onde os unicos
termos desconhecidos s
ao os
par
ametros do modelo
o plug-in consiste em substituir os
A predica
par
ametros por suas estimativas.

5. Estudo de caso: chuva na Suca


200

N-S (km)

150

100

50

0
0

100

200

300

E-W (km)

es com tamanho dos pontos proporcional aos valores obLocalizaco


servados. Dist
ancias em kilometros

467 localizaco es
o em 8 de Maio 1986
medidas de precipitaca
dados s
ao valores inteiros com unidade de
medida igual a 1/10 mm
5 localizaco es com valores iguais a` zero.

chuva na Suca (cont.)


o par
o e suEstimaca
ametros de transformaca
avidade (modelo de Matern)

log L
0.5 0.514 -2464.246
1 0.508 -2462.413
2 0.508 -2464.160
e valores da log-verossimilhanca log L
para
Estimativas de MV de
diferentes valores de .

-2463

-2463

-2463

-2464

-2464

-2465

-2465

-2466

-2466

0.40

-2465

-2464

0.50

0.60

0.40

-2466
0.50

0.60

0.40

0.50

0.60

Verossimilhancas prefilhadas para . esquerda: = 0.5, meio: = 1,

direita: = 2.

o
transformaca
logartimica
ou
n
ao indicadas!
o s
transformaca
ao claramente NAO

chuva na Suca (cont.)

120

Semi-variance

100

80

60

40

20

0
0

50

100

150

200

Distance
semivariograma emprico para dados transformados e variogramas

teoricos
com estimativas de MV para = 0.5 (linha interrompida),
= 1 (linha grossa), = 2 (linha fina).

chuva na Suca (cont.)


Estimativas para modelo com = 0.5

2
log L
0.5 18.36 118.82 87.97 2.48 -2464.315
1 20.13 105.06 35.79 6.92 -2462.438
2 21.36 88.58 17.73 8.72 -2464.185
,

Maximum likelihood estimates ,
, and the corresponding va for different values of the Matern
lue of the likelihood function log L
parameter , for = 0.5

-2462.5

-2462.5

-2462.5

-2463.5

250

-2464.0

200

-2464.0

150

-2464.0

-2463.5

100

-2463.0

-2463.5

-2463.0

-2463.0

50

300

20

30

40

50

60

70

Verossimilhanca perfilhada para parametros de covari


ancia = 1

and = 0.5. esquerda: 2 , meio: , direita: 2 .

chuva na Suca (cont.)

200

200

100

100

-100
0

100

100

200

300

200

400

500

300

-100
0

5000

100

10000

200

15000

300

es (esquerda) e variancias de predica


o (direita).
Mapas com predico

o da percentagem da area

Predica
onde
Y (x) 200: A200 e de 0.4157
600
500
400
300
200
100
0
0.410

Amostras da preditiva de A200 .

0.415

0.420


6. Outros topicos
e extens
oes

Maxima
verossimilhanca restrita (REML)
Verossimilhancas perfilhadas
o de modelos anisotropicos

Estimaca
o dos modelos
Validaca

Modelos n
ao estacionarios

tendencias e/ou covariaveis


o ad-hoc:
(a) Predica
(b) estima por OLS, = (F 0F )1F 0Y , e

calcula-se resduos Z = Y F .
(c) calcula-se
o
variograma
emprico
(dos resduos) que e utilizado para
o do modelo e estimaca
o de
formulaca
parametros
(d) reestima-se por GLS e usa-se modelo
o
ajustado para predica
Nota: krigagem universal ou krigagem
com tend
encia externa

Relaco es funcionais entre medias e


vari
ancias
o aleatoria

variaca
n
ao estacionaria

Intrnseca Campos aleatorios


de Markov
(Besag, York and Molie, 1991).
es espaciais Sampson and
Deformaco
Guttorp, 1992 tentam obter estacionaridade atraves de transformaco es n
ao line
ares do espaco geografico
x.
Ver tese de Alexandra Smith (2001).
flexibilidade vs identificabilidade
papel dos variogramas empricos

diagnostico
(abordagem model-based)
ferramenta de inferencia (abordagem tradicional)
ambas abordagens anexam estimativas dos
parametros ao modelo como se fosse valores
verdadeiros.
o plug-in
Predica
usualmente produz boas estimativas pontuais de T = S(x)
o
em geral sub-estima variancia de predica
pode produzir estimativas inacuradas de
outras quantidades objetivo T

PARTE V:

INFERENCIA
BAYESIANA PARA O
MODELO GAUSSIANO

1. Infer
encia Bayesiana
2. Resultados para o modelo Gaussiano
3. Estudo de Caso: Dados da Suca

1. Analise Bayesiana - Conceitos Basicos


Bayesian inference deals with parameter uncertainty by treating parameters as random variables, and expressing inferences about parameters in terms of their conditional distributions, given all observed data.
For inference about model parameters, the full
model specification now should include the model parameters:
[Y, ] = [][Y |]
Bayes Theorem allows us to calculate:
[Y, ] = [Y |][] = [Y ][|Y ]
Thus,
[|Y ] = [Y |][]/[Y ]
is the posterior distribution where
Z
[Y ] = [Y |][]d.

The Bayesian paradigm:


(a) Model
the full model specification consists of
[Y, ] = [Y |][].
formulate a model for the observable variable Y .
this model defines [Y |] (and hence an expression for the log-likelihood `(; Y ))
(b) Prior
before we observe Y , the marginal [] expresses our uncertainty about
call [] prior distribution for
(c) Posterior
having observed Y , it is no longer an unknown (randomly varying) quantity
therefore revise uncertainty about by
conditioning on the observed value of Y
call [|Y ] posterior distribution for , and
use it to make inferential statements
NOTE: the likelihood function occupies a central role in both classical and Bayesian inference
Prediction

Because Bayesian inference treats as a random variable, it makes no formal distinction


between parameter estimation problems and
prediction problems, and thereby provides a
natural means of allowing for parameter uncertainty in predictive inference.
The general idea for prediction is to formulate
a model for
[Y, T, ] = [Y, T |][]
and make inferences based on the conditional
distribution
Z
[T |Y ] =

[T, |Y ]d
Z

[|Y ][T |Y, ]d

Comparing plug-in and Bayesian


the plug-in prediction corresponds to infe
rences about [T |Y, ]
Bayesian prediction is a weighted average
of plug-in predictions, with different plug-in
values of weighted according to their conditional probabilities given the observed data.
Bayesian prediction is usually more cautious
than plug-in prediction, or in other words:
allowance for parameter uncertainty usually
results in wider prediction intervals
Notes:
(a) Until recently, the need to evaluate the integral which defines [Y ] represented a major
obstacle to practical application.
(b) Development of Markov Chain Monte Carlo
(MCMC) methods has transformed the situation.
(c) BUT, for geostatistical problems, reliable
implementation of MCMC is not straightforward. Geostatistical models dont have
a natural Markovian structure for the algorithms work well.
(d) in particular for the Gaussian model other
algorithms can be implemented.

2. Results for the Gaussian Model


Uncertainty only in the mean parameter
Assume for now that only the mean parameter
is regarded as random with (conjugate) prior:

2
N m ; V
The posterior is given by
[|Y ] N((V1 + F 0R1F )1(V1m + F 0R1y) ;
2 (V1 + F 0R1F )1)

2
N ; V
The predictive distribution is
Z
p(S |Y, 2, ) =
p(S |Y, , 2, ) p(|Y, 2, ) d.
with mean and variance given by
E[S |Y ] = (F0 r0V 1F )(V1 + F 0V 1F )1V1m +
h
i
0 1
0 1
1
0 1
1 0 1
r V + (F0 r V F )(V + F V F ) F V
Y

2
Var[S |Y ] = V0 r0V 1r+
i
0 1
1
0 1
0
0 1
1
(F0 r V F )(V + F V F ) (F0 r V F ) .

The predictive variance has three interpretable components: a priori variance, the reduction due to the data and the uncertainty in the
mean.
V corresponds to universal (or ordinary)
kriging.

Uncertainty for all model parameters


Assume (w.l.g.) a model without measurement
error and the prior p(, 2, ) 12 p().
The posterior distribution:
p(, 2, |y) = p(, 2|y, ) p(|y)
1
2

pr(|y) pr() |V| |Ry |

21

2 np
(S ) 2 .

Algorithm 1:
(a) Discretise the distribution [|y], i.e. choose
a range of values for which is sensible for
the particular application, and assign a discrete uniform prior for on a set of values
spanning the chosen range.
(b) Compute the posterior probabilities on this
discrete support set, defining a discrete
posterior distribution with probability mass
function pr(|y),

say.
(c) Sample a value of from the discrete distribution pr(|y).

(d) Attach the sampled value of to the distribution [, 2|y, ] and sample from this distribution.
(e) Repeat steps (3) and (4) as many times as
required; the resulting sample of triplets
(, 2, ) is a sample from the joint posterior
distribution.

The predictive distribution is given by:


ZZZ
p(S |Y ) =

p(S , , 2, |Y ) d d 2 d
ZZZ

2
p s , , |y, d d 2 pr(|y) d

Z
=

p(S |Y, ) p(|y) d.

To sample from this distribution:


Algorithm 2:
(a) Discretise [|Y ], as in Algorithm 1.
(b) Compute the posterior probabilities on the
discrete support set. Denote the resulting
distribution pr(|y).

(c) Sample a value of from pr(|y).

(d) Attach the sampled value of to [s|y, ] and


sample from it obtaining realisations of the
predictive distribution.
(e) Repeat steps (3) and (4) as many times as
required to generate a sample from the required predictive distribution.

Note:
(a) The algorithms are of the same kind to treat
and/or as unknown parameters.
(b) We specify a discrete prior distribution on a
multi-dimensional grid of values.
(c) This implies extra computational load (but
no new principles)

profile loglikelihood
563.5
562.5

Swiss rainfall, 100

profile loglikelihood
563.5
562.5

3. A Case Study:
data

60

80

120

15

20

25

0.00

Density
0.05
0.10

Density
0.000 0.005 0.010 0.015

0.15

Profile likelihoods for covariance parameters: 2;

200

400
2

600

800

20

40

60

80

100

10

10

20

30

15

40

20

50

25

60

70

30

80

35

Posterior distributions for covariance parameters: 2;

50

100

150

200

200

400
2

600

800

2D profile log-likelihood (left) and samples from posterior


distributions (right) for parameters 2 and

250
200
Coords Y
100 150
50
0

50

Coords Y
100 150

200

250

Swiss rainfall: prediction results

294

437

100

150 200
Coords X

250

581

5297

10587

15876

100

150 200
Coords X

250

21165

50

150

50

50

300

350

50

300

350

50

Coords Y
100
150

200

250

Predicted signal surfaces and associated measures of


precision for the rainfall data: (a) posterior mean; (b) posterior variance

0.1

0.5

0.9

100

150
200
Coords X

250

50

50

300

350

Posterior probability contours for levels 0.10, 0.50 and


0.90 for the random set T = {x : S(x) < 150}

Coords Y
100
150

200

250

Swiss rainfall: prediction results (cont.)

1
3

50

50

50

100

150
200
Coords X

250

300

350

0.015

Recording stations and selected prediction locations (1 to


4)

0.000

0.005

density
0.010

Loc. 1
Loc. 2
Loc. 3
Loc. 4

100

200

300
rainfall

400

500

600

Bayesian predictive distributions for average rainfall at


selected locations.

PARTE VI:
MODELOS LINEARES
GENERALIZADOS ESPACIAIS

1. Modelos lineares Generalizados Espaciais


2. Infer
encia via MCMC
3. estudo de caso: Ilha de Rongelap
4. estudo de caso: Malaria em G
ambia

1. Modelos lineares Generalizados Espaciais

0.0

0.3

0.6

Dados Positivos:

0.00 0.15 0.30

Dados Contagem:

0.00 0.15 0.30

Dados Binomial:

0.0

0.3

0.6

Dados Positivos com Zeros:

Examplos de Modelos
x1, . . . , xn posico es com observaco es
Poisson-log
[Y (xi) | S(xi)] e Poisson com densidade
f (z; ) = exp()z /z! z = 0, 1, 2, . . .
o: E[Y (xi) | S(xi)] = i = exp(S(xi))
ligaca
Binomial-logit
[Y (xi) | S(xi)] e binomial com densidade

r
(/r)z (1 /r)r z = 0, 1, . . . , r
f (z; ) =
z
o: i = E[Y (xi) | S(xi)] , S(xi) = log(i/(r
ligaca
i))

o de Verossimilhanca
Funca
Z
L() =

n
Y

IRn

f (yi; h1(si))f (s | )ds1, . . . , dsn

Integral de alta dimensionalidade !!!

2. Infer
encia para o modelo geoestatstico linear generalizado
o da verossimilhanca envolve
avaliaca
o numerica de multidimensional
integraca
metodos aproximados (ex Breslow and Clay
ton, 1993) tem acuracia
duvidosa
MCMC e possvel embora n
ao rotineira
Esquemas para MCMC
Ingredientes
Prioris para os parametros de regress
ao e
de covariancia
Dados: Y = (Y1, ..., Yn)
S = (S(x1), ..., S(xn))
S = todos outros S(x)
Estrutura de independencia condicional

S*

use resultados das cadeias para contruir


declaraco es a` posteriori sobre [T |Y ], onde
T = F(S )

3. Estudo de caso: Ilha Rongelap


Ilha Rongelap
aproximadamente a 2500 milhas sudoeste
do Hawaii
contaminada por testes de armas nucleares em 1950s
evacuada em 1985
segura para re-assentamento?
Problemas estatsticos
delineamento e medidas de campo de 137Cs
o espacial da radiotividade
estimar variaca
de 137Cs
o com padr
comparaca
oes de seguranca

O modelo Poisson

Medidas basicas
s
ao contagens Yi em intervalos de tempo ti nas localizaco es xi (i =
1, ..., n)
estrutura dos dados sugere o modelo:

S(x) : x R2 processo estacionario


Gaussiano (radioatividade local)
Yi|{S()} Poisson(i)
i = ti(xi) = ti exp{S(xi)}.
Objetivos:
predizer (x) sobre toda ilha
max (x)
arg(max (x))

1000
0

10

-5000

-4000

-3000

-2000

-1000

-6000

-5000

-4000

-3000

-2000

-1000

10

15

-4000

-3000

-5000

-4000

-3000

-2000

-1000

1000

superfcie de radiotividade predita utilizando krigagem logartmica

-6000

-5000

-2000

-1000

superfcie de radiotividade predita utilizando o modelo log-linear


Poisson com processo latentre Gaussiano

0.6
0.4

Survivor function

0.08
0.06

0.0

0.0

0.02

0.2

0.04

Density

0.10

0.8

0.12

1.0

0.14

o Bayesiana de funcionais n
Predica
ao lineao
res da superfcie de radiaca

10

20

30

40

Intensity level

50

60

10

15

20

Intensity level

The left-hand panel shows the predictive distribution of maximum


radioactivity, contrasting the effects of allowing for (solid line) or
ignoring (dotted line) parameter uncertainty; the right-hand panel
shows 95% pointwise credible intervals for the proportion of the island over which radioactivity exceeds a given threshold.

4. Estudo de caso: Malaria em Gambia


o espacial e de inte Neste exemplo a variaca

resse cientfico secundario.

O objetivo primario
e descrever a dependencia entre a prevalencia de parasitas

de malaria
e as covariaveis
medidas
em vilas
em indivduos
Particular interesse em saber se o ndice de
o derivado de medidas de satelite
vegetaca
pode ser utilizado como preditor da pre
valencia de malaria.

Isto ajudaria profissionais de saude


a alocar
melhor os recursos que s
ao escarsos.

Estrutura dos dados


2039 criancas em 65 vilas
cada uma testada para presenca de parasi
tas de malaria
no sangue

Covariaveis
das criancas
idade (dias)
sexo (F/M)
uso de mosquiteiro (nenhum, n
ao tratado e
tratado)

Covariaveis
das vilas:
o
localizaca
o (satelite)
indice de vegetaca

presenca de centro de saude


na vila

Modelo de regress
ao logstica
Yij = 0/1 presenca ou ausencia de parasitas

de malaria
na jth crianca da ith vila

fij = covariavel
da crianca

wi = covariavel
da vila
logit(P (Yij = 1|S())) = fij0 1 + wi02 + S(xi)
E razoavel
assumir infeco es condicionalmente

independentes na mesma vila?


Caso n
ao, o modelo deve ser extendido para
permitir variabilidade extra-binomial n
aoespacial
Ui N(0, 2)
logitP (Yij = 1|S(), U ) = fij0 1 + wi02 + Ui + S(xi)


Analise exploratoria
ajuste modelo logstico padr
ao sem S(x) e/ou
U
calcule para cada vila:
Pni
Ni = j=1 Yij
Pni
i = j=1 Pij
Pni
2
i = j=1 Pij (1 Pij )
resduos de vila, ri = (Ni i)/i
derivar dados ri

semivariance

ajuste de par
ametros de covari
ancia

10

15
distance (km)

Variograma do resduos de vilas

20

25

30

Analise model-based
= intercepto
1 = coeficiente para idade
2 = coeficiente uso de mosquiteiro
3 = coeficiente para mosquiteiro tratado
3 = coeficiente para indice de verde
4 = coeficiente para presenca de centro de

saude

2 = variancia do efeito aleatorio


n
ao espacial Ui
2 = variancia do preocesso espacial S(x)
o
= parametro de decaimento da correlaca
= parametro de suavidade
Param.

1
2
3
4
5
2
2

2.5% Qt. 97.5% Qt.


Mean
-4.232073 1.114734 -1.664353
0.000442 0.000918 0.000677
-0.684407 -0.083811 -0.383750
-0.778149 0.054543 -0.355655
-0.039706 0.071505 0.018833
-0.791741 0.180737 -0.324738
0.000002 0.515847 0.117876
0.240826 1.662284 0.793031
1.242164 53.351207 11.653717
0.150735 1.955524 0.935064

2 proximo
de zero

Median
-1.696228
0.000676
-0.385772
-0.355632
0.020079
-0.322760
0.018630
0.740790
7.032258
0.830548

1600

-1.5

0.0

1.0

Kilometres

1500

Central

Eastern

1400

Western

300

400

500

600

Kilometres

0.8

superfcie predita S(x)


(media a` posteriori)

0.4
0.0

0.2

Density

0.6

x = (452, 1493)
x = (520, 1497)

-4

-2

0
S(x)

Posterioris para S(x) em dias localizacoes, linha

solida
remota (452, 1493), linha interrompida
central (520, 1497)

2.0

3000
2500

1.0

Density

1.5

2000
1500
0

0.0

500

0.5

1000

Density

0.0004

0.0008

-1.0

-0.6

0.0
-0.5

beta_3

1.0
0.0

-1.0

0.5

Density

-1.0

-0.5

0.2

beta_2

1.5

beta_1

-0.2

0.0

o oo
o
o o o
o o
oo o
o
ooo oooo
o
ooo o o o o
o
oo
oo
o
o
o
o
o
o
o
o
o
o o
o
oo
o
oo
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
oo
o
o
o
ooo
o
o
oo
o
ooo
oo
o
o
o
o
o
o
o
oo
o
o
o
o
o
ooo
o
o o oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo o
o
o
o o
o
o
o
o
o
o
o
o
o
o
o
o
o ooo
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
ooo
o
o
o
o
o
o
oooo o o
o
o
ooo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
ooooo
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
ooo
o
o
o
o
o
oo o ooo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o oo o oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
ooo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o oooooo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
ooo
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo o
oo
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo ooo
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o ooo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
ooo
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
oo o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
ooo o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
ooo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
ooooo o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo oo
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
oo
oo o
oo
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o o
o
o
o
oooo
o
o
o
o
o
o
o
o
o
o
oo
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
oo
o
oo
oo
o
o
o
o
o
o
o
o
oooooo
o
o
o
o
o
o
oooo
o
o
o
oo
o
o
o
o
o
o
oo
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
ooooo
o
o
o
oo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o oo o o
oooo
oo
o
o o
o
o
o
o
o
o
o
o
oo
o
o
oo
o
oo
o
o
o
o
o
o
o
ooo
ooo
o
o
o
o
o
o
o
o
o
o
o
o
o
ooooo
o
o
o o
oo o o
o ooo o
o
oo
oo
o oo
oo o
o oo o
o o
o
o
-1.0

beta_3

-0.6

-0.2

0.2

beta_2

posterioris para os parametros de regress


ao

1 = efeito de idade
2 = efeito de mosquiteiro n
ao tratado
3 = efeito adicional de tratamento de mosquiteiro

Qualidade do ajusto do modelo


o o
o

o
o

0
Residual

-2

oo
o

o
o
o

o
o

o
o

o
o o
o

o
o

o
o

o o

o
o

o
o

o
o

o
o

o
o
o o

-4

0.25

0.30

0.35

0.40

0.45

0.50

0.55

Fitted value

resduos de vila vs valores ajustados

rij = (Yij pij )/ {


pij (1 pij )}
P

ri = rij / ni
checa adequacidade do modelo para pij

2.5
2.0
1.5
0.5

1.0

Variogram

10

20

30

40

50

60

Distance (km)

variograma emprico de resduos padronizados com intervalos de


es do modelo ajusconfianca (95%) construdos a partir de simulaco
tado


pij (1 pij )}
rij = (Yij pij )/ {
ri =

rij / ni

i)
logit(pij ) =
+ zij0 S(x
checa adequacidade do modelo para S(x)

geostatistico

mesmo

ne-

O modelo
cessario?

o
o

o
1

o
o
o oo

-1

E[U|data]

oo
o oo

o
o
o

-2

o
o
o

o
o
o
oo oo
o ooo
o
o

o
o
oo

oooo oo ooo
o
oo o o
o

o
o
o

-2

-1

E[S(x)|data]

media da posteriori para os efeitos aleatorios


Ui de um GLMM n
ao
i ) nas localizaco
es obserespacial contra medias a posteriori de S(x
vadas no modelo geoestatstico

o evidencia dependencia espa alta correlaca


cial
GEE: uma alternativa para problemas onde a
nfase esta nas covariaveis?
e