Escolar Documentos
Profissional Documentos
Cultura Documentos
Fevereiro - 2004
Uberlândia - MG
SUMÁRIO
1. INTRODUÇÃO........................................................................................................... 2
2. ANÁLISE EXPLORATÓRIA DE DADOS............................................................. 3
2.1. Distribuição de freqüências e histograma............................................................... 3
2.2. As estatísticas............................................................................................................. 3
2.3. Outras análises descritivas........................................................................................ 7
2.4. Amostragem........................................................................................................................................... 7
2.5. Exemplos de análise exploratória aplicando o programa GS+............................. 8
3. PRINCÍPIOS DA ANÁLISE GEOESTATÍSTICA.................................................. 14
3.1. Um breve histórico.................................................................................................... 14
3.2. Estacionaridade......................................................................................................... 15
3.3. Krigagem universal................................................................................................... 20
4. ANÁLISE DA DEPENDÊNCIA ESPACIAL............................................................ 21
4.1. Autocorrelação e Autocorrelograma....................................................................... 21
4.2. Semivariograma......................................................................................................... 25
4.3. O uso do software GS+ na determinação do semivariograma.............................. 36
4.4. Exemplos de aplicação............................................................................................... 41
5. KRIGAGEM................................................................................................................. 50
5.1. O interpolador........................................................................................................... 50
5.2. A krigagem no programa GS+................................................................................. 52
6. SEMIVARIOGRAMA CRUZADO E COKRIGAGEM.......................................... 55
6.1. Semivariograma cruzado.......................................................................................... 55
6.2. Co-krigagem.............................................................................................................. 56
6.3. Variância da estimativa............................................................................................ 60
6.4. Número de vizinhos das estimativas........................................................................ 62
6.5. O uso do programa GS+ na determinação do semivariograma cruzado,
da co-krigagem e no mapeamento da variável....................................................... 64
6.6. Exemplos de aplicação no GS+................................................................................ 67
7. VALIDAÇÃO DE MODELOS DE SEMIVARIOGRAMAS................................... 70
8. BIBLIOGRAFIA RECOMENDADA......................................................................... 74
1. INTRODUÇÃO
2.2. As estatísticas
O cálculo de estatísticas como a média, a variância, o desvio padrão, o coeficiente
de variação, valor mínimo, valor máximo, coeficiente de assimetria e coeficiente de
curtose, colaboram na descrição da variável. Passaremos a rever rapidamente estas
estatísticas.
- A média aritmética ( X )
A média aritmética é uma medida de posição bastante utilizada na estatística e tem
como características principais à facilidade de cálculo, a sua adaptabilidade ao tratamento
algébrico e, também, geralmente, é uma medida não tendenciosa, precisa, eficiente e
suficiente.
Vale ressaltar que nem sempre a média aritmética é a medida de posição que melhor
representa uma variável, por exemplo, em dados com assimetria à direita acentuada a moda
ou a média geométrica pode representar melhor a variável em estudo.
A fórmula para o cálculo da média é:
n
∑x
i =1
i
X=
n
em que: X é a média aritmética; xi é cada valor observado; n é o número total de
observações.
s
CV (%) = 100
X
∑x
i =1
t
i
Mt =
n
Note que se t=1 temos a média aritmética, ou seja, a média aritmética é igual ao
primeiro momento em relação à origem.
O momento de ordem t centrado em uma constante K , com K ≠ 0 é definido como:
n
∑ (x
i =1
i − K)t
M tK =
n
2.4. Amostragem
Um requisito básico na amostragem para fins de análise de dependência espacial
utilizando métodos geoestatísticos é que as observações, ou seja, que as amostras sejam
referenciadas. Não é necessário utilizar coordenadas geográficas, mas algum tipo de
referenciação deve existir.
Exemplos de referenciações são: a) amostras coletadas ao longo do tempo cada
observação é referenciada com relação ao tempo (Ex: Estudo da precipitação anual na
região X); b) amostras coletadas ao longo de uma linha reta em uma certa cultura agrícola
cada observação é referênciada por um único ponto no espaço (Ex: amostras coletadas
em transeções); c) amostras coletadas em uma área cada observação será identificada
por um par ordenado de coordenadas pertencente ao espaço (Ex: amostras coletadas em
uma área X).
Figura 2. Janela inicial do GS+ com exemplo de arquivo de dados contento as coordenadas
(x,y) e 4 variáveis para a análise.
Pode-se ainda trabalhar com duas variáveis simultaneamente. Neste caso seleciona-
se uma variável Z2 como covariável. Voltaremos ao assunto no tópico de semivariograma
cruzado.
Voltando à Figura 2 vamos descrever os procedimento da análise exploratória de
dados.
A barra de ferramenta apresenta os seguintes símbolos que são destinados a este tipo
de análise:
Planilha
ativa Principais Posição das observações
Estatística Análise gráfica selecionadas por quartil
s histograma
Os ícones não ativos são destinados a análise com duas variáveis (semivariograma
cruzados, co-krigagem, etc).
Para exemplificar o resultado deste tipo de análise vamos utilizar os dados da
primeira variável (usatpd – coluna 3). Ativando o ícone ∑ e teremos o resultado das
principais estatísticas, conforme Figura 4:
média
Desvio padrão
variância
mínimo
máximo
Número de dados e
Dados perdidos
histograma
Coeficiente de assimetria
Figura 4. Estatísticas da variável “usatpd”. e erro padrão
Coeficiente de curtose e
erro padrão
Como uma análise geral desses dados verifica-se que a umidade de saturação do
solo no plantio direto (usatpd) apresentou média de 44,0069 (cm3/100cm3), com uma
dispersão média em torno desse valor de 4,3190 (cm3/100cm3) e, portanto, uma
variabilidade de 9,81%, deste modo nota-se que as observações se dispersam relativamente
pouco em torno da média. O menor valor observado (36,27 cm3/100cm3) e o maior valor
observado (54,810 cm3/100cm3) reforçam a idéia de baixa variabilidade das observações e
também mostram que, provavelmente, não temos valores discrepantes que poderiam ser
atribuídos a erros de determinação, digitação ou de amostragem. O histograma mostra uma
tendência dos dados à simetria e este fato também pode ser verificado por meio dos
coeficientes de assimetria e curtose associados aos seus respectivos erros padrão, que são
respectivamente: 0,46±0,30 e 0,34±0,50, ou seja, assimetria e curtose próximos de zero
indicando distribuição normal aproximada dos dados.
Note ainda que existe a possibilidade de se fazer análises com dados transformados.
Um detalhamento da distribuição da variável pode ser obtida clicando o ícone do
Histograma –
freqüência simples
Gráfico de freqüência
acumulada
Gráfico da distribuição
normal
Uma outra análise utilizada no GS+ é a localização espacial dos pontos amostrados
com relação a intervalos de ocorrência. Este mapa é obtido por meio do ícone . Veja o
exemplo na Figura 6.
do solo. Uma justificativa para tal fato é a facilidade computacional que viabilizou alguns
cálculos relativamente trabalhosos nesta metodologia.
No Brasil destaca-se trabalhos pioneiros nesta área desenvolvidos pelos
pesquisadores Sidney Rosa Vieira, Paulo Libardi e Klaus Reichardt. Ainda na década de
80.
Atualmente a aplicabilidade e a utilização da geoestatística como metodologia de
análise de dados no espaço ou no tempo esta difundida em vários ramos da ciência,
envolvendo áreas de ciências humanas, biológicas e exatas.
Em linhas gerais podemos dizer que a geoestatística está interessada em determinar
a dependência espacial das observações de uma variável e recebeu tal denominação devido
aos trabalhos desenvolvidos por Krige na África do Sul. Este pesquisador é homenageado
com o nome do método de interpolação utilizado na geoestatística, a krigagem.
Outras metodologias e alternativas de análise de dependência espacial são descritas
em Papadakis (1937), Bartlett (1978), Zimmerman e Harville (1991), Cressie e Hartfield
(1996), Duarte (2000), entre outros autores.
3.2. Estacionaridade
Antes de iniciarmos a discussão sobre a estacionaridade da variável vamos adotar
uma simbologia para a variável em estudo. Ao falarmos da variável Z(t) estaremos falando
de ocorrências da variável Z com uma referenciação t, que pode ser uma posição no tempo
(unidimensional, por exemplo: t1, t2, ...,tk) ou no espaço (unidimensional, por exemplo: x1,
x2, ..., xn; ou bidimensional, por exemplo; (x1,y1),(x1,y2), ..., (xn, yn))
Diz-se que um processo (ou uma variável) é estacionária se o desenvolvimento
desse processo no tempo ou no espaço ocorrer de maneira mais ou menos homogênea, com
oscilações aleatórias contínuas em torno de um valor médio, em que nem a amplitude
média e nem as oscilações mudam bruscamente no tempo ou no espaço. Como exemplo de
processo estacionário pode-se citar as oscilações da tensão em uma rede elétrica.
Note que as características de um processo estacionário independe da origem
adotada.
Pode-se definir uma função aleatória Z(t) como estacionária, se todos os momentos
estatísticos são invariantes para toda mudança de origem.
Estatisticamente pode-se dizer que, se o processo é estacionário de ordem k, então:
E[Z(t)] = m1(t) = constante ∀ t
E[Z2(t)] = m2(t) = constante ∀ t
. . .
. . .
. . .
E[Zk(t)] = mk = constante ∀ t
28
26 A
24
Y
22
20
18
0 10 20 30 40 50
X
29
27 B
25
23
Y
21
19
17
15
0 10 20 30 40 50
X
30
25 C
20
Y
15
10
5
0 10 20 30 40 50
X
cov[ Z ( t ), Z ( t + h )] = E [( Z ( t ) − µ z( t ) ).( Z ( t + h ) − µ Z ( t + h ) )]
Se a variável Z é estacionária, esta função poderá ser estimada por:
n( h )
∑ [ Z ( ti ) − Z ] [ Z ( t i + h ) − Z ]
cov( Z ( t ), Z ( t + h )) = i =1 , pois
n( h ) − 1
neste caso a média de Z(t) será igual à média de Z(t+h).
Uma propriedade da covariância diz que "se duas variáveis aleatórias são
independentes então a covariância entre elas é igual a zero". Portanto, ao analisarmos a
variável Z nas posições t e t+h, com h=1,2,...k, espera-se que o valor da covariância comece
alto e depois tenda a zero, sendo que quanto maior for o valor da covariância maior será a
relação espacial e para covariância zero teremos independência. A Figura 9 ilustra uma
função covariância.
3
covariâncias
-1
0 100 200 300 400 500 600
distâncias (m)
cov[ X ,Y )]
ρ( x , y ) = que pode ser estimada por:
σxσ y
n
∑[ X − X ] [Y −Y ]
i =1
r( x , y ) = n −1
SxS y
Neste caso quanto mais próximo de 1 ou de -1, maior a relação entre as variáveis e
quanto mais próximo de 0, menor a relação linear entre X e Y.
A função autocorrelação é definida como sendo a razão entre a covariância dos
valores assumidos pela variável Z, nas posições t e t+h e a variância dessa variável Z, em
função da distância h, no caso de variável estacionária de segunda ordem. Desta forma tem-
se:
cov[Z (t ), Z (t + h)] Cov[ Z (t ), Z (t + h)]
ρ ( h) = =
Var[ Z (t )] σ2
Trabalhando-se com dados amostrais ρ(h) pode ser estimado por r(h):
n( h )
∑ [ Z ( t i ) − Z ] [ Z ( ti + h ) − Z ]
i =1
n( h ) − 1
r( h ) =
s2
em que:
ρ (h) é a autocorrelação entre os valores da variável Z, separados pela distância h
(autocorrelação populacional);
Cov [Z(t), Z(t+h)] é a covariância entre a variável Z(t) e a variável Z(t+h);
Var[Z(t)] = σ2 é a variância populacional, ou seja, a covariância entre Z(t) e Z(t+h) quando
h=0;
r(h) é a autocorrelação amostral para a distância h;
n(h) é o número de pontos amostrais separados pela distância h;
Z é o valor médio (média amostral) da variável Z(t);
s2 é a variância amostral de Z(t).
1
0.8
0.6
0.4
r(h)
0.2
0
-0.2
-0.4
0 100 200 300 400 500 600
distância (m)
1.2
1
0.8 A
0.6
r(h)
0.4
0.2
0
-0.2
0 5 10 15 20
h
1.2
1 B
0.8
0.6
r(h)
0.4
0.2
0
-0.2
-0.4
0 5 10 15 20
h
4.2. Semivariograma
a) Definição do semivariograma
O semivariograma é definido como:
1
γ (h) = {Var[ Z (t ) − Z (t + h)]}
2
Note que Var[Z(t) –Z(t+h)] é a variância dos dados separados por uma distância h,
mas, na expressão acima, esta variância está sendo divida por dois, então se utiliza o
prefixo “semi” para distinguir da variância e daí vem o nome semivariância para γ(h) e
semivariograma para o gráfico de γ(h) em função de h.
^ ∑ [ z(t + h) − Z (t )]
i =1
2
γ (h) =
2n( h )
em que n(h) é o número de pares separados pela distância h.
Relembrando a condição de estacionaridade, temos que a utilização do
semivariograma exige que pelo menos a hipótese intrínseca seja atendida, ou seja, exige a
condição de estacionaridade mais fraca quando comparada com a autocorrelação.
b) Caracterização do semivariograma
Analisando a expressão da função semivariância, pode-se imaginar que quanto mais
próximos estiverem os pontos amostrados, maior será a semelhança entre eles e, portanto,
menor a semivariância; e quanto mais distantes estiverem os pontos amostrados menor será
a semelhança e, consequentemente, maior a dispersão (variância). Na teoria temos que para
a distância h=0 a semivariância γ(0) = 0 e, a semivariância γ(h) cresce com o incremento
de h, até atingir um valor constante para γ(h) que corresponde às variações aleatórias, ou
seja, variações que não são justificada pela semelhança de um ponto com outro.
A distância h a partir da qual γ(h) se torna aproximadamente constante é chamada
de alcance da dependência espacial (a) sendo que as medições realizadas a distâncias
maiores que a, tem distribuição espacial aleatória e, portanto, são independentes entre si. O
valor de γ(h) constante é chamado de patamar (C).
A utilização de dados amostrais na estimativa da semivariância e na construção do
semivariograma, revela que, freqüentemente, para h = 0 a semivariância γ(0) difere de zero.
A impossibilidade de se fazer reamostragem exatamente sobre um ponto já amostrado
(nestes casos pode ocorrer variações a distâncias menores do que a menor distância de
amostragem) e erros como erros de amostragem, erros de análise de laboratório, etc., são
justificativas dessa descontinuidade na origem. Quando γ(0) ≠ 0, surge um novo termo no
semivariograma chamado de efeito pepita (C0) e, neste caso, o patamar é dado por:
C0 + C.
(A) (B)
a
INDEP
a INDEP.
DEP. DEP.
C0
Figura 11. Semivariogramas: (A) sem efeito pepita; (B) com efeito pepita
20
15 A
gama (h)
10
0
0 5 10 15 20
h
20
15
gama (h)
10
B
5
0
0 5 10 15 20
h
20
15 C
gama (h)
10
0
0 5 10 15 20
h
10
8
D
gama (h)
6
4
2
0
0 5 10 15 20
h
40
30 E
gama(h)
20
10
0
0 5 10 15 20 25 30
h
Figura 12. Semivariogramas: A) Com patamar; B) Efeito pepita puro; C) sem patamar
D)Cíclico e E) Com estruturas entrelaçadas
d) Isotropia e anisotropia
Note que h é um vetor e, consequentemente, o semivariograma depende da
magnitude e da direção de h. Quando o semivariograma é idêntico para qualquer direção de
h ele é chamado de isotrópico e quando o semivariograma apresenta os parâmetros C, C0, a
e/ou modelo diferenciado dependendo da direção de h, ele é chamado anisotrópico
(podemos classificar a anisotropia em anisotropia geométrica ou anisotropia zonal). Se o
semivariograma é anisotrópico ele deve sofrer transformações antes de ser usado. Vieira
(1995) alega que, em geral, a precisão da interpolação ou o tipo de hipótese satisfeita, não
são afetados se, ao invés de se preocupar com a escolha de método de transformação de
anisotropia, apenas limitar a faixa de distância na qual se utiliza o semivariograma. As
principais direções de h que são examinadas são: 0o (na direção X), 90o (na direção Y), 45o
e 1350 (nas duas diagonais principais).
Quando os dados forem coletados em uma transeção (linha), o semivariograma é
unidimensional e nada pode ser dito sobre anisotropia.
30
25
y = x2
20
15
Y
10
5
0
-5 0 1 2 3 4 5 6
X
15
y = 2.0286x + 1.4286+ei
10
Y
0
0 1 2 3 4 5 6
X
desse critério na seleção do modelo é preferido, por ser este mais sensível e mais robusto
quando comparado com o coeficiente de determinação (R2).
Observação: Em muitos casos (talvez na maioria dos casos) a sensibilidade de quem está
trabalhando com os dados e o conhecimento sobre a variável é de fundamental importância
na opção do modelo de semivariograma. Às vezes é preferível selecionar um modelo com
R2 um pouco menor ou RSS um pouco maior que o sugerido pelo programa, mas que
represente melhor os dados. De maneira geral, quanto mais simples puder ser o modelo
ajustado, melhor, e também não se deve dar importância excessiva a pequenas flutuações.
C
C 0 + h 0≤h≤a
γ ( h) = a
C 0 + C h>a
Neste caso C/a é o coeficiente angular para 0< h < a
3 h 1 h 3
C + C − 0≤h≤a
γ (h) = 0 2 a 2 a
C0 + C h>a
[
γ (h) = C0 + C 1 − e[ −3( h / a )] ] 0<h<d
[
γ (h) = C 0 + C 1 − e [ −3( h / a )
2
] 0≤h≤d
v) modelos sem patamar
γ( h ) = C0 + Ah B 0<B<2
Os parâmetros A e B são constantes que definem o modelo, sendo que B tem que ser
estritamente maior que zero e menor que dois para garantir a condição de positividade
definida condicional.
Figura 15. Modelos de semivariograma: (A) com patamar; (B) sem patamar.
Exibe o
semivar.
Variância
amostral
Semivar.
escalonado
Semivariograma
isotrópico
Semivariogramas
anisotrópicos
Figura 16. Análise da semivariância
Note que a Figura 17 apresenta ainda a opção model e a opção expand. O resultado
da execução dessas funções são apresentados nas Figuras 18 e 19.
A Figura 18 exibe as opções de modelos de semivariogramas.
Amplitude Coef.
efetiva (exp Relação Determinação e
Efeito patamar amplitude entre C e
modelos e gaussiano). soma de quadrados
pepita patamar de erros
Observações:
a) O programa não apresenta o modelo de efeito pepita puro. Para obter este modelo
utilize o modelo linear com C0 = C0 +C.
b) A amplitude efetiva é utilizada no GS+ para determinar a amplitude de dependência
espacial dos modelos exponencial e gaussiano, devido a formula de cálculo desses
modelos no programa, A0 ≠ A (Estes modelos no GS+ não consideram o fator
multiplicativo 3).
c) A inclinação no modelo linear e linear com patamar (coeficiente angular) e dado pela
relação entre C e A0, ou seja, C/A0.
d) A relação entre C e C0+C nos dá uma idéia do grau de dependência espacial da variável,
sendo que quanto mais próximo de 1, maior a dependência espacial. Note que
C0 C
= 1− e o primeiro termo já foi discutido no item grau de dependência
C0 + C C0 + C
espacial, classificando a dependência como fraca, moderada e forte.
e) R2 (coeficiente de determinação) e RSS (soma de quadrados de resíduos) nos informa
sobre a qualidade do ajuste do modelo.
f) No ajuste do modelo a sensibilidade do usuário é muito mais importante do que os
valores de R2 e RSS e, portanto, tentativas de ajustes diferentes ao proposto pelo
programa devem ser utilizadas, mesmo que isso cause queda no valor de R2 e acréscimo
no valor de RSS.
g) O programa não apresenta a opção de ajuste de modelo sem patamar diferente do linear.
Neste caso, sugere-se que se copie as semivariâncias calculadas para outro programa e
que o gráfico seja feito neste outro programa, por exemplo, O Excel.
Semivariograma
experimental e
modelo ajustado
Parâmetros do
modelo
ajustado
b) Semivariância e semivariograma
Os valores das distâncias h, das semivariâncias (γ(h)) e números de pares(n(h)) utilizados
no cálculo são apresentados abaixo.
4.000
semivariância
3.000
2.000
1.000
0.000
0 100 200 300 400 500
h (m)
b) Semivariograma
O modelo proposto pelo GS+ foi:
Comparando os dois modelos verifica-se ligeiro aumento de r2, mantendo-se o mesmo valor
de RSS, desta forma o modelo proposto no exemplo 1 poderia ser utilizado.
As descrições e discussões seguem o padrão do exemplo 1.
Lembre-se que o modelo adotado foi o exponencial e portanto o alcance efetivo será de
40,80 m no primeiro caso e de 120 m no segundo caso.
Outros modelos poderiam ser sugeridos neste caso.
3) A seguir apresentamos as coordenadas X (m), Y (m) e a variável silte (%) em uma área
experimental.
X 0 0 0 0 0 0 0 0 10 10 10 10 10 10 10 10
Y 0 10 20 30 40 50 60 70 0 10 20 30 40 50 60 70
PBPD 12.77 12.84 11.39 12.30 12.43 12.43 12.45 12.74 11.39 12.32 12.16 11.49 10.39 11.32 11.24 12.49
X 20 20 20 20 20 20 20 20 30 30 30 30 30 30 30 30
Y 0 10 20 30 40 50 60 70 0 10 20 30 40 50 60 70
PBPD 11.25 11.97 12.38 12.85 12.55 12.49 12.58 12.82 12.49 11.67 11.59 12.72 11.12 11.18 11.53 11.48
X 40 40 40 40 40 40 40 40 50 50 50 50 50 50 50 50
Y 0 10 20 30 40 50 60 70 0 10 20 30 40 50 60 70
PBPD 11.81 11.19 11.46 11.44 12.39 12.17 11.69 12.32 11.58 11.11 11.55 10.79 11.13 11.29 12.62 12.01
X 60 60 60 60 60 60 60 60 70 70 70 70 70 70 70 70
Y 0 10 20 30 40 50 60 70 0 10 20 30 40 50 60 70
PBPD 12.66 11.49 11.25 12.87 12.77 11.95 11.96 11.11 10.81 11.65 12.36 11.90 12.16 12.56 12.54 11.46
Realizar a análise dos dados e verificar se existe dependência espacial para essa variável.
SOLUÇÃO:
a) Análise descritiva
O resultado das principais estatísticas dessa variável é apresentado a seguir:
Nota-se que a área apresenta, em média, 11,92% de silte, com dispersão média em torno
desse valor de 0,6302%. Esta dispersão em torno da média representa uma variabilidade de
5,29% (CV=5,29%), mostrando que os dados têm uma baixa dispersão. Os coeficientes de
assimetria e curtose com os respectivos erros padrão indicam tendência simétrica dos
dados, mas a curva do tipo platicúrtica, diferindo da curva normal (mesocúrtica). Com base
em uma análise visual do histograma, verifica-se uma distribuição de freqüências bimodal
para esta variável.
b) Análise do semivariograma
A seguir é mostrado o semivariograma dessa variável:
O modelo apropriado para descrever o comportamento espacial dessa variável foi o modelo
de efeito pepita puro. Nota-se que as semivariâncias experimentais estão em torno da linha
paralela ao eixo x, ou seja, C0 + C = 0,397. Conclui-se, portanto, que a distribuição espacial
do silte nesta área experimental é aleatória e as amostras, para a malha amostrada (com
distância entre pontos de 10 m), são independentes.
Realizar a análise dos dados e verificar se existe dependência espacial para essa variável.
Solução:
a) Análise descritiva
As estatísticas e o histograma da variável umidade foram:
Verifica-se que este solo apresentou, na época de coleta, umidade média de 26, 24 g de
água/100g de solo, com desvio padrão de 2,020 g/100g, o que representa uma variabilidade
de 7,7%, considerada uma baixa variabilidade dos dados em torno do valor médio. Os
histogramas, associado à assimetria e à curtose dos dados, mostram que os dados se
distribuem segunda a curva normal.
b) Análise do semivariograma
O semivariograma desta variável é:
Nota-se que a variável umidade do solo apresenta dependência espacial, que pode ser
descrita pelo modelo exponencial com alcance de 81 m, ou seja, amostras de umidade do
solo selecionadas a distâncias inferiores a 81 m estão correlacionadas entre si. A relação
entre o efeito pepita e o patamar de 13,63%, indica que a dependência espacial é forte.
5. KRIGAGEM
5.1. O interpolador
O semivariograma é a ferramenta da geoestatística que permite verificar e modelar a
dependência espacial de uma variável. Uma aplicação imediata do semivariograma é a
utilização das informações geradas por ele na interpolação, ou seja, na estimativa de dados
e posterior mapeamento da variável. O interpolador que utiliza o semivariograma em sua
modelagem é chamado de krigagem. O nome krigagem é uma homenagem ao engenheiro
sul-africano D. G. Krige.
Para a aplicação da krigagem assume-se: que sejam conhecidas as realizações z(t1),
z(t2), ..., z(tn) da variável Z(t), nos locais t1, t2, ..., tn; que o semivariograma da variável já
tenha sido determinado; e que o interesse seja estimar um valor z* na posição t0.
O valor estimado z*(t0) é dado por:
n
z * (t 0 ) = ∑ λ i z (t i )
i =1
∑λ i =1
∑ λ γ (t , t
i =1
i i j ) + µ = γ (t i , t 0 )
Observações:
i) A matriz A é simétrica e possui diagonal principal igual a zero, ou igual ao valor do
efeito pepita.
ii) Os valores 1 que aparecem nas matrizes A e b são conseqüência do multiplicador de
Lagrange.
iii) O sistema deve ser resolvido para cada estimativa z* e para cada variação do
número de amostras envolvidos na estimativa.
Método de
krigagem
Modelo de
semivariograma
Arquivo e tipo de
arquivo para gravar a vizinhos
krigagem
A krigagem pode ser expressa por meio de mapas, sendo necessário para isto, ativar o ícone
map, tendo como resultado a Figura 21.
1
γ 11(h) = E { Z 1( t 1i + h) - Z 1( t 1i ) }2 B
2
1
γ 22 (h) = E { Z 2 ( t 2j + h) - Z 2 ( t 2j ) }2 C
2
ii) O semivariograma cruzado entre Z1(t1i) e Z2(t2i), igual ao semivariograma cruzado entre
Z2(t2j) e Z1(t1i):
1
γ 12 (h) = γ 21( h ) = E {[ Z 1( t 2i + h) - Z 1( t 1i )][ Z 2 ( t 2j + h) - Z 2 ( t 2j )]}
2
D
1 n(h)
γ 12 (h) = ∑ [ Z 1( t 1i + h) - Z 1( t 1i )][ Z 2 ( t 2j + h) - Z 2 ( t 2j )] E
2n(h) i=1
onde n(h) é o número de valores de Z1 e Z2 separados por um vetor h.
Pode-se notar que o semivariograma é um caso particular do semivariograma
cruzado, quando as duas variáveis são idênticas.
O semivariograma cruzado só será calculado usando as informações existentes para
posições geográficas coincidentes. Isto significa que Z1 e Z2 tem que ser, necessariamente,
definidos para os mesmos locais, e as informações excedentes não são consideradas no
cálculo.
Um semivariograma cruzado com características que podem ser identificadas como
ideais, teria aparência do semivariograma simples (de uma única variável, ou seja, patamar
definido, semivariância crescente para pequenas distâncias, modelo esférico), porém, com
significados diferentes, pelo simples fato de envolver o produto das diferenças de duas
variáveis diferentes. Por exemplo, ao contrário do semivariograma, não é obvio que o valor
do semivariograma cruzado para h=0, deva ser nulo. Assim, além de espaços menores do que
à distância de amostragem, acumulado no mesmo parâmetro, está à falta de correlação entre as
duas variáveis. O alcance aqui representa apenas o final ou a distância máxima de
dependência espacial entre as variáveis. Já o patamar do semivariograma cruzado, se existir,
deve aproximar-se do valor da covariância entre as duas variáveis. Assim, quando as duas
variáveis forem de correlação inversa, isto é, quando aumenta uma a outra diminui, a
covariância será negativa e, conseqüentemente, o semivariograma cruzado será negativo. Os
modelos utilizados para o semivariograma cruzado são os mesmos já discutidos para o
semivariograma simples.
6.2. Co-krigagem
A krigagem é um caso particular do método co-krigagem. Uma vez que exista a
dependência espacial para cada uma das variáveis Z1 e Z2, e que também exista dependência
espacial entre Z1 e Z2, então é possível utilizar a co-krigagem para estimar valores.
Suponha que se queira estimar valores, Z2*, para qualquer local, t0, e que a estimativa
deva ser uma combinação linear de ambos Z1 e Z2, ou seja,
n n
1 2
z*2 (t0 )= ∑ λ 1i z 1( t 1i ) + ∑ λ 2j z 2 ( t 2j ) F
i= 1 i= 1
onde n1 e n2 são os números de vizinhos de Z1 e Z2, respectivamente, e λ1i e λ2j são os pesos
associados a cada valor de Z1 e Z2. Tomando z1(t1i) e z2(t2i) como sendo uma realização das
funções aleatórias, Z1(t1i) e Z2(t2i), respectivamente, e assumindo estacionaridade de ordem 2,
o estimador pode ser reescrito em:
n1 n2
Z *2 (to )= ∑ λ 1i Z 1( t 1i ) + ∑ λ 2j Z 2 ( t 2j ) G
i= 1 i= 1
Para que o estimador seja ótimo, ele não pode ter tendência e tem que ter variância
mínima. Em outras palavras, para que o estimador seja o melhor possível, é necessário que ele
não superestime nem subestime valores, e que a confiança nas estimativas seja máxima.
O raciocínio básico para dedução do sistema de equações da co-krigagem é idêntico
ao da krigagem, com uma diferença que, neste caso, envolve duas variáveis, e por isto envolve
equações mais longas, com subscritos, complicando um pouco mais a situação. Porém, o
raciocínio e, por conseguinte, a álgebra envolvida, são o mesmo.
Para que a estimativa não tenha tendência, qualquer que seja a distribuição dos pesos,
a soma daqueles associados com a variável estimada deve ser igual a 1, e a soma daquelas
associadas à outra variável, tem que ser nula.
O sistema co-krigagem e a variância da estimativa podem ser escritos em termos de
semivariograma, usando a hipótese de estacionaridade de ordem 2. Assim, o sistema da co-
krigagem, em termos de semivariograma fica:
n1 n2
∑ λ 1i γ 12 ( t 1i ,t 1k ) + ∑ λ 2j γ 12 ( t 1k ,t 2j ) - µ1 =
i= 1 j=1
= γ 12 ( t 1k ,t 0 ), k = 1,... n1
H
n1 n2
∑ λ1i γ12 ( t 1i ,t 2l ) + ∑ λ 2j γ 22 ( t 2j ,t 2l ) - µ 2 =
i=1 j=1
= γ 22 ( t 2l ,t 0 ), l = 1,... n2
I
N1
∑ λ1i = 0
i=1
N2
∑ λ 2j = 1
j=1
n1 n2
σ k 2( t 0 ) = µ 1 + µ 2 + ∑ λ 1i γ 12 ( t 1i ,t 0 ) + ∑ λ 2j γ 22 ( t 2j ,t 0 ) J
2
i= 1 j =1
A solução do sistema da co-krigagem produzirá n1 pesos λ1i e n2 pesos λ2j e os
multiplicadores Lagrangeanos, µ1 e µ2.
[ λ ] [ γ ] = [b] K
cuja solução é
[ λ ] = [ γ ] [b] L
-1
onde [γ]-1 é o inverso da matriz de coeficientes [γ], [λ] é a matriz dos pesos procurados, λ1i e
λ2j, e [b] é o lado direito do sistema de equações (semivariância do ponto a ser estimado (t0) e
o ponto observado (t12 ou t21)).
A variância da estimativa pode ser escrita como:
σ 2 k2 ( t 0 ) = [ λ ] [b] M
t
Suponha então que o número de vizinhos de Z2 usados seja n2=2, e de Z1, n1=4. A
matriz [γ] será então de 8x8 e pode ser escrita como:
γ11 ( t 11 , t11 ) γ11 ( t12 , t 11 ) γ11 ( t 13 , t 11 ) γ11 ( t 14 , t 11 ) γ12 ( t 11 , t 21 ) γ12 (t11 , t 22 ) 1 0
λ 11
λ 12
λ 13
λ 14
[λ ] =
λ 21
λ 22
µ1
µ2
γ12 ( t 11 , t 0 )
γ12 ( t 12 , t 0 )
γ12 ( t 13 , t 0 )
[b] =
γ12 ( t 14 , t 0 )
γ 22 ( t 21 , t 0 )
γ 22 ( t 22 , t 0 )
a) Vizinhança única
b) Distância constante
Neste método, para cada ponto estimado é selecionada uma vizinhança constando de
todos os vizinhos localizados dentro de um circulo de raio especificado. Conseqüentemente,
nos cantos de um campo retangular ocorre 1/4 de círculo, com 1/4 do número de vizinhos. A
grande vantagem deste método está no fato que se conhece exatamente a distância na qual os
vizinhos para estimativa são procurados. Isto é particularmente importante porque se pode
limitar o uso do semivariograma quanto à distância sobre qual ele será calculado. Por outro
lado, o número de vizinhos pode mudar bastante ao longo do campo, fazendo com que o
tamanho do sistema matricial seja variável. Em termos de programação de computador, isto
pode se tornar um problema se exceder o valor usado na dimensão das matrizes.
d) Quadrantes
Ferramentas de
análises descritivas Krigagem e
Semivariograma co-
das variáveis Z1, Z2
da variável 1 krigagem
Semivariogram Semivariograma
a da variável 2 Cruzado Mapas
Figura 20. Ícones ativos nas análises descritivas, semivariogramas simples, semivariogramas
cruzados, krigagem/co-krigagem e mapas.
Se para cada um dos n locais onde se tem um valor medido Z(xi), estima-se um valor
através da krigagem (ou da co-krigagem), Z*(ti), então poder-se-á fazer um gráfico dos valores
pareados de Z(ti), Z*(ti) e calcular a regressão linear entre eles. A regressão será então:
Z* ( t i ) = a + b Z( t i )
b) O erro absoluto
Uma vez que se tem o conjunto de n valores medidos e estimados, Z(xi) e Z*(xi),
então pode-se definir o erro absoluto como:
EA( xi ) = Z* ( xi )- Z( xi ) O
EA = E {EA( xi )} = E { Z* ( xi )- Z( xi )} = 0 P
e
2
VAR( EA ) = E {( Z* ( xi )- Z( xi ) ) } = mÍnima Q
Se estas condições não forem satisfeitas, então alguma das condições previamente
assumidas estará sendo violada. Porém, a equação é bastante difícil de ser verificada porque o
conceito de ser mínimo torna-se subjetivo quando não se tem uma referência. O procedimento
seguinte pode contribuir nesse sentido.
c) Erro reduzido
Lembrando que no cálculo dos valores estimados, Z*(xi), sempre se tem a variância
da estimativa, σ2k(ti), então pode-se definir o erro reduzido como:
ER( t i ) = ( Z* (t i ) - Z( t i ))/ σk ( t i ) R
A divisão pela raiz quadrada da variância da estimativa faz com que os ER(ti) sejam
sem dimensão e que, por isso, as condições de não tendência e de variância mínima, requeiram
que:
ER = E {ER( xi )} = E {( Z* ( xi )- Z( xi )) / σ k ( xi )} = 0 S
VAR( ER ) = E {( Z* ( xi )- Z( xi )) / σ k ( x0 ) } = 1 T
2
Estas propriedades fazem deste tipo de erro uma valiosa ferramenta e de fácil uso,
nas aplicações de geoestatística. O fato de terem valores ideais fixos em 0 (zero) e 1 (um), e
de serem sem dimensão, facilita seu julgamento e estudo, e também permite sua comparação
com outras situações expressas em unidades diferentes.
A Figura 23 mostra uma saída da opção de validação cruzada apresentada pelo
programa GS+. A validação cruzada é ativada na janela da Krigagem, conforme mostram a
Figuras 20 e 22.
Note, neste caso, que a reta ajustada está praticamente igual a reta a 45º (Gráfico
1:1), o coeficiente de regressão (coeficiente angular) de 0,944 com erro padrão de 0,105
indica que este é estatisticamente igual a 1 e o y intercept (coeficiente linear) de 0,024
mostra que este pode ser considerado estatisticamente igual a zero, condições estas ótimas
para as estimativas. O coeficiente de determinação (r2) de 0,39 é considerado relativamente
baixo, mas devido ao grande número de observações e sabendo-se que este coeficiente é
altamente influenciado pelo número de pares, podemos considera-lo como satisfatório.
Também pode-se verificar, pelo gráfico, que os valores extremos é que estão mais afastados
da reta e podemos associar isto ao fato do semivariograma geralmente apresentar melhores
estimativas para distâncias curtas.
A análise da validação cruzada deve ser feita com base em todos os parâmetros e
não com base em parâmetros isolados.
8. BIBLIOGRAFIA RECOMENDADA
BARTLETT, M.S. Nearest neighbour models in the analysis for field experiments (with
discussion). Journal of the Royal Statistical Society. B, London, v.40, n.2, p.147-174, 1978.
BUSSAB, W. O.; MORETTIN, P. A . Estatística básica. 4a ed.. São Paulo : Atual, 1987. 321
p.
COSTA NETO, P. L. Estatística. São Paulo: Edgard Blucher, 264 p., 1979.
CRESSIE, N.; HARTFIELD, M.N. Conditionally specified gaussian model for spatial
statistical analysis of field traits. Journal of Agricultural, Biological, and Environmental
Statistics, Washington, v.1, n.1, p.60-77, Mar. 1996.
DAVID, M. Geostatistical ore reserve estimation. Elsevier. New York, v. 8, 364 p., 1977.
MATHERON, G. The theory of regionalized variables and its applications. Les Cahiers du
Centre de Moffologie mathemathique. Fas. 5. C. G. Fontainebleau, 1971.
PANNATIER, Y. Variowin – Software for spatial data analysis in 2D. New York:
Springer-Verlag, 1996. 90 p..
PAPADAKIS, J. Method statistique pour des expériences sur champ. Bull. Inst. Amélior.
Plantes à Salonique. n.23, 1937.
VIEIRA, S. R.; GUIMARÃES, E. C.; DECHEN, S. C. F.; DE MARIA, I. C.; ROCHETE, P.;
TOPP, G. C.; ZEBCHUK, W. Analisando simultaneamente variabilidade espacial e temporal
usando variogramas tridimensionais. In: XIII Congresso Latino-Amaericano de Ciência do
Solo - Resumos expandidos em CD-ROOM. T01-053. Águas de Lindoia, SP: SBCS/ESALQ-
USP, 1996.
ZIMMERMAN, D.I.; HARVILLE, D.A. A random field approach to the analysis of field-
plot experiments and other special experiments. Biometrics, Raleigh, v.47, n.1, p.233-239,
mar. 1991
OBSERVAÇÃO:
Página na internet para busca de artigos, programas, livros e outros assuntos de
geoestatística:
http://www.famat.ufu.br/ednaldo/ednaldo.htm
http://www.rc.unesp.br/igce/aplicada/landim.html
http://musis.sites.uol.com.br/geo1.htm
http://sc-terre-218.unil.ch/
http://www.ai-geostats.org/