Você está na página 1de 22

   

Geoes t a t ís t ica

Estimativa por Krigagem


Técnicas de Validação Cruzada

Eng. de Minas João Felipe C.L. Costa


Prof. Dr. do DEMIN/PPGEM, UFRGS

Eng. de Minas Luis Eduardo de Souza


Doutorando do PPGEM, UFRGS
Estrutura da apresentação

• Introdução

• Distribuição do erro

• Distribuição bivariada de valores


verdadeiros e estimados

• Validação como ferramenta qualitativa

• Referências bibliográficas

G
Introdução
A validação cruzada é a técnica que permite, através da
comparação entre valores reais e estimados das informações
disponíveis, escolher entre diferentes procedimentos de
estimativa, entre diferentes estratégias de busca ou entre
diferentes modelos variográficos.

Nessa técnica, as opções de estimativa são testadas nas


localizações de amostras existentes. Um valor de uma amostra
para uma dada localização é temporariamente descartado do
banco de dados, sendo então estimado um valor para essa
localização a partir das amostras remanescentes. Uma vez que a
estimativa tenha sido obtida, podemos compará-la com o valor
verdadeiro que havia sido inicialmente removido. Esse
procedimento é repetido para todos os dados disponíveis.

G
Cross validation x Jacknife

Cross Validation cada datum é removido individualmente (um por


vez) e re-estimado com os remanescentes.

Jacknife remove vários dados de cada vez e com os


remanescentes reestima-os.

Após cada remoção de um sub conjunto deve-se reestimar


inclusive os parâmetros estatísticos (histograma e variograma).
Deve ser repetido para vários subconjuntos removidos.

Extremamente laborioso.
?

v*  449 v*  449

G
Arquivo de saída típico na validação cruzada.

G
Distribuição do erro

Em cada localização onde uma estimativa foi realizada, temos um


dado verdadeiro (v) e uma estimativa (v*). O erro em cada
localização é a diferença entre os valores estimados e
verdadeiros:

Erro = r = v* - v

Se r é positivo, então nós temos uma superestimativa dos valores


verdadeiros; se r é negativo então nós temos uma subestimativa.
Freqüentemente, esses erros são chamados de resíduos.

A média da distribuição do erro é chamada de viés e um objetivo


razoável de qualquer método de estimativa é produzir estimativas
não-tendenciosa, ou seja, com uma média próxima de zero.

G
Média do erro negativa, refletindo uma
tendência geral de ocorrências de
subestimativas.

Média do erro positiva como resultado


de abundância de superestimativas.

Equilíbrio entre superestimativas


e subestimativas.

G
Outra feição que gostaríamos de observar em nossas distribuições
de erro é um pequeno espalhamento. Na figura, são apresentadas
duas distribuições de erro: em (a) uma distribuição não-
tendenciosa, mas com um grande espalhamento ou variância ao
redor da média e em (b) uma distribuição com muito menos
variância, mas com um leve viés.

(a)

(b)

G
Histograma de freqüência de resíduos para
estimativa por KO no Walker Lake dataset.

G
Distribuição bivariada de valores
verdadeiros e estimados

Um scatterplot de valores
verdadeiros versus valores
estimados fornece uma
evidência adicional do
nível de acerto atingido
pelo método de
estimativa. No caso de
uma estimativa “perfeita”,
os valores verdadeiros e
os estimados plotariam
segundo uma reta a 45o
no scatterplot.

G
No entanto, na prática, teremos sempre que conviver com algum
nível de erro em nossas estimativas e nossos scatterplots de
valores verdadeiros versus estimados aparecerão sempre como
uma nuvem de pontos.

Dessa forma, o espalhamento dessa nuvem de pontos ao redor


da reta ideal (x = y) também pode nos fornecer um indicativo do
nível de acerto de nossas estimativas. O coeficiente de correlação
é um bom índice para sumarizar o quão perto os pontos em um
scatterplot vêm a se aproximar da reta e freqüentemente é feito
uso desse índice na comparação entre as opções de busca ou
métodos de estimativa.

G
Validação como ferramenta qualitativa

Uma análise do arranjo espacial dos resíduos, freqüentemente


pode ser utilizada para investigar a existência de possíveis
artefatos criados pelas opções ou métodos de estimativa
utilizados.

Como preferimos estimativas condicionalmente não-


tendenciosas com respeito a qualquer faixa de valores, é justo
que se pretenda também que as estimativas sejam
condicionalmente não-tendenciosas com respeito a suas
localizações. Para qualquer região, queremos que o centro seja
o mais próximo possível de 0 e com o menor espalhamento.

Um mapa de distribuição de resíduos pode revelar áreas onde


as estimativas são consistentemente tendenciosas, enquanto
mapas de estatística de janelas móveis podem ser usados para
mostrar como o espalhamento dos resíduos variam pela área.

G
Mapa dos resíduos mostrando a não-existência de áreas em que
ocorram preferencialmente subestimativas ou superestimativas

G
para o Walker Lake dataset, obtidos por estimativas por KO.
Checagem da não tendencionidade do modelo

Valores estimados Z*(u) versus erro e (u) devem oscilar em


torno de e(u)=0

800

600
e(u)

400

200

0
0 200 400 600 800 1000 1200
-200
z*(u)
-400

-600

-800
Checando as realizações simuladas

Ligeiramente diferente de quando usado para krigagem.

Teremos pares (output file) de valores verdadeiros e distribuição


de incerteza, i.e. a cdf

{Z(ui); FZ(ui,z), i = 1,..., n}

Diferentes algoritmos ou decisões de modelamento (variograma,


estratégia de busca, etc) irão produzir diferentes FZ(ui,z)`s
FZ(ui,z) ou ccdf provém de:

i. L realizações
ii. Estimado por lK diretamente
iii. Usando modelo MG com média, variância e
normalização (back)

Objetivo é checar quão adequada é a distribuição de incerteza


(ccdf)

Essa ccdf será checada para precisão e acuracidade


Precisão e Acuracidade de FZ(ui,z)

A verificação de acuracidade e precisão é feita baseada na real


fração de valores verdadeiros incluídos em um intervalo
simétrico de probabilidade com largura variável p.

i. A ccdf será acurada se a fração de valores verdadeiros


(omitidos um a um na validação cruzada) que caem no
intervalo p exceda a p para qualquer valores p em [0,1]

ii. A precisão de uma ccdf acurada é medida pela proximidade


entre a fração de valores reais e p para todos em [0,1]
Etapas para cálculo da precisão e acuracidade

i. Calcular a probabilidade associada a cada valor verdadeiro Z(ui),


i=1,...n usando o modelo de incerteza F*(ui,Z(ui)|n(ui)], i=1,...,n

Exemplo:
Se o valor real está na mediana dos valores da ccdf então F(ui,Z(ui)
[n(ui)]=0,5

ii. Considerar um intervalo (range) de intervalo de probabilidade (IP)


simétricos com probabilidade p, por exemplo entre os centis 0,01 e
0,99 com incrementos de 0,01. O intervalo IP-p simétrico é definido
com limite superior e inferior.

(1  p ) (1  p )
pinf  psup 
2 2
Cálculo da precisão PI-p

Exemplo se p=0,9; pinf=0,05 e psup=0,95


iii. Definir uma função indicatriz (ui;p) em cada localização ui:

(ui;p) = 1 se F(ui;z(ui)|n(ui)] Є (pinf,psup]


= 0 caso contrário

iv. Tomar a média de (ui;p) em todos n (pontos amostrais) ui:

1 n
    (ui , p)
n i 1
Essa expressão define a proporção de locais onde o valor real está
inserido no PI-p
Interpretando a precisão e acuracidade da
simulação (ccdf)

Gráfico da acuracidade

 ( p)

 ( p)  p 
 p Acurado mas impreciso

 ( p)  p 
 p
 ( p)  p 
 p Acurado e preciso
Referências bibliográficas

• ISAAKS, E.H. & SRIVASTAVA, M.R. 1989. An Introduction to


Applied Geostatistics, Oxford University Press, New York, 561 p.

GOOVAERTS, P. 1997. Geostatistics for Natural Resources


Evaluation, Oxford University Press, New York, 483 p.

• DEUTSCH, C.V. & JOURNEL, A.G. 1998. GSLIB: Geostatistical


Software Library and User´s Guide, Oxford University Press,
New York, 369 p.

• DEUTSCH, C.V. 2002. Geostatistical Reservoir Modeling,


Oxford University Press, New York, 376 p.

G

Você também pode gostar