11 XValidation

   
Geoes t a t ís t ica
Estimativa por Krigagem

Técnicas de Validação Cruzada
Eng. de Minas João Felipe C.L. Costa

Prof. Dr. do DEMIN/PPGEM, UFRGS
Eng. de Minas Luis Eduardo de Souza

Doutorando do PPGEM, UFRGS
Estrutura da apresentação
• Introdução
• Distribuição do erro
• Distribuição bivariada de valores

verdadeiros e estimados
• Validação como ferramenta qualitativa
• Referências bibliográficas
G
Introdução
A validação cruzada é a técnica que permite, através da
comparação entre valores reais e estimados das informações
disponíveis, escolher entre diferentes procedimentos de
estimativa, entre diferentes estratégias de busca ou entre
diferentes modelos variográficos.
Nessa técnica, as opções de estimativa são testadas nas

localizações de amostras existentes. Um valor de uma amostra
para uma dada localização é temporariamente descartado do
banco de dados, sendo então estimado um valor para essa
localização a partir das amostras remanescentes. Uma vez que a
estimativa tenha sido obtida, podemos compará-la com o valor
verdadeiro que havia sido inicialmente removido. Esse
procedimento é repetido para todos os dados disponíveis.
G
Cross validation x Jacknife
Cross Validation cada datum é removido individualmente (um por

vez) e re-estimado com os remanescentes.
Jacknife remove vários dados de cada vez e com os

remanescentes reestima-os.
Após cada remoção de um sub conjunto deve-se reestimar

inclusive os parâmetros estatísticos (histograma e variograma).
Deve ser repetido para vários subconjuntos removidos.
Extremamente laborioso.
?
v*  449 v*  449
G
Arquivo de saída típico na validação cruzada.
G
Distribuição do erro
Em cada localização onde uma estimativa foi realizada, temos um

dado verdadeiro (v) e uma estimativa (v*). O erro em cada
localização é a diferença entre os valores estimados e
verdadeiros:
Erro = r = v* - v
Se r é positivo, então nós temos uma superestimativa dos valores

verdadeiros; se r é negativo então nós temos uma subestimativa.
Freqüentemente, esses erros são chamados de resíduos.
A média da distribuição do erro é chamada de viés e um objetivo

razoável de qualquer método de estimativa é produzir estimativas
não-tendenciosa, ou seja, com uma média próxima de zero.
G
Média do erro negativa, refletindo uma
tendência geral de ocorrências de
subestimativas.
Média do erro positiva como resultado

de abundância de superestimativas.
Equilíbrio entre superestimativas

e subestimativas.
G
Outra feição que gostaríamos de observar em nossas distribuições
de erro é um pequeno espalhamento. Na figura, são apresentadas
duas distribuições de erro: em (a) uma distribuição não-
tendenciosa, mas com um grande espalhamento ou variância ao
redor da média e em (b) uma distribuição com muito menos
variância, mas com um leve viés.
(a)
(b)
G
Histograma de freqüência de resíduos para
estimativa por KO no Walker Lake dataset.
G
Distribuição bivariada de valores
verdadeiros e estimados
Um scatterplot de valores
verdadeiros versus valores
estimados fornece uma
evidência adicional do
nível de acerto atingido
pelo método de
estimativa. No caso de
uma estimativa “perfeita”,
os valores verdadeiros e
os estimados plotariam
segundo uma reta a 45o
no scatterplot.
G
No entanto, na prática, teremos sempre que conviver com algum
nível de erro em nossas estimativas e nossos scatterplots de
valores verdadeiros versus estimados aparecerão sempre como
uma nuvem de pontos.
Dessa forma, o espalhamento dessa nuvem de pontos ao redor

da reta ideal (x = y) também pode nos fornecer um indicativo do
nível de acerto de nossas estimativas. O coeficiente de correlação
é um bom índice para sumarizar o quão perto os pontos em um
scatterplot vêm a se aproximar da reta e freqüentemente é feito
uso desse índice na comparação entre as opções de busca ou
métodos de estimativa.
G
Validação como ferramenta qualitativa
Uma análise do arranjo espacial dos resíduos, freqüentemente

pode ser utilizada para investigar a existência de possíveis
artefatos criados pelas opções ou métodos de estimativa
utilizados.
Como preferimos estimativas condicionalmente não-

tendenciosas com respeito a qualquer faixa de valores, é justo
que se pretenda também que as estimativas sejam
condicionalmente não-tendenciosas com respeito a suas
localizações. Para qualquer região, queremos que o centro seja
o mais próximo possível de 0 e com o menor espalhamento.
Um mapa de distribuição de resíduos pode revelar áreas onde

as estimativas são consistentemente tendenciosas, enquanto
mapas de estatística de janelas móveis podem ser usados para
mostrar como o espalhamento dos resíduos variam pela área.
G
Mapa dos resíduos mostrando a não-existência de áreas em que
ocorram preferencialmente subestimativas ou superestimativas
G
para o Walker Lake dataset, obtidos por estimativas por KO.
Checagem da não tendencionidade do modelo
Valores estimados Z*(u) versus erro e (u) devem oscilar em

torno de e(u)=0
800
600
e(u)
400
200
0
0 200 400 600 800 1000 1200
-200
z*(u)
-400
-600
-800
Checando as realizações simuladas
Ligeiramente diferente de quando usado para krigagem.
Teremos pares (output file) de valores verdadeiros e distribuição

de incerteza, i.e. a cdf
{Z(ui); FZ(ui,z), i = 1,..., n}
Diferentes algoritmos ou decisões de modelamento (variograma,

estratégia de busca, etc) irão produzir diferentes FZ(ui,z)`s
FZ(ui,z) ou ccdf provém de:
i. L realizações
ii. Estimado por lK diretamente
iii. Usando modelo MG com média, variância e
normalização (back)
Objetivo é checar quão adequada é a distribuição de incerteza

(ccdf)
Essa ccdf será checada para precisão e acuracidade

Precisão e Acuracidade de FZ(ui,z)
A verificação de acuracidade e precisão é feita baseada na real

fração de valores verdadeiros incluídos em um intervalo
simétrico de probabilidade com largura variável p.
i. A ccdf será acurada se a fração de valores verdadeiros

(omitidos um a um na validação cruzada) que caem no
intervalo p exceda a p para qualquer valores p em [0,1]
ii. A precisão de uma ccdf acurada é medida pela proximidade

entre a fração de valores reais e p para todos em [0,1]
Etapas para cálculo da precisão e acuracidade
i. Calcular a probabilidade associada a cada valor verdadeiro Z(ui),

i=1,...n usando o modelo de incerteza F*(ui,Z(ui)|n(ui)], i=1,...,n
Exemplo:
Se o valor real está na mediana dos valores da ccdf então F(ui,Z(ui)
[n(ui)]=0,5
ii. Considerar um intervalo (range) de intervalo de probabilidade (IP)

simétricos com probabilidade p, por exemplo entre os centis 0,01 e
0,99 com incrementos de 0,01. O intervalo IP-p simétrico é definido
com limite superior e inferior.
(1  p ) (1  p )
pinf  psup 
2 2
Cálculo da precisão PI-p
Exemplo se p=0,9; pinf=0,05 e psup=0,95

iii. Definir uma função indicatriz (ui;p) em cada localização ui:
(ui;p) = 1 se F(ui;z(ui)|n(ui)] Є (pinf,psup]

= 0 caso contrário
iv. Tomar a média de (ui;p) em todos n (pontos amostrais) ui:
1 n
    (ui , p)
n i 1
Essa expressão define a proporção de locais onde o valor real está
inserido no PI-p
Interpretando a precisão e acuracidade da
simulação (ccdf)
Gráfico da acuracidade
 ( p)
 ( p)  p 
 p Acurado mas impreciso
 ( p)  p 
 p
 ( p)  p 
 p Acurado e preciso
Referências bibliográficas
• ISAAKS, E.H. & SRIVASTAVA, M.R. 1989. An Introduction to

Applied Geostatistics, Oxford University Press, New York, 561 p.
GOOVAERTS, P. 1997. Geostatistics for Natural Resources

Evaluation, Oxford University Press, New York, 483 p.
• DEUTSCH, C.V. & JOURNEL, A.G. 1998. GSLIB: Geostatistical

Software Library and User´s Guide, Oxford University Press,
New York, 369 p.
• DEUTSCH, C.V. 2002. Geostatistical Reservoir Modeling,

Oxford University Press, New York, 376 p.
G

11 XValidation

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

11 XValidation

Enviado por

Direitos autorais:

Formatos disponíveis

   

Estimativa por Krigagem

Eng. de Minas João Felipe C.L. Costa

Eng. de Minas Luis Eduardo de Souza

• Distribuição bivariada de valores

• Validação como ferramenta qualitativa

Nessa técnica, as opções de estimativa são testadas nas

Cross Validation cada datum é removido individualmente (um por

Jacknife remove vários dados de cada vez e com os

Após cada remoção de um sub conjunto deve-se reestimar

Em cada localização onde uma estimativa foi realizada, temos um

Se r é positivo, então nós temos uma superestimativa dos valores

A média da distribuição do erro é chamada de viés e um objetivo

Média do erro positiva como resultado

Equilíbrio entre superestimativas

Dessa forma, o espalhamento dessa nuvem de pontos ao redor

Uma análise do arranjo espacial dos resíduos, freqüentemente

Como preferimos estimativas condicionalmente não-

Um mapa de distribuição de resíduos pode revelar áreas onde

Valores estimados Z*(u) versus erro e (u) devem oscilar em

Ligeiramente diferente de quando usado para krigagem.

Teremos pares (output file) de valores verdadeiros e distribuição

{Z(ui); FZ(ui,z), i = 1,..., n}

Diferentes algoritmos ou decisões de modelamento (variograma,

Objetivo é checar quão adequada é a distribuição de incerteza

Essa ccdf será checada para precisão e acuracidade

A verificação de acuracidade e precisão é feita baseada na real

i. A ccdf será acurada se a fração de valores verdadeiros

ii. A precisão de uma ccdf acurada é medida pela proximidade

i. Calcular a probabilidade associada a cada valor verdadeiro Z(ui),

ii. Considerar um intervalo (range) de intervalo de probabilidade (IP)

Exemplo se p=0,9; pinf=0,05 e psup=0,95

(ui;p) = 1 se F(ui;z(ui)|n(ui)] Є (pinf,psup]

iv. Tomar a média de (ui;p) em todos n (pontos amostrais) ui:

• ISAAKS, E.H. & SRIVASTAVA, M.R. 1989. An Introduction to

GOOVAERTS, P. 1997. Geostatistics for Natural Resources

• DEUTSCH, C.V. & JOURNEL, A.G. 1998. GSLIB: Geostatistical

• DEUTSCH, C.V. 2002. Geostatistical Reservoir Modeling,

Você também pode gostar