Você está na página 1de 14

UNA COMPARACION DE DOS METODOLOGIAS PARA LA ESTIMACION DEL

VARIOGRAMA DE UN PROCESO ESPACIAL





Angela M. Diblasi
Titular de la Ctedra Estadstica
Graciela Luca Nardecchia
Mara Elena Zabal
Jefes de Trabajos Prcticos de la Ctedra Estadstica
Facultad de Ciencias Econmicas
Universidad Nacional de Cuyo




Resumen


La estimacin del variograma es un aspecto crucial en la modelizacin de un
proceso estocstico espacial. Sin embargo existen en la literatura especfica slo
referencias bajo supuestos muy limitados. Cuando la estructura de covarianza es
desconocida y no se puede descartar la presencia de tendencia, la estimacin del
variograma por mnimos cuadrados ordinarios en general introduce sesgo.
En este trabajo se plantea como alternativa para la estimacin del variograma la
utilizacin de los residuos resultantes de aplicar la metodologa del pulido de medianas.
Se realiza adems una comparacin de ambas metodologas en el contexto de
prediccin.
La propuesta se ilustra con una aplicacin a un proceso espacial que representa las
temperaturas medias del mes de agosto en Argentina.


UNA COMPARACION DE DOS METODOLOGIAS PARA LA ESTIMACION DEL

VARIOGRAMA DE UN PROCESO ESPACIAL



Angela M. Diblasi
Titular de la Ctedra Estadstica
Graciela Luca Nardecchia
Mara Elena Zabal
Jefes de Trabajos Prcticos de la Ctedra Estadstica
Facultad de Ciencias Econmicas
Universidad Nacional de Cuyo


Introduccin

Existen en la literatura estudios para modelar procesos que involucran variables
climticas como la temperatura. Sin embargo la mayora de estos estudios no tienen en
cuenta la dependencia espacial, an cuando naturalmente estos fenmenos son
espaciales.
Tradicionalmente los temas relacionados con el estudio de modelos para datos
espaciales han sido incluidos en la disciplina conocida como Geoestadstica. Aunque sus
orgenes pueden ser atribuidos a Matheron en la dcada del sesenta, fue recin en la
dcada del ochenta cuando varias contribuciones condujeron al desarrollo de las
herramientas estadsticas especficas para problemas provenientes de la geologa y la
ingeniera minera.
Debido al reciente desarrollo de estas tcnicas existe una carencia de
herramientas apropiadas a cada problema.
Con el objetivo de explorar las herramientas estadsticas espaciales existentes nos
hemos propuesto aplicarlas a un conjunto de datos reales. La muestra considerada
responde a valores de temperaturas medias del mes de agosto tomadas en distintas
estaciones de la Argentina.

Descripcin del problema

Para construir un modelo adecuado consideramos un proceso estocstico:
{ } D s s Z ), ( donde D es la regin en estudio, es decir un subconjunto de
2
R y
) s ( Z representa la media de la temperatura del mes de agosto en un lugar especfico s
de la Argentina. Las coordenadas espaciales estn en consecuencia determinadas por s
= (x, y) donde x representa la latitud e y la longitud.
Vamos a considerar que este proceso puede ser descompuesto en una parte no
aleatoria que representar la tendencia en el espacio, y una parte aleatoria que reflejar
particularmente la estructura de covarianza o variacin en pequea escala. Es decir,
) ( ) ( ) ( s s s Z +
donde ) s ( es una funcin no aleatoria de la ubicacin espacial, es decir
y x y x s
2 1 0
) , ( ) ( + + , donde ( ) y x s , y { } ) (s es un proceso
aleatorio con media nula.
Un punto de partida en este trabajo es la estimacin de la media o drift para
) s ( para cada s de la regin en estudio y la funcin de autocovarianza
( ) ) s ( Z ), s ( Z cov ) s , s cov(
j i j i
para cada par ) s , s (
j i
de puntos en el recinto
espacial o el variograma ( ) ( ) ) s ( Z ) s ( Z var s , s
j i j i
.
La estructura de covarianza o variacin a pequea escala del proceso { } ) (s Z est
representada por el proceso { } ) (s y la media o variacin a gran escala por ) (s .
En principio para simplificar el problema, supondremos que el proceso { } ) (s es
Gaussiano con media nula estacionario e isotrpico. Es decir su variograma es una
curva que depende de la distancia entre todos los posibles pares posibles de ubicaciones
a las que han sido observadas las variables del proceso, es decir
( ) ( ) ( ) ( ) h s s s s s s
j i j i j i
) ( ) ( var ,

Aspectos preliminares

Como se mencion anteriormente hay dos puntos importantes a considerar:
a) La estimacin de ) (s
b) La estimacin de la estructura de covarianza o el variograma.
En este sentido si s s ) ( , es decir ) (s es una funcin de las
ubicaciones espaciales, entonces el variograma no puede estimarse directamente, es
decir a travs de { } ) (s Z .
Por otra parte, si el variograma no es igual a una constante, es decir ) (h no es
una funcin constante de h, o lo que es lo mismo decir que las variables del proceso
{ } ) (s Z no son independientes, entonces la estimacin de ) (s no puede hacerse
utilizando el mtodo de los mnimos cuadrados ordinarios.
La pregunta inicial es cmo analizar si existe tendencia?.

Anlisis Exploratorio de los datos

Esta es una forma preliminar del anlisis de la informacin espacial cuyo propsito
es hacer una identificacin inicial de las propiedades de la informacin. Los mtodos
utilizados son los propuestos por Tukey (1977) adaptados a las necesidades de los datos
espaciales.
Los mtodos exploratorios necesitan ser resistentes a las observaciones que son
atpicas del modelo subyacente.

1. Deteccin De Outliers

Uno de los objetivos del anlisis exploratorio de datos es la deteccin de outliers
que se consideran observaciones inusuales en relacin con sus vecinos. Implcitamente
esto quiere decir que el modelo subyacente est gobernado por una clase de
estacionariedad local que en general no es garanta de estacionariedad global. La
estacionariedad local puede modelarse considerando que la esperanza de una variable
) (s Z del proceso es una funcin suave de la posicin s.
Si se fija una direccin en el conjunto D y se analizan medias y medianas en esa
direccin se puede detectar tanto la tendencia como la presencia de outliers.
Las direcciones que se han fijado en el ejemplo de las temperaturas son dos: filas y
columnas, Por esta razn se han reubicado los datos originales en una grilla regular de
acuerdo a un sistema de coordenadas cartesianas colocando en el eje x las latitudes y en
el eje y las longitudes. Cada celda tiene una tolerancia de 0.02 tomada en funcin de los
valores mximo y mnimo de las coordenadas espaciales y de la distancia entre cada par
de localizaciones. Y se hay varios puntos que caen en una misma celda se ha tomado el
promedio de ellos.



La mediana es un estadstico ms resistente a outliers que la media Sin embargo
se utilizan ambos estadsticos porque si la diferencia entre media y mediana es
demasiado grande entonces la fila o columna debe ser examinada por la presencia de
posibles outliers.


Expresiones para la media y mediana.
( )

+
n
i
i
Z
n
Z
1
1

( )

+
n
i
i
f
Z sig
n
Z
1 ) ( 2
1
~


donde

'

<

>

i
i
i
Z si
Z si
Z si
x sig
1
0
1
) (

( ) Z Z
Z Z
U
~
var
~

( ) 889 . 0 3 3 U P
Se debe estar atento a los valores de la variable aleatoria U fuera de ese intervalo.

2. Anlisis De La Tendencia

Los grficos muestran un intento de resumir la posible no estacionariedad de l a
media del proceso a travs del muestreo de media y mediana por filas (latitudes) y
columnas (longitudes).
Se ve una tendencia negativa en ambos grficos
Latitudes

ten[, 1]
t
e
n
[
,

2
]
0.4 0.5 0.6 0.7 0.8 0.9
5
1
0
1
5


Longitudes
teny[, 1]
t
e
n
y
[
,

2
]
0.95 1.00 1.05 1.10 1.15 1.20 1.25
4
6
8
1
0
1
2
1
4
1
6


Luego verificamos que ) (s no es constante, hay una clara tendencia en las dos
direcciones consideradas.

Anlisis de la independencia espacial

Si las variables del proceso resultan independientes, entonces el variograma
) ( 2 h a la distancia h entre dos puntos en el espacio es constante a travs de la regin
considerada.
En efecto:
( ) ) ( 2 2 ) ( ) ( var ) ( 2
2
h c s Z h s Z h +

de donde si las variables del proceso son independientes la funcin de covarianza c es
idnticamente nula, 0 ) ( h c para toda distancia h y el variograma 2 resulta
constantemente igual a
2
2 .
Una herramienta grfica para comprobar la independencia es una banda de
referencia en donde se puede ver que las variables tienen dependencia espacial.



Para analizar la independencia utilizamos un test estadstico (Diblasi Bowman
2000). El estadstico para este test es
( ) ( )
( )

N
i
i i
N
i
N
i
i i i
S S
S S S S
T
1
2
1 1
2 2
~
~
donde
( )
i i i
R E R S
0
, ( ) ) (s r h s r R
i i
+ , ) (s r es el residuo del modelo ajustado por
mnimos cuadrados en la ubicacin espacial s ,
0
E es la esperanza bajo la hiptesis nula
de independencia (variograma constante),


N
j
j ij i
S w S
1
~
donde

N
j
ij
ij
ij
w
w
w
1
*
*
y
2
*
exp

,
_



b
h h
w
j i
ij
N j i ,..., 1 ,
Este estadstico tiene una distribucin que puede ajustarse a una de la forma
2
1 0 c
a a + .

En el problema planteado se obtuvo un p-level menor 0.05.
Esto indica que debemos rechazar la hiptesis de independencia de las variables y
buscar un modelo adecuado para el variograma.


Estimacin de la Tendencia utilizando el Mtodo de Mnimos Cuadrados
Ordinarios para obtener los Residuos


Hemos considerado que el modelo propuesto puede escribirse en la forma:

La estimacin de la tendencia ) (s para cada s requiere el conocimiento de la
estructura de covarianza del proceso, la cual, en general, es desconocida. Por otra parte,
la estimacin del variograma o la funcin de covarianza del proceso en forma directa
puede resultar un problema sin solucin, cuando el proceso no es estacionario. Existen
diversas formas de abordar las estimaciones de la tendencia y el variograma. Uno de
ellos es la eliminacin de la tendencia mediante algn procedimiento adecuado, la
estimacin del variograma a partir de los residuos producidos despus de remover la
tendencia y luego la estimacin de la tendencia. Existen adems diversos criterios para
eliminar la tendencia, en este trabajo se han utilizado dos de ellos: mnimos cuadrados
generalizados y el pulido de medianas

Mtodo De Mnimos Cuadrados

Para estimar y x y x s
2 1 0
) , ( ) ( + + utilizamos en un primer paso
la metodologa de mnimos cuadrados simples.
Para las observaciones ) y , x ( s
i i i
en las localidades, el modelo muestral
es ) s ( ) s ( Z ) s ( Z
i i i i
+ podemos escribirlo en forma matricial como

+ X Z


siendo
1
1
1
]
1

2
1
0


1
1
1
]
1

n n
y x
... ... ...
y x
X
1
1
1 1

1
1
1
]
1

) y , x ( Z
......
) y , x ( Z
Z
n n
1 1

) ( ) ( ) (
i i i i
s s Z s Z +



1
1
1
]
1

) , (
.....
) , (
1 1
n n
y x
y x


Esto nos dio una expresin de la forma: ( ) Z X X X

T T ) (
1
0


El suprandice cero en la expresin anterior indica que es la etapa inicial de un
proceso iterativo para obtener los residuos del modelo utilizando el mtodo de mnimos
cuadrados ordinarios.
La estimacin de la tendencia por este mtodo resulta:

y x ) y , x ( ) s (
2 1 0

) ) )
) )
+ +

Cuyos valores observados en la muestra son:

4340 . 43

0
, 7442 . 28 1

y 6391 . 13

2
.
Con estos resultados se calcularon los residuos del modelo en la etapa inicial de
acuerdo a la expresin:

)
X Z R
) (

0

Z ) X ) X X ( X I ( R
T T ) ( 1 0


Grficamente:
tempe
res
i
5 10 15
-4
-2
0
2

( ) Z X X X X Z R
T T ) (
1
0



Variograma de los Residuos Mnimos Cuadrticos

Para encontrar un modelo adecuado para el variograma hemos a trabajado con el
variograma de los residuos obtenidos anteriormente. En efecto la relacin entre el
variograma de los residuos
R
2 y el variograma del proceso 2 es de la forma:

( ) ( ) ( ) s s Z s R


( ) [ ] ) ( ) ( ) ( ) ( ) , ( 2
j j i i j i R
s s Z s s Z Var s s
( ) ( ) ) (

) (

var 2 ) , ( 2
j i j i j i R
s s s s s s
( ) ( ) ( ) ( )( ) )

cov( 2 )

var( )

var( 2
2 1 2
2
1
2

j i j i j i j i j i
y y x x y y x x s s

El variograma del proceso puede considerarse aproximadamente igual al de los
residuos para distancias pequeas ya que ambos difieren en un trmino del orden del
cuadrado de la distancia entre cada par de puntos.

Estimacin del Variograma

Para estimar el variograma de los residuos utilizamos las propuestas de Matheron
(1962) y de Cressie (1980). La primera propuesta tiene la forma:


donde { }
j i j i
s s h s s h N / ) , ( ) ( es el conjunto de pares de ubicaciones
espaciales distantes por un incremento h y ) (h N es el nmero de pares en el conjunto
N(h). En este trabajo, los datos se han reubicado en una grilla regular, por lo que varios
pares de puntos estn ubicados a una misma distancia.
Mientras que Cressie propone otro estimador robusto del variograma de acuerdo a
la expresin:


Donde
) (
494 . 0
457 . 0
1
h N c
+ es una correccin por sesgo.
Ambos variogramas estimados se muestran en figura


) h ( N ) s , s (
j i
j i
)) s ( R ) s ( R (
) h ( N
) h (
2
1
2
4
2
1
1
2

'



) h ( N ) s , s (
j i
j i
) s ( R ) s ( R
) h ( N
c ) h (
~



Modelo Terico del Variograma

Los estimadores del variograma vistos, de Cressie y Matheron, no pueden
utilizarse directamente para hacer predicciones espaciales (kriging), ya que han sido
calculados para algunos h.
El problema es que los estimadores obtenidos para el variograma no cumple la
propiedad de ser semidefinido negativo en forma condicional, es decir: si
n
a a a ,..., ,
2 1

son constantes con 0

i
i
a , tenemos ( )


j
j i j i
i
s s a a 0 (Cressie, 1993,
pag. 60)
Para cumplir con este propsito consideraremos el ajuste a una familia vlida que
satisfaga la condicin anterior. El camino ms comn es reemplazar el variograma
emprico por alguna forma paramtrica la cual se conozca que cumpla la propiedad antes
mencionada.
Mediante los estimadores del variograma descritos, se obtiene el valor puntual del
variograma a una distancia h dada. Sin embargo, en la mayora de los anlisis se
requiere conocer todos los valores de la funcin ) h ( . Para ello, se procede al ajuste
del estimador del variograma a una funcin analtica que sea definida negativa en forma
condicional.
A esta funcin se le denomina modelo vlido o terico del variograma (Richard L.
Smith).
Hemos estimado el variograma para un conjunto finito de valores de h y deseamos
ajustar un modelo especificado por una funcin paramtrica ( ) , h en trminos del
vector de parmetros . El modelo puede ser cualquiera de las formas isotrpicas
conocidas.
De acuerdo al variograma estimado de los residuos para valores pequeos de
distancia ajustamos el modelo lineal de la forma:

'

< < +

Rango h si
Rango h si h c c
h
s
2
0
0
) , (



Elegir un variograma apropiado es una tarea dificultosa porque uno debe tener
cuidado en usar modelos vlidos y que si es el espacio de parmetros tal que
cualquier da un modelo espacial vlido.
Uno elige la familia en particular de acuerdo a la observacin del variograma
experimental y finalmente ajusta un miembro de la familia con los datos. Las
herramientas para el chequeo del variograma estimado para la eleccin de la familia
adecuada para el ajuste son grficas.
Con el mtodo de mnimos cuadrados generalizados estimamos los parmetros del
modelo lineal.
De acuerdo al mtodo elegimos un que minimice la expresin

. ( ) ( ) ) ( 2 2 ) ( 2 2
* * 1


V
t


Siendo ) 2 var(
)
V , la matriz de varianzas y covarianzas. Como esta expresin
puede resultar complicada para minimizar Cressie propone una expresin asinttica para
) ( V aproximando los trminos de la diagonal por

{ } )) ( ( 2 ))... 1 ( ( 2 ( var
* *
k h h diag

{ } )) ( ( / ) ); ( ( 2 2 )) ( ( 2 var(
2
*
j h N j h j h

de este modo se emplea el mtodo de mnimo cuadrados pesados como una
aproximacin al mtodo de mnimos cuadrados generalizados.
La expresin a minimizar resulta

'

k
j
) ); j ( h (
)) j ( h (
)) j ( h ( N
1
2
1

)


donde es el estimador del variograma obtenido de acuerdo a las propuestas de
Matheron o de Cressie, y es el modelo terico seleccionado.


Los valores obtenidos fueron
21 . 0 48 . 12 20 . 0
0
Rango c c
s


Tcnica del Pulido de Medianas

Supongamos que: ) ( ) ( ) ( s s s Z +
La tendencia puede expresarse: y x y x s
2 1 0
) , ( ) ( + +
Supongamos que la distribucin del error es simtrico { } ) (s
Entonces: )
~
( ) (
) ( ) ( j j
Z E Z E
Donde
) ( j
Z ,
) ( ~ j
Z es el promedio y mediana respectivamente, de las variables
observadas.
A partir de los datos grillados tendremos:

'

+ +

q l p k q l p k
q l p k Z
Y
kl
kl
,..., 1 , 1 ), 1 ( , ,..., 1 0
,... 1 ; ,..., 1
) 0 (

El Algoritmo resulta:

{
1 ,..., 1 }, ,..., 1 , {
1 ,..., 1 , ,..., 1 }, ,..., 1 , {
1 ,..., 1 }, ,..., 1 , {
,..., 1 , 1 ,..., 1 }, ,..., 1 ,
) 1 ( ) 1 (
) 1 (
) 1 (
) 1 (
) 1 ( ) 1 (
) 1 (
) 1 (
) 1 (
) 1 ( ) 1 (
) 1 ( ) 1 ( ) (
+ +
+
+ +
+

+
+
+
+

+ +

q l p k Y med Y Y
q l p k p k Y med Y Y
p k q l Y med Y Y
q l p k q l Y med Y Y
i
kl
i
l p
i
l p
i
kl
i
kl
i
kl
i
q k
i
q k
i
q k
i
kl
i
kl
i
kl

donde ,.... 2 , 1 i hasta que el proceso converge
q l p k Y c r a Z
kl l kl k
,... 1 , ,... 1 ;
~ ~ ~
) (
+ + +


q l p k Y c Y r Y a
l p l q k k q p
,..., 1 , ,..., 1 ;
~
,
~
,
~
) (
) 1 (
) (
) 1 (
) (
) 1 )( 1 (


+

+ +


Los residuos que se obtienen a partir de esta tcnica se observan en el grfico
siguiente:


A partir de estos residuos se estim el variograma experimental y se ajust
nuevamente un modelo lineal al mismo. Dando los siguientes resultados:

27 . 0 43 . 3 33 . 0
0
Rango c c
s



Propuestas de trabajo futuro

Estimar la matriz de varianzas y covarianzas de acuerdo a la expresin

( ) [ ] [ ]
j i j i
s s s Z s Z (

) ( ), ( v o c

2


Y volver a estimar nuevamente


( ) ( )Z X X X
T T 1
1
1





Bibliografa


1. Cressie, N. Statistics for Spatial Data. Ed. John Wiley & Sons, Inc. 1993.

2. Smith, R. Environmental Statistics. Departamento de Estadstica de Universidad de
Carolina del Norte, febrero 1998.

3. Armstrong, M. Basic Linear Geostatistics, Springer, 1998.

Você também pode gostar