Você está na página 1de 49

GEOESTADISTICA

Teora y Prctica


Aplicacin en la Caracterizacin de
Yacimientos

Bogot, Febrero 2010





2
GEOESTADISTICA
Aplicacin en la Caracterizacin
de Yacimientos






Ramn Giraldo H.
PhD Estadstica
Universidad Nacional de Colombia


3

Contenido

I ntroduccin

1. Anlisis Exploratorio de Datos Espaciales

1.1 Datos Espaciales
1.2 Tipos de Variables y Escalas de Medida
1.3 Medidas Descriptivas
1.4 Grficos Exploratorios


2. Definiciones Bsicas de Geoestadstica

2.1. Definicin y Origen de la Geoestadstica
2.2. Variable Regionalizada
2.3. Estacionariedad Fuerte e Intrnseca
2.4. Isotropa
2.5. Ejemplo.

3. Dependencia o Correlacin Espacial

3.1 . Funciones de Correlacin Espacial
3.1.1. Variograma y Semivariograma
3.1.2. Covariograma
3.1.3. Correlograma
3.1.4. Semivariograma experimental
3.2. Modelos Tericos de Semivarianza
3.3. Ejemplo.






4
4. Prediccin Espacial

4.1. Prediccin Espacial Optima
4.2. Mtodos Kriging
4.2. Kriging Ordinario
4.3. Kriging Indicador
4.4. Cokriging Ordinario
4.5. Ejemplo.

5. Apndice

5.1 lgebra de Matrices
5.2. Conceptos Estadsticos Bsicos
5.2 Regresin y Mnimos Cuadrados.

6. Aplicaciones a Datos Reales

6.1. Aplicacin en ssmica
6.2 Aplicacin con informacin de pozos

7. Bibliografa.







5

I ntroduccin


La necesidad de acudir a herramientas estadsticas para el anlisis de datos en todas
las reas del conocimiento, ha hecho que aparezcan con el correr de los aos nuevas
metodologas que, no obstante se centran en fundamentos probabilsticos comunes, son
especficas para cada una de las diversas disciplinas del saber. Algunos ejemplos son, entre
otros, minera, geologa y geofsica. La gran relevancia que tiene a nivel mundial el tema
de la caracterizacin de reservorios ha hecho que los profesionales en estadstica encaminen
esfuerzos en el desarrollo de nuevas tcnicas apropiadas para el anlisis de informacin
enmarcada dentro de este contexto. Dentro de este los mtodos geoestadsticos juegan un
papel preponderante.
La geoestadstica permite cuantificar la incertidumbre y especificar la forma en que
sta vara en el espacio-tiempo. Uno de sus campos de aplicacin es la caracterizacin de
reservorios, que involucra un conjunto de mtodos probabilsticos, cuyo objetivo es definir
el modelo ms probable de un reservorio, con sus formas de cuerpos, heterogeneidades
petrofsicas, geometra estructural y caracterizacin paleoambiental. Los yacimientos
poseen pozos irregularmente distribuidos en funcin de cmo haya sido la historia de su
desarrollo. Cuando una empresa decide llevar adelante una tarea de perforacin necesita
conocer qu chances va a tener de encontrar crudo y eso implica minimizar las incertezas
que se desprenden de la falta de homogeneidad de los cuerpos. De esta forma, las
posibilidades de hallar el recurso buscado aumentan o disminuyen segn cules sean las
condiciones de porosidad y permeabilidad, entre otros factores. Ah es donde entra la
geoestadstica, por ser una herramienta que permite predecir en un punto qu valor
aproximado se va a tener de una determinada propiedad, y qu incertidumbre asociada se
tiene a esa predicin, que combinada con la geofsica de reservorio permite integrar la
informacin de pozos y el dato ssmico a fin de determinar nuevas locaciones para drenar
las zonas saturadas.
En el documento se presentan las definiciones y los conceptos tericos y en el
desarrollo del curso se harn aplicaciones con datos geofsicos reales (captulo 6 no
incluido en el docuemnto). Para el seguimiento completo de la teora descrita se requiere
tener conocimientos bsicos de lgebra de matrices y de estadstica matemtica. Sin
embargo aquellas personas que estn poco familiarizadas con estos temas, podrn obviar la
lectura de algunas secciones en las que se hacen desarrollos tericos y centrar su atencin
en la filosofa de los mtodos presentados y en las aplicaciones mostradas en cada uno de
los captulos del documento. Un resumen no exhaustivo de conceptos de lgebra lineal y
de estadstica es hecho al final en el apndice. Aunque en el texto se cubren a manera de
introduccin diversos temas geoestadsticos y se hacen aplicaciones de mtodos recientes,
es necesario acudir a la lectura de artculos cientficos y textos formales para lograr un
buen dominio de esta metodologa.
6


Capitulo Uno

Anlisis Exploratorio de Datos Espaciales

1.1. Datos Espaciales.

Las mediciones de las caractersticas de inters en un estudio regionalizado tienen
implcitamente asociadas las coordenadas geogrficas de los sitios en donde estas fueron
tomadas. Generalmente cuando el rea de estudio es considerablemente grande se usa un
geoposicionador para establecer dichas coordenadas. En otros casos es suficiente con hacer
asignaciones segn planos cartesianos. Un esquema general de datos georreferenciados
(datos espaciales) es el siguiente:
Sitio

Latitud
Norte
Longitud
Este

Var. 1 Var. 2 . . . Var. p
1

X
11
X
12
. . . X
1p

2

X
21
X
22
. . . X
2p

3

X
31
X
32
. . . X
3p

4

X
41
X
42
. . . X
4p

.

. . . . . .
.

. . . . . .
.

. . . . . .
n

X
n1
X
n2
. . . X
np


En la tabla anterior n es el nmero de sitios muestreados y p el de variables medidas en
cada uno de ellos. Cada X
ij
corresponde a una medida de una variable (variable j) que
puede ser numrica (discreta o continua) o categrica (ordinal o nominal). En general la
metodologa geoestadstica trabaja con datos correspondientes a variables numricas.
Algunas de las variables pueden estar ms intensamente muestreadas que las otras (X
ij

faltantes). Las coordenadas pueden ser planas, geogrficas (grados, minutos y segundos) o
cartesianas. Sin embargo la posible utilizacin de unas u otras depende del software
empleado para los anlisis.

1.2. Tipos de Variables y Escalas de Medida

Existen distintas categoras para las variables y se han propuesto numerosas clasificaciones
para expresar su variabilidad. Las dos ms comunes son: 1) De doble estado o binarias,
que son aquellos que pueden tomar slo dos valores, p.ej. los datos de presencia o ausencia
de un mineral. 2) De Multiestado, que son aquellas en que las medidas pueden tomar tres o
7
ms valores, stas pueden ser Cualitativas o Cuantitativas, y presentan diferentes escalas
de medida (Digby & Kempton, 1992).
1.2.1 Variables Cualitativas

Son aquellos que expresan cualidades no mensurables y se dividen en cualitativas sin
secuencia lgica y cualitativas con secuencia lgica dependiendo de su escala de medida.
Las posibles escalas de medida de las variables cualitativas son:
a) Escala Nominal: Se presenta cuando las observaciones de la variable no pueden ser
ordenadas en una secuencia de grados del atributo. Esta es la escala ms simple de
medida, p. ej. pocas climticas (seco, lluvioso), sitios geogrficos, etc.
b) Escala Ordinal: Se presenta cuando las mediciones pueden ser ordenadas de menor a
mayor o viceversa, pero las distancias entre los elementos ordenados no tienen ningn
sentido fsico y si lo tienen, no son iguales a todo lo largo de la escala, p.ej. tipo de
grano (arcilla, limo), dureza de un mineral .
1.2.2. Variables Cuantitativas

Expresan magnitudes o cantidades, que son el resultado de mediciones de algn
instrumento, conteos de eventos o de operaciones matemticas simples. Estos pueden ser:
1.2.2.1. Variables Discretas: Son aquellas que representan cantidades expresables slo
por un nmero finito de valores en la escala real, generalmente las que slo pueden tomar
valores enteros, sin fracciones.

1.2.2.2. Variables Continuas: Son aquellas en los que existe potencialmente un nmero
infinito de valores entre dos puntos de la escala. Pueden ser datos enteros o fraccionarios,
p. ej. Caractersticas fsicas o qumicas.

1.2.2.3. Variables Derivadas: Son aquellas en que los datos son generados a partir de
clculos simples entre medidas de variables cuantitativas o cualitativas, p. ej. ndices, tasas,
proporciones, etc.

Las variables continuas tienen dos posibles escalas de medida, estas son :
a) Escala de Intervalo: Es una escala ordinal en donde las distancias tienen un sentido
fsico igual a todo lo largo de la escala, pero el punto de valor cero es fijado
arbitrariamente, p. ej. el tiempo (el tiempo inicial (t
0
) puede ser cualquier momento), la
altitud (cero se refiere al nivel del mar) y la temperatura en grados Celsius en la que por
ejemplo el valor de cero grados no indica ausencia de calor o de agitacin de molculas y
por consiguiente no es posible afirmar que un cuerpo de 20 grados tiene el doble de calor
que uno de 10.
b) Escala de Razn: Es una escala de intervalo en la que no hay que fijar un cero
arbitrario, entonces el resultado de dividir o multiplicar un valor de la escala por otro tiene
un sentido fsico, p. ej. Las variables qumicas.


8



1.3.Medidas Descriptivas.

Siempre que se va a realizar un anlisis estadstico, es conveniente realizar un estudio
exploratorio de los datos. Esto implica establecer si los datos estn muy agrupados o
muy dispersos, cual es el punto representativo de la agrupacin y si hay
observaciones muy alejadas de las restantes. Estos aspectos se tratan a continuacin:
1.3.1. Medidas de Localizacin

Estas medidas indican alrededor de que valor se agrupan los datos, generando valores
representativos de las observaciones (tabla 1).
a) Media: Es el promedio aritmtico de las observaciones y una medida representativa
cuando no hay valores muy extremos en los datos, porque en esos casos es afectada por
ellos, corrindose hacia un lado de la distribucin.
b) Mediana: Se define como el valor de la variable que supera el 50 % de las
observaciones y es superado por el restante 50 %. Esta medida tiene en cuenta slo el
orden de los datos ms no su magnitud, por esto no se deja afectar por los valores
atpicos (extremos) y puede ser ms representativa que la media en muchos casos.
c) Cuantilas: Particionan en intervalos de igual amplitud la distribucin. Particularmente
los cuartiles (Q
i
, i=1,2,3) son de gran utilidad, como se ver ms adelante, en la
deteccin de observaciones atpicas


Tabla 1. Medidas de localizacin con sus respectivos clculos muestrales
Medida

Clculo.
Media
n
x
x
n
1 i
i
=
=

Mediana Estadsticas de orden:
x x x x
n ( ) ( ) ( ) ( )
...
0 1 2
s s s s

Si n impar
2 / ) 1 n (
x x
~
+
=

Si n par
2
x x
x
~
) 1 2 / n ( 2 / n +
+
=

Cuantilas
(Cuartiles, Deciles,
etc)

Similar a la mediana pero se divide
sobre 4 en el caso de cuartles o sobre
10 en los Deciles.


9


1.3.2. Medidas de Variabilidad

Indican cuanto se alejan o dispersan los datos con respecto a las medidas de localizacin o
el grado de homogeneidad de los mismos (tabla 2).
a) Varianza: Es una medida de la dispersin en la distribucin de probabilidad de una
variable aleatoria, expresada en unidades cuadradas.
b) Desviacin Estndar: Indica en promedio cunto se alejan las observaciones de la
media aritmtica; est dada en las mismas unidades de la variable, a diferencia de la
varianza.
c) Coeficiente de Variacin (C.V.): Es una medida relativa de variabilidad y, en
general, se acepta que un conjunto de datos es relativamente homogneo si el C.V. es
menor del 30%, aunque algunos autores refutan este concepto.
d) Rango y Rango Intercuartlico: Representan el recorrido de la variable y la distancia
entre los cuartles, respectivamente. Son tiles cuando se comparan dos o ms
distribuciones.

Tabla 2. Medidas de variabilidad con sus respectivos clculos muestrales
Medida

Clculo
Varianza
( )
S
x X
n
i
i
n
2
2
1
1
=



Desviacin Estndar
S S =
2

Error Estndar

n
S
E . E
2
=
Coeficiente de Variacin
x
~
S

Rango X
mx
- X
min


Rango entre Cuartles

Q Q
3 1


1.4. Grficos Exploratorios

A continuacin se presentan algunos grficos que resumen la informacin de un conjunto
de datos, indicando aparte de las medidas de localizacin y variabilidad, aspectos
importantes como la deteccin de observaciones atpicas.

10


a). Histogramas

Un histograma es un conjunto de rectngulos, cada uno de los cuales representa un
intervalo de agrupacin o clase. La base de cada rectngulo es igual a la amplitud del
intervalo, y la altura es proporcional a la frecuencia (absoluta o relativa) de cada clase.
Para obtener una buena representacin de las frecuencias de las observaciones, se
recomienda calcular 2 n como el nmero aproximado de intervalos, sin embargo se debe
tener en cuenta que esto depende de la variable estudiada y no es una regla que se debe
seguir siempre (Pea, 1987).
b). Diagrama de Caja

Este diagrama resume un conjunto de observaciones univariadas, suministrando un anlisis
exploratorio de los datos, til para estudiar simetra, supuestos distribucionales y detectar
observaciones atpicas (Hoaglin et al., 1983).
El grfico (Fig. 1) divide los datos en cuatro reas de igual frecuencia. La caja central
encierra el 50%, tomando la lnea vertical como la mediana. La lnea horizontal va desde el
primer cuartl hasta menos 1.5 veces el rango intercuartlico del primer cuartl, y desde el
tercer cuartl hasta mas 1.5 veces el rango intercuartlico del tercer cuartl. Los puntos que
estn por fuera de la lnea horizontal se consideran puntos afuera y en algunos casos cuando
estn a ms de tres veces del rango entre cuartiles se consideran como puntos muy afuera o
muy alejados




Q
1
- 1.5R.I Q
1
Me Q
3
Q
3
+ 1.5 R.I
Figura 1. Representacin de un diagrama de caja.

c). Diagrama de Tallos y Hojas

El diagrama de tallos y hojas de Tukey es una forma semi-grfica de presentar la
informacin para variables cuantitativas, especialmente cuando el nmero total de datos es
pequeo (menor que 50). Los principios para construirlo son:
- Redondear los datos a dos o tres cifras significativas, expresndolos en unidades
convenientes.
- Disponerlos en una tabla con dos columnas separadas con una lnea como sigue:
- Para datos con dos dgitos, escribir a la izquierda de la lnea los dgitos de las decenas,
formando as el tallo, y a la derecha las unidades que sern las ramas. Por ejemplo 87 se
escribir 8|7.
11
- Para datos con tres dgitos el tallo estar formado por los dgitos de las decenas y
centenas, que se escribirn a la izquierda, separados de las unidades. Por ejemplo, 127
ser 12|7.
- Cada tallo define una clase y slo se escribe una vez. El nmero de hojas representa la
frecuencia de dicha clase (Figura a) de abajo). En algunas ocasiones, hay muchas
observaciones en cada fila y conviene abrir cada tallo en dos, y en algunas otras es
posible abrir cada fila en 5 clases (Figura b) de abajo). Las observaciones afuera y muy
afuera del diagrama de caja son indicadas en el diagrama de caja con las expresiones
bajo y alto (ver figura 4, seccin 1.6).


a) 11 34 b) 11* 0011223333444
12 24577 11 55567777788888999
13 345 12* 1112333344
14 27 12 55567789
15 2 13* 00123
16 1 13 6678
14* 22

d). Grfico de Datos Clasificados en Intervalos

Una clasificacin de los datos en intervalos de clase, definidos por smbolos, dentro del
rea de estudio, es til en la identificacin de posibles tendencias en los valores de la
variable, de zonas con mayor o menor magnitud o de observaciones extremas (ver figura 5
en la seccin 1.6)
1.5. Relacin entre variables
a). Covarianza y Correlacin.

La covarianza mide la variabilidad conjunta de dos variables. Es una extensin de la
varianza al caso bidimensional:
n
) Y Y )( X X (
) Y , X ( COV
n
1 i
i i
=

=


El coeficiente de correlacin mide el grado de asociacin lineal que existe entre dos
variables X y Y. Se calcula mediante:

= =
=


= =
n
1 i
2
i
n
1 i
2
i
n
1 i
i i
y x
) y y ( ) x x (
) y y )( x x (
S S
) Y , X ( COV
r



12
El coeficiente de correlacin es un nmero en el intervalo [-1, 1]. Un valor de r = -1
indica una relacin lineal negativa perfecta entre X y Y , mientras que una valor de r = 1
sealar una asociacin positiva perfecta de X y Y. Si r = 0, entonces se concluir que no
existe ninguna relacin lineal entre X y Y.

b) Grficos de Dispersin.

Son muy tiles tanto para la deteccin de relaciones entre las variables como para la
identificacin de tendencias en el valor promedio de la variable en la regin (relacin entre
la variable medida y las coordenadas geogrficas). Un supuesto fundamental en el anlisis
geoestadstico es que el fenmeno sea estacionario, para lo cual, entre otros aspectos, el
nivel promedio de la variable de estudio debe ser constante en todos los puntos del rea de
estudio. Una deteccin de tendencia en el grfico de dispersin puede ser una muestra de
que no se satisface dicho supuesto. El grfico se construye tomando como eje de las abcisas
la variable que representa la coordenada geogrfica (latitud o longitud) y en el eje de las
ordenadas la variable cuantitativa de estudio. La observacin de la nube de puntos
resultante o incluso el ajuste de una lnea de regresin (Fox, 1984), permiten establecer si
existe dicha tendencia.
13

Capitulo Dos

Definiciones Bsicas de Geoestadstica

2.1. Origen y Definicin de Geoestadstica
Los orgenes de la geoestadstica se encuentran en el campo de la minera. Como
antecedentes suelen mencionarse trabajos de Sichel (1947; 1949) (citado en Samper &
Carrera, 1990) y Krige (1951). El primero observ la naturaleza asimtrica de la
distribucin del contenido de oro en las minas surafricanas, la equipar a una distribucin
de probabilidad lognormal y desarroll las frmulas bsicas para esta distribucin. Ello
permiti una primera estimacin de las reservas, pero bajo el supuesto de que las
mediciones eran independientes, en clara contradiccin con la experiencia de que existen
zonas ms ricas que otras. Una primera aproximacin a la solucin de este problema fue
dada por gelogo G. Krige que propuso una variante del mtodo de medias mviles, el cual
puede considerarse como el equivalente al krigeado simple que, como se ver ms adelante,
es uno de los mtodos de estimacin lineal en el espacio con mayores cualidades tericas.
La formulacin rigurosa y la solucin al problema de estimacin vino de la mano de
Matheron (1962). En los aos sucesivos la teora se fue depurando, ampliando su campo de
validez y reduciendo las hiptesis necesarias (Samper & Carrera, 1990).
De la minera las tcnicas geoestadsticas, se han "exportado" a muchos otros campos como
hidrologa, fsica del suelo, ciencias de la tierra y ms recientemente al monitoreo
ambiental y al procesamiento de imgenes de satlite.
La geoestadstica es una rama de la estadstica que trata fenmenos espaciales (Journel &
Huijbregts, 1978). Su inters primordial es la estimacin, prediccin y simulacin de dichos
fenmenos (Myers, 1987). Esta herramienta ofrece una manera de describir la continuidad
espacial, que es un rasgo distintivo esencial de muchos fenmenos naturales, y proporciona
adaptaciones de las tcnicas clsicas de regresin para tomar ventajas de esta continuidad
(Isaaks & Srivastava, 1989). Petitgas (1996), la define como una aplicacin de la teora de
probabilidades a la estimacin estadstica de variables espaciales.
La modelacin espacial es la adicin ms reciente a la literatura estadstica. Geologa,
ciencias del suelo, agronoma, ingeniera forestal, astronoma, o cualquier disciplina que
trabaja con datos colectados en diferentes locaciones espaciales necesita desarrollar
modelos que indiquen cuando hay dependencia entre las medidas de los diferentes sitios.
Usualmente dicha modelacin concierne con la prediccin espacial, pero hay otras reas
importantes como la simulacin, el diseo muestral y los modelos en enmallados (lattices)
(Cressie, 1989).
Cuando el objetivo es hacer prediccin, la geoestadstica opera bsicamente en dos etapas.
La primera es el anlisis estructural, en la cual se describe la correlacin entre puntos en el
espacio. En la segunda fase se hace prediccin en sitios de la regin no muestreados por
medio de la tcnica kriging (capitulo 4). Este es un proceso que calcula un promedio
ponderado de las observaciones muestrales. Los pesos asignados a los valores muestrales
14
son apropiadamente determinados por la estructura espacial de correlacin establecida en la
primera etapa y por la configuracin de muestreo (Petitgas, 1996).
Los fundamentos bsicos de estas etapas son presentados a continuacin. Se realiza
tambin una revisin del caso en que se miden simultneamente varias variables en cada
sitio de muestreo y se desea hacer prediccin de una de ellas con base en informacin de las
otras. En este caso la tcnica de prediccin es conocida como cokriging (capitulo 4).
Algunos temas especiales como el diseo de una red de muestreo ptima, en trminos de
varianza de prediccin y costos, y el anlisis de componentes principales regionalizado
tambin sern estudiados (capitulo 5).

2.2. Variable Regionalizada.

Una variable distribuida en el espacio de forma que presente una estructura de correlacin,
se dice que es una variable regionalizada. De manera ms formal se puede definir como un
proceso estocstico con dominio contenido en un espacio euclidiano m-dimensional R
m
,
{Z(x) : x e D c R
m
}. Si m = 2, Z(x) puede asociarse a una variable medida en un punto x
del plano (Daz-Francs, 1993). En trminos prcticos Z(x) puede verse como una medicin
de una variable aleatoria (por ejemplo concentracin de un contaminante) en un punto x de
una regin de estudio.
Recurdese que un proceso estocstico es una coleccin de variables aleatorias indexadas;
esto es, para cada x en el conjunto de ndices D, Z(x) es una variable aleatoria. En el caso
de que las mediciones sean hechas en una superficie (slo se tengan longitud y latitud como
coordenadas), entonces Z(x) puede interpretarse como la variable aleatoria asociada a ese
punto del plano (x representa las coordenadas, planas o geogrficas, y Z la medicin de la
variable en cada una de ellas). Estas variables aleatorias pueden representar la magnitud de
una variable ambiental medida en un conjunto de coordenadas de la regin de estudio.
2.3. Estacionariedad
2.3.1. Estacionariedad de Segundo Orden

Sea {Z(x) : x e D c R
m
} una variable regionalizada definida en un dominio D contenido
en R
m
(generalmente una variable medida en la superficie de una regin) se dice que Z(x)
es estacionario de segundo orden si cumple (Daz-Francs, 1993):
a. E [ Z(x)] = k, ke R, x e D c R
m
.

El valor esperado de la variable aleatoria es finito y es una constante para todo punto
en el dominio (el valor promedio es igual en todo punto de la regin).
b. COV [ Z(x) , Z(x+h)] = C(h) <

Z (x) tiene covarianza finita y es una funcin nica del vector de separacin h entre
cada pareja de puntos.
15
Obviando la direccin de variacin, el supuesto de estacionariedad en la media puede ser
estudiado a travs de un grfico del promedio en funcin de la distancia (Fig. 5).

16
17
18
19
0 10000 20000 30000
Distancia (m)
V
a
l
o
r

P
r
o
m
e
d
i
o
.

Figura 5. Grfico de dispersin de valores promedios de una variable simulada en funcin
de la distancia entre puntos de muestreo

La figura anterior fue elaborada con base en simulacin. Se generaron datos de una variable
hipottica con valores uniformemente distribuidos entre 16 y 19. Luego estos fueron
asignados aleatoriamente a las coordenadas dadas en la matriz del anexo. En el proceso de
elaboracin de la figura se tomaron vecindades, se calcul la media y la distancia
euclidiana promedio entre las correspondientes coordenadas dentro de la vecindad. El
grfico corresponde a la nube de puntos de las dos variables. Se puede establecer que el
valor promedio est fluctuando alrededor de un valor entre 17 y 18 y que por consiguiente
la media no tiene ninguna tendencia de cambio en funcin de la distancia existente entre los
puntos de muestreo.

2.3.2. Estacionariedad Dbil

Generalmente se trabaja slo con la hiptesis que pide que los incrementos [Z(x+h)- Z(x)]
sean estacionarios, esto es (Clark, 1979):
a. Z(x) tiene esperanza finita para todo punto en el dominio. Lo que implica que la
esperanza de los incrementos es cero.
E [ Z(x+h) - Z(x)] = 0
b. Para cualquier vector h, la varianza del incremento est definida y es una funcin nica
de la distancia.
V [ Z(x+h) - Z(x)] = 2 (h)


16
El concepto de estacionariedad es muy til en la modelacin de series temporales (Box &
Jenkins, 1976). En este contexto es ms fcil la identificacin, puesto que slo hay una
direccin de variacin (el tiempo). En el campo espacial existen mltiples direcciones y por
lo tanto se debe asumir que en todas el fenmeno es estacionario. Cuando el nivel promedio
de la variable no es el mismo en todas las direcciones o cuando la covarianza o correlacin
dependan del sentido en que se determinan, no habr estacionariedad. Si la correlacin
entre los datos no depende de la direccin en la que esta se calcule se dice que el fenmeno
es isotrpico, en caso contrario se hablar de anisotropa. En Journel & Huijbregts
(1978), se trata el caso de la anisotropa y se proponen algunas soluciones. Cressie (1986)
discute cual debe ser el tratamiento en caso de que la media no sea constante.
17
Capitulo Tres

Dependencia o Correlacin Espacial

3.1. Funciones de Correlacin Espacial
La primera etapa en el desarrollo de un anlisis geoestadstico es la determinacin de la
dependencia espacial entre los datos medidos de una variable. Esta etapa es tambin
conocida como anlisis estructural. Para llevarla a cabo, con base en la informacin
muestral, se usan tres funciones: El semivariograma, el covariograma y el correlograma
experimental. A continuacin se hace una revisin de los conceptos asociados a cada una
de ellas y se describen sus bondades y limitaciones.
3.1.1. Variograma y Semivariograma.

Representa la varianza de los incrementos de la variable regionalizada y se denota por
2(h). De acuerdo con lo anterior utilizando la definicin terica de la varianza en trminos
del valor esperado de una variable aleatoria, tenemos:

( )
( ) ( ) ( )
( )
2
2
0
2
2
( ) ( ) ( )
( ) ( ) ( ) ( )
( ) ( ) .
h V Z x h Z x
E Z x h Z x E Z x h Z x
E Z x h Z x
= +
= +
|
\

|
.
|
+
= +
|
\

|
.
|
_


La mitad del variograma ( (h)), se conoce como la funcin de semivarianza y caracteriza
las propiedades de dependencia espacial del proceso. Dada una realizacin del fenmeno,
la funcin de semivarianza es estimada por medio del semivariograma experimental, que se
calcula mediante (Wackernagel, 1995):
( )
( )
( ) ( )
( )
h
Z x h Z x
n h
=
+

2
2



donde Z (x) es el valor de la variable en un sitio x, Z (x+h) es otro valor muestral separado
del anterior por una distancia h y n(h) es el nmero de parejas que se encuentran separadas
por dicha distancia.



18
3.1.2. Covariograma y Correlograma.

De acuerdo con la frmula de la covarianza dada en el capitulo uno, la funcin de
covarianza espacial entre parejas de observaciones que se encuentran a una distancia h est
dada, con base en los datos muestrales, por:

( )
( )
COV Z x h Z x
Z x h m Z x m
n
Z x h Z x
n
m C h
i
n
i
n
( ), ( )
( ( ) )( ( ) )
( ) ( )
( )
+ =
+
=
+ -
=
=
=

1
1 2


donde m, si el proceso es estacionario de segundo orden, representa el valor promedio en
todo punto de la regin de estudio y n es el nmero de parejas de puntos que se encuentran
a una distancia h.
De otro lado para determinar la frmula del correlograma, dado que se conoce el
covariograma, slo faltara establecer las desviaciones estndar en cada punto del dominio.
Sin embargo, si el fenmeno es estacionario, stas al igual que la media son constantes y
por consiguiente:
r h
COV Z x h Z x
S S
C h
S
C h
V Z x
C h
C
x h x
x
( )
( ( ), ( )) ( ) ( )
( ( ))
( )
( )
=
+

= = =
+
2
0


Cualquiera de las tres funciones de dependencia espacial mencionadas, es decir
semivariograma, covariograma o correlograma, puede ser usada en la determinacin de la
relacin espacial entre los datos. Sin embargo como se puede observar en las frmulas, la
nica que no requiere que la media del proceso (m) sea conocida, es la funcin de
semivarianza. Por esta razn, fundamentalmente, en la prctica se emplea el
semivariograma y no las otras dos funciones.
A continuacin se presenta un ejemplo ilustrativo del clculo de la funcin de semivarianza
experimental
Ejemplo. Suponga que se tienen medidas sobre una variable hipottica cuyos valores estn
comprendidos entre 28 y 44 unidades y su configuracin en la regin de estudio es como se
presenta en el esquema de la siguiente pgina. Como se indica en la representacin, la
distancia entre cada par de puntos contiguos es de 100 unidades. Luego si existe un punto
faltante la distancia entre los dos valores ubicados a cada lado de ste ser de 200 unidades.
Veamos como calcular bajo esta situacin el semivariograma experimental. Por simplicidad
se calcularn slo los semivariogramas en sentido occidente-oriente (izquierda-derecha)
y sur-norte(inferior-superior), debido a que para obtener un semivariograma experimental
en el que slo se tenga en cuenta la distancia y no la orientacin, se requerira calcular la
distancia euclidiana entre todas las parejas de puntos.

19

44

40 42 40 39 37 36
42

43 42 39 39 41 40 38
37

37 37 35 38 37 37 33 34
35

38 35 37 36 36 35 200
36

35 36 35 34 33 32 29 28
38 37 35 30 29 30 32
100

En primer lugar en sentido izquierda-derecha se encuentran todas las parejas de puntos que
estn a una distancia de 100 unidades. Una vez detectados estos puntos se aplica la frmula
del semivariograma experimental. De igual forma se procede para las distancias de 200,
300, 400 y 500 unidades. Especficamente en el caso de las distancias de 100 y 200
unidades se realiza la siguiente operacin:
(100) = (38 - 37)
2
+ (37 - 35)
2
+ (29 - 30)
2
+ ... + (37 - 36)
2
/2* 36 = 1.458
(200) = (40 - 44)
2
+ (40 - 40)
2
+ (42 - 39)
2
+ ... + (29 - 32)
2
/2* 36 = 3.303

Similarmente procedemos para las otras distancias y para el sentido inferior-superior. Los
resultados se muestran en la siguiente tabla.
Tabla 5. Valores de la funcin de semivarianza experimental en dos direcciones para el
conjunto de datos hipotticos de la configuracin de datos dada arriba.
Distancia Semivarianza Sentido Este - Oeste Semivarianza Sentido Norte - Sur
100 1.45 5.34
200 3.30 9.87
300 4.31 18.88
400 6.69 27.53

Al graficar los valores de la funcin de semivarianza experimental dados en la tabla
anterior (Fig. 8) se observa que en sentido inferior-superior el semivariograma es mayor
que en sentido izquierda-derecha, luego la conclusin ms relevante para este conjunto de
datos es que la estructura de correlacin espacial no slo depende de la distancia entre las
observaciones, sino de su orientacin. En otras palabras el fenmeno es anisotrpico
(debido a que el sill en las dos direcciones es distinto existe anisotropa zonal; Samper &
Carrera, 1990)
20
Semivariogramas Experimentales
0
5
10
15
20
25
30
100 200 300 400
Distancia
S
e
m
i
v
a
r
i
a
n
z
a
Norte-Sur
Este-Oeste

Figura 8. Funcin de semivarianza experimental en dos direcciones para el conjunto de
datos hipotticos del ejemplo de esta seccin.

3.2. Modelos Tericos de Semivarianza.

Existen diversos modelos tericos de semivarianza que pueden ajustarse al semivariograma
experimental (funcin de semivarianza calculada con los datos muestrales). En Samper &
Carrera (1990) se presenta una discusin respecto a las caractersticas y condiciones que
stos deben cumplir. En general dichos modelos pueden dividirse en no acotados (lineal,
logartmico, potencial) y acotados (esfrico, exponencial, gaussiano) (Warrick et al.,
1986). Los del segundo grupo garantizan que la covarianza de los incrementos es finita, por
lo cual son ampliamente usados cuando hay evidencia de que presentan buen ajuste. Los
parmetros bsicos de estos modelos son el efecto pepita, la meseta y el rango (David,
1977).Antes de estudiar los modelos usados para ajustar los semivariogramas
experimentales se definirn dichos parmetros:
Efecto Pepita

Se denota por C
0
y representa una discontinuidad puntual del semivariograma en el origen.
Puede ser debido a errores de medicin en la variable o a la escala de la misma. En algunas
ocasiones puede ser indicativo de que parte de la estructura espacial se concentra a
distancias inferiores a las observadas.
Meseta

Es la cota superior del semivariograma. Tambin puede definirse como el limite del
semivariograma cuando la distancia h tiende a infinito. La meseta puede ser o no finita. Los
semivariogramas que tienen meseta finita cumplen con la hiptesis de estacionariedad
fuerte; mientras que cuando ocurre lo contrario, el semivariograma define un fenmeno
natural que cumple slo con la hiptesis intrnseca. La meseta se denota por C
1
o por (C
0
+
C
1
) cuando la pepita es diferente de cero. Si se interpreta la pepita como un error en las
mediciones, esto explica porque se sugiere que en un modelo que explique bien la realidad,
la pepita no debe representar mas del 50% de la meseta. Si el ruido espacial en las
21
mediciones explica en mayor proporcin la variabilidad que la correlacin del fenmeno,
las predicciones que se obtengan pueden ser muy imprecisas.
Rango

Es la distancia a partir de la cual dos observaciones son independientes. El rango se
interpreta como la zona de influencia. Existen algunos modelos de semivariograma en los
que no existe una distancia finita para la cual dos observaciones sean independientes; por
ello se llama rango efectivo a la distancia para la cual el semivariograma alcanza el 95% de
la meseta. Entre ms pequeo sea el rango, ms cerca se esta del modelo de independencia
espacial. El rango no siempre aparece de manera explcita en la frmula del
semivariograma. En el caso del modelo esfrico (3.2.1), el rango coincide con el parmetro
a, que se utilizar en las ecuaciones ms adelante. Sin embargo, en el modelo exponencial
(3.2.2), el rango efectivo es a/3 y en el modelo gaussiano (3.2.3) es a/3.
3.2.1. Modelo Esfrico

Tiene un crecimiento rpido cerca al origen (Fig. 9), pero los incrementos marginales van
decreciendo para distancias grandes, hasta que para distancias superiores al rango los
incrementos son nulos. Su expresin matemtica es la siguiente:
( ) h
C
h
a
h
a
h a
C h a
=
|
\

|
.
|

|
\

|
.
|
|
\

|
.
|
|
s
>

1
3
1
3
2
1
2


En donde C
1
representa la meseta, a el rango y h la distancia.
3.2.2. Modelo Exponencial

Este modelo se aplica cuando la dependencia espacial tiene un crecimiento exponencial
respecto a la distancia entre las observaciones. El valor del rango es igual a la distancia para
la cual el semivariograma toma un valor igual al 95% de la meseta (Fig. 9). Este modelo es
ampliamente usado. Su expresin matemtica es la siguiente:
( ) exp h C
h
a
=

|
\

|
.
|
|
\

|
.
|
1
1
3

3.2.3. Modelo Gaussiano

Al igual que en el modelo exponencial, la dependencia espacial se desvanece solo en una
distancia que tiende a infinito. El principal distintivo de este modelo es su forma parablica
cerca al origen (Fig.9). Su expresin matemtica es:
( ) exp h C
h
a
=

|
\

|
.
|
|
|
\

|
.
|
|
1
2
2
1
22

0
5
10
15
20
25
30
0 50 100 150 200 250 300
Distancia(h)
S
e
m
i
v
a
r
i
o
g
r
a
m
a
Esf rico
Exponencial
Gaussiano

Figura 9. Comparacin de los modelos exponencial, esfrico y Gaussiano. La lnea
punteada vertical representa el rango en el caso del modelo esfrico y el rango efectivo en
el de los modelos exponencial y gaussiano. Este tiene un valor de 210, respecto a una escala
simulada entre 0 y 300. El valor de la meseta es 30 y el de la pepita 0. El 95% de la meseta
es igual a 28.5.
3.2.4. Modelo Monmicos.

Corresponden a los modelos que no alcanzan la meseta (Fig. 10). Su uso puede ser delicado
debido a que en algunos casos indican la presencia de no estacionariedad en alguna
direccin. Su frmula matemtica es la siguiente:
u
u
( ) h kh = < < 0 2
Obviamente cuando el parmetro u es igual a uno el modelo es lineal y k representa la
pendiente de la ecuacin de regresin con intercepto cero. Grficamente se pueden
representar as:
(h) 1<u <2
u = 1
0<u < 1




h
Figura 10. Comportamiento tpico de los modelos de semivarianza monmicos.
23
3.2.5. Modelo Pepita Puro.

Es indicativo de carencia de correlacin espacial entre las observaciones de una variable
(Fig. 11). Es comn sumar este modelo a otro modelo terico de semivarianza, para
obtener lo que se conoce como semivariograma anidado. Lo anterior se sustenta en una
propiedad de los semivariogramas que dice que cualquier combinacin lineal de
semivariogramas con coeficientes positivos es un semivariograma. Su expresin
matemtica es:
( ) h
h
C h
=
=
>

0 0
0
0
, donde C
0
>0

Su representacin grfica es la siguiente:

(h)

C
0






h
Figura 11. Modelo de semivarianza terico para variables sin correlacin espacial.

24
Capitulo Cuatro

Prediccin Espacial

4.1. Prediccin Espacial Optima.
De la teora de la decisin se conoce que si Z
0
es una cantidad aleatoria y Z
*
0
es su
predictor
1
, entonces ) Z ; Z ( L
*
0 0
representa la prdida en que se incurre cuando se predice
0
Z con
*
0
Z y el mejor predictor ser el que minimice ( ) { } Z / Z ; Z L E
*
0 0
con
{ }
'
=
n 2 1
Z , , Z , Z Z , es decir el predictor ptimo es el que minimice la esperanza
condicional de la funcin de prdida.

Si ( ) | | ( ) Z / Z E Z Z Z Z ; Z L
0
*
0
2
*
0 0
*
0 0
= = . La
expresin anterior indica que para encontrar el predictor ptimo se requiere conocer la
distribucin conjunta de la n+1 variables aleatorias.


4.2. Definicin de Kriging.

La palabra kriging procede del nombre del gelogo sudafricano D. G. Krige, cuyos trabajos
en la prediccin de reservas de oro, realizados en la dcada del cincuenta, suelen
considerarse como pioneros en los mtodos de interpolacin espacial. El kriging es un
conjunto de mtodos de prediccin espacial que se fundamentan en la minimizacin del
error cuadrtico medio de prediccin. En la tabla 6 se mencionan los tipos de kriging y
algunas de sus propiedades. En la secciones 4.3 y 4.4, se hace una presentacin detallada
de ellos.

Tabla 6. Tipos de predictores kriging y sus propiedades.
TIPO DE
PREDICTOR

NOMBRE PROPIEDADES
LINEAL - Simple
- Ordinario
- Universal
- Son ptimos si hay
normalidad multivariada.
- Independiente de la
distribucin son los mejores
predictores linealmente
insesgados.
NO LINEAL - Indicador
- Probabilstico
- Log Normal, Trans-Gaussiano
- Disyuntivo
- Son los mejores predictores
independientemente de la
distribucin.


1
La palabra estimacin es utilizada exclusivamente para inferir sobre parmetros fijos pero desconocidos;
prediccin es reservada para inferencia sobre cantidades aleatorias.
25
Los mtodos kriging se aplican con frecuencia con el propsito de prediccin, sin embargo
estas metodologas tienen diversas aplicaciones, dentro de las cuales se destacan la
simulacin y el diseo de redes ptimas de muestreo (capitulo 5).
4.3. Kriging Ordinario
Suponga que se hacen mediciones de la variable de inters Z en los puntos x
i
de la regin
de estudio, es decir se tienen las observaciones Z(x
1
), . . . , Z(x
n
), y se desea predecir Z(x
o
),
en el punto x
o
donde no hubo medicin. Lo anterior puede representado en el siguiente
esquema:
Y
- Z(x
1
) - Z(x
2
) - Z(x
3
)

- Z(x
4
)
* Z(x
0
)
- Z(x
5
)

- Z(x
j
) - Z(x
i
) - Z(x
n
)


X
Los puntos negros representan las coordenadas de la regin donde se hizo medicin de la
variable de inters. El asterisco indica la ubicacin del punto donde se requiere predecir la
variable. Asociado a cada punto hay una correspondiente coordenada X, Y. En esta
circunstancia, el mtodo kriging ordinario propone que el valor de la variable puede
predecirse como una combinacin lineal de los valores medidos as:

Z
*
(x
0
) =
1
Z(x
1
) +
2
Z(x
2
) +
3
Z(x
3
) +
4
Z(x
4
) +
5
Z(x
5
) + . . . +
n
Z(x
n
)
=
=
n
1 i
i i
) x ( Z

En donde los
i
representan los pesos o ponderaciones de los valores originales. Dichos
pesos se calculan en funcin de la distancia entre los puntos muestreados y el punto donde
se va a hacer la correspondiente prediccin. La suma de los pesos debe ser igual a uno para
que los errores de prediccin tengan promedio cero. Esto ltimo se conoce como el
requisito de insesgamiento.
Matemticamente la propiedad de insesgamiento se expresa a travs de:
0 )] x ( Z ) x ( Z [ E
0
*
=

Asumiendo que el proceso es estacionario de media k y utilizando las propiedades del valor
esperado, se demuestra que la suma de las ponderaciones es igual a uno:
0 )] x ( Z ) x ( Z [ E
0 0
*
=

)] x ( Z [ E )] x ( Z [ E )] x ( Z ) x ( Z [ E
0 0
*
0 0
*
=

26
0 k )] x ( Z [ E
i
n
1 i
i
= =

=

k
k
) x ( Z ( E . . .
k
) x ( Z ( E
k
) x ( Z ( E
n n 2 2 1 1
= + + + =
_ _ _




= =
= = =
= + + + =
n
1 i
i
n
1 i
i
n 2 1
1 k ) ( k
k ) . . . ( k




Se dice que Z
*
(x
0
) es el mejor predictor porque los pesos se obtienen de tal manera que
minimicen la varianza del error de prediccin, es decir que minimicen la expresin:
)] x ( Z ) x ( Z [ VAR
0 0
*


Esta ltima es la caracterstica distintiva del kriging , ya que existen otros mtodos de
interpolacin como el de distancias inversas o el poligonal que no garantizan varianza
mnima de prediccin (Samper & Carrera, 1990). La estimacin de los pesos se obtiene
minimizando )] Z(x ) (x [Z V
0 0
*
sujeto a

=
=
n
1 i
i
1 .
Se tiene que )] x ( Z [ V )] x ( Z , ) x ( Z [ COV 2 )] x ( Z [ V )] x ( Z ) x ( Z [ V
0 0 0
*
0
*
0 0
*
+ =

Desagregando las componentes de la ecuacin anterior se obtiene los siguiente:


= = =
=
(

=
n
1 i
n
1 j
j i j i i
n
1 i
i 0
*
)] x ( Z , ) x ( Z [ COV ) x ( Z V )] x ( Z [ V

Nota: En adelante )] x ( Z , ) x ( Z [ COV
j i
se notara por C
ij
.

2
0
)] x ( Z [ V o =

(

=

=
n
1 i
0 i i 0 0
*
) x ( Z , ) x ( Z COV )] x ( Z , ) x ( Z [ COV


= =
= =
n
1 i
n
1 i
0 i i 0 i i
C )] x ( Z ), x ( Z [ COV

Entonces reemplazando, tenemos que:


= = =
+ =
n
1 i
n
1 j
n
1 i
2
0 i i ij j i 0 0
*
C 2 C )] x ( Z ) x ( Z [ V o
Luego se debe minimizar la funcin anterior sujeta a la restriccin

=
=
n
1 i
i
1 . Este problema
de minimizacin con restricciones se resuelve mediante el mtodo de multiplicadores de
Lagrange:
27


= = = =
|
|
.
|

\
|
+ + =
n
1 i
n
1 j
n
1 i
n
1 i
i
Lagrange de
dor Multiplica
2
0 i i ij j i
2
k
0
1 2 C 2 C
_
o o

Siguiendo el procedimiento acostumbrado para obtener valores extremos de una funcin,
se deriva e iguala a cero, en este caso con respecto a y :


= =
=
= = = = =
= + = + =
+

|
|
.
|

\
|
+ =
(
(

|
|
.
|

\
|
+ + + +
=
n
1 j
10 j 1 j 10
n
1 j
j 1 j
10
n
2 j
j 1 j 11 1
1
n
2 j
n
1 i
n
1 i
i
2
0 i i
n
2 i
ij
n
1 j
j i j 1 j 1 11
2
1
1
2
k
) 1 ( C C 0 2 C 2 C 2
2 C 2 C 2 C 2
1 2 C 2 ) C C 2 C (
) (


c
o c
c
o c
_

De manera anloga se determinan las derivadas con respecto a
2
, ...,
n
:


= =
= + = + =
n
1 j
20 j 2 j 20
n
1 j
j 2 j
2
2
k
) 2 ( C C 0 2 C 2 C 2
) (

c
o c

.
.
.

= =
= + = + =
n
1 j
0 n nj j 0 n
n
1 j
nj j
n
2
k
) 3 ( C C 0 2 C 2 C 2
) (

c
o c

por ltimo derivamos con respecto a :


= =
= = =
n
1 i
n
1 i
1 i
2
k
) 4 ( 1 0 2 2
) (

c
o c


De (1), (2), (3), (4) resulta un sistema de (n + 1) ecuaciones con (n + 1) incgnitas, que
matricialmente puede ser escrito como:
|
|
|
|
|
|
|
|
.
|

\
|
=
|
|
|
|
|
|
|
|
.
|

\
|
|
|
|
|
|
|
|
|
.
|

\
|
1
C
.
.
.
C
.
.
.
0 1 . . . 1
1 C . . . C
. . . .
. . . .
. . . .
1 C . . . C
0 n
10
n
1
nn 1 n
n 1 11



C
ij
- = C
i0

por lo cual los pesos que minimizan el error de prediccin se determinan mediante la
funcin de covariograma a travs de:
28
= C
ij

-1
-

C
i0
.
Encontrando los pesos se calcula la prediccin en el punto x
o
. De forma anloga se procede
para cada punto donde se quiera hacer prediccin.
Los pesos tambin pueden ser estimados utilizando la funcin de semivarianza,
expresando la funcin de covariograma en trminos de la funcin de semivarianza,
mediante la siguiente relacin:
Notacin:
ij
= (h), donde h es la distancia entre los puntos i y j, anlogamente
C
ij
= C(h) , adems o
2
= V(Z(x)).

| |
2
i j ij
)) x ( Z ) x ( Z ( E
2
1
=

| |
2
i i j
2
j
)) x ( Z ( ) x ( Z ) x ( Z ( 2 )) x ( Z ( E
2
1
+ =

| | | | | |
2
i i j
2
j
)) x ( Z ( E
2
1
) x ( Z ) x ( Z E ) x ( Z ( E
2
1
+ =

| | | | ( ) | |
2
i j
2 2
i
2 2
j
k ) x ( Z ) x ( Z E k ] )) x ( Z [( E
2
1
k ] )) x ( Z [( E
2
1
+ =

| | | | | | ) x ( Z ) x ( Z COV )) x ( Z ( V
2
1
)) x ( Z ( V
2
1
i j
+ =

| | | | ) x ( Z ) x ( Z COV ) x ( Z V
i j
=


ij
2
ij ij
2
C C o o = = (5)

Reemplazando (5) en (1) ,(2) y (3) se determinan los pesos ptimos en trminos de la
funcin de semivarianza:

= =
+ = + =
n
1 j
10
2
j 1
2
j
n
1 j
10 j 1 j
1
2
k
) ( ) ( C C
) (
o o
c
o c


10
2
1
1 j
n
1 j
j 1 j j
2
o o + + =

= =


10 j 1
n
1 j
j 10
2
j 1
n
1 j
j
2
o o = + + =

= =

Similarmente,

=
= =
n
1 j
20 j 2 j
2
2
k
) (

c
o c

=
= =
n
1 j
0 n nj j
n
2
k
) (

c
o c


29
El sistema de ecuaciones se completa con (4). De acuerdo con lo anterior los pesos se
obtienen en trminos del semivariograma a travs del sistema de ecuaciones:
.

11 1
1
1 10
0
1
1
1 1 0 1
. . .
. . . .
. . . .
. . . .
. . .
. . .
.
.
.
.
.
.
n
n nn n n
|
\

|
.
|
|
|
|
|
|
|
|
\

|
.
|
|
|
|
|
|
|
=
|
\

|
.
|
|
|
|
|
|
|


Los pesos de kriging tambin pueden ser estimados mediante el uso del correlograma
aplicando la siguiente relacin:
2
ij
ij
C
o
= .
La varianza de prediccin en cada punto es calculada por (Cressie, 1993):

o
o i io
i
n
2
1
= +
=

en donde
io
, y (i) son interpretados de igual forma a como fueron descritos
anteriormente.
4.3.1. Validacin del kriging.

Existen diferentes mtodos para evaluar la bondad de ajuste del modelo de semivariograma
elegido con respecto a los datos muestrales. El ms empleado es el de validacin cruzada,
que consiste en excluir la observacin de uno de los n puntos muestrales y con los n-1
valores restantes y el modelo de semivariograma escogido, predecir va kriging el valor de
la variable en estudio en la ubicacin del punto que se excluy. Se piensa que si el modelo
de semivarianza elegido describe bien la estructura de autocorrelacin espacial, entonces la
diferencia entre el valor observado y el valor predicho debe ser pequea. Este
procedimiento se realiza en forma secuencial con cada uno de los puntos muestrales y as se
obtiene un conjunto de n errores de prediccin . Lo usual es calcular medidas que
involucren a estos errores de prediccin para diferentes modelos de semivarianza y
seleccionar aquel que optimice algn criterio como por ejemplo el del mnimo error
cuadrtico medio (MECM). Este procedimiento es similar al mtodo Jacknife, una tcnica
de re-muestreo, empleado en diversos contextos estadsticos para estimar varianzas de
estimadores, entre otros aspectos. Una forma fcil de hacer la validacin cruzada es
mediante un grfico de dispersin de los valores observados contra los valores predichos.
En la medida en que la nube de puntos se ajuste ms a una lnea recta que pase por el
origen, mejor ser el modelo de semivariograma utilizado para realizar el kriging.

30
4.3.2. Representacin de las predicciones
Una vez se ha hecho la prediccin en un conjunto de puntos diferentes de los muestrales va
kriging, se debe elaborar un mapa que d una representacin de global del comportamiento
de la variable de inters en la zona estudiada. Los ms empleados son los mapas de
contornos, los mapas de residuos y los grficos tridimensionales. En el caso de los mapas
de contornos, en primer lugar se divide el rea de estudio en un enmallado y se hace la
prediccin en cada uno de los nodos de ste mismo. Posteriormente interpolando se unen
los valores predichos con igual valor, generando as las lneas de contorno (isolneas de
distribucin).

4.4. Otros Mtodos Kriging
A continuacin se mencionan algunos aspectos generales de otros mtodos de prediccin
espacial. Un estudio riguroso de ellos puede hacerse en Cressie (1993), Deutsch & Journel
(1998) y Samper & Carrera (1990)

Kriging Simple

Su expresin es similar a la del kriging ordinario. Es menos usado en la prctica porque
requiere conocer la media del proceso (). El procedimiento para estimar los pesos se
resuelve de manera anloga al del sistema kriging Ordinario.

) Z ( Z
i
n
1 i
i
*
0
+ =

=

Kriging Universal

Se aplica cuando el proceso estocstico de estudio no es estacionario en la media. Suponga
que la tendencia en la media puede ser modelada a travs de la siguiente ecuacin de
regresin:

) s ( R ) s ( m ) s ( Z
i i i
+ =

donde ) s ( Z
i
es el proceso estocstico de inters, ) s ( m
i
representa la tendencia, que es
modelada como una funcin determinstica de las coordenadas geogrficas y ) s ( R
i
hace
referencia al error de estimacin . El predictor en este caso tiene la forma

*
0 0
*
0
R ) s ( m Z + = ,

=
=
n
1 i
i i
*
0
R R

donde
*
0
Z es la prediccin en el sitio de inters y ) s ( m
0
y
*
0
R
corresponden a la
tendencia ajustada y la prediccin del residual, llevada a cabo a travs de kriging ordinario,
en este mismo.

31
Kriging Indicador

Suponga que se tiene un proceso estocstico espacial Z
i..
Con base en los valores
observados se construye la siguiente variable indicadora:

s
=
caso Otro 0
z Z Si 1
I
i
i


entonces:

( ) ( )

=
= = = =
n
1 i
i i
*
0 0 0
I I I / 1 I P I / I E , donde ( )
n 2 1
I , , I , I I = .

El kriging indicador consiste en hacer una transformacin de los valores observados a una
variable indicadora (utilizando por ejemplo la mediana o los cuartiles) y posteriormente
aplicar kriging ordinario o simple para predecir en sitios de la regin de estudio no
muestreados probabilidades de que la funcin indicadora tome el valor 1. Este
procedimiento tambin es vlido para procesos estocsticos en los que la variable estudiada
en cada sitio es de tipo doble estado (por ejemplo cuando se mide presencia -ausencia de
una especie).

Kriging Probabilstico

Es un predictor basado en cokriging (seccin 4.5) que utiliza como variables predictoras
una variable indicadora y una variable generada a travs de la transformacin uniforme.

Sea Z
i
la variable observada, i = 1,2, . . ., n entonces se definen las siguientes
transformaciones:

-

s
=
caso Otro 0
z Z Si 1
I
i
i

-
n
) Z ( R
U
i
i
= para todo i, i = 1,2,. . . , n

con ) Z ( R
i
igual al rango (posicin que ocupa dentro de los datos ordenados de menor a
mayor) la i-sima observacin muestral. La prediccin de probabilidad de xito en el sitios
de inters est dada por:


= =
+ =
n
1 i
n
1 i
i i i i
*
0
U v I I

Los pesos
i

y i
v
se estiman mediante el sistema de ecuaciones del mtodo cokriging
(seccin 4.5).
32

Kriging Log-Normal y Multi-Gaussiano

Estos dos procedimientos asumen que las variable regionalizada considerada sigue
distribucin normal en cada punto del dominio. El primero de estos consiste en aplicar
kriging simple u ordinario a la transformacin logartmica de los datos. En el segundo se
asume que el proceso estocstico sigue distribucin normal con igual media y varianza y a
cada valor observado le asigna su "score" normal (probabilidad acumulada, hasta el
correspondiente valor, bajo el supuesto de normalidad). Posteriormente se realiza kriging
simple u ordinario para hacer prediccin en sitios no muestreados de las correspondientes
probabilidades acumuladas. Estos dos mtodos, aunque fciles de implementar, no son muy
realistas porque estn sumiendo conocida la distribucin de probabilidad y los parmetros
de la misma.

Kriging Disyuntivo

Kriging de transformaciones polinomiales, ( )
i i
Z f , especficas de los datos.

=
=
n
1 i
i i
*
0
) Z ( f Z .

En la derivacin del sistema de ecuaciones correspondiente, se emplean conceptos
referentes a espacios de Hilbert y polinomios de Legendre, Jacobi y Hermite (Samper &
Carrera, 1990).

4.5.Geoestadstica Bivariada y Cokriging Ordinario

Si se tienen dos variables regionalizadas Z
v1
y Z
v2
tomadas en cada uno de los puntos. El
semivariograma cruzado de estas dos, se estima por:
{ }{ }

v v
h
v v
n
v v
h
n
Z x h Z x Z x h Z x
h
1 2 1 1 2 2
1
2
( ) ( ) ( ) ( ) ( ) = + +

(6)
Donde n
h
es el nmero de parejas de datos que se encuentran a una distancia h (Bogaert et
al., 1995).



4.5.1. Modelo Lineal de Corregionalizacin (MLC)

El MLC asume que todos los semivariogramas simples y el semivariograma cruzado
pueden expresarse como una suma de modelos bsicos (exponencial, esfrico, gaussiano,
etc.) idnticos. Para el caso de dos variables:
33

) h ( . . . ) h ( ) h ( v v
) h ( . . . ) h ( ) h ( v
) h ( . . . ) h ( ) h ( v
m m 0 0 2 1
m m 0 0 2
m m 0 0 1
o o
| |
o o

+ + =
+ + =
+ + =
(7)

donde:

v1
y
v2
son los semivariogramas simples,
v1v2
es el semivariograma cruzado.
0
(h),
1
(h), .
. .,
m
(h) son los modelos bsicos de semivariograma y o, | y o son constantes.
Matricialmente:
) h ( B
) h (
) h (
) h (
s
m
0 s
s
v ) h ( v v
) h ( v v v
2 2 1
2 1 1



I

=
=
|
|
.
|

\
|
=
, donde


|
|
.
|

\
|
=
|
|
.
|

\
|
=
) h ( 0
0 ) h (
) h ( B
s
s
s
s s
s s
s

| o
o o
(8)

A I(h) se le conoce como matriz de corregionalizacin. Esta puede ser tambin calculada
con base en covarianzas cruzadas y correlaciones cruzadas, para lo cual se aplican las
formulas dadas en la seccin 3.1.2.

4.5.2. Cokriging

El mtodo de prediccin espacial cokriging consiste en hacer prediccin espacial de una
variable con base en su informacin y en la de algunas variables auxiliares que este
correlacionadas espacialmente con ella. El predictor cokriging tiene la siguiente expresin
en el caso en el que se considera una sola variable auxiliar:

) x ( Z b ) x ( Z a ) x ( Z

j v
n
1 j
j i v
n
1 i
i o
*
v
2
2
1
1
1

= =
+ = (9)

El lado izquierdo de la igualdad representa la prediccin de la variable de inters en el
punto x
0
no muestreado.
) x ( Z
i v
1
con i=1, 2 , ... , n
1
, representa los valores observados de la variable primaria. As
mismo, ) x ( Z
j v
2
con j=1, 2, . . ., n
2
, representa los valores observados de la variable
auxiliar. a
i
y b
j
, con i=1, 2 , ... , n
1
y j=1, 2, . . ., n
2
respectivamente, representan los pesos o
ponderaciones de las observaciones de las variables primaria y auxiliar y se estiman con
base en el MLC ajustado a los variogramas simples y cruzados. Los pesos a
i
y b
j
se estiman
de manera anloga al proceso descrito para el mtodo kriging, es decir estos sern los que
minimizan la varianza de prediccin sujeta a la restriccin de que el predictor sea
34
insesgado. La estimacin de los parmetros se obtiene resolviendo el siguiente sistema de
ecuaciones (Isaaks & Srivastava, 1989):

|
|
|
|
|
|
|
|
|
|
|
.
|

\
|
=
|
|
|
|
|
|
|
|
|
|
|
.
|

\
|
|
|
|
|
|
|
|
|
|
|
|
.
|

\
|
0
1
) m , 0 (
) 1 , 0 (
) n , 0 (
) 1 , 0 (
b
b
a
a
0 0 1 1 0 0
0 0 0 0 1 1
1 0 ) m , m ( ) m , 1 ( ) m , n ( ) m , 1 (
1 0 ) 1 , m ( ) 1 , 1 ( ) 1 , n ( ) 1 , 1 (
0 1 ) n , m ( ) n , 1 ( ) n , n ( ) n , 1 (
0 1 ) 1 , m ( ) 1 , 1 ( ) 1 , n ( ) 1 , 1 (
2 v 1 v
2 v 1 v
1 v
1 v
2
1
m
1
n
1
2 v 2 v 2 v 1 v 2 v 1 v
2 v 2 v 2 v 1 v 2 v 1 v
2 v 1 v 2 v 1 v 1 v 1 v
2 v 1 v 2 v 1 v 1 v 1 v





.
.
.
.



. . . . . . . .


. . . . . . . .

(10)

La matriz del lado izquierdo contiene los valores de las funciones de semivarianza y de
semivarianza cruzada calculadas para todas las distancias entre las parejas de puntos
consideradas. Las dos ultimas filas de dicha matriz son las correspondientes a la restriccin
de insesgamiento del predictor. a
i
y b
j
con i = 1, 2, ..., n y j = 1, 2, ...., m, son los
parmetros a estimar,
1
y
2
son los multiplicadores de Lagrange empleados para la
restriccin de insesgamiento y el vector del lado derecho contiene los valores de la
funciones de semivarianza y semivarianza cruzada evaluados para las distancia entre los
sitios de muestreo (de ambas variables) y el sitio donde se desea hacer la prediccin. Las
dos ltimas filas del vector estn asociadas a la condicin de insesgamiento. La
correspondiente varianza de prediccin del mtodo cokriging se calcula como (Bogaert et
al, 1995):
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )

= =
+ + + =
m
1 j
0 2 v j 2 v j
n
1 i
0 1 v i 1 v i 1 0 1 v 0 1 v
2
k
x Z , x Z Cov b x Z , x Z Cov a x Z , x Z Cov o
(11)
donde
1
es el multiplicador de Lagrange empleado para la restriccin dado por la
condicin de insesgamiento
|
.
|

\
|
=

=
n
1 i
i
1 a . ( ) ( ) ( ) ( ) l , k x Z , x Z Cov
vivi
2
vi l vi k vi
o = es la
funcin de covarianza espacial de la variable i, i=1,2, evaluada para la distancia entre los
sitios de muestreo k, l.
La ventaja del mtodo cokriging frente al kriging radica en el hecho de que cuando la
variable auxiliar est ampliamente correlacionada con la variable de inters se puede
obtener un disminucin en la varianza de prediccin, no obstante dicha variable tenga
menor densidad de muestreo. En situaciones en las que la variable objetivo tiene costos
altos de muestreo se recomienda la aplicacin de esta metodologa (Bogaert et al., 1995).
El mtodo cokriging se ha presentado en esta seccin en funcin de dos variables, sin
embargo este puede ser extendido de manera natural al caso en que se tengan ms de dos
variables, sin embargo en estos casos puede ser dispendioso el ajuste del MLC.

35
Apndice



6.1. lgebra de Matrices.


La gran mayora de mtodos estadsticos, incluyendo la geoestadstica, pueden ser tratados
de forma mucho ms sencilla a travs del uso del lgebra de matrices. Por sta razn es til,
si no esencial, tener un cierto conocimiento mnimo de sta rea de las matemticas. Lo
anterior es cierto siempre y cuando el inters sea usar los mtodos como una herramienta.
La notacin del lgebra matricial algunas veces puede resultar desanimante. Sin embargo,
no es difcil entender sus principios bsicos.
6.1.1. Matriz
Una matriz A de tamao (mxn) es un arreglo rectangular de m filas con n columnas.
A
a a a
a a a
a a a
n
n
m m mn
=
|
\

|
.
|
|
|
|
|
|
|
11 12 1
21 22 2
1 2
. . .
. . .
. . .
. . .
. . .
. . .



6.1.2. Suma y Producto de Matrices
El procesos aritmtico de adicin, sustraccin, multiplicacin y divisin tiene sus
contraparte con matrices. Si A y D son dos matrices de orden 3x2, entonces su suma se
define como:
A D
a a
a a
a a
d d
d d
d d
a d a d
a d a d
a d a d
+ =
|
\

|
.
|
|
|
+
|
\

|
.
|
|
|
=
+ +
+ +
+ +
|
\

|
.
|
|
|
11 12
21 22
31 32
11 12
21 22
32 23
11 11 12 12
21 21 22 22
31 31 32 32


En el caso de la multiplicacin se debe cumplir que el nmero de columnas de la primera
matriz sea igual ala nmero de filas de la segunda.
A B
a a
a a
a a
b b b
b b b
a b a b a b
a b a b a b
a b a b a b
i i i i i i
i i i i i i
i i i i i i
- =
|
\

|
.
|
|
|
-
|
\

|
.
|
=
|
\

|
.
|
|
|



11 12
21 22
31 32
11 12 13
21 22 23
1 1 1 2 1 3
2 1 2 2 2 3
3 1 3 2 3 32


6.1.3. Inversa y Determinante de una Matriz.
36
Si k es un nmero, es cierto que k x k
-1
= 1. De forma similar si A es una matriz cuadrada
(nmero de filas igual al nmero de columnas) su inversa es A
-1
, donde AA
-1
= A
1
A = I,
con I igual a la matriz idntica (matriz de unos en la diagonal y cero por fuera de ella). Un
ejemplo de matriz inversa es:

2 1
1 2
2 3 1 3
1 3 2 3
1
|
\

|
.
|
=

|
\

|
.
|

/ /
/ /


Esto puede comprobarse observando que:

2 1
1 2
2 3 1 3
1 3 2 3
1 0
0 1
|
\

|
.
|
-

|
\

|
.
|
=
|
\

|
.
|
/ /
/ /


la inversa de una matriz 2x2, si existe, puede determinarse fcilmente por medio del
siguiente clculo:

a a
a a
a a
a a
11 12
21 22
1
22 12
21 11
|
\

|
.
|
=

|
\

|
.
|
|

A A
A A


Donde A = a
11
a
22
- a
12
a
21.
La cantidad A es llamada el determinantede la matriz.
Claramente la inversa no est definida si el determinante es igual a cero. Con matrices
grandes el clculo de la inversa es tedioso y se debe usar un programa de computo para
realizarlo.
6.1.4. Valores y Vectores Propios.
Dada una matriz A de orden (n x n), si existe un vector x (n x 1) y un nmero tal que
Ax = x. (A - I)x = 0

donde I es la matriz idntica de orden (n x n) y 0 es un vector (n x 1), entonces se llama a
y x, respectivamente, valor y vector propio de la matriz A. Pueden encontrarse hasta n
valores propios y hay tantos vectores propios como valores propios se encuentren. Los
valores de deben satisfacer que el determinante de A - I = 0. Los vectores propios se
calculan despus de reemplazar los valores propios encontrados en la expresin Ax = x. Al
igual que con la inversa, para matrices grandes se debe emplear un software especializado
para su obtencin. A continuacin, a manera de ilustracin, se realiza el clculo de los
vectores y valores propios de una matriz de orden 2 x 2.
Sea A =
|
\

|
.
|
6 3
3 4
, entonces
A I =
|
\

|
.
|

|
\

|
.
|
= 0
6 3
3 4
1 0
0 1
0

37

6 3
3 4
0
0
0
|
\

|
.
|

|
\

|
.
|
=




( )
( )
6 3
3 4
0




( )( ) 6 4 9 0
10 15 0
2
=
+ =


=
b b ac
a
2
4
2



=

=

= =
( ) ( )
. , .
10 100 4 15
2
10 40
2
81623 18377


Para cada valor propio existe un vector propio, el cual se obtiene reemplazando el valor
propio correspondiente en la primera expresin de la pgina anterior y usando la condicin
de que los respectivos vectores propios estn normalizados.
Un vector x
x
x
=
|
\

|
.
|
1
2
se dice que est normalizado si satisface que x x
1
2
2
2
1 + = .
Teniendo en cuenta lo anterior se calculan los vectores propios de la siguiente forma:
(A - I)x = 0

( )
( )
6 3
3 4
0
0
1
2

|
\

|
.
|
|
\

|
.
|
=
|
\

|
.
|

x
x



( )
( )
6 3 0
3 4 0
1 2
1 2
+ =
+ =

x x
x x


Restando las dos ecuaciones anteriores y factorizando, obtenemos:

x x
x x
1 2
1 2
6 3 3 4 0
3 1 0
( ) ( )
( ) ( )
+ + =
+ + =




x
x
1
2
1
3
=

( )
( )



Entonces para = 8.1623 y = 1.8377 se tiene respectivamente:
38
x
1
= 1.3847x
2
y x
1
= -0.7207x
2
. Ahora utilizando la restriccin de que los vectores
estn normalizados se obtiene:

( )
( )
( )
( )
( )
x x
x x
x
x x
1
2 2
1
2
1
2 2
1
2 2
1
2 2 2
1
2
2
2
1
2
13847 1
13847 13847
1 13847 13847
13847
1 13847
13847
1 13847
08107
=
+ =
+ =
=
+
=
+
=
.
( . ) ( . )
. ( . )
( . )
.
.
.
.


Reemplazando el valor de x
1
, obtenemos que x
x
2
1
13847
08107
13847
05855 = = =
.
.
.
. .
Luego el vector propio asociado al valor propio = 8.1623 es
x
x
1
2
08107
05855
|
\

|
.
|
=
|
\

|
.
|
.
.

Efectuando un procedimiento similar se puede comprobar que el vector propio asociado al
valor propio = 1.8377 es
x
x
1
2
05847
08113
|
\

|
.
|
=

|
\

|
.
|
.
.


En resumen dada la matriz del ejemplo entonces se puede comprobar que:

6 3
3 4
81623 0
0 81623
08107
05855
0
0
|
\

|
.
|

|
\

|
.
|

(
|
\

|
.
|
=
|
\

|
.
|
.
.
.
.


y, con el segundo valor y vector propio, que

6 3
3 4
18377 0
0 18377
05847
08113
0
0
|
\

|
.
|

|
\

|
.
|

(

|
\

|
.
|
=
|
\

|
.
|
.
.
.
.


6.1.5. Teorema del Valor Singular

Sea X
nxp
una matriz real, existen V y U ortogonales (V
T
V = I y U
T
U=1) y una matriz D
diagonal tal que:

T
VDU X =

donde :

i.
|
|
|
|
.
|

\
|
=
q
1
0
0
D

. .

,
q 2 1
> > >
39
ii. Las columnas de V son los vectores propios de X
T
X y las filas de U son los vectores
propios de X
T
X.

Si se calculan los vectores propios de X
T
X y se multiplica a la derecha por U en la ecuacin
T
VDU X =
, entonces:

VD XU
. Ahora multiplicando por D
-1
a la derecha, se tiene:

1
XUD V

=


6.2. Conceptos de Probabilidad

A continuacin se presenta una revisin no exhaustiva y a manera introductoria de
conceptos bsicos de la teora de probabilidades. Un estudio profundo y formal de estos se
puede hacer en Mood, Graybill & Boes (1974)



6.2.1. Variable Aleatoria

Si X es una funcin que le asigna a cada uno de los resultados de un experimento aleatorio
(aquel cuya respuesta no puede ser establecida de antemano) un nmero real, entonces X se
llama una Variable Aleatoria. Estas pueden ser discretas o continuas.

6.2.2. Funcin de Probabilidad

Si X es una variable aleatoria discreta. Se llamar a f(x) = P (X = x) funcin de
probabilidad de la variable aleatoria X, si satisface las siguientes propiedades:

i. ( )
X
R x 0 x f e >
ii. ( ) 1 x f
x
=

.

Si existe una funcin f(x) tal que:

i. ( ) < < > x , 0 x f
ii. ( )
}


= 1 dx x f
iii. ( ) ( )dx x f b X a P
b
a
}
= < para cualquier a y b, entonces f(x) es la funcin de densidad de
probabilidad de la variable aleatoria continua X.

La funcin de probabilidad acumulada, notada como F(x), es igual a ( ) x X P s y se evala a
travs de una sumatoria o de una integral dependiendo de si X es discreta o continua.
40


6.2.2.1. Valor Esperado y Varianza

Si X es una variable aleatoria, el valor esperado de una funcin de la variable aleatoria X,
( ) X g est dado por:


( ) ( )
( ) ( )
( ) ( )

=
}


continua X dx x f x g
discreta X x f x g
X g E
x


como caso particular,

( )
( )
( )

= =
}


continua X dx x xf
discreta X x xf
X E
x



La varianza de la variable aleatoria X est definida como:


( )
( ) ( )
( ) ( )

= = =
}


continua X dx x f x
discreta X x f x
X E ) X ( V
2
x
2
2 2

o


La raz cuadrada de la varianza se denomina desviacin estndar y se denota por o .

Se cumple que:

1. ( ) ( ) X aE aX E = , con a constante
2. ( ) ( ) b X aE b aX E + = + , con a y b constantes
3. ( ) ( ) X V a aX V
2
= y a constante
4. ( ) ( ) ( ) | |
2 2
X E X E X V =

6.2.2.2. Funcin de Probabilidad Binomial y Normal.

Modelo Binomial
Suponga que hay un experimento que consiste en examinar n individuos y evaluar o medir
en cada uno de ellos si tienen o no una caracterstica dada (slo hay dos posibles
resultados).Sea p la probabilidad de xito y q = 1-p la de fracaso en cada uno de los n
ensayos. Se asume que esta probabilidad es constante en cada uno de ellos.
41
Sea X= Nmero de xitos en los n ensayos, entonces asumiendo conocido p entonces es
posible establecer las probabilidades de ocurrencia de cada evento mediante la siguiente
ecuacin, denominada modelo de probabilidad binomial:
n ., . . 2, 1, , 0 ) 1 ( ) ( =
|
|
.
|

\
|
= =

x p p
x
n
x X P
x n x

En este modelo:
) 1 ( ) (
) (
2
p np X V
np X E
= =
= =
o



Modelo Normal

El modelo de probabilidad normal (Gaussiano) es til para encontrar las probabilidades
asociadas a eventos de variables aleatorias cuyas distribuciones de frecuencias son
simtricas alrededor del valor promedio. Algunos ejemplos de este tipo de variables
aleatorias son los siguientes:
Sea el valor promedio de la variable (E(X)) y o
2
su correspondiente varianza (V(X)),
entonces las probabilidades de ocurrencia de eventos asociados a los posibles resultados de
la variable estudiada pueden ser encontrados usando la siguiente expresin, llamada modelo
de probabilidad normal:
( ) dx e
2
1
b X a P
2
b
a
x
2 / 1
}
|
.
|

\
|

= s s
o

o t
.
Obviamente resultara muy dispendioso tener que calcular estas integrales para cada valor
de a, b, y o . Por esta razn se acude a un procedimiento llamado estandarizacin, el cul
consiste en hacer la transformacin
o

=
X
Z
. La variable anterior tendr (si la distribucin
de frecuencias de X se ajusta a un modelo de probabilidad normal con media y varianza
o
2
) una distribucin de frecuencias que se ajusta a un modelo de probabilidad normal con
media cero y varianza uno, es decir que:
( )
2 2
1
z
2
1 z
z
2 1
e
2
1
z Z z
b
Z
a
) b X a ( P

}
= < < =
|
|
.
|

\
|
|
.
|

\
|
s s |
.
|

\
|
= s s
t
o

o


La ecuacin anterior tambin puede resultar difcil de evaluar, sin embargo para cualquier
valor de a, b, y o las correspondientes probabilidades pueden hallarse, sin necesidad de
resolver la integral, empleando la tabla de distribucin acumulada normal estndar que
aparece en los textos de estadstica.

6.2.3. Funcin de Probabilidad Bivariada.

Si X y Y son dos variables aleatorias discretas. La probabilidad de X = x y Y = y est
determinada por la funcin de probabilidad bivariada ( ) | | y Y , x X P y , x f = = = donde :

i. ( )
Y X
R , R y , x , 0 y , x f e >
ii. ( ) 1 y , x f
x y
=


42

Si existe una funcin ( ) y , x f tal que la probabilidad conjunta:

| | ( )dydx y , x f d Y c , b X a P
b
a
d
c
} }
= < < < <
para cualquier valor de a, b, c y d en donde ( ) 0 y , x f > , < < y , x y ( ) 1 dydx y , x f =
} }




,
entonces ( ) y , x f es la funcin de probabilidad bivariada de X y Y.

La funcin de probabilidad acumulada ( ) y , x F es igual a | | y Y , x X P s s y se evala a travs
de una doble sumatoria o de una doble integral dependiendo de si las variables aleatorias
son discretas o continuas, respectivamente.

6.2.3.1. Funcin de Probabilidad Marginal

Si X y Y son dos variables aleatorias con funcin de probabilidad conjunta ( ) y , x f . Las
funciones de probabilidad marginales de Y y Y estn dadas por

( ) ( )
( ) ( )

=
=
x
y
y , x f y f
y , x f x f
si X y Y son variables aleatorias discretas

por

( ) ( )
( ) ( )
}
}


=
=
ydx , x f y f
dy y , x f x f
si X y Y son variables aleatorias continuas


6.2.3.2. Funcin de Probabilidad Condicional

Sean X y Y dos variables aleatorias con funcin de densidad conjunta ( ) y , x f . La funcin de
probabilidad condicional de la variable aleatoria X, denotada por ( ) y / x f , para un valor fijo
y de Y, est definida por:

( )
( )
( ) y f
y , x f
y / x f = , donde ( ) y f es la funcin de probabilidad marginal de Y de manera tal que
( ) 0 y f > .

De manera anloga, la funcin de probabilidad condicional de Y para un valor fijo x de X
se define como:


43
( )
( )
( ) x f
y , x f
x / y f = , donde ( ) x f es la funcin de probabilidad marginal de X de manera tal que
( ) 0 x f > .


6.2.3.3. Independencia Estadstica.

Sean X y Y dos variables aleatorias con funcin de densidad conjunta ( ) y , x f . X y Y son
independientes si y slo si:

( ) ( ) ( ) y f x f y , x f =

donde ( ) x f y ( ) y f son las funciones de probabilidad marginales.

6.2.3.4. Valor Esperado, Varianza y Covarianza
Sean X y Y dos variables aleatorias que se distribuyen conjuntamente. El valor esperado de
una funcin de X y Y, ( ) y , x g , se define como:

( ) ( )
( ) ( )
( ) ( )

=
} }




continuas son Y y X si dydx y , x f y , x g
discretas son Y y X si y , x f y , x g
Y , X g E
x y


La covarianza entre X y Y, denotada por Cov (X, Y), se define como:
( )( ) | | ( ) ( ) ( ) ( ) Y E X E XY E Y X XY E Y X E
Y X X Y Y X
= + =
donde
X

y
Y

representan los valores esperados de X y Y respectivamente.


Si la covarianza de X y Y se divide por el producto de las desviaciones estndar de X y Y,
el resultado es una cantidad sin dimensiones que recibe el nombre de coeficiente de
correlacin y se denota por ( ) Y , X .
( )
( )
Y X
Y , X Cov
Y , X
o o
=

6.2.3.5. Propiedades del Valor Esperado y la Varianza.

Si X y Y son dos variables aleatorias con densidad conjunta, entonces se cumple que:

1. ( ) ( ) ( ) Y E X E Y X E + = +
44
2. ( ) ( ) ( ) ( ) Y , X Cov 2 Y V X V Y X V + =
3. ( )

= = =
=
|
|
.
|

\
|
n
1 i
n
1 j
j i j i
n
1 i
i i
X , X Cov a a X a V .
Observacin: ( ) ( )
i j j i
X , X Cov X , X Cov = y ( ) ( )
i i i
X V X , X Cov =
Como caso particular:

( ) ( ) ( ) ( )
2 1 2
2
2 1
2
1 2 2 1 1
X , X Cov 2 X V a X V a X a X a V + =

3. Si ( ) ( ) Y E X E = , entonces ( ) | | ( ) ( ) ( ) Y , X Cov Y V
2
1
X V
2
1
Y X E
2
1
2
+ = .
6.3. Algunos Mtodos Estadsticos.
6.3.1. Regresin Simple
En el modelo de regresin simple se establece una relacin lineal entre la esperanza
condicional de una variable aleatoria Y dados unos valores fijos de una variable X.
Modelo Poblacional
i i 1 0 i
x Y c | | + + =


( )
i 1 0 i i
x Y

X / Y E | | + = =


Y
i
: i-simo valor de la variable respuesta o dependiente en la poblacin
x
i
:i-simo valor de la variable predictora o independiente en la poblacin
1 0
y | | son parmetros poblacionales que representan el intercepto y la pendiente,
respectivamente
i
c : i-simo error aleatorio en la poblacin.

Supuestos del Modelo.

1. ( ) 0 E
i
= c
2.
( )
2
i
V o c =

3.
( ) 0 , Cov
j i
= c c

4.
i
c ~ ( )
2
, 0 N o


Modelo Muestral

i i i
i i 1 0 i
e y

y
e x

y
+ =
+ + = | |



45
y
i
: i-simo valor de la variable respuesta en la muestra,
x
i
: i-simo valor de la variable predictora,
i
y : Estimacin del promedio de Y dado el i-simo valor de X en la muestra,
1 0

y

| |
son las estimaciones de los parmetros con base en la informacin muestral,
e
i
: i-simo error muestral.

Estimacin de
1 0
y | |

Uno de los mtodos de estimacin de los parmetros es el de mnimos cuadrados, que
consiste en encontrar los estimadores que hacen mnima la suma de cuadrados de los
errores, es decir aquellos valores que hacen ms pequea ( )

= =
=
n
1 i
n
1 i
2
i i
2
i
Y

Y c .

( ) ( )

= = =
= =
n
1 i
n
1 i
2
i 1 0 i
2
i i
n
1 i
2
i
x Y Y

Y | | c . Derivando e igualando a cero se obtiene:


( )

=
=
=
c
c
n
1 i
i 1 0 i
0
n
1 i
2
i
x Y 2 | |
|
c
= 0 y ( )

=
=
=
c
c
n
1 i
i 1 0 i i
1
n
1 i
2
i
x Y X 2 | |
|
c
= 0.

Al simplificar las dos ecuaciones anteriores y distribuir las sumas se tiene:


= =
+ =
n
1 i
n
1 i
i 1 0 i
x n Y | |


= = =
+ =
n
1 i
n
1 i
n
1 i
2
i 1 i 0 i i
x x Y x | |


Las dos ecuaciones anteriores se conocen como ecuaciones normales. Dadas las
realizaciones
n , 2 1
y , y , y . las ecuaciones pueden resolverse para encontrar los estimados de
los parmetros:

x

x

y
x

n y
1 0
1 0
n
1 i
n
1 i
i 1 0 i
| |
| |
| |
=
+ =
+ =

= =


( )

= = =
+ =
n
1 i
n
1 i
n
1 i
2
i 1 i 1 i i
x

x x

y y x | |

46


= = =
= =
+
|
|
|
|
|
.
|

\
|
|
|
|
|
|
.
|

\
|
=
n
1 i
n
1 i
n
1 i
2
i 1 i
n
1 i
i
1
n
1 i
i
i i
x

x
n
x

n
y
y x | |


= =
=
= =
+
|
|
.
|

\
|

-
=
n
1 i
n
1 i
2
i 1
2
n
1 i
i
1
n
1 i
i
n
1 i
i
i i
x

n
x

n
x y
y x | |

( )( )
( )


=
=
=
=
=
= =


=
|
|
.
|

\
|

=
n
1 i
2
i
n
1 i
i i
n
1 i
2
n
1 i
i
2
1 i
n
1 i
n
1 i
i i
i i
1
x x
y y x x
n
x
x
n
x y
y x

i
|

Se puede demostrar que los errores estndar estimados de los estimadores de los parmetros
corresponden a:
( )
( )

=

=
n
1 i
2
i
1
x x
s

s | y ( )
( )
|
|
|
|
|
|
.
|

\
|

=
=
n
1 i
2
i
n
1 i
2
i
0
x x n
x
s

s | , con
2 n
e
s
n
1 i
2
i

=

=

47
Capitulo Seis

Aplicaciones


Esta seccin ser desarrollada durante la realizacin del curso con aplicaciones a datos
geofsicos reales. Se emplea el software de distribucin libre R en el anlisis de los datos.
Por reserva con la informacin considerada no se incluyen en el texto ni los datos ni los
resultados obtenidos.
48


REFERENCIAS

Biau, G., E. Zorita, H. von Storch & H. Wackernagel. 1997. Estimation of precipitation by
kriging in EOF space. GKSS, 97, E45.
Box, G. E. P. y G.M. Jenkins. (1976). Time Series Analysis Forecasting and Control.
Holden -Day, San Francisco, 575pp.
Bogaert, P., P. Mahau & F. Beckers. 1995. The Spatial Interpolation of Agroclimatic Data.
Cokriging Software and Source Code. FAO, Rome.
Carr, J. , D. Myers y Ch. Glass.(1985). Cokriging - A Computer Program. Computers &
Geosciences. 11(2), 111-127.
Caselton , W. F. & J. V. Zidek. (1984). Optimal Monitoring Desings. Statistics &
Probability Letters. 2, 223(27).
Clark, I. 1979. Practical geostatistics. Elsevier Publishing , New York.
Cressie, N. 1989. Geostatistics. The American Statistician. 43(4), 611(23).
Cressie, N. 1993. Statistical for spatial data. John Wiley & Sons, New York.
Curia, D. 1998. Geoestadstica Aplicada a la Geologa del Petrleo. Larriestra, Curia y
Asociados, Buenos Aires.

David, M. 1977. Geostatistical ore reserve estimation. Elsevier, Amsterdam.
Davis J.C., Statistics and Data Analysis in Geology, Wiley, 3rd Edition, 2002, 638 p.

Deutsh , C. V. & A. G. Journel. 1992. GSLIB: Geostatistical Software Library and Users
Guide. Oxford University Press, New York.
Daz- Francs, E. (1993). Introduccin a Conceptos Bsicos de Geoestadstica. Memorias
Seminario Estadstica y Medio Ambiente. Centro de Investigacin en Matemticas,
CIMAT. Guanajuato, Mexico.
Diggle, P., L. Harper y S. Simon. (1995). Geoestatistical Analysis of Residual
Contamination from Nuclear Weapons Testing. Programme Abstracts of the third
SPRUCE International Conference. Merida, Mexico.
Digby, P & R. Kempton. 1992. Multivariate Anlisis of Ecological Communities.
Chapman and Hall, Londres
Englund, E. & A. Sparks. 1988. GeoEAS, Users Guide. EPA, Las Vegas.
Evangelos A. & G. T. Flatman. 1988. On sampling nonstationary spatial autocorrelated
data. Computers and Geosciences, 14, 5, 667-686.
Fox, J. 1984. Linear statistical models and related methods with applications to social
research. John Wiley & Sons, New York.
Gamma Desing. 1995. GS+. Geostatistical software for the agronomic and biological
science, version 2.3. Plainwell, Michigan.
Garmin International, Inc. 1993. Garmin communication & navigation. GPS 100 SRVY II
personal surveyor. Owners manual. Lenexa, U. S. A.
Giraldo, R., W. Troncoso, J. E. Mancera & N. Mndez. 2000. Geoestadstica: Una
Herramienta para la Modelacin en Estuarios. Rev. Acad. Col. Ciencias. 24(90):59-72.
49
Hair, J. F., R. E. Anderson, R. L. Tatham y W. C. Black. (1995). Multivariate Data
Analysis With Readings. Fourth edition. Prentice Hall, New Jersey.
Hoaglin, D. F., F. Mosteller & J. Tukey. 1983. Understanding Robust and Exploraory Data
Anlisis. John Willey & Sons, New York.
Isaaks, E. & R. M. Srivastava. 1989. Applied geostatistics. Oxford University Press, New
York.
Journel, A.G. y Ch. J. Huijbregts. 1978. Mining Geostatistics, Academics Press, New
York. 590 pp.
Krige, D. G. 1951. A statistical Approoach to Some Basic Mine Valuation Problems on the
Witwatersrand. Journal of the Chemical, Metallurgical and Mining Society of South
frica, 52: 119-139.

Link, P. 1992. Basic Petroleum Geology. OGCI Publications, Oil & Gas Consultants Inc
Matheron, G. 1962. Traite de Geostatistique Apliquee, Tome I. Memoires bureau de
Recherches Geologiques et Minieres, N 24. Editions Bureau de Recherche et Minieres,
Paris.
Mardia, K. y C. Goodall, C. 1990. Spatial - Temporal Analysis of Multivariate
Environmental Monitoring Data. LATEX documents for the North - Holland Series in
Statistics and Probability.
McBratney, A. B., Webster, R. and Burgess, T. M. The design of optimal sampling
schemes for local estimation and mapping of regionalized variables I, Computers and
Geosciences, 7(4), 331-334, 1981
Mood, A., F. A. Graybill & D. C. Boes. 1974. Introduction to the Theoty of Statistics.
McGraw-Hill, New York.
Morton, T, Thompson, A. and M. Woods. 1997. Development Geology Reference Manual,
AAPG Methods in Exploration No. 10.
Myers, D. E. 1987. Optimization of Sampling Locations for Variogram Calculations. Water
Resources Research. 23(3), 283(93).
Petitgas, P. 1996. Geostatistics and their applications to fisheries survey data 5: 114-142.
In: B. A. Megrey & E. Mosknes, (E). Computers and fisheries research. Chapman-
Hall, Londres.
Samper, F.J. & J. Carrera 1990. Geoestadstica. Aplicaciones a la Hidrogeologa
Subterrnea. Centro Internacional de Mtodos Numricos en Ingeniera. Universitat
Politcnica de Catalunya. Barcelona, Espaa. 484 pp.
Stanley; T. Practical Statistics for Petroleum Engineers. Petroleum Publishing Company,
Tulsa 1973.
Wackernagel. H. 1995. Multivariate geostatistics. An introduction with applications.
Springer-Verlag, Berln.
Warrick, A. W., D. E. Myers & D. R. Nielsen. 1986. Geostatistical methods applied to soil
science. Methods of soil analysis. Part 1. Physical and mineralogical methods-
agronomy monograph 9 : 53 - 81.