De Clustering

Capítulo 1: modelos de incertidumbre local
Capítulo 1:
modelos de incertidumbre local
o como caracterizar la incertidumbre

asociada a los valores desconocidos
I. Insuficiencia del kriging
En geoestadística lineal las técnicas de kriging entregan tanto una estimación de los valores de
la variable regionalizada como una varianza de estimación o varianza de kriging, que es una medida
elemental de la precisión de la estimación. Sin embargo, aunque constituya un aporte no despreciable,
esta última no equivale a un intervalo de confianza de la estimación; para esto, se necesitaría hacer
hipótesis adicionales acerca de la distribución de probabilidad del error de estimación, por ejemplo,
suponerla gaussiana.
El principal defecto de la varianza de kriging es que no depende de los valores tomados por
los datos, sino solamente de su configuración geométrica y de la estructura espacial de la variable
regionalizada. Así, el kriging no hace diferencia entre una zona “calma”, donde los datos disponibles
toman valores cercanos, y una zona “caótica”, donde los datos presentan valores muy distintos. En
la primera situación se espera una estimación precisa, mientras que la estimación sería mucho más
incierta en la segunda. Esta ausencia de toma en cuenta de los valores observados aparece como
un costo de la simplicidad del modelo, cuya puesta en marcha sólo requiere especificar una función
de covarianza o un variograma. Para superar esta desventaja es preciso recurrir a técnicas más
sofisticadas, como la simulación condicional o los métodos no lineales que presentaremos en este
capítulo.
21
II. Modelos globales y locales
En adelante, nos ponemos en el enfoque de la geoestadística probabilística, donde la variable

regionalizada z(x) se interpreta como una realización de una función aleatoria Z(x), la cual se
supone estacionaria (la hipótesis de estacionaridad es prácticamente un paso obligado para poder
aplicar de manera rigurosa las técnicas no lineales).
En este capítulo trataremos de caracterizar los valores desconocidos de la variable regionalizada

no por una estimación, sino que por una distribución de probabilidad, lo que constituye una
información más completa. Conocer cómo es susceptible distribuirse un valor desconocido permite
apreciar la incertidumbre ligada a este valor, medir la probabilidad que sobrepase un umbral límite
(problema de evaluación de riesgo), entregar una estimación e intervalos de confianza donde el valor
real tiene “grandes probabilidades” de hallarse (figura 1.1). Este enfoque es fundamentalmente
diferente al del kriging, donde la incertidumbre asociada al valor desconocido (medida por la
varianza de kriging) se refiere a la estimación misma, siendo la varianza de kriging precisamente la
varianza del error de estimación. Aquí, la incertidumbre se describe por medio de una distribución
de probabilidad, independientemente de toda estimación.
figura 1.1: descripción de un valor desconocido por medio de una distribución de probabilidad
22
II.1. Modelamiento de la incertidumbre global o a priori
II.1.1. Densidad y función de distribución a priori
La distribución marginal global de los valores de Z(x) puede ser descrita por una densidad
de probabilidad a priori o no condicional f(z), la cual corresponde al histograma de Z(x). Para una
mayor comodidad en las manipulaciones matemáticas, a menudo se prefiere utilizar la densidad
acumulada o función de distribución a priori F(z):
∀z, F(z) = Prob [ Z(x) < z] .
Bajo la hipótesis de estacionaridad, F(z) no depende de x. Una interpretación de este resultado

es que la definición de F(z) no hace referencia a la posición en el espacio de los sitios de observación
(de donde viene la denominación “a priori”); no permite entonces distinguir los sitios del campo,
según los valores tomados por los datos circundantes. En otras palabras, la función de distribución a
priori es una medida global de la incertidumbre asociada a los valores de la variable regionalizada y
hace abstracción de la ubicación de los datos.
Dicha función de distribución a priori puede ser aproximada por el histograma acumulado de los
valores experimentales, eventualmente desagrupado para corregir los efectos de las irregularidades
del muestreo (presencia de “grupos”, es decir, de muestras dispuestas preferencialmente en la zona
estudiada).
II.1.2. Desagrupamiento
Cuando el muestreo es irregular, el histograma de los datos no es necesariamente representativo

del campo estudiado. Los datos agrupados atribuyen demasiada importancia a las zonas densamente
muestreadas y pueden dar una visión deformada del histograma subyacente real. Así, si las muestras
se ubican preferencialmente en las zonas de altos valores (zonas “interesantes” en la mayoría de las
aplicaciones), el histograma experimental presentará una media mayor que la del histograma “real”
(regional) que se obtendría muestreando exhaustivamente el campo.
Para corregir el efecto del agrupamiento de las muestras, una primera solución consiste en
seleccionar una parte de los datos, cuya repartición es aproximadamente uniforme en el campo, los
cuales servirán para el cálculo de los histogramas y estadísticas.
Tomemos el ejemplo del plan de muestreo representado en la figura 1.2, que corresponde a
muestras de suelo sobre las cuales varias variables pedológicas han sido medidas: a un muestreo
regular de malla cuadrada de 6m de lado se superponen tres cruces de muestreo con espaciamiento
de 1m; se podrá evaluar el histograma considerando solamente los datos provenientes de la grilla
regular y “olvidando” aquellos provenientes de las cruces de muestreo.
23
figura 1.1: plan de muestreo

(a) con tres “cruces”, (b) sin las cruces
Este método de “desagrupamiento” es sencillo, pero presenta la desventaja de no tomar en

consideración todos los datos, lo que origina una pérdida de información. Además, en numerosas
situaciones no es posible identificar fácilmente las muestras que se debe conservar y aquellas que se
debe dejar de lado.
Una segunda solución consiste en ponderar los datos, atribuyendo un peso débil a los datos
agrupados y un peso mayor a los datos aislados, y en tener en cuenta estos pesos en el cálculo del
histograma experimental.
Denotemos como {xα, α = 1... n} los sitios con datos. Si se asigna a cada dato un peso igual a
1/n, el histograma acumulado experimental es igual, para todo valor z, a la proporción de los datos
inferiores a z (figura 1.3 a), o sea:
n
1
∀z, F̂(z) =
n
∑1
α =1
z(xα ) < z
donde 1 designa la función de indicador:
 1 si z(xα) < z
1z ( x α )<z
=
 0 en caso contrario
Ahora bien, atribuyendo pesos a los datos {ωα, α = 1... n} no necesariamente iguales, pero cuya
suma vale 1, el histograma acumulado corregido (figura 1.3 b) se escribe:
n
∀z, F̂(z) = ∑ ω α 1 z ( x α ) < z .
α =1
24
figura 1.3: histograma acumulado experimental

(a) bruto, (b) corregido o “desagrupado’
Dos métodos son frecuentemente empleados para determinar los pesos de desagrupamiento
{ωα, α = 1... n}: el de los polígonos de influencia y el de las celdas.
• método de los polígonos de influencia
Se trata de un método general que consiste en asignar a cada muestra un peso proporcional a la superficie
de su polígono de influencia en el campo (caso bidimensional) o al volumen de su poliedro de influencia (caso
tridimensional). El vocabulario que utilizaremos a continuación se refiere a un espacio de dos dimensiones,
pero es inmediato generalizar el método al caso tridimensional: los polígonos son reemplazados por poliedros,
las superficies por volúmenes y las simetrales por planos simetrales.
El principio es el siguiente: se atribuye a cada sitio de observación xα un polígono de influencia Pα, definido
de tal manera que cada punto del polígono esté más cerca del sitio xα que de cualquier otro sitio xβ, β ≠ α. El
polígono de influencia Pα se obtiene geométricamente dibujando las simetrales de los segmentos que unen xα a
lo sitios xβ vecinos y tomando el más pequeño polígono que contiene xα (figura 1.4). El campo es entonces
particionado en polígonos de influencia, llamados también polígonos de Thiessen, polígonos de Voronoï o
celdas de Dirichlet. En las zonas densamente muestreadas, los sitios de observación tendrán polígonos de
influencia de pequeña superficie, mientras que los sitios aislados tendrán polígonos de más grande superficie.
Se asigna al sitio xα el peso
| Pα | | Pα |
ωα = n
=
∑ | Pβ | | D|
β =1
donde | Pα | es la superficie del polígono de influencia Pα y | D| la superficie total del campo. Así definidos, los
pesos {ωα, α = 1... n} son normalizados de modo que su suma sea igual a 1.
25
figura 1.4: partición de un dominio cuadrado en polígonos de influencia
Cuando las fronteras del campo no son conocidas, los polígonos de influencia de los sitios periféricos no
están cerrados. En este caso, se puede dar una distancia máxima y cerrar cada polígono par un arco de círculo
centrado en el sitio de observación y de radio igual a esta distancia.
• método de las celdas
El método de los polígonos de influencia tiende a dar poco peso a los datos ubicados dentro de los grupos
con respecto a los datos exteriores. Para superar este defecto, se utiliza a menudo otro método, conocido bajo
el nombre de método de las celdas. Consiste en dividir el campo en celdas rectangulares idénticas, luego
asignar a cada sitio un peso inversamente proporcional al número de muestras que caen en la celda a la cual
pertenece este sitio (figura 1.5). Al contrario del método de los polígonos de influencia, este método evita
definir un campo o un radio de influencia máximo (basta que las celdas cubran la zona muestreada).
figura 1.5: partición del dominio muestreado por cuatro celdas cuadradas
El problema que se plantea es el de la determinación del origen de la red de celdas, de su orientación y de

su tamaño. Para evitar que los pesos de desagrupamiento dependan de la elección arbitraria del origen de las
celdas, es preferible repetir el algoritmo para varios orígenes, luego promediar los pesos obtenidos a cada
iteración; en general, cinco a diez iteraciones son suficientes. En lo que concierne a la orientación de las
celdas, en la mayoría de los casos se toma celdas orientadas según los ejes de coordenadas, salvo si el
muestreo sugiere una orientación particular.
26
El parámetro clave, que puede tener una gran influencia en los pesos de desagrupamiento, es el tamaño
de las celdas. Si las celdas son muy pequeñas, contendrán a lo más una sola muestra, de modo que todas las
muestras recibirán el mismo peso. Al contrario, una celda infinitamente grande contendrá todas las muestras,
que serán de nuevo afectadas por pesos idénticos. Entre estos dos extremos, los pesos de desagrupamiento
{ωα, α = 1... n} variarán según el tamaño de celdas escogido. Si no existe ningún tamaño de referencia1, la
elección se hace usualmente considerando el modo de muestreo: así, si las zonas de altos valores han sido
muestreadas preferencialmente, se suele escoger el tamaño de celda que entrega el histograma desagrupado de
más baja media (figura 1.6); si al contrario el muestreo privilegia las zonas de bajos valores, se toma el tamaño
de celdas que proporciona la mayor media. En los casos donde el muestreo no justifica tal elección, el método
de las celdas es arbitrario: ya sea se toma un tamaño convencional, o bien se prefiere el método de los
polígonos de influencia para efectuar el desagrupamiento.
figura 1.6: elección del tamaño de las celdas cuando

las zonas de altos valores han sido preferencialmente muestreadas
II.1.3. Suavizamiento del histograma experimental
Para modelar correctamente la función de distribución teórica, a menudo es necesario suavizar

el histograma acumulado experimental, el cual es una función en escalera a causa del número finito
de datos disponibles. Un suavizamiento es tanto más imperativo cuanto más pequeño es el número
de datos, conduciendo a un histograma experimental “grosero”.
Existen numerosos algoritmos de suavizamiento que permiten restituir con mayor o menor
fidelidad las estadísticas experimentales (media, varianza, cuantiles...). Una atención particular debe
prestarse a los límites inferiores y superiores posibles de la variable regionalizada, cuya elección
puede tener una incidencia notable en los resultados posteriores: la ocurrencia de valores extremos
es un elemento decisivo en numerosas situaciones (estudios de polución ambiental, geoestadística
minera...).
1
por ejemplo, si una parte de las muestras está dispuesta sobre una grilla (casi-)regular y otra parte forma grupos – como
es el caso en el ejemplo de las muestras de suelo de la figura 1.1, que presenta tres cruces de muestreo –, se tomará
celdas iguales a la malla de la grilla regular.
27
Observación
Es equivalente trabajar con el histograma (que corresponde a la densidad de probabilidad) o

sobre el histograma acumulado (correspondiente a la función de distribución), pues el primero se
deduce del segundo por derivación, o por diferencias finitas a partir de una serie discreta de valores
{zi, i = 1... N}:
∀z ∈ [z i , z i +1 [, f̂ (z) = F̂(z i +1 ) − F̂(z i ) .
II.1.4. Aplicación a datos de agronomía
Ilustraremos los conceptos anteriores con un conjunto de datos reales obtenidos de un estudio
realizado por el CIRAD de Montpellier (estudio agronómico de la parcela de “Carreau Blémur”,
isla de La Reunión). Se trata de 165 muestras de suelo en las que han sido medidas varias variables
agronómicas en tres horizontes (0-20 cm, 40-60 cm y 80-100 cm). Nos interesaremos por la
variable2 pH y restringiremos el estudio al horizonte superficial (0-20 cm), pues es el horizonte de
mayor influencia sobre los cultivos (en este ejemplo, se trata de cultivos de caña de azúcar).
El muestreo ha sido realizado de manera relativamente regular, aproximadamente en los nodos

de una grilla cuadrada de malla 25 m (figura 1.7). Hay algunas irregularidades debidas a obstáculos
naturales (presencia de rocas). La parcela estudiada no es exactamente rectangular (falta el rincón
noroeste).
figura 1.7: mapa de representación proporcional

(cada muestra está localizada por una cruz cuyo
tamaño es proporcional al valor medido)
2
las mediciones son efectuadas en una solución normal de cloruro de potasio (KCl) con una razón suelo / solución igual
a 1 / 2.5. El pH expresa, en escala logarítmica, la abundancia de los iones H+ en la solución. Se utiliza una solución de
KCl pues la medición es más estable que aquella efectuada en una solución acuosa (esta última depende de la fecha del
muestreo y de la duración del secamiento de la muestra).
28
La figura 1.8 presenta el histograma experimental bruto de los valores medidos para el pH, así
como las estadísticas elementales relativas a este histograma.
figura 1.8: histograma experimental bruto y estadísticas asociadas
Para corregir este histograma de los efectos debidos a las irregularidades del muestreo, se decide
aplicar el método de las celdas. Aquí, la elección del tamaño de las celdas está dictada por el modo
de muestreo: se tomará celdas idénticas a la malla de la grilla de muestreo, o sea celdas cuadradas de
25 m de lado (figura 1.9).
figura 1.9: histograma experimental desagrupado y estadísticas asociadas
Los pesos de desagrupamiento están comprendidos entre los valores 0.0034 y 0.0065, con una
alta proporción de pesos cercanos a 1 / 165 = 0.0061, de modo que las correcciones que introducen
son ligeras. A pesar de todo, tomaremos en cuenta los pesos en este ejemplo pedagógico. En el
transcurso de un estudio práctico, se podría despreciarlos y atribuir un peso igual a cada dato.
29
Para terminar, damos un ejemplo de suavizamiento de los histogramas experimentales estándar

y acumulado (figura 1.10). Las curvas suavizadas podrán servir de modelos de la densidad de
probabilidad y de la función de distribución respectivamente; sus límites inferiores y superiores han
sido elegidos iguales a 4.0 y 6.2 que, en adelante, serán los límites autorizados para los valores del
pH.
figura 1.10: suavizamiento de los histogramas experimentales desagrupados, estándar (a) y

desagrupado (b) (modelos de densidad de probabilidad y función de distribución respectivamente)
II.2. Modelo de incertidumbre local
La función de distribución a priori puede verse como una estimación global de la distribución
de los valores reales. No depende de la ubicación espacial de las observaciones disponibles acerca
de la variable regionalizada y no permite diferenciar las zonas de altos valores de las de valores más
bajos. En efecto, la probabilidad de sobrepasar un umbral (probabilidad a priori o no condicional) es
uniforme en el campo, por estacionaridad de Z(x). Ahora bien, es intuitivo que los valores medidos
en los sitios de muestreo modifican las distribuciones de probabilidad a priori: la probabilidad de
sobrepasar un umbral dado es más grande en las zonas donde las mediciones son altas que en las
zonas donde son bajas; también, la incertidumbre asociada a un valor desconocido disminuye al
tener mediciones en la vecindad del sitio considerado. Para tomar en cuenta esta información se
recurre al formalismo de las probabilidades y funciones de distribución condicionales:
∀z, F(x; z | (n )) = Prob [ Z(x) < z | Z(x1 ),... Z(x n )] .
Los valores condicionantes {Z(xα), α = 1... n} pueden ser la totalidad de los datos disponibles o
solamente aquellos ubicados en una vecindad del sitio que interesa. En lo que sigue, para aliviar la
escritura, el condicionamiento se simbolizará por “ | (n) ”, que significa “condicionalmente a los
datos {Z(xα), α = 1... n}” o “conocidos los valores en los sitios {xα, α = 1... n}”.
30
Esta vez, se ve que la probabilidad de sobrepasar el umbral z depende del sitio x considerado (de
donde proviene el nombre de modelo de incertidumbre local), pues es tributaria de los valores
observados en los sitios vecinos de x y de la posición de estos sitios con respecto a x. En términos
matemáticos, la distribución marginal de Z(x) condicionada por los datos ya no es estacionaria.
La determinación de F(x ; z | (n)) permitirá medir la incertidumbre asociada al valor desconocido

Z(x) y, posteriormente, calcular un estimador de Z(x) según un criterio preestablecido.
Observación
Los modelos de incertidumbre global y local sólo conciernen a un sitio a la vez; luego, no se
trata de modelos donde se busca prever la distribución conjunta de los valores en varios sitios. Por
lo tanto, cuando el resultado buscado hace intervenir varios sitios (en especial, cuando interviene un
cambio de soporte), estos modelos no bastan.
Supongamos que se desea caracterizar la incertidumbre asociada al valor promedio de la variable regionalizada
sobre un soporte diferente al soporte de los datos. En particular, tal problema se plantea en geoestadística minera,
donde las unidades a estimar son “bloques” más voluminosos que las muestras disponibles. Ahora bien, no existe
una fórmula teórica que relaciona las funciones de distribución locales de los valores de bloques con las funciones
de distribución puntuales (para resolver este problema, habría que especificar las distribuciones de probabilidad
conjuntas de todos los valores puntuales, y no solamente las distribuciones marginales).
En especial, la probabilidad que el valor de un bloque supere un umbral o “ley de corte” difiere del promedio
de las probabilidades puntuales correspondientes a los sitios interiores a este bloque. Esta diferencia conceptual
puede ser una fuente de confusión para el usuario: recordemos que el cambio de soporte o “regularización” consiste
en promediar los valores mismos de la variable regionalizada, no las probabilidades de superar una ley de corte.
Para entender mejor la diferencia ocasionada por el cambio de soporte, consideremos la situación donde los
datos condicionantes están lejos del bloque (relativamente al alcance del variograma de la variable). En este caso,
los histogramas locales difieren poco de los histogramas globales (los datos casi son “inactivos”), luego se observa
una conservación de la media y una reducción de la varianza al pasar de los histogramas puntuales al histograma
del bloque. Igualmente, si los datos presentan un efecto pepita importante, los valores puntuales tienen una mayor
dispersión que el valor del bloque, tanto globalmente como localmente, pues se sabe que el efecto pepita desaparece
al regularizar la variable (efecto de soporte, debido a que el promedio de varios valores es menos disperso que cada
valor por separado).
En general, de manera similar a lo que sucede a nivel global, la función de distribución local de un bloque
tiene una media cercana a la media local puntual (que es aproximadamente constante si se considera un bloque de
tamaño pequeño con respecto a la malla de muestreo) y una varianza menor. En la práctica, para solucionar el
problema del cambio de soporte, se suele recurrir a uno de los siguientes enfoques:
• utilizar simulaciones condicionales o “modelos numéricos” (ver capítulo 2) que permiten apreciar la
incertidumbre conjunta de todos los sitios del campo;
• incorporar el cambio de soporte al momento de evaluar las funciones de distribución local; este enfoque es
posible con cierta categoría de modelos, llamados “paramétricos”, mediante algunas hipótesis adicionales (ver
capítulo 4 y anexo I);
• corregir las funciones de distribución locales puntuales, utilizando un algoritmo que reduce la varianza sin
cambiar la media (corrección lognormal o afín, ver anexos C y J). El factor de reducción de varianza se calcula
en forma global, luego se aplica a una función de distribución local puntual; esta última puede ser aquella
asociada al sitio central del bloque o a un sitio aleatorio en el bloque, o incluso puede ser el promedio de las
funciones de distribución puntuales dentro del bloque. Tal solución, que constituye la única alternativa de los
llamados métodos “no paramétricos”, es bastante aproximada y discutible.
31
II.3. Sentido objetivo de las probabilidades y funciones de

distribución
Las probabilidades y funciones de distribución, a priori o condicionales, no son magnitudes

regionales y pueden parecer nociones puramente teóricas, sin ningún sentido objetivo. En realidad,
ninguna probabilidad es objetiva y una reconstrucción operatoria es necesaria para formular esta
noción en términos “concretos”.
La función de distribución a priori es invariante en el espacio y puede ser vista como una
descripción de la distribución global de los valores de z(x). En realidad, esto equivale a elegir como
representación de la variable regionalizada una función aleatoria cuya distribución marginal
coincide con el histograma exhaustivo de los valores de z(x). Si se sortea al azar un gran número de
sitios y se mide en ellos los valores, entonces el histograma acumulado se identificaría, con algunas
fluctuaciones estadísticas, con la función de distribución a priori de la función aleatoria.
La formulación en términos objetivos de la función de distribución condicional (o local) es

mucho más difícil. No hay ninguna razón para encontrar sitios distintos que tengan la misma
distribución local. En otras palabras, la función de distribución local F(x ; z | (n)) sólo puede referirse
al sitio x. Por consiguiente, ¿cómo verificar la adecuación entre una función de distribución y un
único valor numérico?
El modelo de incertidumbre local, así como el modelo de función aleatoria, encierran más
información que la que contienen realmente los valores tomados por la variable regionalizada, y
debe verse como una herramienta de cálculo. Su interés es que permite caracterizar, de manera
más o menos pertinente, la incertidumbre asociada a los valores no muestreados. En los problemas
prácticos, se utilizará en vista de estimar otras magnitudes. Por ejemplo, se podrá estimar el valor
desconocido en x por la esperanza de la función de distribución local F(x ; z | (n)); en este caso, será
posible encontrar en el campo varios sitios que tienen la misma esperanza local y se podrá verificar
si la media de los valores verdaderos medidos en estos sitios coincide con la esperanza común.
Igualmente, se podrá evaluar la probabilidad que el valor en x sobrepase un umbral z fijo, igual
a 1 − F(x ; z | (n)); entre los sitios del campo que tienen la misma probabilidad de sobrepasar z, la
proporción empírica de los sitios que lo sobrepasen realmente equivaldrá, si el modelo es adecuado,
a la probabilidad común.
Estos argumentos permiten imaginar un procedimiento de validación cruzada para controlar la

calidad del modelo de incertidumbre local. El medio más sencillo consiste en utilizar los intervalos
de confianza procedentes de las funciones de distribución o densidades de probabilidad locales. La
idea directriz es construir, en cada sitio con dato, la densidad de probabilidad local con ayuda de los
datos circundantes restantes. Si se define una probabilidad p1 ∈ [0,1], se puede entonces determinar
un intervalo de confianza propio a cada sitio con dato, cuyo margen de error corresponde a p1; la
comparación de la probabilidad teórica p1 con la proporción de datos que están efectivamente en su
intervalo de confianza permite darse una idea de la adecuación del modelo de incertidumbre local
con la realidad.
32
Por ejemplo, si p1 = 0.5, el intervalo de confianza es el rango intercuartil de la distribución local

(intervalo cuyos límites son los primer y tercer cuartiles); se espera que la mitad de los datos se
ubiquen realmente en el intervalo local correspondiente y la otra mitad fuera (figura 1.11).
figura 1.11: intervalos de confianza locales asociados a una probabilidad de 0.5 (zonas grises);
idealmente, la mitad de los datos se ubican en su intervalo de confianza local
En la práctica, es cómodo repetir el procedimiento para varias probabilidades y compararlas

gráficamente con las proporciones efectivas por medio de una nube de correlación (figura 1.12).
El modelo queda validado cuando los puntos experimentales están aproximadamente alineados a
lo largo de la diagonal. Si la nube de puntos está encima de la diagonal (figura 1.13 a), esto significa
que la proporción efectiva es mayor que la probabilidad teórica: el modelo es demasiado conservativo
y sobrestima la incertidumbre real. En cambio, si la nube se ubica bajo la diagonal (figura 1.13 b), la
proporción efectiva es menor que la probabilidad teórica: el modelo es demasiado optimista y
subestima la incertidumbre real (una causa típica radica en el uso de modelos variográficos cuyo
efecto pepita es demasiado bajo o el alcance demasiado alto).
33
figura 1.12: nube de correlación entre las probabilidades y las proporciones
figura 1.13: situaciones en las cuales el modelo aprecia mal la incertidumbre local
Lo que sigue de este capítulo se dedica a la evaluación de las funciones de distribución local.
Entre los métodos que presentaremos, se puede distinguir dos grandes categorías: los métodos
llamados paramétricos (modelo multigaussiano, kriging disyuntivo) que se basan en un modelo de
función aleatoria, y los métodos no paramétricos (kriging de indicadores y sus variantes) que, por el
contrario, son independientes de todo modelo preestablecido de función aleatoria.
34
III. Enfoques paramétricos
Los enfoques paramétricos se apoyan en un modelo predeterminado de ley espacial para la

función aleatoria. Para ser utilizable, esta ley debe depender de un pequeño número de parámetros
a fin de poder ser inferida a partir de los datos experimentales; debe también satisfacer algunas
restricciones de compatibilidad entre las distribuciones multivariables. Esto explica por qué, en
la práctica, uno se interese principalmente por el caso de funciones aleatorias de ley espacial
gaussiana, completamente caracterizadas por sus dos primeros momentos (esperanza y covarianza).
III.1. La anamorfosis gaussiana
III.1.1. Presentación teórica
Es poco frecuente que la variable estudiada pueda ser considerada como gaussiana: a menudo, la
distribución marginal (histograma de los valores medidos) tiene una asimetría incompatible con un
modelo gaussiano. Una transformación – llamada anamorfosis – es necesaria para convertirla en una
función aleatoria gaussiana. Gráficamente consiste en deformar el histograma de los valores de Z(x)
en un histograma gaussiano (figura 1.14), de modo que la distribución de la variable transformada,
denotada Y(x), sea una gaussiana reducida (o sea de media nula y varianza unitaria).
figura 1.14: construcción gráfica de la anamorfosis con ayuda de las densidades de

probabilidad (ejemplo de una variable inicial de histograma lognormal)
35
En los histogramas acumulados, o sea, las funciones de distribución F para Z(x) y G para Y(x),
la transformación consiste en asociar a cada valor bruto el valor gaussiano que corresponde a la
misma frecuencia acumulada, es decir, se plantea que F(z) = G(y) (figura 1.15).
figura 1.15: construcción gráfica de la anamorfosis con ayuda

de las funciones de distribución F (lognormal) y G (gaussiana)
Se llama anamorfosis gaussiana la función que liga los valores gaussianos a los valores brutos
(figura 1.16). Conforme a lo anterior, esta función se escribe: φ = F −1 o G y se puede plantear:
Z(x) = φ [Y(x)] .
figura 1.16: función de anamorfosis

en este ejemplo (Z lognormal), se trata de una función exponencial
36
Observaciones
a) La construcción de la anamorfosis no es siempre posible (se requiere que la función de

distribución F sea invertible): en particular, es el caso cuando los datos presentan una proporción
importante de valores iguales o casi iguales (llamada “átomo”). Por ejemplo, si una variable
positiva cuenta con un 50% de valores nulos – que deberían corresponder al 50% de valores
gaussianos negativos –, no es posible atribuir de manera unívoca un valor gaussiano a cada uno
de los valores nulos (figura 1.17).
figura 1.17: situación problemática para la anamorfosis gaussiana:

¿cual es el valor gaussiano asociado al valor bruto z = 0?
b) Conocer la función de anamorfosis es equivalente a conocer la función de distribución F, o sea la

distribución marginal de Z(x). En especial, el modelamiento del histograma experimental puede
hacerse vía el de la anamorfosis, lo que a menudo resulta más fácil que un ajuste directo.
c) Para una variable inicial ya gaussiana, la anamorfosis es lineal, pues una gaussiana de media m y
de desviación estándar σ se expresa linealmente en función de una gaussiana reducida:
Z(x) = m + σ Y(x) .
d) Para aplicar el modelo gaussiano que presentaremos posteriormente, la variable transformada

debe ser multigaussiana (es decir, que toda combinación lineal de valores de Y(x) debe seguir
una distribución gaussiana). Ahora bien, aunque por construcción Y(x) tenga un histograma
gaussiano, esto no garantiza que su ley espacial sea multigaussiana. En teoría, es necesario
comprobar el carácter gaussiano de las distribuciones de varias variables. En la práctica, sólo se
controla las distribuciones bivariables, pues es raro que las distribuciones multivariables de
orden superior puedan ser inferidas a partir de un número limitado de datos experimentales. Si
las distribuciones bivariables empíricas son compatibles con una distribución bigaussiana, se
admitirá que la variable transformada es multigaussiana. Presentaremos posteriormente varios
métodos para poner a prueba el carácter bigaussiano.
37
III.1.2. Determinación práctica
En la práctica, se puede calcular la anamorfosis

• a partir del histograma experimental (corregido de los efectos del agrupamiento de los datos,
pero no suavizado). En este caso, se calcula una función de anamorfosis empírica, que luego se
suaviza. A menudo, este enfoque es preferido (en particular, en kriging disyuntivo);
• a partir de un histograma modelado (o sea, corregido de los efectos del agrupamiento de datos y
suavizado); se obtiene así directamente un modelo de anamorfosis.
Primer método: determinación de la anamorfosis empírica, luego suavizamiento
La anamorfosis empírica puede ser determinada gráficamente, con ayuda del histograma de los datos o de su
histograma acumulado, que constituyen las versiones empíricas de la densidad de probabilidad f y de la función
de distribución F, respectivamente. Para determinarla numéricamente, un método consiste en ordenar por orden
creciente los valores tomados por la variable regionalizada (cuyo número es inferior o igual al número de datos):
z 1 < z 2 < ... < z l (l ≤ n )
l
con probabilidades de ocurrencia p 1 , p 2 ... p l (tales que ∑ p i = 1 ).
i =1
En primera aproximación, se puede identificar las probabilidades con las frecuencias empíricas:
pi ≈ (número de datos que valen zi / número total de datos) = ni / n.
Si se desea corregir el efecto de los grupos de datos (caso en el cual el muestreo es irregular), la probabilidad
pi asociada a un valor zi podrá diferir de su frecuencia de aparición entre las muestras: será tomada igual a la suma
de los pesos de desagrupamiento afectados a los datos de valor zi (recordemos que los pesos son normalizados de
modo que su suma sea igual a 1).
Los valores zi son asociados a las frecuencias acumuladas:
F( z 1 ) = Prob ( Z < z 1 ) = 0
i −1
F( z i ) = Prob ( Z < z i ) = ∑ p j para i = 2,... l
j=1
Se asocia a cada valor zi el valor gaussiano yi de misma frecuencia acumulada, es decir tal que F(zi) = G(yi), lo
que define la función de anamorfosis empírica, denotada φ̂ (figura 1.18).
En particular, se tiene:
Prob [ Z( x ) = z i ] = Prob [ z i ≤ Z( x ) < z i +1 ] = F( z i+1 ) − F( z i ) = G ( y i+1 ) − G ( y i ) = Prob [ y i ≤ Y ( x) < y i+1 ] .
Así, el valor zi corresponde a los valores gaussianos comprendidos entre yi e yi+1. Si Y sigue una distribución
gaussiana reducida, entonces Ẑ = φ̂(Y) sigue exactamente la distribución empírica de Z.
38
figura 1.18: determinación de la anamorfosis empírica
La anamorfosis empírica así definida debe verse como una versión discreta de la “verdadera” función de
anamorfosis. En particular, no es invertible pues es constante por intervalo:
∀ y ∈ [ y i , y i +1 [, φˆ ( y ) = z i .
figura 1.19: un ejemplo de anamorfosis empírica sobre las muestras de suelo (variable pH)
Varias razones justifican la necesidad de efectuar un suavizamiento de φ̂:
• obtener una función de anamorfosis invertible, que permite asociar un valor gaussiano a cualquier valor
de Z.
• suavizar la anamorfosis empírica equivale a suavizar el histograma experimental de Z, luego permite
modelar la distribución de Z de manera más aceptable que su distribución empírica.
• el valor gaussiano asociado al valor mínimo de las muestras es infinito: y1 = −∞ pues G(y1) = F(z1) = 0.
Esta situación desaparece después del suavizamiento de la anamorfosis.
39
Existen varios métodos de suavizamiento de la anamorfosis empírica, en particular con la ayuda de polinomios
de Hermite. Este procedimiento se usa frecuentemente en el modelo multigaussiano y en kriging disyuntivo
bigaussiano, pues los polinomios de Hermite conforman una familia ortonormal para la distribución gaussiana.
Volveremos a este asunto en el capítulo 3.
figura 1.20: anamorfosis empírica (línea punteada) y modelada (línea continua) para la variable pH
Segundo método: modelamiento del histograma acumulado, luego anamorfosis
Otro método de determinación de la anamorfosis evita pasar por valores gaussianos infinitos. Siendo los datos
ordenados en orden creciente, se utiliza como función de distribución empírica la función siguiente
i −1
*
F (z i ) = ∑ p k + p i / 2
k =1
donde la probabilidad pi es definida por la frecuencia empírica de aparición del valor zi (o por la suma de los pesos
de desagrupamiento de los datos correspondientes si se procura corregir los efectos de las irregularidades de
muestreo).
La transformada gaussiana del valor zi se obtiene por la relación

* −1 *
G ( y i ) = F ( z i ) , o sea y i = G [ F ( z i )] .
figura 1.21: determinación parcial de la anamorfosis
40
Con respecto al método anterior, la probabilidad acumulada asociada a zi está aumentada de pi/2. En particular,
en este enfoque, las probabilidades de encontrar un valor inferior al dato mínimo o superior al dato máximo no son
nulas. Por consiguiente, la anamorfosis no entregará valores gaussianos infinitos.
El procedimiento arriba detallado sólo permite atribuir un valor gaussiano a los valores experimentales. Ahora
bien, en las aplicaciones prácticas, es necesario asociar un valor gaussiano a valores distintos a aquellos tomados
por los datos. Esto requiere atribuir a todo valor z una probabilidad acumulada F*(z), luego plantear y = G−1 [ F*(z) ].
En la práctica, se modela el histograma acumulado experimental de Z (ya sea por interpolación / extrapolación entre
los valores empíricos o bien, si los datos son poco numerosos y el histograma empírico de baja resolución,
por suavizamiento) y se utiliza como probabilidades acumuladas aquellas deducidas de este histograma modelado
(figura 1.22).
figura 1.22: determinación completa de la anamorfosis
Observación acerca de los “átomos” en la distribución de los datos iniciales
Siendo la distribución de Gauss absolutamente continua, la probabilidad de encontrar dos valores

gaussianos iguales es nula, lo que es incompatible con la presencia de varios valores idénticos entre
los datos. Es la razón por la cual varios autores diferencian los valores iguales, ordenándoles al azar
o según el valor promedio de los datos circundantes y calculando la anamorfosis como si los datos
fueran todos distintos:
z 1 < z 2 < ... < z n (l = n).
Esta vez, las transformadas gaussianas son todas distintas. Su histograma es “más gaussiano” que
aquel obtenido sin diferenciación de los valores idénticos (en este último caso, los histogramas de
las variables bruta y transformada presentan un átomo). Sin embargo, este procedimiento parece
arbitrario; además, la asignación de valores gaussianos distintos a datos iguales corre el riesgo de
introducir una variabilidad artificial en la regionalización y conducir a un variograma que presente
un efecto de pepita exagerado. De manera general, el modelo multigaussiano está mal adaptado
cuando el histograma de los datos presenta un átomo.
41
III.2. Test del carácter bigaussiano
El modelo multigaussiano se basa en la hipótesis que la variable estudiada sigue, después de la

anamorfosis, una ley espacial gaussiana. Aunque, por construcción de la función de anamorfosis, la
distribución marginal de Y(x) es gaussiana, esto no es una condición suficiente para garantizar que
su distribución espacial (multivariable) también lo es. Desde un punto de vista teórico, el carácter
multigaussiano es muy exigente y difícil, entiéndase imposible, de confirmar con la ayuda de los
datos experimentales. En la práctica, uno se contenta con verificar el carácter bigaussiano, siendo la
inferencia de las distribuciones de más de dos variables difícilmente posible.
A continuación, presentamos cuatro “tests”3 para comprobar la binormalidad de Y(x) a partir de

los valores conocidos {Y(xα), α = 1... n} en los sitios de muestreo.
• Primer test: nubes de correlación diferida
Bajo la hipótesis de binormalidad, las curvas de isodensidad del par (Y(x),Y(x + h)) son
elipses concéntricas; además, son independientes de la posición de x (por estacionaridad). En
otras palabras, para un vector h fijo, la nube de correlación diferida {(Y(xα),Y(xβ)) / xβ − xα = h}
debe tener una forma elíptica (figura 1.23).
figura 1.23: curvas de isodensidad bigaussiana (a) y nube de correlación diferida (b)
3
La palabra “test” no tiene la misma connotación que en estadística clásica, donde se fija un nivel de riesgo y se busca
una medida de la probabilidad de rechazar o aceptar de manera equivocada la hipótesis puesta a prueba (riesgos de
primera y segunda especie). La mayoría de los tests estadísticos requieren tratar datos independientes o datos cuya
distribución multivariable es conocida a priori; no son aplicables aquí.
42
Cuando |h| tiende a infinito, las curvas de isodensidad se vuelven circulares (señal de no
correlación entre Y(x) e Y(x + h) para las grandes distancias); cuando |h| tiende a 0, la nube se
restringe en torno a la primera bisectriz, ya que Y(x + h) está cada vez más correlacionado con
Y(x) (figura 1.24).
figura 1.24: nubes de correlación diferida
La verificación del carácter bigaussiano con la ayuda de las nubes de correlación diferida
para varios vectores es el test más completo que existe, luego el más difícil de “validar”.
Además, necesita disponer de un muestreo suficientemente regular como para poder encontrar
varios pares de datos separados por el mismo vector (introduciendo eventualmente tolerancias
sobre las distancias y los ángulos). En el caso contrario, se recurrirá a los tests siguientes, más
sintéticos pero menos exigentes.
• Segundo test: comparación del variograma con el madograma
La distribución bivariable bigaussiana está totalmente especificada por su esperanza (nula

aquí) y su función de covarianza. Se puede en particular deducir cualquier momento de orden
dos a partir de la función de covarianza o del variograma, denotado γ. Esta propiedad está en el
origen del test siguiente.
Definiendo el variograma de orden 1 (o “madograma”) de Y por:
1
γ 1 (h) = E | Y ( x + h) − Y ( x) |
2
se muestra que, en el caso donde (Y(x),Y(x + h)) forma un par bigaussiano,
γ (h)
= π (independiente de h).
γ 1 (h)
43
Esta relación debe verificarse sobre los variogramas experimentales estimados a partir de las
transformadas gaussianas de los datos {Y(xα), α = 1... n}.
• Tercer test: variogramas de indicadores
Igualmente, existe una relación entre la función de covarianza de Y(x), denotada C(h), y el
variograma γI,y(h) del indicador 1Y(x) < y:
1 arcsen [ C ( h )] y2
2 π ∫0
γ I , y (h) = G ( y) [1 − G ( y)] − exp [ − ] dθ
1 + sen θ
donde G es la función de distribución normal reducida.
El test propuesto consiste en modelar la función de covarianza C(h) de la gaussiana, deducir

el variograma γI,y asociado a un umbral y, luego compararlo con el variograma experimental del
indicador concernido. El procedimiento puede ser repetido para varios valores del umbral y.
Observaciones
1) La expresión de γI,y es invariante cuando se cambia y en –y: bajo la hipótesis bigaussiana, la

estructuración espacial de los indicadores relativos a umbrales diferentes es simétrica con
respecto al umbral y = 0; a nivel de la variable inicial, esto se traduce por una igualdad de
los variogramas de indicadores asociados a cuantiles simétricos con respecto a la mediana.
En términos simples, se podría decir que los rasgos estructurales (anisotropía, continuidad...)
que se manifiestan para los valores bajos también caracterizan los valores altos.
2) Cuando y tiende a ±∞, γI,y(h) tiende a su meseta G(y) [1 − G(y)] cualesquiera h, es decir, los
variogramas de los indicadores asociados a los umbrales extremos se vuelven pepíticos. Esta
propiedad permite dar cuenta de un fenómeno conocido en geoestadística minera bajo
el nombre de desestructuración de las altas leyes: la ocurrencia de valores extremos es
puramente aleatoria. Al contrario, los modelos gaussianos son inapropiados cuando los
valores muy altos o muy bajos están espacialmente correlacionados, en particular cuando
están agrupados en ciertas sub-zonas del campo.
• Cuarto test: consistencia entre los variogramas bruto y gaussiano
Existe una relación entre los variogramas bruto y gaussiano, que se deduce de la función
de anamorfosis (ver capítulo 3). Si esta relación no está satisfecha a nivel de los variogramas
experimentales, la hipótesis de binormalidad no es aceptable.
44
III.3. El modelo multigaussiano
A continuación, se supone que la función aleatoria estudiada sigue, después de la anamorfosis,

una ley espacial multigaussiana. Se denota como {Y(xα), α = 1... n} las transformadas gaussianas de
los datos {Z(xα), α = 1... n} y φ la función de anamorfosis.
En este caso, toda combinación lineal de los valores de Y(x) sigue una distribución gaussiana.
Utilizando la propiedad de ortogonalidad del kriging simple, se establece que la distribución de Y(x)
condicionalmente a los datos {y(xα), α = 1... n} es gaussiana:
• de media igual al kriging simple de y(x): y(x) KS = ∑ λ α (x) y(x α ) ;

α
• de varianza igual a la varianza σ (x) del kriging simple de y(x).

2
KS
La densidad condicional de Y(x) se escribe:
  y − ∑ λ α ( x) y( x α )  
2
1  1 α
 
g (x; y | (n )) = exp −   
2 π σ KS (x)  2 σ KS (x)  
   
y la función de distribución correspondiente:
y
G (x; y | (n )) = Prob [Y(x) < y | Y(x1 ),... Y(x n )] = ∫ g (x; u | (n )) du .
−∞
Se deduce la función de distribución local F(x ; z | (n)), condicional a los datos, de la variable
inicial:
Prob [ Z(x) < z | Z(x1 ),... Z(x n )] = Prob [Y(x) < y | Y(x1 ),... Y(x n )] donde y = φ −1 (z)
o sea: F(x; z | (n )) = G (x; φ −1 (z) | (n )) .
Así, la función de distribución de Z(x) condicional a los datos está enteramente caracterizada
por la función de anamorfosis y por el kriging de la transformada gaussiana, lo que hace del modelo
multigaussiano un modelo particularmente sencillo y rápido de poner en marcha: el kriging simple
sólo requiere conocer la función de covarianza de Y(x) pues su media es nula por construcción.
Aunque la varianza condicional de Y(x), en calidad de varianza de kriging, no depende de los
valores de los datos, no pasa lo mismo con la varianza condicional de Z(x): por motivo del paso de
Y(x) a Z(x) por medio de la anamorfosis, la función de distribución de Z(x) ya no es gaussiana y su
varianza depende de y(x)KS (luego de los datos).
45
Observación
La estimación que interviene en la función de distribución condicional es un kriging simple con

media nula. En el caso donde la media de la transformada gaussiana no podría ser considerada como
constante y nula en todo el campo, se podría pensar en reemplazar el kriging simple por uno
ordinario, más flexible: la media, supuesta desconocida, puede variar de una vecindad de kriging a
otra. Sin embargo, tal enfoque sufre de un serio problema de coherencia, ya que implica que la
distribución de la transformada gaussiana no es, localmente, de media nula, ni incluso gaussiana.
Una aplicación rigurosa del modelo multigaussiano requiere la estacionaridad de la función aleatoria
estudiada.
III.4. Aplicación a los datos de suelo
Antes de aplicar el modelo multigaussiano a los datos agronómicos (variable pH), conviene
verificar el carácter bigaussiano de los datos transformados.
III.4.1. Test del carácter bigaussiano
1) nubes de correlación diferida
Siendo el muestreo casi regular, se puede visualizar las nubes de correlación diferida de los datos
transformados para los vectores múltiplos de la malla de muestreo. Para simplificar, consideraremos
solamente el módulo de estos vectores y no su orientación y presentaremos nubes de correlación
omnidireccionales, para separaciones de 25m (tamaño de la malla) y 100m con una tolerancia de
± 4m (figura 1.25).
figura 1.25: nubes omnidireccionales (Y(x),Y(x + h)) con |h| = 25m (a) y |h| = 100m (b)
46
Estas nubes son más o menos de forma elíptica y no son incompatibles con una distribución
bigaussiana4. La nube asociada a una distancia de 100m es más circular que la asociada a 25m.
2) comparación del variograma y del madograma
Se verifica que la razón entre la raíz cuadrada del variograma experimental y el madograma
experimental es aproximadamente constante. Se realiza los cálculos con un paso de 25m, primero a
lo largo de las direcciones principales del plano (de acimutes 0°, 45°, 90° y 135° con respecto al eje
norte-sur), y luego sin tener en cuenta la orientación (figura 1.26).
figura 1.26: razón (raíz cuadrada del variograma / madograma), a lo largo

de las cuatro direcciones principales del plano (a), luego omnidireccional (b)
Las curvas experimentales oscilan en torno a π y presentan pocas fluctuaciones.
3) variogramas de indicadores
Se empieza por modelar el variograma experimental de la transformada gaussiana. El análisis

variográfico revela una anisotropía geométrica cuya dirección de mayor alcance tiene una orientación
de −8° con respecto al eje norte-sur. La figura 1.27 muestra los variogramas experimentales y
modelados a lo largo de las dos direcciones principales de anisotropía.
4
Este test en sí mismo es muy exigente. Conviene entonces no ser demasiado rígido, sino se rechazaría en casi todas las
situaciones el modelo multigaussiano. Una situación francamente contraria a la hipótesis bigaussiana sería la obtención
de nubes de forma triangular o de nubes multimodales, lo que no ocurre aquí.
47
figura 1.27: variogramas experimentales y modelados de la transformada gaussiana;

la varianza experimental está representada en línea punteada y se indica también
los números de pares que intervienen en el cálculo de los variogramas experimentales
El modelamiento5 hace intervenir un efecto pepita, de meseta 0.25, y un esquema esférico de

meseta 0.75 y alcances de 150m y 50m a lo largo de las direcciones de anisotropía. Este modelo
permite calcular la expresión teórica de los variogramas de los indicadores asociados a cualquier
umbral. Para varios umbrales, se compara las curvas teóricas con los variogramas experimentales de
los indicadores correspondientes (figura 1.28). Los umbrales probados corresponden a los cuartiles
de la distribución normal reducida (a saber y1 = −0.674, y2 = 0 e y3 = 0.674).
figura 1.28: variogramas experimentales y teóricos relativos a los

indicadores del primer cuartil (a), de la mediana (b) y del tercer cuartil (c)
5
Es importante que el modelo de variograma presente una meseta unitaria, ya que por definición la variable gaussiana
está estandarizada (varianza igual a 1). En caso contrario, se corre el riesgo de tener problemas en las ecuaciones
matemáticas. Una solución razonable consiste en normalizar el variograma, multiplicándolo por una constante ad hoc
para que su meseta sea igual a 1. Tal situación se encuentra cuando el campo de la regionalización es poco extenso: la
varianza teórica (a priori) difiere de la varianza experimental (igual a 1 por construcción de la anamorfosis) que mide la
varianza de dispersión de un punto en el campo.
48
Como las nubes de correlación diferida, este test es relativamente exigente y no debe juzgarse
con demasiada severidad. Se podrá admitir la compatibilidad de los variogramas experimentales con
las curvas teóricas.
4) relación entre los variogramas bruto y gaussiano
En caso de binormalidad, el modelo de covarianza de la transformada gaussiana y la función de

anamorfosis permiten calcular la expresión del variograma de la variable inicial (pH). Se puede
entonces comparar la curva teórica con el variograma experimental de los datos (figura 1.29).
figura 1.29: variogramas experimental y teórico de la variable pH

a lo largo de las direcciones principales de anisotropía
Los cuatro tests son bastante satisfactorios. En lo que sigue, consideraremos que la hipótesis
multigaussiana es aceptable (aunque sólo el carácter bigaussiano ha sido comprobado).
III.4.2. Puesta en marcha del modelo multigaussiano
1) kriging simple de la transformada gaussiana
Se comienza por efectuar un kriging simple de la transformada gaussiana con ayuda de los datos
gaussianos. La media es por construcción nula y el variograma ha sido modelado anteriormente. Se
decide trabajar en una vecindad móvil de forma elíptica para tomar en cuenta la anisotropía de la
regionalización; los ejes de la elipse son escogidos de modo que cada estimación usa como máximo
30 datos. Los mapas de las estimaciones y de las desviaciones estándar de estimación son
presentados a continuación (figura 1.30).
49
figura 1.30: estimación por kriging simple (a) y desviación estándar

de la estimación (b) de la transformada gaussiana de la variable pH
2) elección de sitios de referencia
Los mapas anteriores y el conocimiento de la función de anamorfosis bastan para especificar el

modelo multigaussiano y calcular la función de distribución local en cualquier sitio de la parcela.
Para la visualización de los resultados, nos concentraremos en cuatro sitios, denotados x1, x2, x3 y x4,
que están aproximadamente alineados a lo largo de la primera fila de datos (figura 1.31): x1 se ubica
fuera de la parcela relativamente lejos de los datos, x2 es un sitio de observación; los dos últimos
sitios, x3 y x4, están localizados entre sitios muestreados.
figura 1.31: elección de sitios de referencia

(a) posición en el mapa de las muestras, (b) posición a lo largo de la primera fila de datos
50
3) visualización de las funciones de distribución locales en los sitios de referencia
figura 1.32: funciones de distribución locales

en los sitios x1 (a), x2 (b), x3 (c) y x4 (d)
La función de distribución en x2, que es un sitio muestreado, es un escalón; esto significa que el
valor en este sitio es cierto. Por el contrario, la función de distribución en x1 aparece muy extendida
y cercana a la distribución a priori, lo que ilustra una fuerte incertidumbre sobre el valor real en este
sitio (se dispone de poca información sobre este valor, pues x1 se ubica lejos de todos los sitios con
datos). Las funciones de distribución en x3 y x4 son intermedias (menor dispersión).
4) validación del modelo
Se puede verificar a posteriori la adecuación del modelo con los datos disponibles con la ayuda
de un procedimiento de validación cruzada (ver apartado II.3). En cada sitio con dato, se calcula la
función de distribución local a partir de los datos vecinos. Para una probabilidad p fija, se define, en
cada sitio, un intervalo de confianza tal que hay una probabilidad p que el dato correspondiente esté
en dicho intervalo; si el modelo es válido, la proporción de los datos que están efectivamente en el
intervalo asociado debe ser cercana a p.
51
Cuando p varía, se obtiene una serie de proporciones efectivas, que se puede comparar con las
probabilidades teóricas por medio de una nube de correlación (figura 1.33).
figura 1.33: validación cruzada del modelo multigaussiano
Los puntos obtenidos están prácticamente alineados a lo largo de la diagonal, lo que indica que
el modelo es adecuado (es decir, ni demasiado optimista, ni demasiado pesimista en la evaluación de
la incertidumbre), aunque se basa en una hipótesis exigente de multinormalidad.
III.5. El kriging disyuntivo
El kriging disyuntivo, que será presentado en los próximos capítulos, permite estimar cualquier función de la
variable en estudio. Se trata de un enfoque paramétrico, en el sentido que su puesta en marcha se basa en un modelo
de distribución bivariable: a menudo, bigaussiana, pero otros modelos pueden ser considerados (por ejemplo, la
distribución bigamma o distribuciones discretas, ver anexo H). Como el modelo multigaussiano, una anamorfosis es
previamente necesaria para transformar la variable en una variable cuya distribución marginal coincida con el
modelo considerado.
El kriging disyuntivo también puede conducir a una estimación de la densidad de probabilidad local, a veces
llamada “seudo-densidad del kriging disyuntivo” (seudo, pues puede tomar valores negativos). La función de
distribución local estimada se deduce por integración de la seudo-densidad; no es forzosamente monótona y, por
ende, necesita eventuales correcciones. Una aplicación de este resultado a la construcción de simulaciones no
gaussianas se presenta en el anexo G.
52
IV. Enfoques no paramétricos
Aunque es sencillo y cómodo de usar, el modelo multigaussiano se basa en una hipótesis muy
exigente y poco flexible. Esto trae varias limitaciones, entre otras:
• requisito de estacionaridad;
• distribución marginal sin “átomo”;
• simetría con respecto a la mediana: las características estructurales de los valores altos
también suceden para los valores bajos;
• “desorden” en la organización espacial de los valores (propiedad de entropía máxima, ver
anexo C);
• desestructuración de los valores altos: los indicadores asociados a los valores extremos se
vuelven pepíticos.
Estas propiedades, inherentes a la ley espacial gaussiana, no permiten describir adecuadamente

todas las regionalizaciones. Los enfoques “no paramétricos”6 que presentaremos en este apartado
pretenden ser más generales al liberarse de toda forma preestablecida de distribución de
probabilidad. La idea directriz es estimar la función de distribución local para una serie de umbrales
que discretizan el intervalo de los valores de la regionalización (figura 1.34 b). Luego, se interpola y
extrapola los valores estimados, para obtener una estimación de la función de distribución local para
todos los umbrales posibles (figura 1.34 d).
Observación: contrapartida de los enfoques no paramétricos
Aunque se liberan de todo modelo predeterminado de distribución de probabilidad, los enfoques

no paramétricos en contrapartida sólo proporcionan una estimación incompleta de la función de
distribución teórica, debido a la inevitable discretización de los valores de z(x), de donde viene la
necesidad de una interpolación entre los valores discretizados y de una extrapolación más allá de
estos valores. La elección del método de interpolación / extrapolación puede tener un gran impacto
en los resultados posteriores, sobretodo en lo que concierne a la extrapolación, es decir, la estimación
de las colas de la distribución local, que miden el riesgo de encontrar un valor muy alto o muy bajo.
Una segunda desventaja de estos métodos es que la función de distribución estimada de manera
discreta suele presentar problemas de coherencia (obtención de probabilidades negativas o mayores
que 1, o problemas de relación de orden entre los diferentes umbrales). Por consiguiente, antes de
interpolar y extrapolar las estimaciones obtenidas, será necesario corregirlas y ponerles coherentes
entre sí (figura 1.34 c).
Un tercer problema es aquel del cambio de soporte: a falta de un modelo de ley espacial, no
es posible obtener de manera rigurosa las distribuciones de probabilidad de valores definidos sobre
un soporte diferente a aquel de las mediciones. En cambio, los métodos paramétricos (modelo
multigaussiano, kriging disyuntivo) pueden adaptarse a la estimación de las distribuciones de
probabilidad locales con cambio de soporte (ver capítulo 4 y anexo I).
6
no paramétricos, en el sentido que no dependen de un modelo de ley espacial ni de la especificación de sus parámetros.
53
figura 1.34: funciones de distribución condicionales en un sitio x:

teórica (a), estimada en varios umbrales (b), corregida (c), interpolada y extrapolada (d)
IV.1. La codificación en indicadores
Para evaluar F(x ; zk | (n)), es cómodo introducir los indicadores acumulados:
F(x ; z | (n)) = Prob [Z(x) < z | (n)] = E [1Z(x) < z | (n)] .
La probabilidad F(x ; z | (n)) es igual a la esperanza del indicador 1Z(x) < z condicional a los datos.
Sin embargo, tal magnitud sólo es calculable de manera exacta en los enfoques paramétricos (en
la práctica, multigaussianos) donde se especifica un modelo de ley espacial. La idea es estimar
F(x ; z | (n)), sustituyendo a la esperanza condicional por un estimador de (co)kriging, realizado a
partir de los valores tomados por los indicadores en los sitios de medición {xα, α = 1... n}:
F(x ; z | (n)) * = [1 Z(x) < z ]* .
54
Observaciones
a) robustez de la transformación en indicadores
Contrariamente a la variable inicial, los indicadores no presentan valores aberrantes, pues sólo
pueden tomar los valores 0 ó 1. En consecuencia, los variogramas experimentales de los indicadores
son más robustos que aquellos de la variable inicial, lo que facilita su inferencia.
b) necesidad de una discretización – elección de los umbrales
No se puede estimar la función de distribución por completo, pues cada umbral necesita realizar
un (co)kriging: una discretización es imprescindible. Se tratará luego de reconstituir la función de
distribución completa a partir de su discretización (figura 1.34).
No hay un límite teórico para el número de umbrales de discretización. Sin embargo, un número
demasiado alto (para fijar las ideas, mayor que 15) corre el riesgo de conducir a un aumento notable
del esfuerzo de inferencia (para cada umbral considerado, hay que efectuar un análisis variográfico
del indicador correspondiente), de los tiempos de cálculo y de los problemas de coherencia de las
estimaciones (relaciones de orden). Recíprocamente, un número bajo de umbrales (menor que 5)
conduce a una discretización grosera del intervalo de los valores de z(x). Usualmente se toma una
decena de umbrales, cuya elección depende de la aplicación buscada: puede tratarse de umbrales
críticos que no hay que sobrepasar (problemas de contaminación) o que tienen un interés económico
(aplicaciones mineras); también se puede escoger los deciles de la distribución experimental de los
valores medidos. Es poco recomendado tomar umbrales extremos (mayores que el último decil por
ejemplo), pues el análisis variográfico se vuelve delicado.
c) integración de las incertidumbres de medición
El formalismo de los indicadores es muy flexible, pues permite codificar información de calidad
diferente. Por ejemplo, si se sabe que el valor en un punto de medición se sitúa entre ciertos límites
[a,b], pero sin conocer el valor preciso, se podrá utilizar esta información al escribir:
0 si z k ≤ a

1 Z( x α )< z k
= desconocido si a < z k ≤ b
1 si b < z k

Así, en caso de incertidumbre sobre el valor medido, los indicadores asociados a los diferentes
umbrales no son todos conocidos (heterotopía).
d) restricción sobre los variogramas de indicadores
Los modelos autorizados para describir variables indicadoras son muy restrictivos. Además de
la propiedad de negatividad condicional propia a cualquier variograma, deben ser acotados (valor
máximo = 1/2, meseta máxima = 1/4) y verificar otra propiedad de negatividad:
k k k
∀k ∈ N * , ∀x 1 ,... x k ∈ R d , ∀ε 1 ,... ε k ∈{−1,1} tales que ∑ ε i = 1, ∑∑ ε i ε j γ I ,z (x i − x j ) ≤ 0 .
i =1 i =1 j=1
55
En especial, al escoger tres sitios {x, x + h1, x − h2} con los ponderadores {−1,1,1}, se obtiene
una desigualdad triangular, que prohibe que el comportamiento en el origen sea convexo:
∀h1 , h 2 ∈ R d , γ I ,z (h 1 + h 2 ) ≤ γ I ,z (h 1 ) + γ I ,z (h 2 ) .
Asi, no es posible emplear variogramas más regulares en el origen que un esquema lineal. Entre
los modelos autorizados, citemos el efecto pepita, el esquema exponencial y los modelos que son
una mezcla de estos últimos (por ejemplo: exponenciales anidados, gamma, estable de parámetro
menor que 1, modelo de Bessel modificado de parámetro menor que 1/2...). En cambio, se ignora si
las condiciones anteriores son suficientes para que un variograma sea un variograma de indicador.
IV.2. El kriging de indicadores
Consiste en estimar por kriging el indicador asociado a un umbral zk a partir de los valores de
este mismo indicador en los sitios con datos, o sea:
n
[1 Z ( x )< z k ]* = a + ∑ λ α 1 Z( x α )< z k .
α =1
Para determinar los pesos de kriging se puede elegir entre un kriging simple y uno ordinario. El
kriging simple entrega una varianza de error menor, pero supone conocida la media del indicador, es
decir la probabilidad a priori Prob[Z(x)<zk]. Ésta puede ser evaluada a partir del histograma
experimental de los datos, suavizado y corregido de los efectos de los grupos (datos ubicados
preferencialmente). Lejos de los datos, el kriging simple compensa la falta de información
acercando la estimación a la media, es decir, que el indicador estimado tenderá hacia la probabilidad
no condicional Prob[Z(x)<zk]. Si los datos son numerosos, se podrá elegir un kriging ordinario, lo
que equivale a estimar localmente la media del indicador en lugar de utilizar la media global, la cual
corre el riesgo de no ser válida a escala de la vecindad de kriging.
El kriging de indicadores interpola exactamente los valores del indicador en los sitios con datos
(propiedad de interpolación exacta del kriging). Por consiguiente, si no hay incertidumbre en los
valores medidos, se tendrá:
 0 si z(xα) ≥ zk
∀α = 1... n, [1 Z( xα )<z k ]* = 
 1 en caso contrario
En un sitio con medición, la probabilidad de sobrepasar el umbral zk vale 0 ó 1. Igualmente, si la

medición es afectada por una incertidumbre, por ejemplo z(xα) ∈ [a,b], se tendrá
0 si z k ≤ a
[1 Z ( x α )< z k ]* = 
 1 si b < z k
56
Para su puesta en marcha, el kriging de indicadores requiere, para cada umbral considerado, el
modelo variográfico del indicador correspondiente. Se ve que hay un equilibrio que encontrar entre
el nivel de discretización deseado (número de umbrales) y el esfuerzo de inferencia. Además, un
modelamiento riguroso es delicado, pues ya hemos señalado que no todos los variogramas son
admisibles para describir indicadores, sin olvidar que los variogramas de los distintos indicadores
están relacionados entre sí.
Se notará que el kriging de indicadores sólo usa como datos los indicadores relativos al umbral
que se desea estimar. En particular, no explota toda la información disponible, pues saber si una
medición sobrepasa o no un umbral es un dato menos informativo que conocer su valor exacto.
Ejemplo sobre los datos de suelo
Aplicaremos el kriging de indicadores para estimar, sobre los datos de suelo, el indicador
relativo al umbral 4.8. Este umbral representa el límite inferior del pH, bajo el cual el terreno no es
cultivable. Como el variograma de la variable inicial y de la transformada gaussiana, el variograma
del indicador del umbral 4.8 presenta una anisotropía geométrica cuya dirección de mayor alcance
está orientada de –8° con respecto al eje norte-sur. Se puede modelar por la superposición de un
efecto pepita de amplitud 0.06 y de un esquema esférico de meseta 0.09 y de alcances 150m y 50m a
lo largo de los ejes de anisotropía (figura 1.35).
figura 1.35: variogramas experimental y modelado del indicador del umbral 4.8
a lo largo de las dos direcciones principales de anisotropía
Para visualizar los resultados, nos interesamos en el segmento que contiene la primera fila de
datos y los cuatro sitios de referencia (figura 1.36). El kriging se efectúa considerando solamente los
diez datos de la fila, con una vecindad móvil de 120m de radio.
57
figura 1.36: estimación del indicador del umbral 4.8 por kriging de indicadores
La estimación del indicador en los sitios con datos vale 0 ó 1 (interpolación exacta del kriging).
La diferencia entre el kriging simple y el ordinario se acentúa al alejarse de los datos: lejos de los
datos, el kriging simple acerca la estimación del indicador a su media, o sea la probabilidad a priori
que el pH sea menor que 4.8, mientras que el kriging ordinario da una media ponderada de los datos
ubicados en la vecindad de kriging y entrega una estimación nula cuando todos estos datos son
nulos.
IV.3. El cokriging de indicadores
Para aprovechar de mejor manera la información disponible en la estimación del indicador del
umbral zk, se puede procurar utilizar los valores en los sitios con datos de los indicadores asociados
a varios umbrales z1,… zK, en lugar del solo indicador del umbral zk. Esto conduce al cokriging de
indicadores:
K n
[1 Z ( x )< z k ] = a + ∑
*
∑λ i
α 1 Z( x α )< z i
.
i =1 α =1
Como para el kriging de indicadores, se puede elegir entre el cokriging simple u ordinario, según
si se considera conocidas o no las probabilidades a priori {Prob[Z(x)<zi], i = 1... K}, es decir la
distribución marginal de los valores de Z(x).
Mientras más numerosos son los umbrales, más pequeña es la pérdida de información debida a
la codificación de los valores experimentales en indicadores. Si se aumenta infinitamente el número
de umbrales hasta cubrir todos los valores posibles de Z(x), se explota toda la información
disponible: conocer los valores de todos los indicadores en un sitio equivale a conocer el valor
medido en este sitio. Se establece entonces que el cokriging simple de los indicadores coincide con
el estimador del kriging disyuntivo, que presentaremos en el capítulo 3.
58
A pesar de que mejora los resultados entregados por el kriging de indicadores, el cokriging de
indicadores plantea varias dificultades:
1) análisis variográfico: es necesario especificar un modelo de covarianzas simples y cruzadas de

los indicadores de los distintos umbrales. El modelamiento es tanto más delicado cuanto más
alto es el número de umbrales, pues las covarianzas simples y cruzadas deben satisfacer algunas
restricciones matemáticas de positividad (ver las restricciones impuestas en el modelo lineal de
corregionalización7) y no pueden ser cualesquiera (los variogramas asociados deben satisfacer la
desigualdad triangular); además, por estar vinculados los indicadores relativos a varios umbrales,
existen relaciones adicionales entre todas las covarianzas simples y cruzadas.
2) los tiempos de cálculo aumentan excesivamente cuando el número de umbrales considerados es

alto.
3) Los problemas de probabilidades negativas o mayores que 1, así como los de relaciones de orden
(probabilidades estimadas incompatibles entre varios umbrales), aparecen más frecuentemente
que en el kriging de indicadores. En particular, el cokriging ordinario, atribuyendo pesos de
suma nula a los indicadores asociados a los umbrales secundarios, asigna fatalmente algunos
pesos negativos, de donde aumenta el riesgo de estimaciones negativas, difícilmente aceptables
pues una probabilidad es necesariamente comprendida entre 0 y 1.
Para salir de esta dificultad, se propone a veces una variante del cokriging ordinario, donde la restricción
de insesgo está modificada (ver anexo A): las restricciones clásicas
n
i  1 si i = k
∑ λα = 
α =1
0 en caso contrario
son reemplazadas por la restricción única que la suma de todos los pesos afectados al conjunto de indicadores
sea igual a 1, o sea:
K n
i
∑ ∑ λα = 1.
i =1 α =1
Esta variante es un intermedio entre el cokriging ordinario clásico (con varias condiciones de insesgo) y
el cokriging simple (sin condición sobre la suma de los ponderadores) pero necesita, para evitar introducir un
sesgo en la estimación, centrar todos los indicadores en torno a la misma media. Esta operación supone
conocidas las medias de los indicadores; por lo tanto, ¿por qué no utilizar directamente un cokriging simple?
La justificación es de orden práctico: la introducción de una restricción sobre la suma de los ponderadores
hace más robusta la estimación con respecto a defectos de estacionaridad, mientras que el cokriging simple
hace uso de una media que debe ser perfectamente estacionaria, o sea válida en todas las regiones del campo.
7
El modelo lineal de corregionalización no es siempre aceptable para describir indicadores, pues implica que todos los
variogramas simples y cruzados tengan el mismo alcance (lo que puede ser incompatible con una desestructuración de
los indicadores asociados a umbrales altos). En el enfoque no paramétrico, el modelamiento multivariable de indicadores
puede entonces ser problemático.
59
Una solución para el análisis variográfico y la puesta en marcha práctica del cokriging de
indicadores es recurrir a un modelo de distribución bivariable a priori, tal como la distribución
bigaussiana, lo que desemboca en la técnica del kriging disyuntivo isofactorial que estudiaremos en
los capítulos 3 y 4.
Retomamos el ejemplo de los datos de suelo, y estimamos el indicador asociado al umbral 4.8
con ayuda de los indicadores de los umbrales 4.6, 4.8 y 5.0. A continuación, damos los variogramas
simples y cruzados experimentales y modelados de estos tres indicadores (figura 1.37), luego
presentamos los perfiles de las estimaciones obtenidas por los diferentes tipos de cokriging de
indicadores (figura 1.38).
figura 1.37: variogramas simples y cruzados de los indicadores de los umbrales 4.6 / 4.8 / 5.0
a lo largo de las dos direcciones principales de anisotropía
60
figura 1.38: estimación del indicador del umbral 4.8 por cokriging de indicadores
Los perfiles estimados son notablemente diferentes de aquellos obtenidos por el simple kriging
del indicador: la influencia de los otros umbrales no es despreciable en la estimación del umbral 4.8.
La desviación entre el kriging y el cokriging de indicadores es clara en la vecindad de los sitios de abscisas 250
y 275, para los cuales el indicador del umbral 4.8 vale 1. La medición en el sitio de abscisa 250 está comprendida
entre 4.6 y 4.8; este intervalo de valores presenta una cierta continuidad espacial descrita por el variograma del
indicador del umbral 4.8. Por el contrario, el valor medido en el sitio de abscisa 275 es menor que 4.6, lo que, al
considerar el variograma del indicador asociado a este umbral, corresponde a una ocurrencia casi totalmente
pepítica. Esto explica que la estimación por cokriging presenta una discontinuidad más importante al nivel del sitio
de abscisa 275 que al nivel del sitio de abscisa 250. Por no recurrir a la información relativa a los otros umbrales, el
kriging de indicadores no hace tal distinción.
Además, se observa que el cokriging ordinario entrega estimaciones negativas en los sitios cuya
abscisa está comprendida entre 70 y 130. Estas estimaciones tendrán que ser corregidas (puestas a 0)
durante la construcción de las funciones de distribución locales. El uso de una sola restricción de
insesgo disminuye fuertemente el número de estimaciones negativas, pero el sentido de tal condición
es oscuro.
IV.4. El kriging de probabilidad
Este método está diseñado para disminuir la pérdida de información del kriging de indicadores,
pero sin recurrir al cokriging de varios indicadores, costoso en cálculos. Para estimar el indicador del
umbral zk, la idea es realizar un cokriging a partir de los valores de este indicador y de los datos:
n n
[1 Z ( x )< z k ]* = a + ∑ λ1α 1 Z( x α )< z k + ∑ λ2α Z(x α ) .
α =1 α =1
61
Una dificultad radica en la naturaleza diferente de las variables que se utiliza. Los indicadores
sólo toman los valores 0 ó 1, mientras que los datos no presentan tales límites. Este problema de
escala puede conducir a inestabilidades numéricas. Es la razón por la cual se prefiere utilizar como
variable auxiliar no los datos mismos, sino una transformada de estos datos, a saber
u (x α ) = F * [z(x α )] = Prob [ Z(x) < z(x α )]*
donde F*(z) designa la función de distribución a priori, experimental o modelada, corregida de los
efectos de los grupos de datos.
Si F*(z) es invertible, se muestra que los u(xα) corresponden, en el modelo de función aleatoria,
a variables aleatorias U(xα) distribuidas de manera uniforme en [0,1], de donde viene su nombre de
transformadas uniformes de los datos. Si se atribuye a cada dato un peso igual (o sea, si se desprecia
las correcciones de desagrupamiento de datos), las transformadas uniformes son los rangos de los
datos dividido por su número:
u(xα) = r(xα)/n
donde r(xα) es el rango del dato z(xα), natural que vale 0 para el dato mínimo y n−1 para el dato
máximo8. La definición de u(xα) con ayuda de la función de distribución a priori permite corregir
los efectos de los grupos de datos, de modo que U(x) presenta una distribución uniforme en [0,1]
cuando x recorre el campo.
Ahora, los indicadores y las transformadas uniformes toman sus valores en [0,1]. La escritura
definitiva del kriging de probabilidad es la siguiente:
n n
[1 Z ( x )< z k ]* = a + ∑ λ1α 1 Z ( x α ) < z k + ∑ λ2α U(x α ) .
α =1 α =1
Estando U(x) uniformemente distribuida en [0,1], su media vale 0.5. Por lo tanto, si se supone
conocida la media del indicador del umbral zk, o sea la probabilidad que Z(x) sea menor que zk, se
podrá efectuar un cokriging simple o, para paliar los defectos de estacionaridad, un cokriging
ordinario con una sola condición de insesgo, reajustando U(x) en torno a la media del indicador, es
decir, trabajando con U(x) − 0.5 + Prob[Z(x)<zk] en lugar de U(x). De ignorar la probabilidad que
Z(x) sea menor que zk, se efectuará un cokriging ordinario clásico. Estos tipos de cokriging están
detallados en el anexo A.
8
Se puede también atribuir el rango 1 al dato mínimo y n al máximo: los u(xα) varían entonces de 1/n a 1. Otra solución
consiste en aminorar este rango de 1/2, de modo que u(xα) tenga valores en [1/2n, 1−1/2n]; conceptualmente, esto
equivale a permitir que z(x) tome valores más altos que el dato máximo o más bajos que el mínimo, en ambos casos con
una probabilidad igual a 1/2n. Estas modificaciones no alteran las funciones de covarianza simples y cruzadas del
modelo.
Cuando varios datos presentan el mismo valor, no se puede atribuirles sin ambigüedad un rango distinto. Una solución
consiste en ordenar los datos concernidos en función de los valores promedios de los datos circundantes. Pero, al igual
que en el caso de la anamorfosis gaussiana cuando el histograma de los datos presenta un átomo, este procedimiento es
por parte arbitrario.
62
Con respecto al kriging de indicadores, el kriging de probabilidad toma en cuenta, por medio de
su rango, los valores medidos en los sitios de muestreo. Esto permite diferenciar los datos para los
cuales el indicador vale 0, así como aquellos para los cuales vale 1. En la práctica, se observa que el
kriging de probabilidad mejora las estimaciones obtenidas por kriging de indicadores, disminuyendo
el efecto de suavizamiento y el sesgo condicional. En contrapartida, la inferencia estadística es más
exigente, pues el kriging de probabilidad requiere los modelos de covarianzas simples y cruzadas del
indicador a estimar y de la transformada uniforme. Sin embargo, estas covarianzas en general son
fáciles de inferir, pues son más robustas que la de la variable inicial (el indicador y la transformada
uniforme toman sus valores en [0,1], luego no tienen valores “aberrantes”).
Aplicación a los datos de suelo
A modo de ilustración, estimamos, sobre los datos de suelo, el indicador asociado al umbral 4.8
con ayuda de un kriging de probabilidad. La transformada uniforme de la variable pH es tomada
igual al rango estandarizado (se desprecia los pesos de desagrupamiento, que difieren poco uno de
otro). Se empieza por modelar la estructura conjunta del indicador asociado al umbral 4.8 y de la
transformada uniforme (figura 1.39).
figura 1.39: variogramas simples y cruzados del indicador asociado al umbral 4.8
y de la transformada uniforme, a lo largo de las dos direcciones principales de anisotropía
63
Este modelo de corregionalización permite estimar el indicador asociado al umbral 4.8 por
cokriging, simple u ordinario (con una o dos condiciones de insesgo) (figura 1.40).
figura 1.40: estimación del indicador del umbral 4.8 por kriging de probabilidad
a lo largo de la primera fila de datos
Como el cokriging de indicadores, el cokriging ordinario clásico entrega más estimaciones

negativas que el cokriging con una sola condición de insesgo, pero este último produce resultados
curiosos entre las abscisas 0 y 100m.
IV.5. El kriging del indicador de la mediana
Se trata de un método simplista y, a menudo, fuertemente aproximado, que permite aliviar

considerablemente los esfuerzos de inferencia estadística y de modelamiento.
El cokriging de indicadores requiere modelar las covarianzas simples y cruzadas de todos los
indicadores considerados. Incluso el kriging de indicadores necesita conocer una función de
covarianza por umbral estudiado. Una simplificación consiste en adoptar, para todos los umbrales, la
misma covarianza (con excepción de un factor multiplicativo) que sería la covarianza del indicador
de la mediana; ésta es más fácil de inferir que las covarianzas de los otros umbrales, más cercanos a
los extremos. Las covarianzas simples y cruzadas están entonces en correlación intrínseca (es decir,
proporcionales entre sí). Ahora bien, si todos los indicadores son conocidos en los sitios de
medición, es decir si no hay incertidumbre en las mediciones, se sabe que la correlación intrínseca es
un caso de autokrigeabilidad: el cokriging de los indicadores se reduce al kriging por separado de
cada uno de ellos. Basta incluso con resolver un solo sistema de kriging (el relativo al indicador de
la mediana) para determinar los ponderadores, que son los mismos para cada kriging.
64
El kriging del indicador de la mediana es un método extremadamente rápido. Sin embargo, la

hipótesis sobre la cual se basa (correlación intrínseca de los indicadores) es raramente verificada: en
las ciencias de la tierra, a menudo se manifiesta una desestructuración de los indicadores relativos a
los umbrales altos, de modo que sus covarianzas no pueden ser proporcionales a la covarianza de la
mediana. En realidad, se muestra que la hipótesis de correlación intrínseca de los indicadores sólo es
válida en un caso, llamado modelo mosaico9 (ver anexo B). Excepto en este caso particular, se
puede desviar notablemente del óptimo efectuando un kriging de cada indicador con la covarianza
del indicador de la mediana.
La mediana de los datos vale 5.22. La figura 1.41 presenta los variogramas experimental y
modelado del indicador de la mediana, a lo largo de las direcciones principales de anisotropía. El
modelo está compuesto de un efecto pepita de meseta 0.11 y de un esquema esférico de meseta 0.14
y alcances 150m y 50m.
figura 1.41: variogramas experimental

y modelado del indicador de la mediana
a lo largo de las direcciones principales de anisotropía
Para aplicar el kriging del indicador de la mediana y estimar el indicador del umbral 4.8, se debe
hacer la hipótesis que este modelo de variograma es válido para todos los umbrales.
9
En este sentido, el modelo mosaico es el opuesto del modelo multigaussiano: en el primero, ninguna desestructuración
de los valores extremos se manifiesta, mientras que el segundo corresponde a la máxima desestructuración (los
indicadores de los valores extremos son puramente pepíticos).
65
figura 1.42: estimación del indicador del umbral 4.8

por kriging del indicador de la mediana
Los perfiles son similares a aquellos obtenidos por kriging de indicadores, pues los modelos
variográficos de los indicadores asociados al umbral 4.8 y a la mediana difieren poco. Sin embargo,
durante la aplicación del cokriging de indicadores, hemos visto que el modelo asociado a un umbral
más bajo (4.6) es fuertemente pepítico, de modo que el kriging del indicador de la mediana no sería
aceptable para tal umbral (figura 1.43).
figura 1.43: comparación entre el kriging del indicador de la mediana

y el cokriging de indicadores para la estimación del indicador del umbral 4.6
66
IV.6. Tratamiento de los valores estimados
Los métodos anteriores permiten estimar la función de distribución condicional en todo sitio
para varios umbrales {zk, k = 1... K}, al plantear:
∀ k = 1... K, F(x; z k | (n )) * = [1 Z ( x )< z k ]* .
Sin embargo, los indicadores estimados necesitan un tratamiento, lo que es una desventaja en la
práctica de los métodos no paramétricos, pues surgen dos tipos de defectos:
• puede plantearse problemas de incoherencia en las estimaciones (las cuales tienen el sentido
de probabilidades locales), por ejemplo obteniendo estimaciones negativas o superiores a 1;
• es necesario interpolar las estimaciones entre los distintos umbrales, de modo de determinar
la distribución de probabilidad local en forma continua.
IV.6.1. Los problemas de relaciones de orden
Toda función de distribución F(x ; z | (n)) satisface dos restricciones de compatibilidad:
1) 0 ≤ F(x ; z | (n)) ≤ 1
2) F(x ; z | (n)) es creciente: F(x ; zk | (n)) ≤ F(x ; zk’ | (n)) cuando zk ≤ zk’.
Se desea naturalmente que las estimaciones {F(x ; zk | (n))*, k = 1... K} cumplan estas restricciones.
De no ser el caso, se dice que hay problemas de relación de orden10. Tales problemas son una
desventaja, pues implican incoherencias en el modelo de incertidumbre local. Luego, es necesario
evitar su aparición o, a falta de esto, corregirlos.
Un primer enfoque consiste en introducir restricciones en los algoritmos de kriging, para que se
cumplan las desigualdades deseadas11, pero esta solución es costosa en tiempos de cálculo. Se puede
también procurar evitar la aparición de problemas de relaciones de orden, eligiendo juiciosamente
(heurísticamente) los umbrales de discretización, o evitando cambios abruptos en los modelos
de covarianza de los distintos umbrales (en la práctica, si los parámetros de los modelos varían
lentamente de un umbral a otro, se observa que los problemas de relaciones de orden tienden a
desaparecer).
10
Sólo los métodos paramétricos basados en un modelo completo de ley espacial a priori (o sea, en la práctica, el
modelo multigaussiano) evitan todo problema de relación de orden. Los otros enfoques (kriging disyuntivo, métodos no
paramétricos) no garantizan la obtención de funciones de distribución estimadas que satisfacen las restricciones teóricas.
En la práctica, la amplitud de los problemas de relación de orden nunca es muy grande, del orden de unos porcientos al
máximo.
11
Por ejemplo, la primera restricción se satisface si los pesos de kriging son todos positivos y su suma inferior a 1, la
segunda si los pesos de kriging son idénticos para los umbrales zk y zk’ (lo que sólo es el caso para el kriging del
indicador de la mediana, cuando los indicadores relativos a ambos umbrales son conocidos en todos los puntos con
datos).
67
Una última solución consiste en evaluar probabilidades corregidas, denotadas {F(x ; zk | (n))**,
k = 1... K}, que satisfacen las relaciones de orden.
La primera restricción – F(x ; zk | (n))* debe tomar sus valores en [0,1] –, no se cumple en forma
automática, pues el (co)kriging de una variable comprendida entre 0 y 1 no da necesariamente una
estimación en [0,1]. Esto se debe a que los pesos de (co)kriging pueden ser negativos o superiores a
1. El medio más sencillo para corregir este problema es poner las estimaciones fuera del intervalo
[0,1] al límite más cercano:
0 si F(x; z k | (n )) * < 0

F(x; z k | (n )) ** = F(x; z k | (n )) * si 0 ≤ F(x; z k | (n )) * ≤ 1

1 si F(x; z k | (n )) * > 1
La segunda restricción – F(x ; zk | (n))* ≤ F(x ; zk’ | (n))* cuando zk ≤ zk’ – tampoco está asegurada;
se plantea más frecuentemente cuando no se realiza conjuntamente las estimaciones de los distintos
umbrales (es decir cuando no se utiliza el cokriging de indicadores). Algoritmos automáticos, que
recurren a criterios de mínimos cuadrados ponderados bajo restricciones, han sido desarrollados para
corregir este problema.
Se trata por ejemplo encontrar la serie de probabilidades corregidas {F(x ; zk | (n))**, k = 1... K} que minimizan
K
** * 2
∑ ω k [ F( x; z k | ( n )) − F( x; z k | ( n )) ]
k =1
y que verifican F(x ; zk | (n))** ∈ [0,1] y F(x ; zk | (n))** ≤ F(x ; zk’ | (n))** cuando zk ≤ zk’ .
Los pesos {ωk, k = 1... K} sirven para dar eventualmente más importancia a los umbrales críticos (umbrales
altos) con respecto a los umbrales de menor interés. Algoritmos de programación cuadrática permiten entonces
determinar las probabilidades corregidas. Si se elige pesos idénticos, estas últimas se obtienen más simplemente por
el siguiente algoritmo:
1) poner las estimaciones fuera del intervalo [0,1] al límite más cercano, 0 ó 1
2) recorrer los umbrales por orden creciente y corregir sucesivamente los problemas de relación de orden:
F( x; z k | ( n )) * si F( x; z k −1 | ( n )) * ≤ F( x; z k | ( n )) *
**
∀k = 2,... K , F1 ( x; z k | ( n )) = 
F( x; z k −1 | ( n )) * en caso contrario
3) recorrer los umbrales por orden decreciente y corregir sucesivamente los problemas de relación de orden:
**
F( x; z k | ( n )) * si F( x; z k | ( n )) * ≤ F( x; z k +1 | ( n )) *
∀k = K − 1,...1, F2 ( x; z k | ( n )) = 
F( x; z k +1 | ( n )) * en caso contrario
** **
4) promediar las estimaciones F1 ( x, z k | ( n )) y F2 ( x, z k | ( n )) :
** **
** F1 ( x; z k | ( n )) + F2 ( x; z k | ( n ))
F( x; z k | ( n )) = .
2
68
IV.6.2. Interpolación y extrapolación de las estimaciones
El número de umbrales en los cuales se evalúa las funciones de distribución locales es limitado.
En la práctica, se toma entre 5 y 15 umbrales; más allá, los esfuerzos de modelamiento y los tiempos
de cálculo se vuelven importantes y los problemas de relación de orden son más numerosos; al
revés, si se toma menos de 5 umbrales, la discretización es grosera y poco precisa. Para especificar
completamente las distribuciones de probabilidad locales, se debe interpolar y extrapolar las
estimaciones obtenidas de manera discreta a todos los valores posibles de la variable regionalizada.
Existen varios algoritmos de interpolación de las funciones de distribución entre dos umbrales
consecutivos, en particular:
• lineal: ∀z ∈ [z k , z k +1 ] ,
z − zk
F(x; z | (n )) ** = F(x; z k | (n )) ** + [ F(x; z k +1 | (n )) ** − F(x; z k | (n )) ** ]
z k +1 − z k
• potencia: ∀z ∈ [z k , z k +1 ] ,
ω
 z − zk 
F(x; z | (n )) = F(x; z k | (n )) + 
** **
 [ F(x; z k +1 | (n )) ** − F(x; z k | (n )) ** ]
 z k +1 − z k 
con el exponente ω > 0 elegido heurísticamente.
Para la extrapolación más allá de los umbrales extremos, es necesario definir dos “límites de
validez”, uno inferior zmin y otro superior zmax. Se plantea F(x ; zmin | (n))** = 0 y F(x ; zmax | (n))** = 1,
y se utiliza uno de los métodos anteriores para la extrapolación de zmin a z1 y de zK a zmax. En otras
palabras, se supone que la probabilidad que la variable regionalizada salga del intervalo [zmin,zmax]
es nula. Para una variable positiva (concentración en un metal o un elemento contaminante), se toma
zmin = 0 en general; para definir zmax, hay que ayudarse de la distribución experimental de los valores
muestreados así como de las informaciones disponibles acerca de la variable regionalizada. Existe
otro método de extrapolación que evita deber precisar el límite zmax: se trata de extrapolar la función
de distribución por un arco de hipérbola, que alcanza asintóticamente el valor límite 1:
λ
∀ z > z K , F(x; z | (n )) ** = 1 −
zω
con ω ≥ 1 (parámetro que sirve para controlar la velocidad de convergencia del arco de hipérbola)
ω
λ = z K [1 − F(x; z K | (n )) ** ] para asegurar la continuidad en z = zK.
69
Se puede también componer estos métodos, eligiendo por ejemplo el método lineal para la
interpolación entre los umbrales {z1,... zK}, un método de tipo potencia para z ∈ [zmin,z1] y el método
hiperbólico para z > zK (figura 1.44). Sin embargo, la elección de un método de interpolación con
respecto a otro es arbitraria. En particular, la evaluación de las colas de distribución (elección de
los límites zmin y zmax y modo de extrapolación) es delicada e influye notablemente en los resultados
posteriores (una probabilidad, aunque muy baja, de tomar un valor muy alto puede conducir a
sobrestimar los valores reales).
figura 1.44: interpolación y extrapolación

para completar la función de distribución estimada
Una última técnica permite evitar en parte lo arbitrario del método de interpolación o
extrapolación. La idea es ayudarse de la función de distribución a priori F(z) (que corresponde al
histograma de los datos, después de desagrupamiento y suavizamiento) para determinar la forma de
la función de distribución condicional F(x ; z | (n)) entre los umbrales de discretización. Entre dos
umbrales consecutivos, se impone la misma “forma” para F(z) y F(x ; z | (n)), o sea, se decide que la
distribución condicional entre estos umbrales es idéntica a la distribución a priori, la cual se conoce
con mayor precisión pues se evalúa a partir de todos los datos disponibles.
70
V. Uso del modelo de incertidumbre local
El conocimiento de la función de distribución condicional en un sitio equivale a conocer la

distribución probable de los valores en este sitio, en función de las mediciones realizadas en los
sitios circundantes. Es una información mucho más rica que una mera estimación, ya que se puede
prever la dispersión posible del valor desconocido o el riesgo que sobrepase un umbral dado.
V.1. Cálculo de las probabilidades de sobrepasar un umbral
Un primer uso del modelo de incertidumbre local es evaluar la probabilidad de sobrepasar un

umbral dado: Prob[Z(x) ≥ z | (n)] = 1 – F(x ; z | (n)). Por ejemplo, en medio ambiente, el umbral
escogido puede representar el nivel máximo de contaminación admisible.
Igualmente, se puede calcular las probabilidades que los valores reales se ubiquen en un intervalo
dado:
Prob[z1 ≤ Z(x) < z2 | (n)] = F(x ; z2 | (n)) – F(x ; z1 | (n)).
Todas estas probabilidades son condicionales a los valores medidos en los sitios con datos, es
decir que toman en cuenta la información disponible y su geometría.
Retomemos el ejemplo de los datos de suelo. Para que un sitio sea cultivable, el pH del suelo en
este sitio debe ser mayor que un cierto umbral. Este umbral depende del tipo de terreno y del cultivo
considerado; en el caso que nos preocupa (terreno arcilloso y cultivos de caña de azúcar), vale 4.8.
El agrónomo está interesado no por una estimación del valor del pH, sino más bien por la
probabilidad que este valor sea inferior a 4.8, es decir F(x ; 4.8 | (n)), que mide el riesgo que el terreno
no sea viable.
La figura 1.45 presenta los mapas de las probabilidades estimadas, eventualmente corregidas de
los problemas de relación de orden, obtenidos por varios métodos (modelo multigaussiano, kriging
de indicadores, cokriging de indicadores y kriging de probabilidad). Las zonas claras indican los
lugares donde hay una probabilidad grande de sobrepasar el umbral 4.8. Los mapas presentan
diferencias según el método escogido. Para determinar cual método es el más adecuado, se puede
utilizar la técnica de validación cruzada; en este caso particular, el modelo multigaussiano entrega
los mejores resultados (la varianza estadística de los errores de estimación es menor).
71
figura 1.45: estimación de la probabilidad que el valor real sea inferior a 4.8
(a) modelo multigaussiano, (b) kriging ordinario del indicador asociado al umbral 4.8
(c) cokriging ordinario de los indicadores asociados a los umbrales 4.6 – 4.8 – 5,
(d) kriging ordinario de probabilidad
V.2. Evaluación de la incertidumbre asociada a un valor

desconocido
El modelo de incertidumbre local permite también medir la incertidumbre asociada a los valores
desconocidos. En geoestadística lineal, la incertidumbre es cuantificada por la varianza de kriging.
Sin embargo, esta última es insuficiente para prever intervalos de confianza en torno al valor
estimado. Pero sobretodo, es indiferente a los valores tomados por los datos: con una configuración
idéntica, se obtiene la misma varianza de kriging, que los datos sean del mismo orden de magnitud o
muy diferentes; ahora bien se concibe que en el segundo caso (datos erráticos), la incertidumbre es
más alta que en el primer caso.
72
En el modelo de incertidumbre local, la novedad es que no se refiere a una estimación ni a una
varianza de estimación, sino directamente a una distribución de probabilidad local, condicionada por
los datos circundantes. Se dispone entonces de una información más completa, que permite distintas
medidas de la incertidumbre relativa al valor real desconocido:
• varianza de la distribución local
Se trata de una varianza condicional, que toma en cuenta los valores tomados por los
datos cercanos al sitio considerado. La desventaja de esta medida es que hace intervenir un
cuadrado, luego es sensible a las colas de la distribución local. Por lo tanto, si se recurrió
a un método no paramétrico (como el kriging de indicadores, el kriging de probabilidad…),
el cálculo de la varianza local corre el riesgo de depender excesivamente del método de
extrapolación usado para determinar la distribución de probabilidad condicional. Se podrá
utilizar una de las medidas siguientes, las cuales son menos sensibles a la influencia de los
valores extremos.
• rango intercuartil local
El rango intercuartil de una distribución de probabilidad es igual a la diferencia entre el valor del
tercer cuartil y el valor del primer. Es una medida mucho más robusta que la varianza, pues se apoya en
los cuartiles de la distribución local, luego es insensible a los valores extremos.
• coeficiente de selectividad local
El coeficiente de selectividad de una distribución de probabilidad se define por

+∞
S( x | (n)) = ∫ −∞
F( x; z | ( n )) [1 − F( x; z | ( n )] dz .
Este coeficiente y la varianza de la distribución local están relacionados por 3 S(x | (n))2 ≤ σ2(x | (n)),
con la igualdad si y sólo si la distribución local es uniforme. Mientras más apretada es la distribución
F(x ; z | (n)), más cercano a 0 es el coeficiente de selectividad y menos incierto es el valor de Z(x).
• entropía local
Al contrario de la varianza o del rango intercuartil, la entropía de una distribución de probabilidad no

se refiere al valor esperado o a un intervalo particular. Por definición, es igual a
+∞
H ( x | (n)) = ∫ −∞
− ln [f ( x; z | ( n ))] f ( x; z | ( n )) dz
donde f(x ; z | (n)) es la densidad de probabilidad local, o sea, la derivada de la función de distribución
local: f(x ; z | (n)) = dF(x ; z | (n)). Una vez especificada la función de distribución local, es posible evaluar
la entropía con un grado de aproximación dado. En la práctica, el cálculo se reduce a una integral o una
suma discreta sobre un intervalo limitado [zmin,zmax].
La entropía es una cantidad siempre positiva. Una entropía nula significa que Z(x) se conoce con
certeza. El valor máximo de H(x | (n)) es igual a ln(zmax – zmin) y corresponde al caso donde Z(x) es
uniformemente distribuido en el intervalo [zmin,zmax] (incertidumbre máxima). Para evitar que la entropía
calculada dependa del intervalo de definición de Z, es frecuente dividirla por ln(zmax – zmin); se obtiene
una entropía estandarizada que toma sus valores en [0,1].
73
Los siguientes mapas presentan varias medidas de la incertidumbre asociada a los valores del
pH: varianza de kriging ordinario, varianza condicional a los datos, rango intercuartil y coeficiente
de selectividad local. Las tres últimas medidas fueron calculadas con las funciones de distribución
locales obtenidas por el modelo multigaussiano.
figura 1.46: varianza de kriging ordinario (a), varianza condicional a los datos (b),
rango intercuartil (c) y coeficiente de selectividad local (d) sobre los datos de suelo
En el primer mapa, se puede comprobar que la varianza de kriging no depende de los valores de
los datos, sino sólo de su configuración geométrica. No pasa lo mismo con la varianza condicional,
el rango intercuartil y el coeficiente de selectividad local, que constituyen medidas más realistas de
la incertidumbre asociada a los valores desconocidos.
74
V.3. Estimación de los valores reales
En las aplicaciones prácticas, a menudo se desea estimar los valores de la variable regionalizada
de manera “óptima”. Este último adjetivo sólo tiene sentido si se ha definido el criterio de calidad
del estimador buscado. Por ejemplo, en el kriging, el criterio de calidad es la varianza del error de
estimación (o más exactamente el error cuadrático promedio), que se desea minimizar. En el modelo
de incertidumbre local, el conocimiento de las funciones de distribución permite definir cualquier
otro criterio de calidad y determinar el estimador óptimo según este criterio.
Se define primero una función de costo L o función de pérdida, que mide el “costo” sufrido
según el error de estimación cometido. Se busca, en cada sitio x, la estimación z*(x) que minimiza la
función de costo, o sea L [ε(x)], donde ε(x) = z(x) – z*(x). Como ε(x) es desconocido, ya que z(x) lo
es, se contenta con minimizar la esperanza de L [ε(x)], condicionada por los datos disponibles. Se
calcula entonces el valor z*(x) que minimiza
+∞
E { L [ Z(x) − z * (x)] | (n ) } = ∫ L [z(x) − z * (x)] dF(x; z | (n )) .
0
Lo interesante de este enfoque es su flexibilidad: el estimador depende de la función de costo

escogida, que puede ser definida según criterios “económicos”, en lugar de criterios matemáticos
como la búsqueda de un error cuadrático mínimo.
Ejemplos
• L [ε(x)] = ε(x)2: el criterio de calidad es la minimización de la desviación cuadrática promedio.

El estimador asociado es la esperanza de la función de distribución local, o sea la esperanza del
valor Z(x) condicional a los datos. Se muestra que minimizar la desviación cuadrática promedio
equivale a asegurar la ausencia de sesgo y minimizar la varianza de estimación; se trata entonces
del mismo criterio de calidad que el utilizado en geoestadística lineal. Se prestará atención a que
la esperanza condicional difiere en general del kriging, pues este último busca el estimador
óptimo entre las combinaciones lineales de los datos. La desventaja de la búsqueda de un error
cuadrático mínimo es que el estimador es sensible a los grandes valores, es decir a la manera con
la cual se extrapoló la cola de la distribución local.
• L [ε(x)] = |ε(x)|: este criterio entrega un estimador más robusto que el anterior, pues no amplifica
la importancia de los grandes errores (el error interviene en valor absoluto, no por su cuadrado).
Se demuestra que el estimador obtenido es igual al valor mediano de la distribución local:
z * (x) = F −1 (x ; 0.5 | (n )) .
Contrariamente a la esperanza condicional, la mediana local no es necesariamente un estimador

insesgado del valor desconodico.
75
• Las funciones de costo anteriores son simétricas con respecto al error de estimación: así, una
sobrestimación “cuesta” tanto como una subestimación. En las aplicaciones prácticas, el costo es
raramente simétrico. Por ejemplo, en un estudio de contaminación, subestimar la concentración
de un contaminante puede tener un impacto en el entorno y la salud pública mucho más grave
que sobrestimarla (costo de una descontaminación inútil). Se podrá entonces elegir una función
de costo asimétrica, del tipo:
α ε(x) si ε(x) ≥ 0 (subestimación)

L [ε(x)] = 
β | ε(x) | si ε(x) < 0 (sobrestimación)
con coeficientes α y β diferentes.
Planteando p = α/(α+β), se establece que el estimador óptimo es aquel que corresponde al

p-ésimo cuantil de la distribución de probabilidad local:
F(x ; z * (x) | (n )) = p , o sea z * (x) = F −1 (x ; p | (n )) .
z*(x) representa el umbral que tiene la probabilidad p de sobrepasar el valor real en x.
Si se recurre a un enfoque paramétrico (kriging de indicadores...), hay que poner atención a

que la distribución local sólo se conoce bien para los valores comprendidos entre los primer y
último umbrales empleados para determinarla. Más allá de estos umbrales, el estimador corre el
riesgo de ser altamente tributario del modo de extrapolación de la función de distribución local.
0 si ε(x) = 0
• L [ε(x)] = 
α > 0 en caso contrario
El estimador óptimo para esta función de costo particular es el valor más probable de la
distribución local, es decir, el valor que maximiza la densidad de probabilidad correspondiente
f(x ; z | (n)).
• Otras funciones de costo pueden ser consideradas. En el caso general, la integral que determina
el valor del estimador óptimo debe evaluarse numéricamente por discretización.
Para que el terreno sea viable para los cultivos de caña de azúcar, el pH debe ser mayor que
el valor crítico 4.8. En consecuencia, una subestimación del valor real es menos grave que una
sobrestimación, que puede hacer creer injustamente que el terreno es fértil. Se considera entonces la
función de costo asimétrica siguiente:
ε(x) si ε(x) ≥ 0
L [ε(x)] = 
3 | ε(x) | si ε(x) < 0
76
El costo de una sobrestimación es tres veces mayor que el de una subestimación. La estimación
óptima según este criterio es el primer cuartil de la función de distribución local (figura 1.47).
figura 1.47: mapa del primer cuartil de la distribución local

(calculado con ayuda del modelo multigaussiano)
Este mapa representa los valores que tienen una probabilidad de 75% de ser sobrepasados por
los valores desconocidos. Dicho de otra manera, refiriéndose a estas estimaciones, se subestimará el
valor del pH una de cada cuatro veces, en promedio. A modo de comparación, damos a continuación
los mapas de las esperanza y mediana condicionales, que minimizan el error cuadrático promedio y
el error absoluto promedio respectivamente. La elección de la función de costo tiene repercusiones
sensibles en los valores estimados.
figura 1.48: esperanza condicional (a) y mediana de la distribución local (b)
77
V.4. Intervalos de confianza
Una vez especificada una estimación del valor z(x), el modelo de incertidumbre local permite
calcular un intervalo de confianza en torno a esta estimación, con un nivel de confianza dado. Los
límites de confianza se establecen a partir de la función de distribución condicional; dependerán de
la configuración geométrica de los datos en la vecindad del sitio x y de sus valores. Así se obtiene
un intervalo de confianza mucho más realista que el que deriva de la varianza de kriging (la cual es
indiferente a los valores de los datos).
Además, dado que el intervalo de confianza resulta directamente de la función de distribución

local, se puede especificar un intervalo de confianza sobre el valor desconocido sin referirse a una
estimación.
V.5. Clasificación y toma de decisión
Presentaremos el tema de la clasificación sobre los datos de suelo. Supongamos que se trata de
clasificar la parcela en una zona fértil o “viable” (pH > 4.8) y una zona “no viable” (pH < 4.8). La
clasificación se basa en los valores estimados del pH (y no en los valores reales, desconocidos),
óptimos según un criterio de calidad, por ejemplo el mapa del primer cuartil de las funciones de
distribución local (figura 1.49).
figura 1.49: mapa del primer cuartil de la distribución local (a)

y clasificación de la parcela en una zona viable y una zona no-viable (b)
Sin embargo, por más que sea óptimo el mapa de las estimaciones, existe siempre un riesgo de
equivocarse (en este caso, clasificar como fértil una zona no viable, o lo contrario).
78
El conocimiento de las distribuciones de probabilidad locales permite evaluar los riesgos de

tomar una decisión errónea: riesgos de primera y segunda especies:
α(x) = Prob [ Z(x) < z | z * (x) ≥ z, (n ) ]
β(x) = Prob [ Z(x) ≥ z | z * (x) < z, (n ) ] .
Estos riesgos se expresan de la siguiente manera:
α(x) = F(x; z | (n )) para todo sitio x tal que z * (x) ≥ z
β(x) = 1 − F(x; z | (n )) para todo sitio x tal que z * (x) < z .
Así, los dominios de definición de los riesgos α(x) y β(x) dependen del estimador elegido, pero
su valor no (está caracterizado por la función de distribución local) (figura 1.50).
figura 1.50: riesgos de primera especie (a) y de

segunda especie (b) asociados a la clasificación anterior
Cuando se juzga el riesgo α(x) demasiado alto, se puede ya sea actuar como si el sitio no fuera
viable (por prudencia), aunque el valor estimado sea mayor que el umbral mínimo admisible, o bien
completar el muestreo en la vecindad del sitio x y hacer de nuevo el análisis con ayuda de los datos
recogidos. Como regla general, las zonas donde los riesgos son grandes no son aquellas donde los
valores estimados son muy altos o muy bajos (pues su clasificación es relativamente segura), sino
aquellas donde las estimaciones son cercanas al umbral crítico.
79
Otros criterios que los valores estimados pueden ser considerados para la clasificación:
• clasificación basada en las probabilidades de sobrepasar el umbral de referencia 4.8: se clasifica

como viable toda zona donde la probabilidad de sobrepasar el valor 4.8 es superior a una
probabilidad dada; con respecto a la clasificación basada en una estimación, este enfoque tiene la
ventaja de tomar en cuenta no sólo la estimación, sino también su precisión.
• clasificación basada en una función de costo: se evalúa el “costo” (o, más exactamente, su
esperanza condicional a los datos) asociado a la decisión de clasificar la zona como fértil y el
costo asociado a la decisión de declararla no viable, luego se elige la alternativa de menor costo
esperado. Esta metodología es muy interesante, pues las funciones de costo pueden ser definidas
según criterios económicos y prácticos, y no solamente según criterios matemáticos.
Los riesgos de primera y segunda especies se expresan de la misma manera:
α(x) = F(x; z | (n )) para todo sitio x declarado “viable”
β(x) = 1 − F(x; z | (n )) para todo sitio x declarado “no viable”.
Numerosos dominios de aplicación están concernidos por los problemas de clasificación. En

particular, es el caso en medio ambiente (estudios de contaminación), donde se desea distinguir las
zonas sanas y las zonas contaminadas, según la concentración que toma un elemento contaminante
presente en el suelo: las zonas cuyos valores son superiores a un umbral crítico son declaradas
contaminadas, las otras sanas. El riesgo de clasificar una zona sana como contaminada o
recíprocamente, puede tener una importancia en la toma de decisión (cuales son las zonas que deben
ser descontaminadas).
Otro dominio de aplicación es la geoestadística minera: se trata de delimitar las zonas

económicamente rentables (aquellas cuya ley en metal es mayor que una ley de corte) y las zonas
estériles; pero al problema de clasificación se suma aquí un problema de cambio de soporte: las
unidades explotadas no son puntuales, sino bloques. La resolución de tal problema necesita recurrir
a técnicas más sofisticadas (modelo de cambio de soporte o simulaciones condicionales), pues las
funciones de distribución locales calculadas hasta ahora se refieren a sitios puntuales y no a bloques.
80
Resumen
Para modelar la incertidumbre asociada a los valores desconocidos de la variable regionalizada,

la varianza de kriging es generalmente insuficiente, pues no depende de los valores de los datos
disponibles. Esta incertidumbre puede ser descrita de manera más pertinente por una distribución de
probabilidad. La función de distribución a priori (histograma acumulado de los datos) describe la
distribución global de los valores, sin distinguir los diferentes sitios del campo; para tomar en cuenta
los valores observados en los sitios muestreados en la medida de la incertidumbre, se utiliza la
noción de función de distribución condicional a los datos o “local”.
Para determinar las funciones de distribución locales, el enfoque más sencillo y más rápido es el
modelo multigaussiano. Consiste en transformar la variable estudiada en una variable gaussiana
(“anamorfosis”), cuya ley espacial condicional es enteramente especificada por un sistema de kriging
simple. El modelo multigaussiano supone que la transformada gaussiana tiene una ley espacial
gaussiana, hipótesis que conviene verificar, a lo menos parcialmente. Además, no se adapta a todas
las situaciones (por ejemplo, implica que los valores extremos están totalmente desestructurados, lo
que puede ser incompatible con la regionalización estudiada).
Otros enfoques, dichos no paramétricos, han sido desarrollados en vista de liberarse de toda
forma preestablecida de ley espacial. En contrapartida de esta mayor flexibilidad, son más pesados
de poner en marcha y plantean dificultades en el análisis variográfico. Se basan en una codificación
de las probabilidades en indicadores. Se evalúa las funciones de distribución locales para varios
umbrales que discretizan el intervalo de los valores de la variable. Entre los métodos de estimación
que se puede considerar figuran el kriging de indicadores, el cokriging de indicadores, el kriging de
probabilidad y el kriging del indicador de la mediana. La principal desventaja de estos métodos no
paramétricos es que las funciones de distribución son estimadas de manera incompleta y no son
siempre coherentes; las estimaciones discretizadas deben ser corregidas de los problemas de relación
de orden, luego interpoladas y extrapoladas para obtener una estimación en forma continua, es decir
para todos los valores posibles de la variable regionalizada.
El modelo de función de distribución local es una herramienta de cálculo útil en los problemas
de evaluación de riesgo y la toma de decisión: permite en particular evaluar las probabilidades de
sobrepasar un umbral, estimar los valores desconocidos (optimizando un criterio determinado, que
no es necesariamente la búsqueda de una varianza de error mínima), medir la incertidumbre asociada
a estos valores o construir intervalos de confianza sobre las estimaciones.
81
82

De Clustering

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

De Clustering

Enviado por

Direitos autorais:

Formatos disponíveis

Capítulo 1: modelos de incertidumbre local

o como caracterizar la incertidumbre

I. Insuficiencia del kriging

II. Modelos globales y locales

En adelante, nos ponemos en el enfoque de la geoestadística probabilística, donde la variable

En este capítulo trataremos de caracterizar los valores desconocidos de la variable regionalizada

II.1.1. Densidad y función de distribución a priori

∀z, F(z) = Prob [ Z(x) < z] .

Bajo la hipótesis de estacionaridad, F(z) no depende de x. Una interpretación de este resultado

Cuando el muestreo es irregular, el histograma de los datos no es necesariamente representativo

figura 1.1: plan de muestreo

Este método de “desagrupamiento” es sencillo, pero presenta la desventaja de no tomar en

donde 1 designa la función de indicador:

figura 1.3: histograma acumulado experimental

• método de los polígonos de influencia

figura 1.4: partición de un dominio cuadrado en polígonos de influencia

• método de las celdas

El problema que se plantea es el de la determinación del origen de la red de celdas, de su orientación y de

figura 1.6: elección del tamaño de las celdas cuando

II.1.3. Suavizamiento del histograma experimental

Para modelar correctamente la función de distribución teórica, a menudo es necesario suavizar

Es equivalente trabajar con el histograma (que corresponde a la densidad de probabilidad) o

II.1.4. Aplicación a datos de agronomía

El muestreo ha sido realizado de manera relativamente regular, aproximadamente en los nodos

figura 1.7: mapa de representación proporcional

figura 1.8: histograma experimental bruto y estadísticas asociadas

figura 1.9: histograma experimental desagrupado y estadísticas asociadas

Para terminar, damos un ejemplo de suavizamiento de los histogramas experimentales estándar

figura 1.10: suavizamiento de los histogramas experimentales desagrupados, estándar (a) y

II.2. Modelo de incertidumbre local

∀z, F(x; z | (n )) = Prob [ Z(x) < z | Z(x1 ),... Z(x n )] .

La determinación de F(x ; z | (n)) permitirá medir la incertidumbre asociada al valor desconocido

II.3. Sentido objetivo de las probabilidades y funciones de

Las probabilidades y funciones de distribución, a priori o condicionales, no son magnitudes

La formulación en términos objetivos de la función de distribución condicional (o local) es

Estos argumentos permiten imaginar un procedimiento de validación cruzada para controlar la

Por ejemplo, si p1 = 0.5, el intervalo de confianza es el rango intercuartil de la distribución local

En la práctica, es cómodo repetir el procedimiento para varias probabilidades y compararlas

figura 1.12: nube de correlación entre las probabilidades y las proporciones

III. Enfoques paramétricos

Los enfoques paramétricos se apoyan en un modelo predeterminado de ley espacial para la

III.1. La anamorfosis gaussiana

III.1.1. Presentación teórica

figura 1.14: construcción gráfica de la anamorfosis con ayuda de las densidades de

figura 1.15: construcción gráfica de la anamorfosis con ayuda

figura 1.16: función de anamorfosis

a) La construcción de la anamorfosis no es siempre posible (se requiere que la función de

figura 1.17: situación problemática para la anamorfosis gaussiana:

b) Conocer la función de anamorfosis es equivalente a conocer la función de distribución F, o sea la

d) Para aplicar el modelo gaussiano que presentaremos posteriormente, la variable transformada

III.1.2. Determinación práctica

En la práctica, se puede calcular la anamorfosis

Primer método: determinación de la anamorfosis empírica, luego suavizamiento

z 1 < z 2 < ... < z l (l ≤ n )

pi ≈ (número de datos que valen zi / número total de datos) = ni / n.

Los valores zi son asociados a las frecuencias acumuladas:

Prob [ Z( x ) = z i ] = Prob [ z i ≤ Z( x ) < z i +1 ] = F( z i+1 ) − F( z i ) = G ( y i+1 ) − G ( y i ) = Prob [ y i ≤ Y ( x) < y i+1 ] .

figura 1.18: determinación de la anamorfosis empírica

Varias razones justifican la necesidad de efectuar un suavizamiento de φ̂:

Segundo método: modelamiento del histograma acumulado, luego anamorfosis

La transformada gaussiana del valor zi se obtiene por la relación

figura 1.21: determinación parcial de la anamorfosis

figura 1.22: determinación completa de la anamorfosis

Observación acerca de los “átomos” en la distribución de los datos iniciales