Você está na página 1de 65

Fundamentos de Geoestad stica

Gel. Oscar Javier Garc o a-Cabrejo Ing. Juan Camilo Quijano Nieto Maestr en Hidrosistemas a Ponticia Universidad Javeriana c 2005. Ponticia Universidad Javeriana, Bogot, Colombia. a

CAP ITULO 1 Introduccin a la Geoestad o stica


Todos los modelos son incorrectos, pero algunos son utiles H.Box

Se quiere estudiar fenmeno que var a nivel espacial (precipitacin) y en o a o consecuencia se disea red de monitoreo para realizar mediciones. Estas n estaciones de medicin se encuentran ubicadas en ciertos puntos del rea de o a inters, pero es necesario conocer el valor del fenmeno en toda el rea de e o a estudio (incluyendo puntos donde no se tienen estaciones). Esta situacin no o representa ningn problema ya que se puede resolver mediante un procedu imiento de interpolacin espacial tal como el inverso de la distancia pondero ado o cerchas (splines). Sin embargo si adems se requiere conocer la cona abilidad de la interpolacin espacial realizada en un punto determinado o o si se requiere incorporar en ese procedimiento la estructura de correlacin o espacial del fenmeno en estudio, las metodolog mencionadas anterioro as mente resultan limitadas y por lo tanto es necesario buscar otra estrategia que permita resolver estos problemas. La estrategia que permitir resolver a estos problemas se denomina Geoestad stica y constituye el tema central del presente texto.

Generalmente se piensa que los mapas obtenidos de un anlisis como el mena 3

CAP ITULO 1. INTRODUCCION A LA GEOESTAD ISTICA

Figura 1.1: Problema central del modelamiento geoestad stico, reconstruir la variacin del fenmeno a nivel espacial o o

cionado anteriormente son los resultados y productos nales, sin embargo es de aclarar que estos modelos de la distribucin espacial del fenmeno en o o estudio (o mapas en trminos ms sencillos) son poderosas herramientas que e a sirven de apoyo para la toma de decisiones en todos los niveles de la labor profesional. Dada las implicaciones tan importantes que pueden tener las decisiones que se toman a partir de los resultados consignados en los mapas, la elaboracin de estos deber incluir la correlacin espacial del fenmeno, o a o o as como diferentes tipos de informacin disponibles y por lo tanto no puede o dejarse a un algoritmo automtico. a La Geoestad stica brinda una descripcin cuantitativa de los fenmenos nato o urales que presentan variacin en el espacio y / o en el tiempo o en los dos doo minios conjuntamente. En el campo de la Ingenier Civil algunos fenmenos a o como el espesor de un estrato de suelo, la porosidad de un acu fero, la intensidad de precipitacin en un punto, entre otros, son algunos ejemplos o de fenmenos que var en el espacio. Las variables antes mencionadas se o an caracterizan por presentar un alto grado de complejidad, de tal forma que su descripcin no se puede hacer mediante modelos sencillos como pol o gonos 4

1.1. DEFINICION DE GEOESTAD ISTICA

o funciones. El conocimiento que se puede adquirir de un fenmeno que var a nivel o a espacial implica obligatoriamente la nocin de un muestreo, y dado que deo bido a razones econmicas y tcnicas, solo es posible obtener muestras en uno o e pocos puntos del dominio de estudio; aparece un elemento de incertidumbre en cualquier inferencia o modelo que se construya de la distribucin espacial o del fenmeno de inters. Esta situacin se debe tener en cuenta ya que va a o e o afectar sensiblemente la toma de decisiones y la resolucin de problemas en o las que sea necesario conocer como var el (los) parmetro(s) de inters en a a e el espacio. La Geoestad stica agrupa un conjunto de tcnicas con las cuales es posie ble caracterizar la incertidumbre espacial que aparece en la situacin antes o descrita. Para cumplir con este objetivo se hace necesario utilizar las herramientas estad ticas y probabil sticas y espec camente los conceptos relacionados con funciones de distribucin de probabilidad, ya que esta es una o forma util para representar el conjunto de valores que puede tomar un atrib uto de inters. As mismo en muchas oportunidades la variacin espacial de e o un atributo de inters, por ejemplo el l e mite al corte de un suelo en particular, presenta un alto grado de hetereogeneidad que hace pensar en un cierto elemento de aleatoriedad que debe ser modelado y por lo tanto los modelos estad sticos/ probabil sticos resultan especialmente adecuados. Las variables espaciales se caracterizan por no ser completamente aleatorias ya que presentan estructura espacial, en el sentido que dos puntos cercanos tienden a presentar valores parecidos. Para trabajar con este tipo de fenmenos o Georges Matheron en 1963 propus el concepto de variable regionalizada. o Las variables regionalizadas se puede denir como una funcin numrica o e Z(x) donde x representa un ndice continuo en el espacio, la cual presenta dos caracter sticas: Alto grado de irregularidad (aleatoriedad) a nivel local. Correlacin espacial, ya que dos puntos cercanos tienden a presentar o valores parecidos entre s .

1.1.

Denicin de Geoestad o stica

CAP ITULO 1. INTRODUCCION A LA GEOESTAD ISTICA

De acuerdo a lo anterior existen 2 deniciones de Geoestad stica: Denicin 1: aplicacin de los mtodos probabil o o e sticos al estudio de las variables regionalizadas. Denicin 2: estudio de los fenmenos que var en el espacio y/o o o an en el tiempo usando metodolog estad as sticas y probabil sticas.

La denicin 1 fue dada por Georges Matheron en 1963 con la publicacin o o del primer art culo en el Economic Geology, mientras que la segunda es la denicin que actualmente se utiliza en las aplicaciones prcticas. o a

1.2.

Aspectos Aplicados

La Geoestad stica presenta diferentes aspectos de aplicacin, los cuales o se encuentran directamente relacionados con los problemas ms importantes a que se pueden resolver con este tipo de herramientas. En primer lugar, hay unos aspectos metodolgicos que incluyen el estudio y caracterizacin de la o o estructura de correlacin espacial de la(s) variable(s) de inters,y la cual es o e la base para entrar a considerar las acciones espec cas de la Geoestad stica, tales como la estimacin y simulacin estocstica condicional. Una vez se o o a puedan realizar estimacin o simulacin, ya se puede entrar a considerar o o una amplia gana de problemas que van desde la caracterizacin de la ino certidumbre espacial, al cambio de soporte, pasando por la estimacin de o probabilidades espaciales y diseo de redes de monitoreo. n

Aspectos metodolgicos o
Estudio de estructura de correlacin espacial: La Geoestad o stica ofrece la oportunidad de estudiar la correlacin espacial del fenmeno o o de inters por medio de los denominados Semivariogramas (aunque e existen otras herramientas adicionales para cumplir este importante propsito, para ms detalles ver cap o a tulo 3).

1.2.1.

Acciones

Estimacin: La aplicacin ms usual de los mtodos Geoestad o o a e sticos corresponde a la estimacin del valor de la variable regionalizada en o puntos donde no se tiene muestra, para lo cual generalmente se obtiene un mapa que representa la distribucin espacial del atributo en estudio. o 6

1.2. ASPECTOS APLICADOS

Este mapa o grilla obtenida se toma como la representacin de la o realidad y en la gran mayor de oportunidades es la base para la a obtencin de otros mapas o grillas, para la elaboracin de mapas de o o contornos o para la determinacin de otras variables relacionadas. o Simulacin Estocstica Condicional: El objetivo central de la simo a ulacin estocstica condicional consiste en reproducir la variabilidad o a espacial del fenmeno (ya que esto no es posible con los procedimieno tos de estimacin), as como de ofrecer otra alternativa para la caraco terizacin de la incertidumbre espacial por medio de la denominada o varianza condicional.

1.2.2.

Problemas a resolver

Incertidumbre Espacial: Una de las grandes ventajas de las tcnicas e Geoestad sticas es que permiten obtener medidas de conabilidad en la estimacin (Varianza de estimacin y de interpolacin), as como o o o medidas de incertidumbre local en el valor del atributo en un punto de inters (varianza condicional) para el caso de la simulacin estocstica e o a condicional. Con estas medidas es posible determinar las ubicaciones espaciales en donde los errores de estimacin son altos y/o bajos, y o por lo tanto se convierten en una gu importante para mejorar los a esquemas de muestreo. Dise o de redes de monitoreo: En muchas oportunidades aparece n el problema de determinar cual es el mejor esquema de muestreo con el n de resolver un problema particular, tal como disminuir el error de estimacin o cumplir con una restriccin econmica o de diseo o o o n (nmero de muestras). Lo interesante de este tipo de problemas est en u a poderlo resolver antes de tomar las muestras en la realidad Integracin de Informacin: Existen situaciones en las cuales adems o o a de la variable objetivo del estudio se tiene informacin adicional soo bre esta, representada por una o ms parmetros relacionados y que a a pueden brindar informacin acerca de la distribucin espacial de la o o primera. El ejemplo clsico de esta situacin en la Ingenier Civil a o a y espec camente en Hidrolog corresponde a la precipitacin y la a, o topograf En muchas oportunidades se sabe que la precipitacin se a. o encuentra controlada por los topograf y mientras que generalmente a, se cuenta con pocas estaciones meteorolgicas en donde se mide la o 7

CAP ITULO 1. INTRODUCCION A LA GEOESTAD ISTICA

precipitacin, se cuenta con la informacin de la topograf completao o a mente muestreada y la cual se puede obtener de los modelos digitales de elevacin. En este caso el reto se encuentra en utilizar la informacin o o de topograf como una variable secundaria para mejorar el modelo de a la distribucin espacial (mapa) de la precipitacin. o o Estimacin de Probabilidades: En algunos problemas prcticos se o a requiere conocer o tener una aproximacin al valor de la probabilidad o que en un punto donde no tiene muestra el valor de la variable en estudio supere cierto valor cr tico, por ejemplo que el l mite al esfuerzo cortante de un suelo supere cierto valor cr tico con el cual el suelo presente fenmenos de licuacin; o en el caso de calidad de aguas que la o o concentracin de algn elemento o compuesto en particular sea mayor o u a los l mites establecidos por la norma. Este problema se puede resolver utilizando las tcnicas de la denominada Geoestad e stica Indicadora (Ver seccin 4.8.3). o Cambio de Soporte: El soporte se dene como el volumen sobre el cual se realizan las mediciones de la informacin. Por ejemplo, el o volumen de muestra utilizado para la determinacin de una propiedad o mecnica como el l a mite al corte o la humedad relativa, es diferente al volumen estudiado en una prueba de bombeo de un acu fero. Mientras que en el primer caso la muestra corresponde a un fragmento de suelo cuyo tamao es relativamente pequeo, mientras que en la prueba de n n bombeo el cono de abatimiento inducido por el bombeo puede alcanzar (dependiendo de las propiedades del acu fero) hasta 200 o 300 metros de dimetro. a Este tipo de problemas es muy importante ya que muchas veces se requieren obtener modelos de la distriobucin espacial del parmetro o a en estudio a una escala diferente a la que se realizaron las medidas, como suele ocurrir en el caso que el modelo de la distribucin espacial o (mapa) sea un parmetro de entrada a un modelo numrico. a e

CAP ITULO 2 Anlisis Exploratorio de Datos a


El Universo est constru segn un plan cuya profunda a do u simetr est presente de algn modo en la estructura interna a a u de nuestro intelecto. P. Valery

2.1.

Motivacin o

Para la elaboracin de un mapa es necesario contar conocer las caraco ter sticas de la informacin de las variables en estudio, ya que en muchos o casos estas inciden directamente en el tipo de modelamiento que se va a realizar. Por lo tanto resulta de vital importancia contar con herramientas con las cuales sea posible determinar las caracter sticas de un conjunto de datos que permitan denir la metodolog de anlisis a utilizar, as como facilite a a la identicacin de los indicios que permitan inferir los procesos f o sicos o de otro tipo, que han condicionado la ocurrencia de la variable en estudio. Estas tcnicas hacen parte del denominado anlisis exploratorio de datos y e a son de vital importancia en cualquier estudio geoestad stico. As mismo hay muchas metodolog estad as sticas que se basan en suposiciones restrictivas de normalidad de los datos, las cuales muchas veces no se cumplen en la prctica. Esto obliga a que el anlisis exploratorio sea un a a paso tan importante y al cual haya que dedicarle una gran cantidad del tipo 9

CAP ITULO 2. ANALISIS EXPLORATORIO DE DATOS

que se destina al anlisis de la informacin. a o

2.2.

Denicin General o

El anlisis exploratorio de datos (o AED en forma abreviada) abarca a un conjunto de tcnicas que como su nombre lo indica se utilizan para exe plorar la informacin cuando no se tiene una idea particular de lo que se o esta buscando o cuando no se conoce de forma detallada las muestras que se estan analizando. El AED incluye tcnicas estad e sticas (tales como momentos estad sticos) y herramientas grcas con los cuales se busca encontrar a patrones en el conjunto de datos. Estos patrones hacen referencia a caracter sticas que presentan los datos y que al ser determinados podr dar an idea de la forma como se deber proceder en las posteriores fases de moda elamiento. El AED se encuentra fundamentado en la capacidad del cerebro humano y su relacin con el ojo para detectar estructuras interpretables, y o por lo tanto este tipo de tcnicas tiene mucho de caracter interpretativo; en e contraposicin a metodolog estad o as sticas ms formales como las pruebas a de hiptesis, determinacin de intervalos de conanza y la regresin. o o o El AED podr ser descrito como generacin de hiptesis basadas en datos, a o o ya que el procedimiento fundamental que se sigue consiste en examinar los datos para buscar posibles relaciones entre variables o muestras que permitan conocer de una mejor forma las diferentes condiciones que han posibilitado la ocurrencia de ese conjunto de datos. Cuando se aplican estas tcnicas e es posible encontrar ciertos patrones dentro de las muestras con lo cual se posibilita la formulacin de hiptesis espec o o cas. Una vez se ha descubierto un patrn en los datos no se puede saber de o antemano si este es una propiedad real de la poblacin en estudio o si es o espec co de la muestra, por lo cual la capacidad de generalizacin de los o resultados obtenidos en esta fase deben manejarse con cuidado y deber an solamente determinar posibles cursos de accin que permitan determinar si o es patrn espec o co realmente es una caracter stica inherente de los datos. En los estudios geoestad sticos el AED tiene diferentes objetivos que se pueden clasicar de acuerdo a si se aplican a los patrones o a los datos como tal. Los objetivos del AED relacionados con los patrones presentes en los datos son:

10

2.2. DEFINICION GENERAL

Entender los datos: Conocer como se distribuyen los datos (es decir como ocurren), si los valores pequeos son los ms abundantes o si por n a el contrario son los valores altos, cual es el valor que se presenta con mayor frecuencia y cuantos de esta clase existen, son preguntas muy importantes que el investigador se debe hacer en las etapas iniciales del anlisis de informacin. La gran mayor de los datos en las Ciencias a o a de la Tierra y aplicaciones ambientales presentan un alto de grado de hetereogeneidad y variabilidad que es necesario caracterizar por medio de herramientas matemticas sencillas. a Denicin de grupos: En algunos casos el conjunto de datos a estudio ar se encuentra conformado por muestras que se pueden subdividir de acuerdo a sus caracter sticas estad sticas (en cuyo caso se tendrn grua pos estad sticos) o por alguna caracter stica f sica (tal como la litolog a donde ocurren). La diferenciacin de estos grupos es de cr o tica importancia ya que determinarn el tipo de modelamiento estad a stico y las herramientas que se deben utilizar. Asegurar la Calidad de la informacin: Los fenmenos de inters en la o o e parte ambiental y Ciencias de la Tierra se pueden conocer mediante la adquisicin de informacin acerca de los mismos. Este proceso de o o toma y captura de informacin en muchas ocasiones se puede ver afeco tado por errores de diferente tipo, los cuales es muy importante poder detectarlos y diferenciarlos de observaciones que tengar un comportamiento diferente al de la mayor de datos. Estos ultimos podr a an ser indicativos de una anomal en el sistema o ser indicio de otro tipo a de fenmeno que ocurre. o Comprimir/condensar la informacin: En la gran mayor de oporo a tunidades resulta ms cmodo trabajar con algunos nmeros que rea o u suman de alguna forma ciertas caracter sticas importantes del conjunto de datos, en lugar de tener que lidiar con toda la muestra. Esto se logra por medio de los denominados momentos estad sticos. Asi mismo en este tipo de estudios es comn que se adquiera informacin no u o solo de una sino de muchas variables al mismo tiempo y por ende es importante contar con las metodolog para poder analizar ese gran as nmero de variables de forma cmoda y sin que se pierda informau o cin importante; para lo cual se utilizan herramientas del denominado o anlisis multivariado. a 11

CAP ITULO 2. ANALISIS EXPLORATORIO DE DATOS

2.3.

Herramientas

El AED es como una gran caja de herramientas que las personas involucradas con el anlisis de informacin deben llevar a todas partes, con el n de a o poder enfrentarse a cualquier conjunto de datos y poder cumplir su trabajo a satisfaccin. Dentro de esta caja existen herramientas que pueden dividirse o ya sea en los denominados momentos estad sticos y los grcos exploratoa rios. Estas herramientas son inseparables de tal forma que los momentos estad sticos revelan mucha informacin acerca de los patrones presentes en o los datos y que tambin pueden apreciarse claramente en los grcos. e a

2.3.1.

Momentos Estad sticos

Como se vi anteriormente nno de los objetivos principal del AED cono siste en condensar la informacin del conjunto de datos y ponerla de forma o ms manejable para el usuario/investigador. Una forma de realizar esto es a por medio de los denominados momentos estad sticos, los cuales son valores numricos que caracterizan a la distribucin de los datos. Uno de los objee o tivos fundamentales de la estad stica es la generalizacin, ya que se intenta o extraer conclusiones de toda la poblacin estad o stica a partir de una muestra (generalmente pequea). n Estad stica Descriptiva Promedio El promedio o media aritmtica es el parmetro estad e a stico ms comn y se calcula realizando la sumatoria de los datos y dividiendo a u por el nmero de los mismos, de la siguiente forma: u x= 1 n
n

xi
i=1

(2.1)

donde n es el nmero de datos y xi es el valor de cada una de las muestras. u Si uno quisiera representar la distribucin de datos con un solo nmero esta o u parmetro estad a stico ser el recomendable. a Este parmetro estad a stico tiene la desventaja de ser sensible a los valores extremos o anmalos presentes en el conjunto de datos, los cuales se deo nominan comnmente como outliers. Estos valores pueden ser muy altos o u muy bajos con respecto a los restantes datos y por lo tanto, en la mayor a de oportunidades, no siguen la misma distribucin. Estos valores anmalos o o pueden ser debidos a particularidades espec cas de los procesos f sicos que 12

2.3. HERRAMIENTAS

condicionan la ocurrencia del fenmeno o por el contrario a errores de meo dida. En situaciones en donde se presenten outliers se hace necesario contar con otro estimador que sea ms robusto en presencia de estas observaciones, a y por lo tanto se trabaja con la media cortada (trimmed mean), ya sea del 5 % o del 10 %. En este caso, los datos son ordenados y la media se obtiene al ignorar un total del 5 % o 10 % de las observaciones en cada extremo. Varianza Adems de determinar el punto central de la distribucin muchas a o veces resulta de especial inters contar con una medida de la dispersin que e o presentan los datos o cuan lejos de ese punto central se encuentran los datos. Un parmetro estad a stico con el cual se puede obtener esta medida de dispersin corresponde a la varianza, la cual se dene: o
2 x =

1 n1

(xi x)
i=1

(2.2)

donde n representa el nmero de datos, xi corresponde a cada una de las u muestras de la variable de inters y x es el promedio. La varianza representa e el segundo momento estad stico de una distribucin y la ecuacin 2.3.1 repreo o senta un estimador de la misma. La varianza al ser un parmetro estad a stico que involucra el cuadrado de las diferencias con respecto al promedio resulta afectado por valores extremos que hacen que el valor de esta aumente signicativamente. Por otro lado en algunas oportunidades resulta ms cmodo trabajar con la a o desviacin estndar, la cual se encuentra denida por: o a x = 1 n1
n

(xi x)
i=1

(2.3)

la cual corresponde a la ra cuadrada de la varianza (ecuacin 2.3.1). Una de z o las ventajas de la desviacin estndar es que tiene las mismas unidades en las o a que se encuentra expresada la media o promedio, hacindo que comparables e a estos dos parmetros estad a sticos.

2.3.2.

Grcos diagnsticos para 1D a o

Histograma El histograma es un tipo de diagrama en el que los datos son agrupados en clases o grupos de acuerdo a al valor que tengan. Para representarlos 13

CAP ITULO 2. ANALISIS EXPLORATORIO DE DATOS

grcamente se utilizan barras cuya altura representa el nmero de elemena u tos que pertenecen a esa clase particular. Para dibujar el histograma se sigue el siguiente procedimiento: 1. Se calcula el rango de los datos (mximo-m a nimo) y se divide en un nmero de intervalor igual al nmero de clases. u u 2. Se determina el nmero de datos que caen en cada clase (en algunos u casos se determina la denominada frecuencia, la cual corresponde al nmero de datos en la clase dividido por el nmero total). u u Un aspecto importante a la hora de elaborar un histograma consiste en determinar el nmero de clases con que se va a trabajar. Una regla de dedo u consisten en seleccionar el entero ms cercano a nc = n. Otra expresin a o alternativa para determinar el nmero de clases es: u nc = 1 + 3,3 log10 n (2.4)

donde n es el nmero de datos. u Existe otra expresin para determinar el nmero de clases propuesta por, o u y en la cual el nmero de clases se puede determinar mediante la siguiente u expresin: o rn1/3 nc = (2.5) 2riq donde r es el rango de los datos, n es el nmero de datos e riq correu sponde al denominado rango intercuartil. Este parmetro se dene como la a diferencia entre el cuartil superior (o del 75 %) y el cuartil inferior (o del 25 riq = Q75 Q25 (2.6)

La importancia de los histogramas radica en que son una herramienta grca con la cual se puede determinar la forma de la distribucin que prea o sentan los datos (Figura 2.1), y por lo tanto brindan el modelo inicial para el posterior procedimiento de ajuste de una distribucin terica (como la o o normal, lognormal, gumbel, etc) tal como se puede apreciar en la gura 2.2.

En muchas oportunidades un cambio de escala en el eje de las magnitudes (el eje de abcisas) permita apreciar detalles que no son evidentes con la escala original. Esto es especialmente importante cuando la distribucin de o 14

2.3. HERRAMIENTAS

Figura 2.1: Histograma para las magnitudes de erupciones volcnicas en un a sector del Pac co.

Figura 2.2: Histograma para las magnitudes de erupciones volcnicas en un a sector del Pac co con su respectiva curva de densidad de probabilidad y la ubicacin de las muestras. o

15

CAP ITULO 2. ANALISIS EXPLORATORIO DE DATOS

los datos presenta un sesgo marcado, lo cual se ve reejado por la presencia de una cola larga en alguno de los extremos del histograma, tal y como se puede apreciar en las guras 2.3 y 2.4.

Diagramas de Caja Este diagrama muestra los cuartiles superior, medio (mediana) e inferior en una caja rectangular, junto con los valores m nimos y mximos a que denen los denominados bigotes. Estos parmetros estad a sticos se organizan desde el valor m nimo, Cuartil inferior, Mediana, Cuartil Superior y valor mximo. En algunos casos los valores m a nimos y mximos se a pueden reemplazar por los cuantiles 5 y 95 (u otros relacionados con valores extremos). Estos grcos son especialmente utiles para comparar distribua ciones de datos. En muchas oportunidades este tipo de diagramas se utilizan para detectar muestras anmalas (outliers) para lo cual se emplean diferentes criterios. o Uno bastante difundido y basado en suposiciones de normalidad de los datos consiste en asumir como muestras anmalas aquellas que sean mayores a 1.5 o veces el rango intercuartil por encima del tercer cuartil o que sean menores a 1.5 veces el rango intercuartil por debajo del primer cuartil. Diagrama de tallos y hojas En algunas oportunidades cuando se cuenta con muestras pequeas (menos n de 20) las caracter sticas verdaderas de los datos se pueden ver oscurecidas al utilizar histogramas, por lo tanto es necesario contar con otra herramienta grca con la cual se puedan analizar los datos y esta es el diagrama de a tallos y hojas. Este diagrama se asemeja a un histograma rotado 90 , y la gran ventaja con respecto al histograma consiste en que se pueden visualizar los valores individuales de las muestras, sin que se pierda informacin por o el agrupamiento en clases. As mismo este diagrama permite resaltar fcil a mente los valores extremos y los vacios presentes en la distribucin de datos. o Para la elaboracin de este diagrama los datos son ordenados en forma aso cendente y se dividen en clases de acuerdo al rango que presenten los datos (este es un procedimiento similar al usado en el caso de los histogramas, pero como se ver a continuacin tiene unas caracter a o sticas diferentes). Para el 16

2.3. HERRAMIENTAS

Figura 2.3: Histograma de la distribucin de contenidos de oro obtenidos en o un depsito mineral. o

Figura 2.4: Histograma de los logaritmos de los contenidos de oro en el depsito mineral. o

intervalo de clase generalmente se utilizan valores de 0.5, 1 o 2 multiplicado por potencias de 10. Los valores de las clases se colocan de forma vertical y 17

CAP ITULO 2. ANALISIS EXPLORATORIO DE DATOS

Figura 2.5: Diagrama de caja para un conjunto de datos multivariado. En este caso es posible realizar una comparacin rpida de las distribuciones de o a las variables en estudio, as como resaltar los valores extremos.

se traza una l nea vertical. Los valores de las clases junto con la l nea vertical denen el tallo

Figura 2.6: Diagrama de tallos y hojas para la distribucin de magnitudes o de erupciones volcnicas en el Pac a co.

18

2.3. HERRAMIENTAS

Papel de Probabilidad Este tipo de grco es utilizado en las situaciones en donde sea necea sario determinar de forma rpida el tipo de distribucin de un conjunto de a o datos, y son complemento de las tcnicas de ajuste de distribuciones y de e las pruebas de bondad de ajuste que se utilizan habitualmente en los cursos de estad stica bsica. a Este tipo de grcas se pueden elaborar ya sea a mano o usando algn a u paquete especializado con todas las ventajas de presentacin. En este gro a co uno de los ejes se modica (generalmente el vertical) de tal forma que se ajuste a la funcin acumulada de probabilidad para alguna distribucin o o espec ca, as que cuando los datos y sus respectivos valores de frecuencia acumulada son representados en el grco estos caen en una l a nea recta si se ajustan a la distribucin espec o ca.

A pesar de ser una herramienta grca solamente, este tipo de diagramas se a complementa muy bien con las tcnicas de bondad de ajuste y lo ms impore a tante es que muestra donde el ajuste entre los datos y la distribucin terica o o no es lo sucientemente bueno (cola inferior, parte media o cola superior de los datos) y si en ese caso se debiera considerar otro tipo de distribucin. o As mismo este tipo de grcos permite determinar la presencia de obsera vaciones anmalas (outliers) y los cambios de pendiente en este se pueden o asociar con la presencia de distribuciones con diferentes parmetros, lo cual a puede ser una herramienta importante en diferentes aplicaciones ambientales y en Ciencias de la Tierra.

2.3.3.

Grcos diagnsticos para 2D a o

Diagrama de Dispersin o En este diagrama se gracan los valores de una variable contra los de la otra. La importancia de este tipo de grco consiste en que a partir del a mismo se puede determinar de forma directa la relacin que existe entre las o variables en estudio. As mismo de este tipo de diagramas es posible detectar otro tipo de caracter sticas de los datos, tales como el agrupamiento de los mismos y los valores anmalos (Figura 2.8). o Generalmente esta dependencia entre variables se cuantica numericamente por medio de la covarianza y/o de la correlacin. La covarianza entre o dos variables se dene como: 19

CAP ITULO 2. ANALISIS EXPLORATORIO DE DATOS

COVX,Y =

1 n

(xi x)(yi y )
i=1

(2.7)

donde n es el nmero de datos, xi son los valores de la variable x, yi los u respectivos valores de la variable y y x y y los respectivos promedios. Esta medida de dependencia entre dos variables presenta un valor alto si las variables se encuentran relacionadas, ya que si los valores de x y y son mayores que sus respectivos promedios, entonces las diferencias sern positivas y por a lo tanto el producto ser positivo y tendr un valor grande. Esta misma a a situacin se presente en el caso que los valores sean menores que sus respeco tivos promedios, lo cual indicar que los valores de x y y ser directamente a an proporcionales. La covarianza es un parmetro estad a stico que mide la dependencia lineal entre dos variables y por lo tanto debe usarse con cuidado en los casos en donde se puedan presentar relaciones no lineales. Uno de los inconvenientes de la Covarianza es que puede tomar valores arbitrarios y por lo tanto su interpretacin muchas veces no es fcil. Para o a resolver este problema se utiliza el coeciente de correlacin. Este coeciente o al dividir la expresin 2.7 por el producto de las desviaciones estndar de o a cada una de las variables:
n

rX,Y =

1 nsX sY

(xi x)(yi y )
i=1

(2.8)

donde sX y sY son las desviaciones estndar de X yY . a El valor del coeciente de correlacin es una medida adimensional de la o dependencia lineal entre las variables en estudio. Este coeciente se encuentra acotado entre 0 y 1. Existen otros prmetros estad aa sticos tales como el criterio de informacin o mutua con los cuales es posible caracterizar la correlacin no lineal que exo iste entre varibles, pero en muchos casos los estudios de dependencia entre variables tienen un n unicamente exploratorio y por lo tanto no se utilizan en fases posteriores de modelamiento.

20

2.3. HERRAMIENTAS

Diagrama Cuantil-Cuantil y de Probabilidad Acumulada Este tipo de diagramas se utilizan para comparar distribuciones de dos variables diferentes o para comparar la distribucin de una variable con una o distribucin terica o de referencia. En el caso del diagrama cuantil-cuantil o o se graca los cuantiles de una variable contra los de la otra, de tal forma que si estos puntos caen en una l nea recta de ngulo igual a 45 entonces las a variables tienen la misma distribucin. o La gura 2.9 muestra un diagrama cuantil-cuantil de la precipitacin contra o los cuantiles de una distribucin normal, en donde se puede apreciar que los o valores de la parte media de la distribucin se aproximan a una distribucin o o gaussiana; mientras que los valores pertenecientes a las colas tanto superior como inferior no se ajustan muy bien a este tipo de distribucin. Esto o tendr profundas implicaciones si se fuera a estimar una probabilidad de a excedencia para una intensidad dada, ya que si se utiliza una distribucin o normal esta no representar bien la forma como se presentan los datos. a Algunas caracter sticas de los datos son evidentes cuando se utiliza este tipo de diagramas. En la gura 2.10 se presenta el diagrama cuantil-cuantil para la distribucin de magnitudes de erupciones volcnicas en un sector del o a Pac co. Como es evidente de la gura, estos datos no siguen una distribucin normal, ya que como se pudo apreciar en los histogramas en realidad o esta distribucin es de tipo bimodal. o Lo mismo se aplica para los diagramas de probabilidad acumulada, solo que este caso en lugar de gracar los valores de los cuantiles se usan los valores de probabilidad acumulada.

2.3.4.

Grcos diagnsticos multivariados a o

En el caso de un conjunto de datos multivariado (que en trminos prctie a cos involucra ms de 3 variables), las herramientas de visualizacin que se a o han explicado hasta el momento no se podr utiizar, por lo cual se hace an necesario contar con otros grcos diagnsticos con los cuales sea posible a o estudiar estos conjuntos de datos tan especiales. En este caso se van a mencionar 2 tipos de grcos, la matr de diagramas de dispersin y el grco a z o a de coordenadas paralelas. 21

CAP ITULO 2. ANALISIS EXPLORATORIO DE DATOS

Matr de diagramas de dispersin z o Tal como su nombre lo indica este es un grco en el cual se incluyen a todos los posibles diagramas de dispersin que se pueden construir a partir o de un conjunto de datos multivariados. Tecnicamente este tipo de diagramas no es completamente multidimensional, sino que por el contrario capacita al analista para ver las posibles relaciones presentes para diferentes variables en diagramas de dispersin sencillos, pero el hecho de visualizar todas las o variables al mismo tiempo permite detectar fcilmente relaciones de depena dencia que puedan resultar de inters. e Una desventaja de este tipo de diagramas se presenta cuando el nmero u de variables es muy grande, ya que no ser posible ver claramente todos los a grcos de dispersin y por lo tanto la determinacin de las relaciones de a o o inters se ver entorpecida. e a

2.3.5.

Anlisis multivariado a

En la seccin 2.3.4 se vieron dos herramientas grcas que se pueden o a aplicar en el caso de conjuntos de datos multivariados, y se mencionaron algunas desventajas que estos grcos presentaban a la hora de usarlos en la a prctica. En el caso que se tenga un conjunto de datos multivariado muchas a veces se hace recomendable transformar la informacin original en un nueo vo conjunto de variables de tal forma que las caracter sticas estad sticas de los datos originales sean capturadas por unas pocas de las nuevas variables. Esto permitir utilizar los grcos diagnsticos para 1D o 2D para visua a o alizar diferentes variables al mismo tiempo, y explorar el conjunto de datos multivariado de forma sencilla. Anlisis de componentes principales a El anlisis de componentes principales es una tcnica del anlisis multia e a variado en la cual las variables originales se transforman en otras variables llamadas componentes, de tal forma que el primer componente da cuenta de la mayor variacin posible dentro del conjunto de datos originales, y en orden o decreciente los restantes componentes de tal forma que la variacin total de o conjunto de datos puede ser explicada. Por lo tanto el anlisis multivariado a puede ser considerado como una tcnica de transformacin de variables, de e o tal forma que si cada variable se puede considerar como un eje en el espacio n-Dimensional, la cual va a estar correlacionada con otras variables; este anlisis transforma los datos de tal manera que se conserva la misma a variabilidad existente en el conjunto original con el mismo nmero de ejes o u 22

2.3. HERRAMIENTAS

variables originales solo que ahora las nuevas variables no van a estar correlacionadas entre si. Grcamente esta transformacin se puede interpretar a o como una rotacin de puntos existentes en el espacio multidimensional que o generan unos ejes o componentes principales, de tal forma que en proyecciones bidimensionales alcanzan a mostrar caracter sticas del conjunto de datos multivariado y por consiguiente pueden ser usadas para realizar intepretaciones. Matemticamente el anlisis de componentes principales consiste en la dea a scomposicin en valores y vectores propios de la matr de varianzas-covarianzas o z de un conjunto de datos multivariado: (COV I) v = 0 (2.9)

donde COV es la matr de varianzas-covarianzas, es el vector de los valores z propios, v es el vector propio e I es la matr identidad. z

23

CAP ITULO 2. ANALISIS EXPLORATORIO DE DATOS

Figura 2.7: Ejemplo de papel de probabilidad en escala aritmtica y loge ar tmica. 24

2.3. HERRAMIENTAS

Figura 2.8: Ejemplo de diagrama de dispersin (Magnitud de erupcin contra o o tiempo de arrivo.)

Figura 2.9: Diagrama cuantil-cuantil de datos de precipitacin. o

25

CAP ITULO 2. ANALISIS EXPLORATORIO DE DATOS

Figura 2.10: Diagrama cuantil-cuantil de la magnitud de las erupciones volcnicas para un sector del Pac a co.

Figura 2.11: Diagrama de probabilidad acumulada para los datos de contenidos de oro. En este diagrama se compara la distribucin de los datos o corregidos por agrupamiento contra la distribucin suavizada de los miso mos.

26

2.3. HERRAMIENTAS

Figura 2.12: Ejemplo de matr de diagramas de dispersin. Obsrvese como z o e es posible detectar rpidamente las relaciones de dependencia en un grco a a como este.

27

CAP ITULO 2. ANALISIS EXPLORATORIO DE DATOS

28

CAP ITULO 3 Anlisis de la Estructura Espacial a de la informacin o

3.1.

Motivacin o

En la Figura () se presentan la variacin espacial de tres fenmenos que o o ocurren en un soporte unidimensional. Dentro de estos se incluyen un perl topogrco, la variacin de la porosidad con la profundidad en un suelo y la a o variacin del contenido de oro en una veta. Como es evidente de la gura, o cada fenmeno presenta una variacin espacial caracter o o stica y diferente con los dems fenmenos. En la Figura () incluye ahora dos fenmenos que ocura o o ren en un soporte bidimensional, uno corresponde a una imagen de satlite e y el otro a un modelo digital de elevacin. Nuevamente estos dos fenmenos o o presentan una variacin espacial caracter o stica que los diferencia entre si.

En muchas aplicaciones en Ciencias de la Tierra y Ambientales para conocer los fenmenos naturales es preciso realizar muestreos en determinados o puntos en el rea de inters, para posteriormente realizar procedimientos de a e interpolacin o estimacin con el n de reconstruir la variacin espacial de o o o la variable en estudio. En este proceso aparacen dos problemas de inters: e Determinar cual es el mejor esquema de muestreo (la ubicacin de o las muestras dentro del rea de estudio) de una forma objetiva y que a responda las restricciones econmicas. o 29

CAP ITULO 3. ANALISIS DE LA ESTRUCTURA ESPACIAL DE LA INFORMACION

Calcular el error que se esta cometiendo en el proceso de estimacin o en un punto donde no se tiene informacin a partir de las mediciones o realizadas. Una forma para resolver los problemas antes mencionados consiste en utilizar la denominada funcin de semivariograma, con la cual se pueden o estudiar las diferencias de varios fenmenos en trminos de su correlacin o e o espacial; as como se puede determinar los errores de estimacin y estudiar o algunas caracter sticas de los esquemas de muestreo espacial que habitualmente se usan en la prctica. a

3.2.

Denicin o

Suponga que se desea comparar el valor de una variable medido en dos puntos zi y zj , los cuales se encuentran separados una distancia h (es decir que j = i + h),y se quiere determinar si estos valores se encuentran relacionados de alguna forma. La forma ms sencilla de hacer esto es calculando a la diferencia entre los dos valores, es decir: dif = zi zj (3.1)

Otra forma para comparar estos valores consiste en elevar al cuadrado las diferencias obtenidas en la ecuacin 3.1, con lo cual las diferencias de o pequea magnitud siguen siendo pequeas mientras que las diferencias grandes n n se resaltan de forma visible. Adems en la seccin 2.3.1 se vi que la vara o o ianza es proporcional al cuadrado de las diferencias entre los valores y su respectiva media, y que se encontraba relacionada con la variacin de un o conjunto de datos o el error: dif2 = (zi zj )2 (3.2)

Es decir que el grado de similaridad, relacin o dependencia se podr caro a acterizar con una expresin de la forma: o similaridad dif 1 [z(xi ) z(xj )]1 (3.3)

Esta expresin indica que la similaridad entre las muestras z(xi ) y z(xj ) se o hace muy grande si la diferencia entre la muestras es pequea. n

30

3.2. DEFINICION

As mismo se puede construir una expresin de similaridad usando la ecuacin o o 3.2, pero tomando el inverso a ambos lados se obtiene: similaridad 1 [z(xi ) z(xj )] E[zi zj ]2 (3.4)

De lo cual se inere la relacin entre la medida de disimilaridad y la varianza o de errores como se aprecia en el trmino derecho de la ecuacin. e o La expresin anterior se puede simplicar atendiendo al hecho que la diso tancia de separacin entre z(xi ) y z(xj ) se puede denominar como h, y de o esta manera la expresin anterior pasar a ser una funcin de h. Si en este o a o punto se supone que esta funcin no va a depender de la posicin espacial o o sino unicamente de h, se obtiene: [similaridad (h)]
1

1 n(h)

n(h)

[z(xi ) z(xi+h )]2


i=1

(3.5)

En este punto ser recomendable darle un nombre propio a esta funcin a o de disimilaridad, y por lo tanto la denominaremos variograma (h); con lo cual: n(h) 1 2(h) = [z(xi ) z(xi+h )]2 (3.6) n(h)
i=1

Reorganizando la expresin anterior y escribindola o e 1 (h) = 2n(h)


n(h)

[z(xi ) z(xi+h )]2


i=1

(3.7)

Se obtiene el denominado semivariograma. Del tratamiento matemtico anterior se deduce que el semivariograma es a una herramienta matemtica que permite estudiar la manera como var un a a parmetro a nivel espacial, ya que se supone que los valores de las muesa tras que se han tomado a poca distancia de separacin no van a ser muy o diferentes entre si, mientras que para distancias de separacin mayores su o diferencia va aumentar.

A nivel formal el semivariograma se dene de la siguiente manera: 1 (h) = 2n(h)


n(h)

[z(u + h) z(u)]
i=1

(3.8)

31

CAP ITULO 3. ANALISIS DE LA ESTRUCTURA ESPACIAL DE LA INFORMACION

donde n(h) corresponde al nmero de pares para la distancia de separacin u o z(u + h) es el valor de la variable Z en la posicin u + h, mientras que o z(u) es el valor de la variable en la ubicacin u. o La ecuacin 3.8 se puede interpretar de diferentes formas: o Medida de disimilaridad: De acuerdo a lo mostrado en las ecuaciones 3.3 a 3.7, el semivariograma muestra la forma como las diferencias entre los valores de una variable aumentan a medida que se incrementa la distancia de separacin. o Funcin de Error: la ecuacin 3.8 se puede interpretar como el error o o que se comete en el punto u cuando se asume que el valor medido en la posicin u + h, y por lo tanto resulta de utilidad especial a la hora o de realizar el control de calidad de los procedimientos de estimacin o espacial. Medida de Correlacin: Dado que el semivariograma es una meo dida de la disimilaridad de los valores en funcin de la distancia de o separacin, esto deber estar relacioando con la correlacin espacial. o a o Y en realidad es cierto, y si el semivariograma permite de forma indirecta estudiar la estructura de correlacin espacial de un fenmeno o o entonces este puede ser una herramienta muy util a la hora de inter pretar los posibles procesos que determinaron la distribucin espacial o de la variable en estudio. Distancia Estad stica: La distancia de separacin es un concepto o utilizado para determinar la cercan de muestras a nivel espacial. Para a esto se puede usar la distancia de separacin tradicional (o euclidiana) o o alguna clase de distancia estad stica como el semivariograma, con el cual se puede determinar el grado de cercan estad a stica o en trminos e sencillos su grado de correlacin. o El anlisis de los semivariogramas o anlisis estructural, como se le a a conoce de forma tcnica, es un procedimiento complejo e iterativo durante e el cual el analista conoce y se familiariza con ciertas caracter sticas de los datos que van a resultar de especial importancia en las posteriores fases de modelamiento. El objetivo central del anlisis estructural, a este nivel, a es puramente descriptivo e intenta entender la correlacin espacial en los o datos en estudio y cual es su relacin con los procesos que han incidido en la o 32

3.3. SEMIVARIOGRAMA EXPERIMENTAL

distribucin espacial del fenmeno en estudio. Para realizar esta tarea solao o mente es necesario calcular el semivariograma experimental (seccin 3.3), y o conocer la forma como se interpreta (seccin 3.4). Sin embargo para la fase o de estimacin espacial es necesario contar con una descripcin formal de la o o estructura de correlacin espacial, y por lo tanto aqui es donde aparecen los o procedimientos de ajuste del semivariograma, y los cuales se tratarn en la a seccin 3.5. o

3.3.

Semivariograma Experimental

Debido a que se requiere conocer la funcin de semivariograma para reo alizar procedimientos de estimacin espacial (cap o tulo 4), es necesario contar con la forma para calcular esta a partir de un conjunto de datos cualquiera, y la pregunta es como hacerlo. A partir de la discusin de la seccin anterior se determin que el semio o o variograma depende de la distancia de separacin entre las muestras h, y o que esta distancia es una cantidad vectorial y por lo tanto tiene magnitud y direccin. Esto hace que se pueda calcular el semivariograma para una direco cin espec o ca y que se pueda estudiar las caracter sticas de direccionalidad del fenmeno de inters, es decir, si existe alguna direccin preferencial para o e o la cual la variable de inters tienda a ocurrir. Esta situacin se denomina e o anisotrop y se harn algunos comentarios en la seccin 3.5.3. a a o El semivariograma experimental es aquel que se determina a partir de un conjunto de datos y se diferencia del semivariograma real que corresponde al que se determinar si se tuviera acceso a un muestreo completo del fenmeno a o en estudio (lo cual en la gran mayor de oportunidades es completamente a imposible). La forma como se determina el semivariograma experimental est en funcin de la distribucin de muestras a nivel espacial, para lo cual a o o se pueden distinguir dos casos en particular: Muestreo regular: En esta situacin las muestras se encuentran sepao radas a un intervalo h regular, ya sea que las muestras se encuentren en una grilla regular o que hayan sido adquiridas a intervalos regulares en pozos. En este caso el clculo del semivariograma no representa ningn a u problema, ya que se puede aplicar de forma directa la expresin 3.8. o Para determinar el semivariograma se sigue el siguiente procedimiento: 1. Denir la direccin en la cual se va a calcular el semivariograma o 33

CAP ITULO 3. ANALISIS DE LA ESTRUCTURA ESPACIAL DE LA INFORMACION

(ya que esta es una funcin que depende de la direccin espec o o ca), as como la distancia de separacin que en este caso est dada o a por la separacin de las muestras en el esquema regular. o 2. Denir los pares de muestras que se encuentren a lo largo de la direccin denida para una distancia de separacin espec o o ca. 3. Calcular los valores de las diferencias y elevarlas al cuadrado. 4. Una vez se tengan todos los valores de las diferencias cuadrticas a calcular el promedio. 5. Repetir los pasos 2-4 para diferentes distancias de separacin o 6. Gracar las distancias de separacin vs los promedios obtenidos o en el paso 4. Muestreo Irregular: Este tipo de muestreo es el ms comn en la prctia u a ca, y para el clculo del semivariograma experimental plantea algunos a inconvenientes relacionados con la denicin del nmero de pares para o u cada distancia de separacin, ya que en la mayor de los casos no o a se puede llegar a forma un nmero suciente de pares con los cuales u este promedio se pueda determinar con un alto nivel de conabilidad. Sin embargo este problema puede ser resuelto con la denicin o de unas tolerancias tanto en las direcciones como en las distancias de separacin. Por lo tanto el procedimiento para la determinacin del o o semivariograma experimental se modica de la siguiente forma: 1. Denir la direccin para la cual se va a calcular el semivario ograma, as como una tolerancia en esa direccin , con lo cual o se dene un abanico en el cual cae un nmero mayor de u muestras. 2. Denir la distancia de separacin h con su respectiva tolerancia o h 3. Repetir los pasos 2-6 que se especicaron para calcular el semivariograma de muestras dispuestas en un esquema regular. El uso de tolerancias (tanto en las direcciones como en las distancias de separacin) puede causar errores sistemticos en el clculo del semivariograma o a a experimental, y en algunos casos puede ocultar las caracter sticas reales de la estructura de correlacin espacial de la variable en estudio. Este es un o mal necesario ya que estas tolerancias permiten realizar una determinacin o conable del semivariograma que de otra forma no ser posible. Para evia tar este tipo de problemas lo recomendable es probar diferentes valores de 34

3.3. SEMIVARIOGRAMA EXPERIMENTAL

tolerancias y por medio de inspeccin visual y juicio personal determinar o que la forma del semivariograma se conserve para algunos valores de dichas tolerancias.

Figura 3.1: Clculo del semivariograma en 1D para un esquema regular a (Pozo)

Figura 3.2: Clculo del semivariograma en 2D para un muestreo irregular a en el espacio. En este caso ser necesario denir unos valores de tolerancia. a

35

CAP ITULO 3. ANALISIS DE LA ESTRUCTURA ESPACIAL DE LA INFORMACION

3.4.

Interpretacin F o sica del Semivariograma

Una vez se ha calculado el semivariograma experimental se procede a gracar los valores de h contra los valores de (u) para una direccin eso pec ca o para todas las direcciones consideradas al mismo tiempo (semivariograma omnidireccional). En la mayor de los casos este grco muestra que a a el semivariograma crece a medida que aumenta la distancia de separacin, o y este crecimiento puede continuar indenidamente o por el contrario puede estabilizarse en un valor determinado (ver Figura 3.4).

La distancia de separacin horizontal r para la cual el semivariograma alo canza una valor constante y se estabiliza se denomina rango de inuencia y representa la distancia de separacin para la cual las muestras se encueno tran correlacionadas. El valor para el cual el semivariograma se estabiliza se denomina sill o meseta y en el caso de un proceso que sea homogneo a e nivel espacial tiene un valor numrico igual a la varianza de los datos. e Como es evidente el semivariograma deber comenzar en 0 o un valor muy a prximo a este, ya que z(xi+h )z(x) = 0 para h = 0, sin embargo en algunas o oportunidades esto no ocurre y (h) comienza en un valor positivo mayor a 0. Cuando esta situacin se presenta se tiene el denominado efecto pepita. o Este fenmeno se puede presentar por dos causas, una relacionada con la o presencia de errores de medicin y la otra con la variacin del fenmeno o o o en estudio a una escala menor a la escala m nima de medida usada para la coleccin de las muestras. La interpretacin del efecto pepita debida a una u o o otra causa debe basarse en un conocimiento detallado del procedimiento de adquisicin de la informacin y de los procesos f o o sicos que afectan la variable en estudio. Para la interpretacin de los semivariogramas es muy importante contar con o un buen conocimiento tanto de los procesos f sicos que afectan la distribucin espacial de la variable de inters, como de las condiciones espec o e cas donde se realiz el muestreo que es la base del anlisis. o a

36

3.5. AJUSTE DEL SEMIVARIOGRAMA

3.5.

Ajuste del Semivariograma

Una vez se ha calculado el semivariograma experimental se hace necesario determinar un modelo de ajuste, ya que los valores de semivarianza determinados experimentalmente no se encuentran disponibles para todas las distancias de separacin posibles (sino solamenta para los mltiplos del intervalo de o u distancia de separacin usado para el clculo del semivariograma). Tambin o a e este semivariograma experimental no posee ciertas propiedades matemticas a importantes durante el procedimiento de estimacin espacial, con las cuales o se asegura que los errores de estimacin siempre sean positivos. Los dos probo lemas antes mencionados se resuelven utilizando una funcin que aproxime o al semivariograma experimental, y con la cual el trabajo geoestad stico resulta mucho ms sencillo. a Esta funcin de ajuste se dene a partir de los tres parmetros mencionados o a en la seccin anterior, rango de inuencia, meseta y efecto pepita. o A continuacin se presentan algunos de las funciones que cumplen con las o caracter sticas antes mencionadas y que son de uso comn en las labores de u modelamiento geoestad stico.

3.5.1.

Modelos de Ajuste

Modelo Esfrico e

h (h) = C(0) Esf ( ) = r Modelo Gaussiano

C(0) [ 3 ( h ) 1 ( h )3 ] Si h r 2 r 2 r C(0) Si h r

h 3h2 (h) = C(0) Gauss( ) = C(0) [1 exp ( 2 )] r r Modelo Exponencial h 3h (h) = C(0) Exp( ) = C(0) [1 exp( )] r r 37

CAP ITULO 3. ANALISIS DE LA ESTRUCTURA ESPACIAL DE LA INFORMACION

Figura 3.3: Semivariograma esfrico denido con rango de inuencia igual a e 10.

Figura 3.4: Semivariograma gaussiano con rango de inuencia de 10. Como se puede apreciar este modelo alcanza un valor de meseta de forma asinttica. o

38

3.5. AJUSTE DEL SEMIVARIOGRAMA

Figura 3.5: Semivariograma exponencial con rango de inuencia igual a 10. Como se puede apreciar este modelo alcanza la meseta de forma asinttica. o

Modelo de Potencia (h) = C(0) hw , 0w2

Modelo de Efecto Hueco (h) = C(0) [1 cos ( h )] r

3.5.2.

Modelos anidados

Cualquier persona estar tentada a pensar que con los modelos enuna ciados en la seccin anterior es posible enfrentarse al ajuste de cualquier o tipo de semivariograma experimental que puede aparecer en la prctica. Sin a embargo es de aclarar que los modelos mencionados anteriormente (esfrico, e gaussiano, exponencial, de potencia y efecto hueco) son en realidad funciones matemticas que poseen ciertas caracter a sticas que los hacen utiles para rep resentar el comportamiento de semivariogramas experimentales, pero que 39

CAP ITULO 3. ANALISIS DE LA ESTRUCTURA ESPACIAL DE LA INFORMACION

Figura 3.6: Semivariogramas de potencia para distintos valores de w.

Figura 3.7: Semivariograma de efecto hueco

nada tienen que ver con la realidad natural ni con procesos f sicos. En general, los procesos naturales ocurren en mltiples escalas y por lo tanto la u 40

3.5. AJUSTE DEL SEMIVARIOGRAMA

complejidad que presentan en su distribucin espacial tiene que reejarse de o alguna forma en el comportamiento del semivariograma. Si esta hiptesis es o correcta, el semivariograma de un proceso complejo deber mostrar ms de a a una escala de variacin caracter o stica, es decir, deber mostrar ms de un a a rango de inuencia. Estos modelos combinados o anidados se pueden denir con cualquier nmero u de semivariogramas elementales de tal forma que se adapten de forma satisfactoria al comportamiento que reeja el semivariograma experimental. Sin embargo es muy importante tener en cuenta que este procedimiento de ajuste deber incluir solamente estructuras que tengan una clara intera pretacin f o sica, de tal forma que este modelo anidado resulte ser una buena representacin tanto de las caracter o sticas estad sticas del fenmeno como o de los procesos f sicos que lo condicionaron. Existen diferentes tipos de modelos anidados que resultan de especial inters en muchas aplicaciones tanto en Ciencias de la Tierra como en la parte e ambiental. Por ejemplo: u (h) = C0 + Esferico( ) r (3.9)

representa una semivariograma en donde se combina un efecto pepita y un semivariograma de tipo esfrico. e

3.5.3.

Anisotrop a

Muchos de los fenmenos con los que habitualmente el analista tiene que o tratar pueden presentarse u ocurrir en un direccin preferencial, como por o ejemplo, Este tipo de comportamiento se puede estudiar por medio de los semivariogramas, ya que estos se calculan para una direccin en particular. Si al o estudiar los semivariogramas en diferentes direcciones espec cas no se observan diferencias apreciables, entonces se dice que el fenmeno en estudio o es isotrpico, o que no depende la direccin en la que se analice. Si por el o o contrario, los semivariogramas presentan diferencias con la direccin en la o que se estudian, entonces el fenmeno es de tipo anisotrpico y esta caro o acter stica tan particular debe ser tenida en cuenta en la fase de ajuste y posteriores procedimiento de estimacin espacial. o Para detectar la anisotrop se hace necesario calcular semivariogramas en a 41

CAP ITULO 3. ANALISIS DE LA ESTRUCTURA ESPACIAL DE LA INFORMACION

Figura 3.8: Modelo anidado denido a partir de 2 modelos gaussianos con un rangos de inuencia igual a 10 y 30.

Figura 3.9: Elipsoide de anisotrop y sus respectivos parmetros. a a

42

3.5. AJUSTE DEL SEMIVARIOGRAMA

diferentes direcciones y se determinan la(s) direccin(es) en las cuales exo ista mayor continuidad espacial, entendindose esta como una disminucin e o baja de la correlacin espacial de la variable en estudio o la presencia de o un rango de inuencia mayor que en otras direcciones. Existen dos tipos de anisotrop que se pueden encontrar en un estudio geoestad a stico: Anisotrop geomtrica:Esta situacin se presenta cuando el valor del a e o rango de inuencia var con la direccin y tanto el valor de meseta a o es constante. Este tipo de anisotrop es el ms comn y se puede a a u modelar fcilmente con los programas que se utilizan comnmente. a u Anisotrop zonal: Este tipo de anisotrop representa la situacin opa a o uesta, ya que la variacin se presenta a nivel de la meseta en tanto que o el rango de inuencia permanece constante. Este tipo de anisotrop a no puede representarse en la gran mayor de los programas de moda elamiento geoestad stico, y para su utilizacin en procedimientos de o estimacin espacial se modela como un caso especial de anisotrop o a geomtrica en la cual el rango de inuencia en la direccin de mayor e o continuidad es muy grande, y tendiendo a . En algunas oportunidades se puede presentar que el valor del efecto pepita presente una dependencia de la direccin, lo cual en primera medida se o podr interpretar como una evidencia adicional de anisotrop Sin embara a. go, no es lgico que el efecto pepita var con la direccin particular en la o e o que se calcule el semivariograma, ya que este fenmeno depende unica y o exclusivamente de la forma como var las diferencias cuadrticas para disan a tancias de separacin muy cortas (siendo casi iguales a 0), y ms bien sea o a debido a uctuaciones en los mismos valores de (h).

3.5.4.

Procedimientos de Ajuste

Existen diferentes metodolog con las cuales se puede realizar este as ajuste de semivariograma, tales como el ajuste manual, automtico y de a validacin cruzada, en las cuales a partir del semivariograma experimental o (seccin 3.3) se intenta llegar a una funcin continua (como alguna de las o o presentadas en la seccin 3.5.1). o

43

CAP ITULO 3. ANALISIS DE LA ESTRUCTURA ESPACIAL DE LA INFORMACION

3.5.5.

Ajuste manual

En el ajuste manual o por inspeccin visual, se superponen tanto el semio variograma experimental como el modelo que se trata de ajustar y se juzga la coincidencia entre estos. si la coincidencia es buena entonces se puede decir que se ha realizado el ajuste. Este tipo de procedimiento se basa en el criterio y la experiencia del analista y por lo tanto no se puede armar que sea muy objetivo, pero se puede mencionar a su favor que en muchas oportunidades el analista posee un gran conocimiento acerca de la variacin o espacial del fenmeno en estudio que puede orientar y guiar este proceso de o ajuste. El procedimiento de ajuste del semivariograma es bastante complejo y por lo tanto resulta muy importante integrar todo el conocimiento posible acerca del fenmeno (conocimiento experto). Una vez se tiene el semivariograma o experimental, lo primero a lo que se debe prestar especial atencin es el como portamiento del mismo en el origen y los primeros intervalos de distancia de separacin, ya que estos determinan tanto el efecto pepita como la forma o como var el fenmeno a nivel espacial ( ver discusin sobre los modelos de a o o semivariograma y su intepretacin, seccin 3.5.1). En algunas oportunidades o o el semivariograma experimental permite realizar el procedimiento de ajuste visual de forma directa, tal como aparece en la gura 3.10. En la gran mayor de ocasiones la denicin del efecto pepita y del a o comportamiento del semivariograma para distancias de separacin muy coro tas no es posible a partir del semivariograma tradicional experimental, sino que se hace necesario contar con otras medidas de continuidad/correlacin o espacial, las cuales se tratarn de forma un poco ms detallada en la seccin a a o 3.6.

3.5.6.

Ajuste automtico a

Existen diferentes metodolog de tipo computacional con las cuales as es posible determinar los parmetros del semivariograma, las cuales caen a dentro de la denominada optimizacin matemtica. En estas metodolog o a as se dene un criterio objetivo con el cual se puede cuanticar el grado de ajuste que se presenta entre el semivariograma experimental y una o un conjunto de funciones predenidas (pertenecientes al grupo de la seccin o 3.5.1). Las metodolog de ajuste se pueden clasicar a grandes rasgos en as los siguientes grupos: M nimos cuadrados y sus variantes 44

3.5. AJUSTE DEL SEMIVARIOGRAMA

Figura 3.10: Semivariograma experimental con su respectivo ajuste a un modelo esfrico con rango de inuencia de 10, efecto pepita de 0.2 y cone tribucin a la varianza de 0.8 o

Recuperacin simulada o Sin embargo este tipo de metodolog en muchos casos no resultan reas comendables ya que el procedimiento de clculo del semivariograma experia mental es bastante sesgado (debido a las tolerancias denidas), y por ende el ajuste obtenido puede no tener una clara interpretacin f o sica (es por esta razn que el conocimiento experto en este caso es tan importante). o

3.5.7.

Validacin cruzada o

El procedimiento de validacin cruzada consiste en tomar las muestras o de una en una y suponer como si esta no existiera, para posteriormente realizar el procedimiento de estimacin a partri de las muestras restantes. o Como se tiene tanto el valor real como el estimado, es posible calcular el error de la siguiente forma: e = zr z (3.10) donde e es el error, zr es el valor real de la muestra y z es el valor estimado con las muestras restantes asumiendo que la muestra no existe. Cuando este 45

CAP ITULO 3. ANALISIS DE LA ESTRUCTURA ESPACIAL DE LA INFORMACION

procedimiento se aplica para un conjunto de datos se obtiene una distribucin de errores, la cual debe ser analizada estad o sticamente con los momentos estad sticos y las herramientas grcas vistas en el cap a tulo 2.

3.6.

Tipos de Semivariogramas

El semivariograma que se encuentra denido en la ecuacin 3.8 coro responde al denominado semivariograma tradicional, aunque existe otras medidas alternativas que en muchas oportunidades resultan de especial inters de calcular. Cada medida tiene ventajas y desventajas las cuales deben e conocerse para poder usarlas cuando sea necesario. El objetivo de utilizar diferentes medidas de continuidad/variablidad espacial consiste en tener una forma objetiva para determinar los parmetros del modelo de semivariograa ma (rango de inuencia, efecto pepita y valor de meseta). Dentro de los tipos de semivariograma ms comunes utilizados se pueden a mencionar: Semivariograma Tradicional (Estandarizado) Semivariograma cruzado Covarianza Correlograma Semivariograma relativo general Semivariograma relativo par-par Semivariograma de logaritmos Semimadograma Semivariograma indicador de variable continua Semivariograma indicador de variable categrica o Para el clculo de algunos de los semivariogramas anteriores se hace a necesario diferenciar entre los valores de cabeza y cola. Dado que la distancia de separacin h es un vector que puede ser representado por medio de una o echa en donde la punta de la misma indica la posicin de la variable cabeza o y la el extremo opuesto la variable cola (Figura 3.11). Esto es importante 46

3.6. TIPOS DE SEMIVARIOGRAMAS

ya que permite denir de forma sencilla las variables que se van a usar en el clculo del semivariograma, ya que si la variable cola y la variable cabeza a es la misma variable entonces se tiene un semivariograma tradicional. Si por el contrario tanto la variable cabeza y cola son diferentes se habla de un semivariograma cruzado.

Figura 3.11:

3.6.1.

Semivariograma Tradicional (Estandarizado)

Este semivariograma se obtiene al dividir el semivariograma tradicional por la varianza de los datos, con lo cual el valor de la meseta es igual a 1 y por ende el procedimiento de ajuste se facilita. As EST (h) = (h) V AR(Z) (3.11)

3.6.2.

Semivariograma cruzado
1 = 2n(h)
n(h)

Y Z

(yi yi )(zi zi )
i=1

(3.12)

47

CAP ITULO 3. ANALISIS DE LA ESTRUCTURA ESPACIAL DE LA INFORMACION

3.6.3.

Covarianza

Esta funcin corresponde a la covarianza espacial y se encuentra denida o similar a la covarianza de un conjunto de datos (Figura 2.9): 1 n(h)
n(h)

C(h) =

xi yi mh m+h
i=1

(3.13)

donde mu corresponde al promedio de los valores de cola denidos de la siguiente forma: mh 1 = n(h)
n(h)

xi
i=1

(3.14)

y m+u es el promedio de los valores de cabeza: m+h = 1 n(h)


n(h)

yi
i=1

(3.15)

Una de las desventajas de la funcin de covarianza espacial corresponde al o hecho que es necesario conocer el valor de la media tanto para los valores de cabeza como de cola, la cual puede verse seriamente afectada tanto por la presencia de valores anmalos altos o bajos (seccin 2.3.1) o por el agruo o pamiento de las muestras.

3.6.4.

Correlograma

El correlograma o funcin de autocorrelacin espacial muestra la variacin o o o del coeciente de correlacin para un atributo con la distancia de separacin. o o Esta funcin tiene los mismos problemas de la covarianza ya que es neceo sario conocer esta ultima para calcular la correlacin espacial. Esta funcin o o se dene de la siguiente forma: (h) = C(h) h +h (3.16)

donde h corresponde a la desviacin estndar de los valores de cola y se o a encuentra denida por: h 1 = n(h)
n(h)

x2 m2 i h
i=1

(3.17)

48

3.6. TIPOS DE SEMIVARIOGRAMAS

y +u es la desviacin estndar de los valores de cabeza o a 1 = n(h)


n(h) 2 yi m2 +h i=1

+h

(3.18)

3.6.5.

Semivariograma relativo general

La gran mayor de los problemas que tiene las anteriores medidas de a correlacin/continuidad espacial se resuelven usando los denominados semio variogramas relativos. En este tipo de semivariogramas se realiza una ponderacin del valor de (h) para cada intervalo o mathbf h teniendo en cuenta los promedios de los valores de cabeza y cola. En el caso del semivariograma relativo general se calculan los promedios para todo el intervalo de separacin h. o RG (h) = (h)
m +m ( h 2 +h )2

(3.19)

3.6.6.

Semivariograma relativo par-par

En este tipo de semivariograma se realiza la correccin para cada par, o dividiendo el valor de (h) por el promedio al cuadrado de los valores que forman el par. 1 (h) = 2n(h)
n(h)

(xi yi )2 ( (xi +yi ) )2 2

(3.20)

i=1

3.6.7.

Semivariograma de logaritmos
n(h)

L (h) =

1 2n(h)

[ln (xi ) + ln (yi )]2


i=1

(3.21)

La gran ventaja de los semivariogramas relativos consiste en que al realizar la ponderacin se estn teniendo efectos locales (agrupamientos y preseno a cia de valores anmalos altos y bajos), con lo cual estas medidas de cono tinuidad/correlacin espacial son bastante robustas y en muchas oportuo nidades muestran claramente estructuras que los otros tipos de semivariograma no permiten detectar. 49

CAP ITULO 3. ANALISIS DE LA ESTRUCTURA ESPACIAL DE LA INFORMACION

3.6.8.

Semimadograma

En este tipo de medida se calcula el valor absoluto de las diferencias entre los valores del atributo de inters, ya que el semivariograma al tener e en cuenta las diferencias elevadas al cuadrado se ve seriamente afectado por la presencia de valores anmalos altos y bajos. Esto hace que si se quiere una o medida ms robusta a la presencia de los valores altos se pueda considerar el a valor absoluto. En esos trminos el semimadograma se puede denir como: e M = 1 2n(h)
n(h)

|xi yi |
i=1

(3.22)

3.6.9.

Semivariograma indicador de variable continua

Las variables indicadoras corresponden a una transformacin de los datos o originales con las cuales se intenta separar el conjunto de datos en grupos. La transformacin indicadora para una variable continua z y para un valor o de corte valork est denida de la siguiente manera: a Indi = 1 SSi xi valork (3.23)

0 En caso contrario

Al ser el resultado de una transformacin de los datos originales en algunas o ocasiones puede resultar de inters estudiar la forma como var espaciale a mente esta variable indicadora, para lo cual se puede calcular y modelar el respectivo semivariograma usando todas las recomendaciones vistas en el presente cap tulo y la medida denida en la expresin 3.11. En este caso el o semivariograma se denomina semivariograma indicador de variable continua.

3.6.10.

Semivariograma indicador de variable categrica o


1 Si xi = categoria

Indi =

0 En caso contrario

(3.24)

50

CAP ITULO 4 Estimacin espacial: Krigeaje o


Una vez un mapa es elaborado la gente tiende a aceptarlo como la realidad B. Friesen

4.1.

Motivacin o

En este capitulo se regresa al problema que se plante desde un prino cipio. Se tiene una variable que ha sido muestreada en algunos puntos y se desea reconstruir como es la variacin de ese fenmeno a nivel espacial o o usando dicha informacin, y la estructura de correlacin espacial denida o o usando el semivariograma o la covarianza. As mismo se desea conocer la conabilidad de las estimaciones realizadas en cada uno de los puntos donde no se tiene muestra (que resulta ser un nmero grande). Las metodolog u as convencionales abordan este problema desde el punto de vista de la interpolacin funcional, en donde se intenta denir una funcin matemtica que o o a pase por los puntos en donde se tiene muestra y que en estos se respete el valor medido. Sin embargo esto resolver el problema del valor del atributo a en los puntos donde no se tiene informacin, pero no el del error de estio macin ni el de la incorporacin de la estructura de correlacin espacial del o o o fenmeno. o

51

CAP ITULO 4. ESTIMACION ESPACIAL: KRIGEAJE

En este caso particular surgen cuestiones interesantes: Cmo se plantea este modelo para estimar el valor de un atributo en o un punto donde no se tiene muestra? Qu suposiciones debe incluir este modelo? e Cmo se incorpora la correlacin espacial del fennemo en estudio? o o o Qu tipo de metodolog de estimacin espacial existen y que ventae as o jas/desventajas tienen? Cmo se puede elaborar un mapa de probabilidades? o

4.2.

Problema de estimacin espacial o

El procedimiento de Estimacin espacial se puede denir como la obo tencin del valor de una variable en estudio en un punto donde no se tiene o muestra, a partir de las mediciones en puntos cercanos. Este procedimiento se diferencia de la interpolacin espacial ya que en la estimacin se utilizan o o metodolog estad as sticas en las que se involucra la correlacin espacial del o fenmeno en estudio as como se puede caracterizar la incertidumbre en o cuanto a la misma estimacin. o Estimador lineal z (u) =
i=1 n

i z(ui )

(4.1)

Que se debe tener en cuenta: Cercan a la ubicacin que va a ser estimada. a o Redundancia entre los valores de datos. Presencia de direcciones preferenciales (anisotrop a). Continuidad/correlacin espacial por medio del semivariograma. o El Inverso de la distancia ponderada es un mtodo de interpolacin espacial e o en donde se tiene un estimador de la forma de la ecuacin 4.1, en donde o los pesos de ponderacin, tal como su nombre lo indica, son inversamente o 52

4.3. KRIGEAJE: DEFINICION

proporcionales a las distancias de separacin entre el punto de estimacin o o y cada uno de los puntos donde se tienen muestras. Formalmente esto se expresa de la siguiente manera: i =
1 dw i n 1 i=1 dw i

(4.2)

donde: di es la distancia de separacin entre la muestra i y el punto de estio macin o w es un exponente que permite realizar una mayor o menor ponderacin (por lo general se encuentra entre 1 w 3). o Sin embargo como se puede apreciar en la ecuacin 4.1 este procedimieno to no incluye de forma directa la correlacin espacial sino unicamente las o distancias de separacin. El exponente w es el unico parmetro que cono a trola el procedimiento de interpolacin, y debe ser seleccionado de forma o objetiva. As mismo si se quisiera determinar la conabilidad de los val ores interpolados en un punto determinado no se especica la forma para hacerlo, conviertindose de esta forma en una metodolog de interpolacin e a o espacial con una serie de limitaciones que pueden tener implicaciones muy importantes en procedimientos de toma de decisiones. Si esto es as que se puede hacer para resolver esta situacin ? Es aqu donde la metodolog del o a krigeaje viene al rescate.

4.3.

Krigeaje: denicin o

El krigeaje es un trmino utilizado para designar al conjunto de mtoe e dos ptimos de interpolacin espacial, en los cuales se minimiza la varianza o o de los errores de estimacin. En un principio este tipo de mtodos se utio e liz para conocer el valor de un atributo de inters en puntos donde no se o e hab tomado muestra, a partir de la utilizacin de las observaciones ms a o a cercanas al punto donde se va a realizar la estimacin, usando expresiones o del tipo 4.1; y en donde los pesos i se obtienen de una forma diferente a la usada en el caso del inverso de la distancia ponderada (ecuacin 4.2).Aco tualmente el krigeaje se utiliza como herramienta para la construccin de las o 53

CAP ITULO 4. ESTIMACION ESPACIAL: KRIGEAJE

distribuciones de probabilidad que permitan dar cuenta de la incertidumbre en esos puntos donde no se tiene muestra, y que puedan ser utilizadas en procedimientos de simulacin de montecarlo. o

4.4.

Deduccin Intuitiva de las Ecuaciones de Krigeao je

A continuacin se presenta de forma sencilla la obtencin de las ecuao o ciones del krigeaje. Para esto se va a suponer que se esta trabajando con una variable Zu, a la cual se le va a restar la media con el n de obtener: Y (ui ) = Z(ui ) m(ui ) (4.3)

con lo cual la nueva variable Y (ui ) se puede interpretar como un conjunto de datos residuales, y la media m(ui ) puede variar con la ubicacin. Para o este caso particular el estimador de la variable Y (u) tomar la forma de la a ecuacin 4.1 y quedar o a:
n

Y =
i=1

i Yi

Se dene la funcin de error como la diferencia entre el valor estimado y el o valor real en el punto u de la siguiente manera: e = Y (u) Y (u) (4.4)

Sin embargo la ecuacin anterior no resulta prctica ya que en un punto o a donde no se tenga muestra el valor real de la variable Y (u) no se conoce. Para resolver el anterior problema se trabaja ya no con los valores reales del error, sino con algunas caracter sticas estad sticas del mismo, y en lugar de trabajar con el error directamente resulta ms conveniente trabajar a con el cuadrado del error (con el n de aplicar la metodolog de m a nimos cuadrados). La funcin de error en este caso ser igual a: o a q = E[e2 ] = E{[Y (u) Y (u)]2 } (4.5)

donde E[] representa el operador de valor esperado. Este operador permite obtener el promedio de una variable aleatoria que en este caso corresponde a e2 . Desarrollando el trinomio de la ecuacin 4.5 se tiene: o q = E{[Y (u)]2 } 2 E{Y (u) Y (u)} + E{[Y (u)]2 } 54 (4.6)

4.4. DEDUCCION INTUITIVA DE LAS ECUACIONES DE KRIGEAJE

Aplicando el operador de valor esperado y la denicin del estimador (ecuacin o o 4.1) en cada uno de los trminos se obtiene: e
n n n

q=
i=1 j=1

i j E{Y (ui ) Y (uj )} 2


i=1

i E{Y (u) Y (ui )} + C(0) (4.7)

donde C(0) es el valor de la covarianza para una distancia de separacin igual o a 0, y por lo tanto es igual a la varianza de los datos. El valor esperado de un producto de variables aleatorias se encuentra relacionado con la covarianza entre esas variables, con lo cual la ecuacin anterior se convierte en: o
n n n

q=
i=1 j=1

i j C(ui , uj ) 2
i=1

i C(u, ui ) + C(0)

(4.8)

donde C(ui , uj ) representa las covarianzas entre las muestras cercanas al punto de estimacin, C(u, ui ) representa las covarianzas entre el punto de o estimacin y cada una de las muestras cercanas, y los i y j corresponden o a los pesos de ponderacin obtenidos por krigueaje. Esta es la expresin ms o o a compacta para la funcin de error, pero an falta por denir el procedimiento o u para calcular los pesos i , para la cual se hace necesario calcular la derivada de q con respecto a cada una de las incgnitas del problema es decir los o pesos. Esto resulta en: q =2 i
n

j C(ui , uj ) 2 C(u, ui ), i = 1, . . . , n
j=1

(4.9)

e igualando a 0 se obtiene:
n

j C(ui , uj ) = C(u, ui )
j=1

(4.10)

al variar todos los sub ndices j = 1, . . . , n e i = 1, . . . , n se tiene n expresiones del tipo 4.10 con la cual se crea un sistema lineal de ecuaciones, en donde las n incgnitas corresponden a los pesos i : o C(u1 , u1 ) C(u1 , u2 ) C(u2 , u1 ) C(u2 , u2 ) . . .. . . . . . C(un , u1 ) C(un , u2 ) C(u1 , un ) C(u, u1 ) 1 C(u2 , un ) 2 C(u, u2 . = . . . . . . . . C(un , un ) 55 n C(u, un ))

CAP ITULO 4. ESTIMACION ESPACIAL: KRIGEAJE

o en trminos matriciales: e Cij = C0i (4.11) donde Cij corresponde a la matr [C(ui , uj )], C0i corresponde al vector z C(u, ui ) y = [i ]. Este sistema se puede resolver por cualquier mtodo numrico, ya sea gauss, e e gauss-jordan, descomposicin LU (mtodo de crout), o descomposicin de o e o Cholesky. Una vez se han determinado los pesos i se procede a calcular el valor estimado usando la expresin 4.3. o Hasta este momento se tiene una metodolog general para determinar los a pesos de ponderacin i a partir de la solucin de un sistema lineal de ecuao o ciones expresado en trminos de las covarianzas. Sin embargo queda an por e u denir como se calcular esas covarianzas, para lo cual viene en nuestra an ayuda el semivariograma. Existe una conexin entre covarianza y semivario ograma dada por la siguiente expresin: o C(h) = VAR (h) (4.12)

en donde se puede ver que la funcin de covarianza depende unica y exclusio vamente de la distancia de separacin h, al igual que el semivariograma. De o tal forma que se puede construir el sistema de ecuaciones (y especicamente denir las matrices de covarianzas) conociendo solamente las distancias de separacin entre las muestras cercanas, y las distancias de separacin entre o o el punto de estimacin y esas muestras. As mismo, el hecho que la covario anza dependa solamente de la distancia de separacin implica que la matr o z del trmino izquierdo es simtrica, es decir: e e C(ui , uj ) = C(uj , ui ) (4.13)

4.5.

Ejemplo numrico sencillo e

A continuacin se presentar un ejemplo numrico sencillo de la solucin o a e o de las ecuaciones de krigeaje para la estimacin en un punto. Para esto se o tiene un conjunto de datos conformados por 8 muestras cuya distribucin o espacial aparece representada en la gura 4.5. Se seleccion como punto de o estimacin la ubicacin x = 41 y y = 29. o o El semivariograma usado en este caso particular corresponde a un modelo esfrico isotrpico denido de la siguiente forma: e o (h) = 0,1 + 0,9Esfrico( e 56 h ) 10 (4.14)

4.5. EJEMPLO NUMERICO SENCILLO

Figura 4.1:

57

CAP ITULO 4. ESTIMACION ESPACIAL: KRIGEAJE

Toda esta es la informacin necesaria para realizar el procedimiento de o krigeaje en el punto seleccionado, para lo cual se utiliz el programa de o krigeaje kb2d perteneciente a la libreria de software geoestad stico GSLIB, el cual tiene la opcin de imprimir las matrices de covarianza en un archivo o de salida. Las matrices de covarianza entre las muestras cercanas es igual a: a=1.0000 a= .6032 a= .3365 a= .7104 a= .7655 a= .7104 a= .6336 a= .1801

1.0000 .4343 .4343 .4873 .5071 .3749 .1045

1.0000 .2713 .2433 .2020 .1600 .2813

1.0000 .7655 .6336 .7104 .2433

1.0000 .7655 .7655 .1600

1.0000 .7104 .0908

1.0000 .1302

1.0000

Mientras que la matr de covarianza entre el punto de estimacin y cada z o una de las muestras cercanas es igual a: r( r( r( r( r( r( r( r( 1) 2) 3) 4) 5) 6) 7) 8) = = = = = = = = .6179 .5633 .5633 .5633 .5176 .4426 .4108 .3305

Ya con las matrices de covarianza es posible obtener los pesos de ponderacin o del krigueaje al resolver el sistema de ecuaciones (ecuacin 4.10): o x 39.500 38.500 41.500 40.500 39.500 38.500 39.500 45.500 y 30.500 28.500 26.500 31.500 31.500 31.500 32.500 29.500 valor 7.938 .574 2.127 2.509 8.340 18.642 2.284 1.211 58 peso .252 .190 .308 .212 .028 -.043 -.028 .130

4.6. INTERPRETACION DE LAS ECUACIONES DEL KRIGEAJE

y con estos se aplica la ecuacin 4.1 y 4.21: o valor estimado varianza de estimacin o 2.711886 4.170713E-01

4.6.

Interpretacin de las ecuaciones del krigeaje o

El sistema de ecuaciones del krigeaje (ecuacin 4.10) captura algunos o aspectos que resultan de inters en los problemas de estimacin espacial. A e o partir de la ecuacin 4.11 los pesos son iguales a: o = Cij 1 C0i (4.15)

Esta expresin presenta ciertas caracter o sticas que son de inters especial: e El sistema de ecuaciones que se obtiene a partir de la expresin 4.10 o y 4.11 permite incorporar informacin de la correlacin espacial de la o o variable modelada (continuidad espacial) al utilizar el semivariograma o la covarianza para denir las matrices C(uj , ui ), y C(u, ui ). La matr de covarianza C(uj , ui ) o Cij tiene en cuenta las distancias z de separacin y los valores de correlacin entre las muestras cercanas o o al punto de estimacin, permite corregir los posibles efectos del agruo pamiento presente en ese grupo de muestras y por consiguiente la redundancia de informacin. o El vector de covarianzas C(u, ui ) o C0i tiene en cuenta la distancia de separacin y la correlacin espacial entre el punto de estimacin y o o o cada una de las muestras cercanas. Los pesos = [i ] tiene en cuenta tanto las distancias estad sticas contenidas en C0i y el efecto del posible agrupamiento de muestras y redundancia en la informacin tal se presenta en Cij , y por consiguiente o estos pesos permiten ajustar el procedimiento de estimacin (krigeaje) o a un patrn particular de correlacin espacial!!!. o o

4.7.

Varianza de estimacin o

Como se ha mencionado en diferentes partes del texto, una de las ventajas que presenta el krigeaje con respecto a las metodolog de interpolacin as o espacial consiste en la posibilidad de obtener una medida de la conabilidad 59

CAP ITULO 4. ESTIMACION ESPACIAL: KRIGEAJE

de la estimacin en un punto donde no se tenga muestra. o Las ecuaciones del krigeaje se obtuvieron por un proceso de minimizacin o de la varianza del error de estimacin, funcin que se denomin q (ecuacin o o o o 4.5). Pero despus de usar esta varianza del error para obtener los pesos e i , se quiere conocer el valor de dicha varianza. Para obtener dicho valor multiplicamos a ambos lados la ecuacin 4.10 por i con lo que se obtiene: o
n

i (
j=1

j C(ui , uj )) = i C(u, ui )

(4.16)

sumando las n expresiones resultantes se tiene:


n n n

i
i j=1

j C(ui , uj ) =
i

i C(u, ui )

(4.17)

y reagrupando trminos: e
n n n

i j C(ui , uj ) =
i=1 j=1 i=1

i C(u, ui )

(4.18)

el valor de la doble sumatoria obtenido se puede reemplazar en la ecuacin o 4.8 para obtener:
n n

q = C(0) +
i=1

i C(u, ui ) 2
i=1 n

i C(u, ui )

(4.19)

con lo cual resulta: q = C(0)

i C(u, ui )
i=1

(4.20)

2 y cambiando q por e y C(0) por VAR: n 2 e = VAR i=1

i C(u, ui )

(4.21)

donde VAR corresponde a la varianza de los datos, i a los pesos del krigueaje (ecuacin 4.10), y C(u, ui ) son los valores de la covarianza entre el punto o de estimacin y las muestras cercanas. Una caracter o stica interesante de la 2 (ecuacin 4.21) consiste en su independencia de varianza de estimacin e o o los valores de las muestras cercanas, esta depende solamente de los i y de 60

4.8. TIPOS DE KRIGEAJE

la correlacin con las muestras cercanas. Esto es de vital importancia en eso tudio de diseo de redes de monitoreo, ya que se puede calcular la varianza n de estimacin debida a la incorporacin de una o ms muestras al conjunto o o a de datos, sin que sea necesario conocer el valor de la variable de inters en e esos puntos, es decir, antes de tomar las muestras. As mismo esta varianza 2 de estimacin e permite cuanticar la conabilidad de la estimacin , o o o lo que es equivalente la incertidumbre que existe con respecto al valor del atributo en un punto donde no se tenga muestra, lo cual convierte al krigeaje en una importante herramienta para la toma de decisiones. Si se supone que en cada punto donde no se tiene muestra los valores del error siguen una distribucin normal (suposicin no siempre vlida o que se pueda justicar o o a desde un punto de vista f sico), entonces se podrn derivar intervalos de cona para cierto nivel de conabilidad realizada anza para la estimacin z o utilizando los criterios estudiados para la distribucin normal en los cursos o de estad stica bsica: a P r(|z z0 | > 2e ) = (4.22) si = 0,05 se obtienen los intervalos de conanza del 95 % para el valor estimado z : [z 2e , z + 2e ] (4.23) Aunque esta expresin tiene claramente sentido para una distribucin noro o mal, puede ser usada en otros casos (en donde la distribucin del error no o sea normal) con un n interpretativo y orientativo con el n de cuanticar de forma aproximada la incertidumbre espacial.

4.8.

Tipos de krigeaje

Como se mencion anteriormente el trmino krigeaje sirve para designar o e a un conjunto de mtodos de estimacin espacial ptima y como tal agrupa e o o a varios mtodos con los que dicho problema se puede resolver. Cada uno e de estos mtodos se encuentra basado en ciertas suposiciones y tiene ciertas e ventajas y desventajas. La diferencia entre el krigeaje simple y el ordinario corresponde a una restriccin adicional que se impone sobre la sumatoria de los i , y la cual o se encuentra relacionada con el hecho que el krigeaje es un estimador no sesgado. El insesgamiento es una propiedad que deber cumplir cualquier a estimador, la cual se dene de la siguiente forma: E[z ] = E[z] = m 61 (4.24)

CAP ITULO 4. ESTIMACION ESPACIAL: KRIGEAJE

en donde el valor esperado del estimador deber ser igual al valor esperado a de la variable aleatoria con la que se est trabajando. Reemplazando la e denicin para el estimador (ecuacin 4.1) en la expresin anterior se tiene: o o o
n

E[
i=1

i zi ] = E[z] = m

(4.25)

y aplicando el operador de valor esperado a la expresn del estimador se o tiene:


n

i E[zi ] = E[z] = m
i=1

(4.26)

y asumiendo que E[zi ] = m, es decir que el valor esperado en los puntos donde se tiene muestra es igual al promedio calculado a partir de los datos, es evidente que la igualdad en la ecuacin anterior solo se cumple si la o sumatoria de los i es igual a 1.

4.8.1.

Krigeaje simple

El krigeaje simple es el mtodo con el cual se explic la derivacin de las e o o ecuaciones en la seccin 4.4. Este mtodo se aplica cuando el fenmeno es o e o homogneo a nivel espacial, lo cual se ve reejado en que la media (promedio e de los datos) es vlida en toda el rea de estudio ( suposicin que no siempre a a o es vlida). As mismo en este mtodo no se hace ninguna suposicin con a e o respecto a los pesos i , con lo cual la propiedad de insesgamiento se ve afectada, para lo cual se redene el estimador:
n

z m =
i=1

i [zi m]

(4.27)

y reorganizando se tiene:
n zks

=m+
i=1

[zi m]

(4.28)

con lo cual queda denido el estimador de krigeaje simple. Como se puede apreciar de la ecuacin anterior, este procedimiento considera que el valor o estimado en un punto dado corresponde a la suma de la media (promedio) y una componente residual, la cual se dene como la diferencia entre los valores de las muestras cercanas y la media de los datos. Esto se hace por conveniencia matemtica, ya que el estimador dado por la expresin 4.27 es a o 62

4.8. TIPOS DE KRIGEAJE

insesgado. Un aspecto a tener en cuenta en la ecuacin 4.27 es que se debe o usar la media global de los datos (promedio). Sin embargo, si se dispone de informacin secundaria completamente muestreada se pueden denir meo dias en cada punto de estimacin a partir de un procedimiento de regresin o o lineal u otra metodolog con lo cual se tendr un algoritmo sencillo para a, a la integracin de informacin adicional (por ejemplo, mejorar el mapa de o o intensidad de precipitacin a partir de la incorporacin de la informacin de o o o topograf En este caso el estimador tomar la forma: a). a
n zkslm = m(u) + i=1

[zi m(u)]

(4.29)

donde m(u) corresponde a la media en el punto de estimacin u, y la cual o se determina a partir de informacin secundaria. o

4.8.2.

Krigeaje ordinario

En el caso del krigeaje ordinario la propiedad de insegamiento se obtiene al imponer directamente dentro de la funcin de error q (ecuaciones 4.4 a o 4.5) que la sumatoria de pesos i sea igual a uno. Esto causa que exista otra restriccin adicional que cumplir y por lo tanto que el sistema de ecuaciones o aumente de tamao a n + 1 n + 1. El sistema lineal de ecuaciones (ecuacin n o 4.10) queda ahora expresado de la siguiente forma:
n

j C(ui , uj ) + = C(u, ui )
j=1

(4.30)

donde es el denominado multiplicador de lagrange (un parmetro con el a cual es posible incluir la restriccin de la sumatoria de pesos), C(ui , uj ) es o la covarianza entre las muestras cercanas, y C(u, ui ) es la covarianza entre el punto de estimacin y cada una de las muestras cercanas. El sistema de o ecuaciones resultante quedar a: C(u1 , u1 ) C(u1 , u2 ) C(u1 , un ) 1 1 C(u, u1 ) C(u2 , u1 ) C(u2 , u2 ) C(u2 , un ) 1 2 C(u, u2 . . . . . .. . . . . . = . . . . . . C(un , u1 ) C(un , u2 ) C(un , un ) 1 n C(u, un )) 1 1 1 1 0 en donde se puede ver que la la y columna adicional incluye valores iguales a 1, de tal forma que al realizar la multiplicacin de matrices se pueda obteno er que la sumatoria de pesos es igual a 1. Esta matr resulta ser simtrica y z e 63

CAP ITULO 4. ESTIMACION ESPACIAL: KRIGEAJE

por lo tanto se pueden utilizar los mismos mtodos numricos que se mene e cionaron anteriormente. Una vez se hayan determinado los pesos i se utiliza el estimador de la ecuacin 4.1 sin ningn tipo de correccin o modicacin. o u o o

4.8.3.

Krigeaje Indicador

En el krigueaje simple y ordinario el objetivo fundamental consiste en obtener un estimativo z del valor de la variable de inters en donde no e se tiene muestras. En el caso del krigeaje indicador el objetivo consiste en determinar la probabilidad de no-excedencia para un cierto valor de corte zc en un punto donde no se tiene informacin, a partir de los valores de o indicadores cercanos, es decir:
n

I (u; zc ) =
j=1

j ij = Pr[z(u) zc ]

(4.31)

donde j son los pesos obtenidos mediante el procedimiento de krigeaje indicador, ij son los valores de indicadores denidos para el valor de corte zc de la siguiente forma: I (u, zc ) = 1, Si z(u) zc 0, En caso contrario (4.32)

en otras palabras, esta transformacin indicadora denida en la expresin o o anterior toma un conjunto de datos y los transforma en 1s y 0s, y el valor esperado de una variable indicadora se puede expresar: [i (u; zc )] = E{I (u; zc |(n))} = P rob{Z(u zc )} (4.33)

con lo cual es evidente que cuando se realiza un krigeaje de los valores obtenidos de la transformacin indicadora (1s y 0s) el resultado correo sponde a la probabilidad que en ese punto la variable sea menor o igual al valor de corte zc . Es decir que el krigeaje indicador brinda una herramienta con la cual es posible determinar probabilidades a nivel espacial!!!, y por lo tanto ser la metodolog a usar en el caso que se quisieran determinar a a dichas probabilidades para algn tipo de problema especial. u Generalmente este tipo de krigeaje se realiza no solo para un nivel de corte sino para varios, de tal forma que en este caso se puede reconstruir la distribucin de probabilidad acumulada condicional en cada punto, sin hacer o 64

4.8. TIPOS DE KRIGEAJE

suposiciones restrictivas respecto a la forma de la distribucin; y por lo tanto o se tiene una herramienta bastante verstil para la cuanticacin de la ina o certidumbre a nivel espacial. A partir de esta distribucin se puede extraer o informacin muy importante tal como: o Valor esperado de la distribucin o estimador tipo E. o Varianza de la distribucin, la cual puede ser usada como medida de o la incertidumbre que existe en el valor del atributo y puede ser un parmetro orientativo en diseo de muestreo espacial. a n Probabilidad de excedencia del atributo en estudio en un punto espec co para cierto valor de corte (por ej. un valor dado por la legislacin), la cual puede ser usada en diferentes tipos de anlisis. o a Extraer un cuantil espec co de la distribucin, valor que puede ser de o inters para algunos anlisis particulares. e a

65

Você também pode gostar