Você está na página 1de 10

MINERA DE DATOS ESPACIAL

Minera de Datos Espacial


Carlos Andrs Herrera Parra caherrerapa@unal.edu.co Universidad Nacional de Colombia Bogot, Colombia Noviembre 2006

Abstract La minera de datos espacial permite encontrar patrones en datos con comportamiento espacial, que son potencialmente tiles para una organizacin. sta diere de la minera de datos tradicional dada la relacin y co-relacin existente entre los datos espaciales y la complejidad del tipo de dato manejado. Este artculo presenta los diferentes enfoques utilizados en la minera de datos espaciales, sus aplicaciones, los trabajos ms representativos de cada uno de los enfoques y nalmente las perspectivas de investigacin existentes en el rea. Index Terms spatial data mining, minera de datos espacial, co-localizacin, clustering espacial, reglas de asociacin espacial

agua y las muertes ocasionadas por el clera asitico en el ao de 1854 en Londres(gura 1); la relacin existente entre la composicin con cierto grado de uoruro del agua suministrada y la buena salud dental de los habitantes de Colorado Spring, permiten visualizar el gran potencial de la minera de datos espaciales.

Fig. 1. Estudio realizado por John Snow, sobre el clera asitico en el ao de 1854 en la ciudad de Londres. Podemos observar claramente la relacin de las muertes causadas por la epidemia y un sumistro de agua especco.

I. I NTRODUCCIN L aumento considerable de la informacin espacial en las organizaciones, hacen necesaria la explotacin de sta por medio de la minera de datos espacial[2], [3] . La minera de datos espacial permite encontrar a travs de diferentes tcnicas y herramientas [9], [10], [4], [11], patrones potencialmente tiles en bases de datos espaciales[6]; este tipo de bases de datos soportan operaciones ecientes para la realizacin de tareas comunes como bsquedas por vecindad y uniones espaciales; sin embargo, no almacenan explcitamente patrones o reglas que determinan las relaciones espaciales entre los objetos y algunas caractersticas no espaciales. Inicialmente podramos pensar que la minera de datos espacial comparte las mismas tcnicas utilizadas en la minera de datos tradicional, sin embargo, debido a la complejidad de los datos espaciales, ya que comprenden objetos como puntos, lneas y polgonos y sus relaciones inherentes a su naturaleza, obligan a pensar en tcnicas que vayan en completa concordancia con el problema a tratar; la aproximacin tradicional diere a la aproximacin espacial, por factores como: i) el hecho que la primera asume caractersiticas como la independencia existente en la distribucin de los datos, que viola la primera ley de la geografa (todo se encuentra relacionado con todo lo dems, pero los objetos cercanos se encuentran mayormente relacionados que los objetos distantes[26]), (ii) los tipos de datos complejos y (iii) la existencia de correlacin entre caractersticas espaciales. El objetivo de la minera de datos espacial es permitir el hallazgo automatizado de patrones (hiptesis) inesperados, que sern validados por expertos del rea estudiada. Ejemplos como el hallazgo de la relacin entre un suministro de

Departamento de Ingeniera de Sistemas y Computacin. Universidad Nacional de Colombia

El resto del artculo se encuentra organizado de la siguiente manera. Denimos las caractersticas relevantes para el entendimiento de la problemtica que plantea la minera de datos espacial en la seccin 2. En la seccin 3 se presenta la taxonoma de la minera de datos espacial y los trabajos ms importantes tomando como punto de partida dicha taxonoma. En la seccin 4 se presentarn algunas aplicaciones de la minera de datos espacial. Se presentarn algunas de las perspectivas de investigacin del rea en la seccin 5. Finalmente, en la seccin 6 se concluye el artculo.

MINERA DE DATOS ESPACIAL

II. DATOS E SPACIALES A. Primitivas en bases de datos espaciales En esta subseccin se introduce un conjunto bsico de primitivas para la minera de datos espacial. Estas primitivas se encuentran basadas en el concepto de relaciones espaciales basadas en vecindad. 1) Relaciones de vecindad: Los datos con comportamiento espacial tienen relaciones que pueden ser implcitas y ser categorizadas en; i) orientadas a conjuntos, donde encontramos relaciones del tipo pertenencia, unin e interseccin ii) topolgicas, entre las cuales tenemos traslapamiento, inclusin, iii) basadas en direccin, iv) mtricas[24]. Estas relaciones pueden ser combinadas por operadores lgicos para expresar relaciones de vecindad de mayor complejidad. Estas relaciones las podemos ver por ejemplo, en como una planta industrial contamina su vecindad dependiendo de la distancia y la direccin dominante del viento. En la gura 2 podemos observar como a partir de un mapa se podra determinar la posible localizacin de una nueva planta industrial[24]. Esta gura muestra tres grados diferentes de polucin que producira la nueva planta, adems se representan los objetos susceptibles a inuencia como son las poblaciones y bosques vecinas.

Las relaciones son: A desunido de B, A encaja con B, A se sobrepone B, A igual B, A cubre B, A cubierto por B, A contiene B, A dentro de B[25]. En la gura 3 se representan algunas de las relaciones topolgicas existentes entre 2 objetos.

Fig. 3.

Algunas relaciones topolgicas.

Relaciones basadas en distancia Las relaciones basadas en distancia son aquellas que surgen al comparar la distancia entre dos objetos contra una constante utilizando operadores aritmticos. La distancia dist entre dos objetos, por ejemplo un conjunto de puntos puede ser denida de manera simple como la mnima distancia entre sus puntos. Si dist es una funcin de distancia y s es un predicado aritmtico <, > or =, c es un nmero real, O1 yO2 son objetos espaciales, entonces la relacion A se distancia c de B se conserva si y solo si dist (O1 , O2 ) c (ver gura 4).

Fig. 4. Fig. 2. Polucin producida por una planta en proyecto y los objetos que inuenciables por sta[24].

Relaciones basadas en distancia.

En esta subseccin se presentarn las relaciones de tipo topolgico, basadas en distancia y basadas en direccin. Entre los objetos espaciales tenemos puntos, lneas y polgonos. Para su representacin genrica se utiliza un conjunto de puntos. Relaciones topolgicas Las relaciones topolgicas son aquellas relaciones que son invariables bajo transformaciones topolgicas, es decir, se conservan si por ejemplo ambos objetos son rotados, trasladados y escalados simultneamente. Las relaciones topolgicas entre dos objetos A y B son derivadas de las nueve intersecciones de los interiores, las fonteras y los complementos de A y B con el otro objeto respectivamente.

Relaciones basadas en direccin Para el entendimiento de la caracterizacin espacial y deteccin de tendencias espaciales, este tipo de relacin es fundamental[22], [23]. Para denir una relacin de direccionalidad entre dos objetos O1 y O2 , consideraremos un punto representativo del objeto O1 como el origen del sistema de coordenado virtual donde los cuadrantes y semi-planos denen las direcciones. El predicado de una direccin se cumple, si y solo si todos los puntos del objeto O2 , se encuentran ubicados en el rea del plano determinada por dicho predicado. La gura 5 muestra la denicin de algunas relaciones basadas en direccin, utilizando objetos denidos en dos dimensiones. Como se puede observar en la gura, no existe una nica denicin de la relacin entre dos objetos A y B, pero si existe una relacin de direccin con un mayor grado de restriccin, llamada relacin exacta de direccin, que en el caso de la gura 5 observamos que la relacin exacta de direccin entre A y B, es noreste. 2) Grafos de vecindad y sus operaciones: Si vecino es una relacin de vecindad y BD es la poblacin total de datos espaciales, denimos grafo de vecindad GBD vecino = (N, E), como el grafo que tiene nodos N = BD y aristas E N xN donde un eje e = (n1 , n2 ) existe si y solo si la relacin de vecindad vecino (n1 , n2 ) se cumple. Un camino de vecindad de tamao k es una secuencia de nodos

MINERA DE DATOS ESPACIAL

Fig. 5.

Relaciones basadas en direccin para objetos 2D.

nodo de tal manera que la direccin norte o una direccin ms especializada como la noreste sea satisfecha. En la gura 6 podemos observar los predicados utilizados regularmente para ltrar vecinos y caminos.

Fig. 6.

Algunos predicados utilizados para ltrar vecinos y caminos.

[n1 , n2 , ..., nk ], donde la relacin vecino (ni , ni+1 )se presenta para todo ni N, 1 i < k. Asumimos que las operaciones estndar del lgebra relacional como seleccin, unin, interseccin y diferencia aplican para el conjunto de objetos y el conjunto de caminos de vecindad. A partir de estas operaciones podemos denir otras operaciones importantes como:

B. Estructuras de indexacin - rboles R y R* Los rboles R[14](ver gura 7) son estructuras de indexacin similar a los rboles B, pero cuyo objetivo es indexar datos de tipo espacial, como son las coordenadas geogrcas. La estructura de datos divide el espacio de forma jerrquica en conjuntos, en rectngulos conocidos como MBR (minimun bound rectangle). Cada nodo de un rbol-R tiene un nmero variable de entradas (hasta un mximo predenido). En sus nodos hoja, contiene apuntadores los objetos de datos. La estructura est diseada de tal manera que las bsquedas espaciales requieran visitar slo un pequeo conjunto de nodos. El ndice es dinmico y las inserciones y actualizaciones, en caso de no ser masivas, no requiere su reconstruccin. Cada nodo no hoja, tiene un nmero variable de entradas, con un lmite mximo predenido. Esta estructura de indexacin no ofrece el mayor desempeo, sin embargo, con conjuntos de datos reales se comporta de manera eciente. Diferentes variaciones[15], [16], [12] de este mtodo de indexacin han surgido en los aos posteriores a su divulgacin, sin embargo, bsicamente funcionan con la misma estructura y logran mejorar los peores casos de indexacin que no resuelve ecientemente una estructura tipo R.

vecinos(grafo, objeto, predicado) retorna el conjunto de todos los objetos conectados al objeto perteneciente al grafo que satisface la condicin expresada por el predicado. caminos(objetos) crea todos los caminos de tamao 1 formados por un elemento simple de objetos. extensiones(grafo, caminos, max, predicado) retorna el conjunto de todos los caminos resultantes de extender uno de los elementos de caminos en mximo max nodos del grafo. Los caminos extendidos deben satisfacer el predicado.

3) Filtros basados en predicados: Ya que el nmero de caminos de vecindad puede ser muy grande, el predicado tanto en la operacin extensiones como en la operacin vecinos acta como un ltro para restringir el nmero de vecinos y caminos para cierto tipo de vecinos y caminos. La denicin de predicado puede utilizar tanto atributos espaciales como no espaciales. A partir de la primera ley de la geografa, podemos inferir que los patrones realmente tiles son efecto de algn tipo de inuencia de un objeto en otros objetos en su vecindad. Para crear nicamente caminos relevantes, se introducen predicados para el ltraje que seleccionan un subconjunto de todos los caminos, permitiendo de esta manera reducir signicativamente el tiempo de ejecucin de los algoritmos de minera. Existen diferentes posibilidades para la denicin de los predicados de ltraje. Comnmente se utilizan ltros del tipo estrella. Un ltro de tipo estrella, por ejemplo requiere que, cuando un camino p = [n1, n2 , ..., nk ]se extiende con un nodo nk+1 , la direccin exacta nal del camino no se generaliza. Por ejemplo, para un camino cuya direccin nal es la direccin noreste, solo puede ser extendido por un nodo de una arista con direccin exacta noreste. El ltro de tipo estrella variable requiere nicamente que, cuando se extiende p, la arista (nk , nk+1 )cumpla por lo menos la direccin exacta de p. Por ejemplo, un camino de vecindad con una direccin inicial norte, puede ser extendido por un

III. T RABAJOS EN MINERA DE DATOS ESPACIAL Para comprender el porqu la minera de datos espacial diere de la aproximacin tradicional, se presentar una descripcin breve de la problemtica, una descripcin de cada una de las reas que se encuentran en ella a travs de la denicin de la taxonoma y los trabajos representativos de cada una de stas.

A. Denicin de la problemtica La amplia difusin de la informacin espacial a raz de los sistemas de informacin geogrcos, han permitido que esta informacin sea explotada con el objetivo de obtencin de conocimiento de manera automatizada. El gran nmero

MINERA DE DATOS ESPACIAL

Fig. 7.

Mtodo de indexacin R. Extrado de wikipedia

C. Clustering Clustering se denomina al agrupamiento de objetos de una base de datos en subclases con signicado, y es una de la tcnicas ms utilizadas en la minera de datos. Sin embargo, a pesar de que los algoritmos de clustering se han estudiado por ms de una dcada, su aplicacin a datos con caractersticas espaciales les imponen nuevos retos como son: 1) Descubrimiento de clsteres de geometera arbitraria, ya que los datos espaciales pueden conformar clsteres alargados, esfricos,etc. 2) Se requiere mayor eciencia de los algoritmos en bases de datos de tamao considerable, debido al crecimiento actual de una base de datos espacial tpica, la convierte en una base de datos con mucho ms que un poco de miles de datos. Las mejoras realizadas a los algoritmos de clustering en minera de datos espacial se fundamentan en la implementacin de nuevas estructuras de indexacin como son los rboles R[14] y R*[12], creacin de versiones paralelizables de los algoritmos y mtodos para evitar supuestos, que en tiempos actuales con bases de datos espaciales de tamao considerable son caractersiticas inherentes a stas. 1) DBSCAN: Este algoritmo de clasicacin en clases que pertenece a la familia de algoritmos de clustering espacial[8], aborda la integracin entre la minera de datos espacial y la interfaz con el sistema de base de datos espacial. Esta intregracin se debe a que este algoritmo utiliza un mtodo de acceso a los datos denominado R*[12]. Este algoritmo a diferencia de CLARANS[30] no asume que todos los datos pueden permanecer en memoria principal. Este algoritmo se cre con el objetivo de tratar una gran cantidad de datos espaciales. Este algoritmo tiene un orden de ejecucin de O (logn), que provee una mejora notable con respecto al algoritmo CLARANS y basa su teora en los siguientes conceptos:[18] Los conceptos en los que se basa este algoritmo son:

de datos existentes en las bases de datos espaciales y la complejidad del tipo de dato manejado, limita la utilizacin de aproximaciones tradicionales de minera de datos. Los algoritmos de minera de datos espaciales deben cumplir con las siguientes caractersticas bsicas:[13]

Debe poder operar en conjuntos de datos de tamao considerable. Las bases de datos espaciales (SDBMS) tienen la potencialidad de almacenar grandes cantidades de informacin. Por ende, pensar en algoritmos que asumen que el conjunto completo de datos a analizar puede residir en memoria principal, no resuelven la problemtica actual. Deben realizar su tarea de manera rpida. Deben tener en cuenta el razonamiento espacial y las tcnicas existentes de optimizacin de bsquedas espaciales. Las caractersticas y tcnicas disponibles en las bases de datos espaciales y la geometra computacional deben utilizarse cuando sea conveniente para mejorar el rendimiento de la minera.

B. Taxonoma En la gura 8 se describe la taxonoma de la minera de datos espacial, a partir de la cual se realizar la presentacin de los trabajos en el rea (basado en la taxonoma mencionada en [13]).

Alcance directa por densidad. Alcance por densidad. Conexin por densidad. Clster.

Fig. 8.

Taxonoma de la minera de datos espacial.

2) PDBSCAN: DBSCAN[18] es uno de los algoritmos de clustering ms utilizados, sin embargo debido al creciente volumen de datos disponibles, la disminucin en los costos de hardware y la necesidad de obtencin de resultados en un menor tiempo, requieren el planteamiento de un algoritmo que sea paralelizable, con un mayor rendimiento, pero con la misma precisin que se puede obtener con uno no paralelizable. PDBSCAN[17], es un algoritmo de clustering paralelizable, que se basa en DBSCAN, en una losofa de no comparticin de estructuras de datos, una estructura de datos distribuida basada en rboles de tipo R(dR*-tree) y curvas de Hilbert para el hallazgo de puntos pertencientes a los diferentes clsteres en el momento de la particin del problema, ya que permite que los puntos espaciales cercanos

MINERA DE DATOS ESPACIAL

se encuentren en la misma particin cuando es posible. Este algoritmo logra disminuir los tiempos de ejecucin de algoritmos como CLARANS, SMTIN que tienen orden de ejecucin de O n2 y permite que el problema de la bsqueda de clsters en un gran conjunto de datos sea posible y paralelizable, ste tiempo de ejecucin es de O (logn). Los resultados experimentales[17], permiten establecer de que manera puede escalar el problema. La idea bsica del algoritmo es realizar un particionamiento del conjunto de datos en N(ver gura 9), que es el nmero de computadores disponibles para realizar el clustering, y cada particin i se distribuye en el computador Ci , para luego procesar en cada computador con DBSCAN. Finalmente se realiza la combinacin de la solucin de tal manera que: i) se eviten altos costos de comunicacin para sostener las estructuras distribuidas, ii) tener carga de balance y iii) el algoritmo permita el acceso de datos distribuido.

y binarias(vecindades) determinandas por el grafo dado por el patrn. [1] introduce algunos conceptos de utilidad que caracterizan el que tan interesante puede ser un patrn de colocalizacin. El ndice de participacin, se dene como: pr(f i, P ) = # instancias de f i en cualquier instancia de P nmero de instancias de f i

La prevalencia prev(P) de un patrn P como: prev(P ) = min {pr(f i, P ), f i P } La prevalencia modela la mmima probabilidad que, siempre y cuando una instancia de algn f i P aparezca en el mapa, de que ste participe en una instancia de P. Esta variable nos permite determinar que tan fuerte es un patrn para implicar colocalizacin de caractersticas. Finalmente, la conanza conf(P) de un patrn P, que se dene como: conf (P ) = max {pr(f i, P ), f i P } permite saber que tan hbil es un patrn para generar reglas de colocalizacin a partir del ndice de participacin. Estas dos ltimas deniciones le permiten al especialista del problema de negocio, denir cuales patrones de colocalizacin son relevantes.

Fig. 9.

Particionamiento en PDBSCAN. [17]

D. Co-localizacin La co-localizacin espacial representa los conjuntos de caractersticas de tipo booleano que ocurren regularmente con gran proximidad geogrca. La gura 10 nos permite observar diferentes patrones de co-localizacin, por ejemplo podemos observar que existen un patrn de co-localizacin entre {+,x} y {o,*}. Ejemplos comunes en el mundo real podran ser la presencia de estaciones de gasolina junto a vas principales, simbiosis entre especies animales, tipos de negocios, canceres, crmenes y zonas de bajos ingresos econmicos. Los patrones de co-localizacin por ejemplo tambin puede ser visto de utilidad para la ubicacin de publicidad sensible de ubicacin geogrca o ubicacin de un nuevo negocio. Formalmente podramos denir la co-localizacin de la siguiente manera[1], [13], consideremos un nmero n de conjuntos de datos espaciales R1 ,R2 ,R3 ...Rn , de tal manera que cada contenga objetos con una caracterstica no espacial en comn . Dada una distancia , dos objetos se denominan vecinos, si y solo si, su distancia es por mucho . Denimos un patrn de co-localizacin P, como un grafo no dirigido, donde cada nodo corresponde a una caracterstica fi y cada eje corresponde a una relacin de vecindad entre las respectivas caractersticas. Una instancia de P es un conjunto de objetos que satisfacen restricciones unarias(caractersticas)
Fig. 10. Patrones de co-localizacin. Extrada de [1].

Los enfoques para el hallazgo de reglas de colocalizacin, se pueden clasicar en estadsticas espaciales y aproximaciones de minera de datos. La aproximacin por minera de datos puede ser dividida en agrupamiento por sobreposicin y asociaciones basadas en reglas; la primera de estas aproximaciones considera a cada una de las caractersticas booleanas como una capa del mapa y considera

MINERA DE DATOS ESPACIAL

clusters o grupos de puntos en cada capa como candidatos para ser tratados. 1) Fast co-locations: Este mtodo[13]para hallar patrones de colocalizacin en representaciones de grafos de colocalizacin de tipo estrella y tipo clique(Ver gura 11a). El algoritmo asume que la entrada es un conjunto de n subconjuntos R1 ,R2 ,R3 ...Rn , donde Ri almacena las instancias de caracterstica fi . Este mtodo divide el espacio en una grilla regular y agrupa en particiones los objetos utilizando esta grilla. Cada objeto se extiende en una distancia (esta distancia puede representarla ponderacin dada a otro tipo de relacin espacial diferente a la distancia euclidiana ) formando un disco y dividido por en las particiones que intersectan al disco. En la gura 12, el objeto b1 , que pertenece al conjunto de datos Rb ,se encuentra presente en dos particiones C2 y C5 . El algoritmo opera en dos fases; la fase de divisin y la fase de minera; en la fase de divisin, las instancias pertenecientes a cada conjunto de datos Ri , son particionadas en tantos subconjuntos como celdas se hayan creado en la grilla. La fase de minera utiliza un algoritmo que encuentra las reglas de asociacin en cada celda. El algoritmo se fundamenta en synch_sweep[19], [20], que toma como entrada una caracterstica y un conjunto de particiones de todas las instancias de las caractersticas que han sido ubicadas en C y halla el patrn maximal en el que cada instancia se encuentra includa. Los objetos en la C particin Ri , es decir, las instancias de la caracerstica en la particin C son procesados en orden por su valor x. Para cada objeto oi , se inicializa el patrn maximal donde oi puede participar como su centro. Luego, para cada una de las otras caractersticas, hallamos verticalmente sobre el eje x, las instancias a una distancia menor o igual a ; si es as, agregamos la instancia a L.
Fig. 11. Tipos de representacin de patrones de colocalizacin

Fig. 12. Grilla y algunos objetos espaciales. a, b y c son caractersticas no-espaciales[13].

En el momento de hallar los patrones de colocalizacin, se verica si hay una instancia de otra caracterstica dentro de la distancia , a partir de los nmeros obtenidos en cada una de las micro-grillas, y si es as se agrega dicha caracterstica al patrn maximal, de tal modo que el algoritmo synch_sweep se aplique a las caractersticas que no se han ltrado.

Fig. 13. Grilla na que permite disminuir el tiempo de ejecucin del algoritmo en el peor caso.

En el peor de los casos el algoritmo tendra que evaluar la distancia entre oi y todas las instancias de las otras caractersticas fj, donde f i = f j, en la celda C. Por esta razn este algoritmo plantea una mejora por medio de la siguiente heurstica. Dada una celda C, antes de realizar el agrupamiento , denimos una segunda divisin espacial en memoria, con una grilla F de tamao inferior; se divide C en celdas ms pequeas de tamao = / 2, como puede C observarse en la gura 13, y cada conjunto Ri , es re-ubicado en estas nuevas micro-celdas. Luego de este particionamiento, sabemos el nmero de instancias del conjunto Ra , dentro de cada una de las micro-celdas, como lo indican los nmeros C de la gura 13a. La gura 13b muestra la particin Rb correspondiente a la caracterstica b en la misma celda C.

El algoritmo es extensible para hallar patrones de colocalizacin en grafos del tipo presentado en la gura 6b y 6c. 2) Partial Join Co-location: [21] introduce una nueva aproximacin para el hallazgo de patrones de co-localizacin, eliminando el cuello de botella identicado que tiene un algoritmo que se base en transaccionalidad del espacio. La idea bsica es reducir el nmero de joins de una instancia para identicar instancias candidatas de co-localizacin por medio de la divisin(en la biliografa puede encontrarse como transaccionalidad) del espacio bajo relaciones espaciales de vecindad e identicando aquellas cortadas por las transacciones. El algoritmo requiere la denicin de los siguientes conceptos,

MINERA DE DATOS ESPACIAL

que se ilustrarn en la gura 14:

Una transaccin de vecindad es un conjunto de instancias T Sque forman un clique utilizando una relacin de vecindad R. Un conjunto de datos espaciales S es particionado en conjuntos disjuntos de transacciones {T1 , ..., Tn }donde Ti Tj = ,i = j y (T1 , ..., Tn ) = S. Asumimos que cada instancia de un evento i corresponde a una nica transaccin. Una instancia intraX de la colocalizacin C, es una instancia de I donde todas las instancias i I hacen parte de la misma transaccin T. La tabla de instancias intraX de C, es el conjunto de todas las instancias intraX de C. Una relacin cortante r R entre dos instancias, i1 , i2 S, i1 = i2 , es la relacin dondei1 , i2 son vecinos pero no pertenecen a la misma transaccin. Una instancia interX de la colocalizacin C, es una instancia I donde todas las instancias i I, tienen por lo menos una relacin cortante. La tabla de instancias interX de C, es el conjunto de todas las instancias interX de C.

los diferentes tipos de objetos son utilizados como las caractersticas de inters. Por ejemplo, los diferentes tipos de objetos geogrcos pueden ser montaas, poblaciones, lagos, autopistas, etc. Para obtener la caracterizacin espacial, no solo las propiedades de los objetos geogrcos analizados sino tambin las propiedades de los vecinos (hasta un nmero mximo de aristas del grafo de vecindad relevante) son considerados. Una regla de caracterizacin espacial de la forma target p1 (n1 , f req f ac1 )...pk (nk , f req f ack ), signica que para el conjunto de todos los objetos a analizar extendidos hasta ni vecinos, la propiedad pi es f req f aci veces mas (menos) frequente que en la base de datos. Este algoritmo de caracterizacin inicia con un pequeo conjunto inicial de objetos a analizar, seleccionados por ejemplo por una condicin impuesta sobre algn atributo no espacial tal como la tasa de personas en retiro = ALTA (ver gura 15a). Luego el algoritmo expande las regiones alrededor de los objetos a analizar, simultneamente slecciona aquellos atributos en las regiones cuya distribucin de valores diere signicativamente de la distribucin en la base de datos (ver gura 15b).
Fig. 15. Caracterizacin espacial con respecto a una tasa alta de personas retiradas.

Fig. 14.

Ilustracin del algoritmo partial join

En el ltimo paso del algoritmo, la siguiente regla de caracterizacin es generada describiendo las regiones objetivo. Esta regla no solo lista algunos atributos no espaciales sino tambin la vecindad de las montaas como relevantes para la caracterizacin de las regiones objetivo: La comunidad tiene alta tasa de personas retiradas apartamentos por construccin=muy baja(0,9.1) tasa de extranjeros=muy baja(0,8.9) tamao promedio de las empresas=muy bajo(0,5.8) tipo de objeto=montaa(3,4.1) El lema sobre el cual se fundamenta el algoritmo demuestra que la tabla de instancias de una colocalizacin C, es la unin de las tablas intraX e interX de C. E. Caracterizacin espacial La caracterizacin espacial de un conjunto de objetos espaciales con respecto a la base de datos que los contiene, se dene como una descripcin compacta de las propiedades espaciales y no espaciales que son tpicas para los objetos examinados y no para el conjunto completo de objetos disponibles en la base de datos. En el algoritmo presentado en [22], las frecuencias relativas de los valores tomados por atributos no espaciales y las frecuencias relativas de F. Deteccin de Tendencias Espaciales Una tendencia espacial has sido denida[22] como un cambio regular de uno o ms atributos espaciales cuando se aleja de un objeto inicial dado. Se utilizan los caminos de vecindas iniciando desde un objeto o para modelar el movimiento y se realiza un anlisis de regresin en los valores del atributo respectivo para los objetos de un camino de vecindad para describir la regularidad del cambio. Ya que el los algoritmos de tendencias espaciales buscan las tendencias con repecto a un objeto inicial o, el algoritmo denido en [22], utiliza la distancia desde o como la variable independiente y la diferencia de los valores del atributo como la variable dependiente para la regresin. La co-relacin de los valores del

MINERA DE DATOS ESPACIAL

atributo analizado con los valores obtenidos con la prediccin hecha por la funcin regresin conllevan a una medida de conanza para la tendencia encontrada. En este algoritmo se utiliza un modelo de regesin lineal, dada la eciencia y a que regularmente la inuencia de otros fenmenos en su vecindad son lineales o pueden ser transformados en un modelo lineal. En la gura 16 se ilustran una tendencia lineal positiva, negativa y tambin una situacin en la cual ninguna tendencia de tipo lineal es observada.
Fig. 16. Ejemplos de tendencias espaciales.

de los datos a ser agrupados juega un rol muy importante en el tiempo de ejecucin de los algoritmos. Graphzip[27] es un mecanismo que permite producir una representacin compacta del conjunto original de datos. Graphzip tiene dos ventajas principales: i) el patrn espacial de los datos originales se conservan en la versin compacta y ii) datos de dimensionalidad arbitraria pueden ser procesados de manera eciente y automtica. Aplicando GraphZip en bases de datos de gran tamao, optimiza tanto la efectividad como la eciencia del clustering espacial. Primeramente realizar clustering en datos compresos, requiere menos tiempo de ejecucin siempre y cuando el patrn se conserve y pueda ser descubierto; y segundo, la complejidad del clustering se reduce dramticamente. B. Compresin de mapas utilizando clustering Los dispositivos mbiles computaciones, como por ejemplo los Asistentes Personales Digitales (PDA) y las unidades de navegacin dentro de los vehculos, requieren acceso a conjuntos de datos espaciales como son mapas de tipo vectorial para la localizacin servicios basados en ubicacin. Los mapas vectoriales consisten en una coleccin de puntos, lneas y polgonos. En contraste, los mapas de tipo rster, utilizan imgenes o representaciones matriciales. En computacin mbil, los mapas vectoriales son los ms comunes debido a que requieren menor tamao para su representacin. Sin embargo, estos dispositivos poseen una capacidad de almacenamiento y ancho de banda para la transmisin de datos muy limitados. Por ejemplo, un dispositivo PDA tradicional, posee entre 2 y 64 megabytes de almacenamiento. El tamao de un mapa de una ciudad es usualmente de alrededor de 0.5 a 2 megabytes. Un dispositivo PDA puede almacenar pocos mapas en el rea que no es ocupada por el sistema operativo y otro software esenciales. Las tcnicas de compresin de mapas vectoriales le permiten a las PDAs llevar consigo un mayor subconjunto de mapas vectoriales o liberar memoria para otro conjunto de datos, como agendas, reuniones, etc. Adems la compresin permite reducir el costo de comunicacin provocado por la descarga de nuevos mapas a la PDA, sobre canales de poco ancho de banda. El objetivo de la compresin de mapas es compactar la representacin de un mapa, sacricando al mnimo la precisin. En [28] se presenta un mtodo que utiliza clustering espacial para la compresin basada en diccionario de mapas vectoriales con una aproximacin mnima de los errores. Este mtodo permite disminuir los errores obtenidos por el mtodo tradicional denominado FHM(Fibonacci, Huffman, y Markiv[29]). En la gura 18 podemos observar los resultados obtenidos utilizando ste mtodo. V. P ERSPECTIVAS DE D ESARROLLO DEL REA Los algoritmos de clustering son propensos a mejorar debido a que para su operacin requieren un conjunto de parmetros de ejecucin, hecho que abre la posibilidad de realizar investigacin de mtodos que permitan su ejecucin sin realizar parametrizacin previa, al mismo estilo de

Tanto tendencias Globlales como tendencias locales son posibles. La existencia de una tendencia global a partir de un objeto inicial o indica que si se consideran todos los caminos de vecindad partiendo de o los valores para los atributos especicados en general tienden a incrementar( disminuir ) con el aumento de la distancia. La gura 17 representa el resultado del algoritmo para hallar una tendencia global para el atributo renta promedio y la ciudad de Regensburg como objeto inicial. El algoritmo para hallar tendencias locales detecta caminos simples iniciando desde un punto o y que tienen cierta tendencia. Los caminos de vecindad que inician en o muestran diferentes patrones de cambio, por ejemplo algunas tendencias pueden ser positivas miesntras otras pueden ser negativas.
Fig. 17. Algoritmo aplicado sobre la base de datos Illustra en la regin de Bavaria.

IV. A PLICACIONES A. Graphzip Con el crecimiento exponencial de los datos en las bases de datos espaciales y la estructura de los datos se tornan ms complejos las tcnicas de descubrimiento de conocimiento se convierten en herramientas esenciales para el anlisis de grandes conjuntos de datos. La mayora de las aproximaciones de clustering espacial se enfocan en la calidad de los agrupamientos. Son pocos los algoritmos que se comportan ecientemente cuando el conjunto de datos es considerable y la dimensionalidad de los mismos tambin es alta. El tamao

MINERA DE DATOS ESPACIAL

Fig. 18. Mapa producido por Compresin Basada en Clustering(gris suave) y el mapa original(color oscuro). [1]

R EFERENCES
Yan Huang, S.S. & Xiong, H. Discovering Co-location Patterns from Spatial Datasets: A General Approach , IEEE Transactions on Knowledge and Data Engineering (TKDE), December 2004, 1472-1485 S. Shekhar, W.W.C.L. V. Kumar, C.K.R.N. (ed.) Data Mining for Scientic and Engineering Applications Whats Spatial about Spatial Data Mining: Three Case Studies Kluwer Academic Pub, 2001 S. Shekhar, R.V. Ye, N. (ed.) Handbook of Data Mining Chapter 22 Techniques for Mining Geospatial Databases LEA Publishers, 2003 S. Shekhar, X.T.S.C. Miller, H.J. & Han, J. (ed.) Geographic Data Mining and Knowledge Discovery Map Cube: A Visualization Tool for Spatial Data Warehouses Taylor and Francis, 2001 S. Shekhar, W.W.C.L. V. Kumar, C.K.R.N. (ed.) Data Mining for Scientic and Engineering Applications Whats Spatial about Spatial Data Mining: Three Case Studies Kluwer Academic Pub, 2001 S. Shekhar, S. Chawla, S. Ravada, A. Fetterer, X. Liu and C.T. Liu, Spatial Databases: Accomplishments and Research Needs , IEEE Transactions on Knowledge and Data Engineering, Jan.-Feb. 1999. . S. Shekhar, C.T. Lu, S. Chawla, S. Ravada, Efcient Join Index Based Join Processing; A Clustering Approach, IEEE Transactions on Knowledge and Data Engineering, 15(1), 2003. Ester, K.H. & Xu, M. Knowledge Discovery in Large Spatial Databases: Focusing Techniques for Efcient Class Identication In Proc. Fourth International Symposium on Large Spatial Database, 1995 Han, J.; Koperski, K. & Stefanovic, N. GeoMiner: a system prototype for spatial data mining SIGMOD 97: Proceedings of the 1997 ACM SIGMOD international conference on Management of data, ACM Press, 1997, 553-556 Qian, Y. & Zhang, K. GraphZip: a fast and automatic compression method for spatial data clustering SAC 04: Proceedings of the 2004 ACM symposium on Applied computing, ACM Press, 2004, 571-575 Han, J.; Chiang, J.Y.; Chee, S.; Chen, J.; Chen, Q.; Cheng, S.; Gong, W.; Kamber, M.; Koperski, K.; Liu, G.; Lu, Y.; Stefanovic, N.; Winstone, L.; Xia, B.B.; Zaiane, O.R.; Zhang, S. & Zhu, H. DBMiner: a system for data mining in relational databases and data warehouses CASCON 97: Proceedings of the 1997 conference of the Centre for Advanced Studies on Collaborative research, IBM Press, 1997, 8 Norbert Beckmann, Hans-Peter Kriegel, Ralf Schneider, Bernhard Seeger: The R*-Tree: An Efcient and Robust Access Method for Points and Rectangles. SIGMOD Conference 1990: 322-331 Zhang, X.; Mamoulis, N.; Cheung, D.W. & Shou, Y. Fast mining of spatial collocations KDD 04: Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining, ACM Press, 2004, 384-39 Guttman, A. R-trees: a dynamic index structure for spatial searching Morgan Kaufmann Publishers Inc., 1988, 599-609 Arge, L.; de Berg, M.; Haverkort, H.J. & Yi, K. The Priority R-tree: a practically efcient and worst-case optimal R-tree SIGMOD 04: Proceedings of the 2004 ACM SIGMOD international conference on Management of data, ACM Press, 2004, 347-358 Norbert Beckmann, Hans-Peter Kriegel, Ralf Schneider, Bernhard Seeger: The R*-Tree: An Efcient and Robust Access Method for Points and Rectangles. SIGMOD Conference 1990: 322-331 Xiaowei Xu, H.K. A Fast Parallel Clustering Algorithm for Large Spatial Databases Data Mining and Knowledge Discovery, 1999. Ester, K.H.S.J. & Xu, X. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise In Proc. Second International Conference on Knowledge Discovery and Data Mining, AAAI Press, 1996. Brinkhoff, T.; Kriegel, H. & Seeger, B. Efcient processing of spatial joins using R-trees SIGMOD 93: Proceedings of the 1993 ACM SIGMOD international conference on Management of data, ACM Press, 1993, 237-246 F. P. Preparata and M. I. Shamos. Computational geometry: an introduction. Springer-Verlag New York, Inc., 1985. Yoo, J.S.; Shekhar, S.; Smith, J. & Kumquat, J.P. A partial join approach for mining co-location patterns GIS 04: Proceedings of the 12th annual ACM international workshop on Geographic information systems, ACM Press, 2004, 241-24 Martin Ester, Alexander Frommelt, Hans-Peter Kriegel, Jrg Sander: Algorithms for Characterization and Trend Detection in Spatial Databases. KDD 1998: 44-50 Martin Ester, Alexander Frommelt, Hans-Peter Kriegel, Jrg Sander: Spatial Data Mining: Database Primitives, Algorithms and Efcient DBMS Support. Data Min. Knowl. Discov. 4(2/3): 193-216 (2000).

[2]

[3] [4]

[5]

[6]

[7]

DBSCAN pero con mayor independencia. Tambin la aplicacin de tcnicas genricas para la paralelizacin de algoritmos de clustering son un campo por explorar, campo en el cual PDBSCAN realiza un aporte a tener en cuenta. En el rea de la colocalizacin varios de los algoritmos son propensos a mejoras. El algoritmo fast co-locations, permite entradas duplicadas dentro de las tablas interX e intraX, de tal manera que el algoritmo presentado puede mejorarse de tal manera que el nmero de joins realizados sea reducido. Esta mejora permitir que el algoritmo sea robusto en presencia de cualquier conjunto de datos, por ejemplo escalara en problemas donde existieran un gran nmero de relaciones cortantes.

[8]

[9]

[10]

[11]

[12]

[13]

VI. C ONCLUSIONES La minera de datos espacial plantea una nueva problemtica, ya que la minera de datos tradicional no se comporta de manera eciente sobre conjuntos de datos de tipo geogrco. La minera de datos tradicional al contrario de la espacial, primeramente asume que todos los objetos a ser agrupados pueden residir en memoria principal, adems considera que los datos tienen una distribucin independiente, hecho que viola la primera ley de la geografa. En los ltimos aos la minera de datos espacial, ha sido tema de gran inters debido a la problemtica que plantea, tanto por el aumento en el nmero de organizaciones que utilizan este tipo de informacin para la toma de decisiones, como el aumento considerable del tamao de estas bases de datos. Existen algoritmos de tipo clustering que utilizan mtodos de indexacin inherentes a los tipo de datos espaciales, como son los ndices R*. De otro lado tenemos la colocalizacin, que nos permite encontrar patrones de existencia de tipo booleano. En los ltimos aos se ha presentado un nmero considerable de estudios relacionados con la co-localizacin, hecho que nos permite pensar en que las perspectivas de investigacin actuales pueden estar dirigidas hacia dicha rea.

[14] [15]

[16]

[17] [18]

[19]

[20] [21]

[22]

[23]

MINERA DE DATOS ESPACIAL

10

[24] Bill, Fritsch: Fundamentals of Geographical Information Systems: Hardware, Software and Data (in German), Wichmann Publishing, Heidelberg, Germany, 1991. [25] Egenhofer M. J.: Reasoning about Binary Topological Relations, Proc. 2nd Int. Symp. on Large Spatial Databases, Zurich, Switzerland, 1991, pp. 143-160. [26] Tobler, W. R.: A computer model simulation of urban growth in the Detroit region. Economic Geography, 46(2): 234-240. 1970. [27] Qian, Y. & Zhang, K. GraphZip: a fast and automatic compression method for spatial data clustering SAC 04: Proceedings of the 2004 ACM symposium on Applied computing, ACM Press, 2004, 571-575 [28] Shashi Shekhar, J.D.C.Z.M.V.U. Vector Map Compression: A Clustering Approach ACMGIS 2002, 2002 [29] D. Salomon. Data Compression: the Complete Reference. SpringerVerlag, 2nd edition, 2000. [30] Ng, R. & Han, S.C. Efcient and effective clustering methods for spatial data mining In Proc. Twentieth International Conference on Very Large Data Bases, 1994

Você também pode gostar