Você está na página 1de 18

Mineração de Dados Espaciais

BANCO DE DADOS GEOGRÁFICOS

MARCONI DE ARRUDA PEREIRA


Roteiro
2

•  Introdução

•  Mineração de Dados

•  Estado da Arte

•  Artigo apresentado

•  Conclusão

July 1, 09
KDD e Mineração de Dados
3

  Descoberta de Conhecimento em Bases de Dados – KDD


  “o processo de extração não-trivial de conhecimento prévio implícito
e demais informações potencialmente úteis, tais como regras de
conhecimento, restrições, padrões a partir dos dados de uma base de
dados” (PIATETSKY-SHAPIRO; FRAWLEY, 1991)

  Aplicada em Sistemas:
  Comerciais: Conhecimento de cliente, identificação de seguimento de
mercado
  Industriais: Avaliação de Equipamentos, Detecção de Fraudes
  Educacionais: Identificação de perfis de Alunos
  Geográficos: Identificação de melhores locais para instalação de
equipamentos de transmissão e distribuição de energia

July 1, 09
Etapas do KDD
4

July 1, 09
Mineração de Dados Geográficos
5

  Dados Geográficos apresentam particularidades:


  A posição geográfica é um atributo importante
  Podem sofrer alterações com o passar do tempo;
  A vizinhança participa ativamente das alterações ocorridas com os
dados;
  Possuem informações textuais e gráficas (geometria);
  Informações iguais muitas vezes são encontradas em escalas
diferentes;
  Possuem diferentes formas de representação, algumas padronizadas
(OPENGIS, 2009) outras não.

  A comunidade científica ainda não explora


profundamente essas particularidades em tarefas de
Mineração de Dados
  A grande maioria dos trabalhos preocupa-se com a visualização dos
dados
July 1, 09
Estado da Arte
6

  Poucos trabalhos realizam Mineração de Dados


explorando satisfatoriamente os aspectos
Geográficos
  (HAN et al, 1997): GeoMiner – Primeiro sistema que lida com
extração e avaliação de Regras de Associação Geográficas
  Trabalha com OLAP, GMQL

  (ESTER et al, 2000): Grafo de Vizinhança, com caminhos e


primitivas de manipulação
  Clusterização, Regras de Associação (80% das cidades estão perto
de rios), Classificação, Detecção de tendência Geográfica (aumento
de aluguel por bairro)

July 1, 09
Estado da Arte
7

  (WU; LU, 2002): Utilização de informações geográficas para


determinação de alocação de equipamentos de Transmissão e
Distribuição de energia
  Utiliza
informações geográficas (distâncias, densidades), mas não
explora as informações georeferenciadas

  (LOUREIRO et al, 2005): Mecanismo automático para busca


de parâmetros de classificação utilizando AG
  Identifica
quais parâmetros utilizar em ferramentas da biblioteca
Weka: Árvore de Decisão J48, Redes Bayesianas, Redes Neurais e
K-nn

July 1, 09
Estado da Arte
8

  (SILVA et al, 2006): Framework web de manipulação de


informações geográficas multidimensionais para a tomada de
decisão - GOLAPA
  Data warehouse, OLAP, Visualização

  (BOGORNY, et al, 2006): Weka-GDPM – Extensão da API


Weka para manipulação de dados geográficos
  Interoperabilidade de dados através de padrões OGC, implementa
algumas operações espaciais (interseção, distância, cruzamento
dentre outras)
  Não especializa as ferramentas para exploração dos dados
geográficos

July 1, 09
“Weka-GDPM – Integrating Classical Data Mining
Toolkit to Geographic Information Systems”
9

  Atributos espaciais possuem três tipos de relações (Bogorny, 2006


aput Güting, 1994):
  distância: Baseadas na distância euclidiana
  direção: baseadas na ordem em que as características espaciais são alocadas no
espaço
  topológica: baseadas no tipo de interseção entre as características espaciais:
  Equal, Disjoint, Touches, Within, Overlaps, Crosses, Contains, Covers, CoveredBy

  O artigo foca em relações topológicas e de distância


7/1/09
Processamento
10

  São escolhidas todas as instâncias t (e.g. Belo Horizonte)


de uma entidade alvo T (e.g. Cidades)

  São escolhidas todas instâncias o (e.g. Rio das Velhas) de


um conjunto S de entidades relevantes O (e.g. Rio,
Rodovia, Ferrovia) que possuem algum relacionamento
espacial com T.

  Os relacionamentos espaciais entre todas as instâncias de


T com cada todas as entidades S.

  Duas granularidades são consideradas nesse trabalho:


instâncias (e.g. BH) e entidades (e.g. Cidade)

7/1/09
Relacionamentos Topológicos
11

  Relacionamentos topológicos são mutuamente


exclusivos no nível de instâncias
  entre duas instâncias de um entidades só existe uma relação
topológica
  Exemplo de relacionamentos computados tendo
como alvo a entidade cidade.

7/1/09
Relacionamentos Topológicos
12

  Relacionamentos no nível de entidades são


computadas baseadas nos relacionamentos de cada
instância
  Se houver relacionamento entre as instâncias, eles são
explicitados. Caso contrário usa-se o “?”

7/1/09
Relacionamentos de Distância
13

  Relacionamentos de distância são computados de acordo com


parâmetros fornecidos pelo usuário (distancia_1 e
distancia_2)
  Distancia <= distancia_1 : Muito Próximo
  distancia_1 <= Distancia < distancia_2 : Próximo
  “Longe” não é considerado, pois pode ser considerado como não
próximo.

7/1/09
Weka-GDPM
14

  Foi implementada uma extensão no software weka para implementar a extração de


padrões espaciais
  A entidade alvo e as demais entidades são escolhidas

7/1/09
Weka-GDPM
15

  A extensão implementada gera uma estrutura


tabular entendida pelo weka
  mapeia os relacionamentos geográficos em descrições textuais
  gera um arquivo .arff

  Aplica algoritmos clássicos de Mineração de Dados


para extrair conhecimento

7/1/09
16

7/1/09
Bibliografia
17

  Bogorny, V.; Palma, A. T.; Engel, P.M.; Alvares, L.O.; “Weka-GDPM –


Integrating Classical Data Mining Toolkit to Geographic Information
Systems” In: SBBD Workshop on Data Mining Algorithms and
Aplications(WAAMD'06), Florianopolis, Brasil, Out. 16-20, (2006). pp.9-16.

  Ester, M.; Kriegel, A. F. H. P.; Sander, J. “Spatial Data Mining: Database


Primitives, Algorithms and Efficient DBMS Support” Data Mining and
Knowledge Discovery, Vol. 4, N. 3-4, p.193–216, 2000. <http://
www.springerlink.com/content/n5687066m7388n78/fulltext.pdf>. Acessado em 17
Fev. 2009.

  Güting, R.H.; “An introduction to spatial database systems” , The VLDB


Journal, Vol. 3, N. 4, p. 357-399, Oct, 1994, <http://dx.doi.org/10.1007/
BF01231602>

  Han, J.; Koperski, K.; Stefanovic, N.; “GeoMiner: A System Prototype for
Spatial Data Mining” in: SIGMOD Special Interest Group on Management Of
Data, Arizona, EUA, 1997. pp. 553-556.

July 1, 09
Bibliografia
18

  Loureiro, S.M.; Margoto, L.R.; Varejão, F.M.; Queiroga, R.M.; “Um mecanismo
automático para busca de parâmetros de técnicas de classificação
utilizando algoritmos genéticos ” in: V ENIA - Encontro Nacional de
Inteligência Artificial, São Leopoldo/RS, Brasil, 22 a 29 de Julho, 2005. pp. 712-721

  OpenGIS. www.ogc.org acessado em Janeiro de 2009.

  Piatetsky-Shapiro, G.; Frawley, W. J.; “Knowledge Discovery in Databases.”


AAAI/MIT Press, 1991.

  Silva, J.; Times, V. C.; Salgado, A. C. “An Open Source and Web Based
Framework for Geographic and Multidimensional Processing”
Proceedings of the 2006 ACM symposium on Applied computing, p63 – 67, 2006.

  Wu, H. C.; Lu, C. N.; “A Data Mining Approach for Spatial Modeling in
Small Area Load Forecast”, IEEE Transactions on Power Systems, Vol. 17. No.
2, p. 516-521, Mai, 2002. <http://ieeexplore.ieee.org/search/wrapper.jsp?
arnumber=1007927>. Acessado em 17 Fev. 2009

July 1, 09