Você está na página 1de 12

Data Warehouse de Trajetrias: um Modelo com Suporte Agregao por Direo dos Movimentos

Carlos Augusto de S. Almeida, Carlos Eduardo Pires, Ulrich Schiel Departamento de Sistemas e Computao Universidade Federal de Campina Grande (UFCG) Caixa Postal 10.106 58.429-900 Campina Grande PB Brasil
{carlos, cesp, ulrich}@dsc.ufcg.edu.br

Abstract. This work proposes a conceptual model for Trajectory Data Warehouses that allows analyzing the behavior of moving objects under and between regions in space and time, according to different levels of granularity, through the use of aggregations. The model enables the segmentation of trajectories into components such as stops and movements. These components can transport semantic information that assign meaning to parts of the trajectory. To reduce the amount of data, the trajectories are stored compactly, summarizing their stops and movements. Experiments were performed to evaluate the level of compaction obtained in the data. Resumo. Este trabalho prope um modelo conceitual para Data Warehouse de Trajetrias que permite analisar o comportamento dos objetos mveis sobre e entre regies no espao e no tempo, de acordo com diferentes nveis de granularidade, atravs do uso de agregaes. O modelo permite a segmentao de trajetrias em componentes, tais como paradas e movimentos. Estes componentes podem transportar informaes semnticas que do significado a partes da trajetria. Para amenizar o problema da grande quantidade de dados, as trajetrias so armazenadas de forma compactada, sumarizando-se suas paradas e movimentos. Experimentos foram realizados para avaliar o nvel de compactao obtido para esses dados.

1. Introduo
A popularizao dos dispositivos mveis cientes de localizao (location-aware mobile devices), tais como telefones celulares e GPS (Global Positioning System), possibilitou o monitoramento em larga escala de objetos mveis que transportam esses dispositivos tais como, pessoas, carros e avies. Esse monitoramento tem como resultado a gerao de grandes quantidades de dados sobre as trajetrias desses objetos [Spaccapietra et al., 2008]. A anlise desse tipo de dado permite descobrir padres de comportamento que podem ser explorados em uma grande variedade de domnios [Orlando et al., 2007]. Por exemplo, no gerenciamento de trfego urbano, a medida nmero de veculos que atravessam um cruzamento calculada por um sensor que conta os veculos que passam por ele. Essa medida poderia ser substituda por informaes detalhadas sobre as trajetrias de cada veculo, incluindo sua origem-destino, rota utilizada, velocidade em cada trecho da trajetria, paradas realizadas, entre outras informaes. De forma similar, os dados de trajetrias podem ser usados: no gerenciamento do transporte pblico, para melhorar a distribuio das linhas de nibus; no estudo das trajetrias de turistas em uma viagem, para descobrir os locais mais visitados por eles; e no estudo da migrao de pssaros, para identificar as rotas migratrias, entre outras aplicaes. A base de dados gerada a partir do monitoramento dos objetos mveis formada por um conjunto de dados brutos capturados das trajetrias. Para transformar essa massa

bruta de dados em informaes teis, uma forma adequada disponibiliz-la em um Data Warehouse (DW), um banco de dados otimizado para lidar com grandes volumes de dados de forma eficiente. Para dados convencionais, DWs tm sido usados com sucesso no decorrer das ltimas dcadas. Entretanto, a natureza dos dados de trajetria e a grande quantidade desses dados impem desafios para construo e manuteno do DW, dentre eles: (i) o monitoramento dos objetos mveis gera apenas dados brutos que, para muitas aplicaes, no so suficientes para extrair informaes teis. Portanto, antes desses dados estarem prontos para uso, eles precisam ser enriquecidos com informaes semnticas [Bogorny et al., 2009]; (ii) o suporte oferecido pelas tecnologias de DW para dados de trajetria ainda est limitado ao armazenamento e recuperao de observaes individuais da trajetria [Spaccapietra et al., 2008]. No existe suporte nativo a trajetrias, como acontece com os dados espaciais; e (iii) a grande quantidade dos dados de trajetria consome muitos recursos, tornando o tempo de processamento das consultas longo, impossibilitando anlise no estilo OLAP [Orlando et al., 2007]. proposto neste artigo um modelo semntico para Data Warehouses de Trajetrias (DWTrs) com suporte agregao por direo dos movimentos. Uma preocupao especfica neste trabalho permitir analisar a movimentao dos objetos mveis sobre e entre as regies no espao e no tempo, anlise orientada a trfego e anlise orientada a trajetrias, respectivamente. A primeira obtida agregando-se as medidas das trajetrias por espao e tempo. A anlise orientada a trajetrias proporcionada por um conjunto de dimenses direo do movimento, que permitem representar as trajetrias sobre diferentes nveis de granularidade. Outra preocupao neste trabalho, a modelagem de trajetrias semnticas [Spaccapietra et al., 2008] em DWTrs. Tal modelagem permite segmentar trajetrias em diversos componentes, tais como paradas e movimentos, que podem transportar informaes que do significado ao componente que pertencem. Para amenizar o problema da grande quantidade dos dados de trajetria, prope-se compactar trajetrias mediante a sumarizao de suas paradas e movimentos. Dessa forma, consegue-se reduzir drasticamente o tamanho dos fatos, como comprovado atravs de diversos experimentos realizados. As demais sees deste artigo esto organizadas como segue. Na Seo 2 so apresentados os trabalhos relacionados. Na Seo 3 descrito o cenrio de aplicao usado durante os exemplos deste trabalho. Na Seo 4 apresentada a forma adotada para representao de trajetrias. Na Seo 5 so descritos o modelo proposto, os procedimentos necessrios para realizar a carga de dados usando o modelo, e como proporcionar agregao por direo dos movimentos da trajetria. Na Seo 6 so discutidos os experimentos realizados para comprovar a reduo no tamanho dos fatos, parada e movimento. Finalmente, na Seo 7, so apresentadas as concluses e trabalhos futuros.

2. Trabalhos Relacionados
Pesquisas sobre trajetrias de objetos mveis so relativamente recentes. Dentre as questes em aberto que vm despertando grande interesse das comunidades de pesquisa, pode-se mencionar: a modelagem multidimensional para dados de trajetria e a definio e implementao de operadores TrOLAP (Trajectory OLAP, em portugus OLAP para Trajetrias). Os trabalhos de Orlando et al., (2007), Marketos et al. (2008) e Baltzer et al. (2008) foram pioneiros nesse sentido. Orlando et al., (2007) investigam como armazenar e agregar dados de trajetria usando as tecnologias de DW tradicionais. Para acomodar as trajetrias, o espao geogrfico dividido em um conjunto de clulas espao-temporais. Cada clula armazena, de forma sumarizada, os dados de todas as trajetrias que por ela passam. Marketos et al. (2008) descrevem os procedimentos ETL (Extraction, Transformation, and Load) [Kimball et al., 2002] necessrios para povoar um

DWTr baseado no modelo de Orlando et al., (2007). A partir de um conjunto de dados brutos sobre a localizao espao-temporal dos objetos mveis, os autores investigam como extrair as trajetrias dessa base (processo de reconstruo de trajetrias), transformar e carregar os dados. Baltzer et al. (2008) propem um novo operador OLAP para agregao de trajetrias similares, o qual permite identificar objetos mveis que se deslocaram em paralelo. Os trabalhos envolvendo trajetrias podem ser organizados segundo a classificao oferecida por Andrienko e Andrienko (2008). Segundo os autores, trajetrias podem ser analisadas sob dois pontos de vista: viso orientada a trfego e viso orientada a trajetrias, ou, como so chamadas neste trabalho, anlise orientada a trfego e anlise orientada a trajetrias. Na anlise orientada a trfego o objetivo analisar situaes de trfego, ou seja, analisar o comportamento dos objetos mveis em uma dada regio em diferentes intervalos de tempo. Ela adotada por Marketos et al. (2008) e Orlando et al. (2007) em seus trabalhos. Na anlise orientada a trajetrias o objetivo analisar o deslocamento dos objetos mveis entre as regies em termos de origem-destino do movimento. Os trabalhos de Baltzer et al. (2008), Gomez et al. (2008), Kuijpers e Vaisman (2007), e Spaccapietra et al. (2008) consideram esse tipo de anlise. Dependendo do modelo adotado, os dois tipos de anlise esto disponveis. Por simplificao, usamos o termo anlise de trajetrias, para expressar ambos os tipos de anlise. Data Warehouses Espaciais [Bdard et al., 2001] so empregados por Kuijpers e Vaisman (2007), e Gomez et al. (2008) para analisar trajetrias. Segundo seus autores, o uso de medidas e dimenses espaciais aumenta o poder de expressividade do modelo, alm de simplificar a construo e processamento de algumas consultas. O trabalho de Gomez et al. (2008) utiliza a mesma arquitetura usada por Kuijpers e Vaisman (2007), mas seu modelo distingue paradas de movimentos em trajetrias. Alm disso, propem compactar trajetrias, armazenando apenas as paradas realizadas em cada uma delas, e seus movimentos na forma de transio entre paradas (p.ex. do Banco B1 para o Teatro T1). Conseguem assim, reduzir drasticamente a quantidade de dados armazenada. Em geral, os trabalhos na literatura permitem apenas anlise orientada a trfego, e alguns destes conseguem resolver bem o problema da grande quantidade dos dados de trajetria, como Marketos et al. (2008) e Orlando et al. (2007). Entretanto, poucos trabalhos proporcionam anlise orientada a trajetrias, sendo que estes no permitem analisar a direo dos movimentos no estilo OLAP, tais como Baltzer et al. (2008), Gomez et al. (2008), Kuijpers e Vaisman (2007), e Spaccapietra et al. (2008). Dos trabalhos analisados, apenas Gomez, et al. (2007) e Spaccapietra et al. (2008) distingue paradas de movimentos em trajetrias, o que fundamental para a anlise correta de trajetrias. A incluso de dados sobre paradas na anlise de movimentos pode provocar forte discrepncia entre os dados analisados e os reais, e vice-versa. Por exemplo, ao se incluir dados sobre paradas no clculo da velocidade mdia de uma regio, tem-se uma forte impresso de que a velocidade na regio analisada est baixa, devido a influencia dos dados sobre paradas (cuja velocidade igual a zero) durante as computaes.

3. Cenrio de Aplicao
Esta seo apresenta um cenrio de aplicao usando DW de Trajetrias denominado gerenciamento de trfego urbano. Para essa aplicao exemplo, suponha que uma determinada organizao governamental esteja disposta a melhorar o trfego das cidades que administra. Para isso, essa organizao precisa monitorar os indivduos de uma parcela representativa da populao de cada cidade analisada, os quais recebem benefcios do governo para participarem do projeto. Cada indivduo monitorado atravs de seu telefone celular equipado com um GPS, o qual captura sua localizao espao-temporal

a cada 20 segundos. Esses dados so armazenados e posteriormente transmitidos a um servidor. Para ajudar no enriquecimento semntico das trajetrias, cada indivduo da populao oferece informaes detalhadas sobre seu comportamento tais como: (i) informaes pessoais: sexo, idade, estado civil, profisso, endereo residencial e comercial; (ii) locais mais frequentados e quando isso ocorre: local de trabalho, casa, bares, escola das crianas; (iii) rotas comumente usadas para ir de um lugar ao outro; e (iv) meio de transporte utilizado. Alm disso, so mantidas, informaes sobre as cidades analisadas e dados espaciais como: ruas (representadas atravs de polilinhas), bairros (polgonos) e regies de interesse (ou RoIs, polgonos representando lugares como hotis, restaurantes e escolas). Associados a essas regies podem existir eventos como shows, congestionamentos, alagamentos, acidentes, entre outros. Para atender parte dos requisitos necessrios para o gerenciamento de trfego urbano, o modelo proposto dever oferecer as seguintes informaes sobre o trfego de pessoas circulando em uma cidade: (r1) o comportamento dos indivduos nas regies, em termos do nmero de indivduos, velocidade, locais de parada, entre outras medidas; (r2) a impedncia de uma regio, ou seja, a obstruo do movimento; (r3) o comportamento dos indivduos entre as regies, similar a r1; (r4) as rotas mais usadas pela populao para ir de um lugar ao outro; (r5) os plos gerados de trfego; e (r6) a proporo de veculos que deixam uma avenida em suas diferentes sadas [Andrienko et al., 2007; DENATRAN/FGV, 2001]. Os requisitos r1 a r2 e r3 a r6 so atendidos pela anlise orientada a trfego e anlise orientada a trajetrias, respectivamente.

4. Representao de Trajetrias
Para representar trajetrias, buscou-se um modelo que permitisse distinguir paradas de movimentos em trajetrias, assim como outros componentes. Para isso, o modelo de trajetrias de Spaccapietra et al. (2008) foi estendido com algumas modificaes em sua face semntica, como discutido a seguir. De acordo com esse modelo, uma trajetria formada por duas faces: face geomtrica e face semntica. Por questes de simplificao, a face geomtrica da trajetria representada por uma sequencia finita de observaes na forma [((x1, y1), t1), ((x2, y2), t2), ..., ((xn, yn), tn)], onde, para cada observao ((xi, yi), ti), o par (xi, yi) representa a localizao espacial, e ti o tempo, com xi, yi e ti R, e ti < ti+1. Para reconstruir os movimentos da trajetria entre duas observaes consecutivas, usada a funo de interpolao linear local (Pelekis et al., 2008), a qual considera que um objeto mvel se desloca em linha reta a uma velocidade constante entre duas observaes. A face semntica divide a face geomtrica em vrios componentes, os quais podem transportar informaes semnticas definidas pelo usurio, que do significado parte da trajetria a qual pertence. Para este trabalho, adotaram-se os seguintes componentes semnticos: incio da trajetria, fim da trajetria, parada e movimento. Diferente de Spaccapietra et al. (2008), considera-se que uma trajetria delimitada pelo intervalo de tempo [tfim-traj-f1, tfim-traj-f2], onde tfim-traj-f1 e tfim-traj-f2 representam o instante de tempo do fim da parada f1 e f2, respectivamente, como mostrado na Figura 1. Sendo que as paradas f1 e f2 ocorrem em regies de interesse (RoIs). Por simplicidade, considera-se que as trajetrias capturadas so precisas e que a localizao espao-temporal dos objetos mveis feita por GPSs, em intervalos de tempo pequenos e regulares (por exemplo, a cada 20 segundos). Os objetos mveis so representados na forma de um simples ponto, que se desloca no espao e no tempo.

Figura 1. Caminho espao-temporal de um objeto mvel.

5. Modelo Proposto
O modelo proposto uma extenso de um DW Espacial [Bdard et al., 2001]. Para representao de trajetrias, o espao geogrfico discretizado por uma grade regular formada por um conjunto de clulas espaciais, e o tempo discretizado em intervalos de tempo regulares. Em geral, intervalos com durao de algumas dezenas de minutos. Para atingir os objetivos propostos, o modelo adotado incorpora as seguintes dimenses, como ilustrado na Figura 2. Objeto Mvel: (ObjMovDim) dimenses demogrfica e tecnogrfica. A face demogrfica mantm dados sobre os objetos mveis. Por exemplo, no caso de indivduos, nome, sexo, idade, profisso e estado civil. A face tecnogrfica mantm dados sobre o dispositivo de localizao usado, tais como a preciso do GPS usado. Trajetria: (TrajDim) dimenso descrita, contm as informaes sobre a trajetria como um todo. Basicamente possui as informaes: (i) espaciais: origem e destino da trajetria; (ii) temporais: incio e fim da trajetria; e (iii) descrita: objetivo da trajetria (por exemplo, indo do trabalho para casa). Clula: (CelulaDim) dimenso espacial, armazena as clulas espaciais da grade regular. Em geral, possui a hierarquia clula < bairro < cidade. Tempo: (TempoDim) dimenso temporal, definida em intervalos de tempo. Mantm os eventos que ocorreram para cada intervalo de tempo como, por exemplo, shows, partidas de futebol, acidentes de trnsito, entre outros. Regio de Interesse: (RoIDim) dimenso espacial, armazena os dados sobre as regies de interesse (RoIs) tais como nome, categoria (hotel, shopping, universidade, entre outros) e dados espaciais (polgono que representa o RoI). Em geral, possui a hierarquia roi < clula < bairro < cidade. Direo do Movimento: representada pelas dimenses: (i) DirMovDim: (direo do movimento entre regies), mantm a direo do movimento entre as regies no tempo, atravs do par origem-destino do movimento (por exemplo, do bairro1 para o bairro3); e (ii) DirMovAdjDim: (direo do movimento entre regies adjacentes) similar a DirMovDim.

Figura 2. Modelo Proposto ilustrado por um diagrama UML.

A anlise orientada a trfego proporcionada pelas dimenses CelulaDim e TempoDim, e a anlise orientada a trajetrias proporcionada pelo conjunto de dimenses direo do movimento: DirMovDim, DirMovAdjDim e RoIDim. Na Seo 6.3 descrito o funcionamento da agregao por direo dos movimentos. Para analisar trajetrias de forma correta, necessrio oferecer uma distino clara entre paradas e movimentos. Sendo assim, no modelo proposto, so adotados dois fatos: (i) fato parada (ParadaFato) armazena os dados referentes s paradas na forma sumarizada por parada. Em geral, representado pelas medidas tempo de parada e local de parada (um dado espacial, representado por um simples ponto); e (ii) fato movimento (MovimentoFato) armazena os dados referentes aos movimentos na forma sumarizada por clula espao-temporal. Representado pelas medidas velocidade mdia, espao percorrido, tempo decorrido, entre outras. 5.1. Carga de Dados Nesta seo so descritos os passos necessrios para transformar a sequencia de observaes capturadas da trajetria de forma a se adequarem ao modelo proposto. Este trabalho pressupe que os componentes da trajetria, tais como paradas e movimentos, j foram previamente identificados e as anotaes semnticas includas. Os passos so os seguintes: Passo 1 Sumarizao das observaes referentes s paradas: as observaes referentes a cada parada da trajetria so sumarizadas e armazenadas na forma de um nico registro no fato parada. Sendo assim, na Figura 3(a) as observaes no intervalo (00h53, 01h33) referentes parada p1 so sumarizadas e armazenadas como um nico registro, como mostrado Figura 3(b). Para facilitar a compre-

enso dos exemplos, o identificador das observaes da trajetria coincide com o momento de captura da observao. Passo 2 Identificar e descartar movimentos dentro de RoIs: a anlise dos movimentos da trajetria est interessada nos dados sobre a movimentao dos objetos na clula (ou seja, nas ruas), mas no dentro de regies de interesse (RoIs). Para distinguir os movimentos que ocorreram dentro e fora dessas regies, novas observaes so acrescentadas trajetria, nos pontos de interseco dela com as bordas espaciais dos RoIs. Por exemplo, na Figura 3(a) acrescentada a observao 00h14 ao intervalo (00h13, 00h33) para dividi-lo em (00h13, 00h14) e (00h14, 00h33), movimentos dentro e fora do RoI H1, respectivamente. Passos 3 Diviso dos movimentos por intervalo de tempo e por clula espacial: para que os movimentos em um dado intervalo se encaixem perfeitamente dentro dos limites de cada clula, novas observaes so acrescentadas trajetria nesse intervalo, nos pontos que intersectam as bordas espaciais e temporais das clulas. Isso necessrio para uma correta anlise dos dados de trajetria. Por exemplo, na Figura 3(a) os movimentos no intervalo (00h13, 00h33) ultrapassam os limites espaciais das clulas c23 e c22. Para que os movimentos se encaixem dentro dessas clulas, acrescenta-se a observao 00h18 ao intervalo (00h13, 00h33) para distribuir seus movimentos entre (00h13, 00h18) e (00h18, 00h33), os quais respeitam os limites de c23 e c22, respectivamente. Esse um exemplo da diviso por clula espacial. A diviso por intervalo de tempo similar. Por exemplo, os movimentos no intervalo (01h53, 02h13) ultrapassam a barreira temporal, sendo assim, acrescentada a observao 02h00 a esse intervalo. Considerando clulas espao-temporais com durao de uma hora. mostrada na Figura 3(c) a diviso dos movimentos da trajetria H1::C1. Passo 4 Sumarizao dos movimentos por clula espao-temporal: aps a diviso dos movimentos por clula espao-temporal (passos 3 e 4), os movimentos dentro de cada clula so sumarizados e armazenados na forma de um nico registro no fato movimento. Na Figura 3(d) so ilustrados os movimentos da trajetria H1::C1, divididos e sumarizados por clula espao-temporal. Para possibilitar mltiplas representaes para trajetrias isto , roll-up para trajetrias aps a execuo dos passos apresentados nos pargrafos acima, necessrio extrair e armazenar as direes do movimento, como descrito na seo a seguir. 5.2. Agregao por Direo dos Movimentos Um dos desafios dos DWTrs proporcionar mltiplas representaes para trajetrias (Pelekis et al., 2008), ou seja, proporcionar a representao de trajetrias e movimentos sobre diferentes perspectivas e nveis de granularidade. Por exemplo, para uma mesma trajetria, pode-se desejar visualizar o deslocamento do objeto mvel entre bairros, ou entre RoIs, ou de hora em hora, entre outras representaes. Para resolver esse problema, a soluo proposta consiste em obter mltiplas representaes atravs de agregaes das clulas espao-temporais da trajetria (seu elemento mais bsico), proporcionada pelo conjunto de dimenses direo do movimento. Por exemplo, na Figura 3(a), exibida a trajetria H1::C1, armazenada no fato movimento atravs da sequencia de clulas espao-temporais [c23:00h, c22:00h, c21:00h, c21:01h, c11:01h, c11:02h]. Os movimentos entre regies adjacentes de H1::C1 podem ser representados por bairro e por RoI, atravs das sequencias de movimentos [(bairro1, bairro3), (bairro3, bairro4), (bairro4, bairro2)] e [(H1, R1), (R1, C1)], res-

pectivamente, como mostrado na Figura 4(a). Para obter essas representaes atravs do uso de agregaes, cada clula de H1::C1 deve estar ligada (indicado por ) a um registro direo do movimento, como segue: (ligao por bairro) [c23:00h (bairro1, bairro3)], [c22:00h, e c21:00h (bairro3, bairro4)], [c21:01h, c11:01h, e c11:02h (bairro3, bairro4)]; e (ligao por RoI) [c23:00h, c22:00h, e c21:00h (H1, R1)], [c21:00h, c11:01h, c11:02h (R1, C1)]. Sendo assim, para representar os movimentos de H1::C1 por bairro, basta selecionar a trajetria e colocar como critrios de agregao: o bairroorigem e o bairro-destino.

Figura 3. Carga de dados para a trajetria H1::C1: (a) representao de H1::C1 sobre o mapa; (b) observaes capturadas de H1::C1 divididas entre paradas e movimentos; (c) diviso completa dos movimentos de H1::C1 por clula espao-temporal em (2), e sua respectiva sumarizao em (3).

Da forma apresentada, para cada representao desejada, necessrio manter uma dimenso direo do movimento, e uma chave estrangeira para relacionar o fato as dimenses, o que pode aumentar significativamente o volume do fato. Para reduzir o nmero de dimenses necessrias, uma forma adequada unir essas dimenses [Kimball et al., 2002]. Dessa forma, as clulas de H1::C1 passam a ser ligadas aos registros: [c23:00h [(bairro1, bairro3), (H1, R1)]], [c22:00h, e c21:00h [(bairro3, bairro4), (H1, R1)]], e [c21:01h, c11:01h, e c11:02h [(bairro4, bairro2), (R1, C1)]], como mostrado na Figura 4(b). O inconveniente dessa soluo, que a unio de dimenses pode gerar uma dimenso muito grande, como ser discutido na Seo 6.2.

Figura 4. Representao por direo do movimento entre regies adjacentes, para a trajetria H1::C1, em: (a) por bairro e por RoI. (c) Clulas de H1::C1 e sua ligao com a dimenso DirMovAdjDim.

6. Experimentos
Para avaliar o nvel de compactao proporcionado pelo modelo proposto para dados de trajetria, diversos testes de carga de dados foram realizados sobre uma mesma base de trajetrias, mas usando diferentes configuraes para cada carga executada. A configurao da base de dados descrita na Seo 6.1, e o tamanho dos fatos e dimenses nas Sees 6.2 e 6.3, respectivamente. 6.1. Base de Dados de Trajetrias Para realizar as consultas e os experimentos almejados, o DWTr foi povoado com uma base de dados de trajetrias gerada a partir de um sintetizador de trajetrias semnticas desenvolvido. Para dar um carter mais realstico base de dados, o prottipo desenvolvido permite criar problemas de trfego a partir de um conjunto de configuraes prestabelecidas definidas pelo usurio. Atravs dessas configuraes possvel definir: quando e onde devem ocorrer congestionamentos; os locais com trfego intenso; as regies com maior ou menor velocidade; os locais de parada; o tempo de parada; os locais mais visitados pelos objetos mveis; entre outras caractersticas. Para dar um carter ainda mais realista a base gerada, a rota de cada trajetria isto , a sequencia de coordenadas espaciais que vo da origem ao destino da trajetria obtida do Google Maps. De posse desses dados, o prottipo simula o deslocamento do objeto mvel. Para gerar a base de dados sinttica, simulou-se o comportamento de um conjunto de 2.000 objetos mveis, que se movimentaram na cidade de Aracaju/Sergipe, durante os meses de janeiro a junho de 2009. So aproximadamente 6.400 RoIs, e 1,8 milho de trajetrias, uma mdia de 1.000 trajetrias por objeto mvel. No mundo real, isso equivale a cerca de 1 bilho de observaes, sendo 82 milhes referentes a movimentos e 931 milhes a paradas. Considerando observaes capturadas a cada 20 segundos, e objetos mveis realizando em mdia 4 paradas de 2 horas por dia. Para tornar a leitura dos dados mais rpida e reduzir o espao ocupado em disco, as observaes referentes a paradas j so armazenadas na forma sumarizada. Dessa forma, consegue-se armazenar todas as paradas em 4 milhes de registros. A base de dados possui aproximadamente 15 GB de arquivos de texto no formato JSON 1.
1

JSON: JavaScript Object Notation, um formato similar ao XML, porm sua especificao mais simples. descrito pela RFC 4627. O site oficial: www.json.org. Acesso em: 02 fev 2011.

6.2. Tamanho das Tabelas de Fatos: Parada e Movimento Para avaliar o nvel de compactao proporcionado pelo modelo proposto para dados de trajetria em relao ao modelo clssico, duas baterias de testes foram realizadas: (i) variando apenas o tamanho das clulas, o intervalo de captura sempre o mesmo, 20 segundos; e (ii) variando apenas o intervalo de captura entre as observaes, o tamanho de cada clula foi fixado em 200 x 200 m2. Os resultados dos experimentos (i) e (ii) so exibidos nas Tabelas 1(a) e 1(b), respectivamente. Do experimento (i) possvel concluir que: (a) a sumarizao das paradas a maior responsvel pela compactao das trajetrias, sua proporo de compactao (quantidade de dados compactada dividido pela quantidade de dados original) foi de 0,5%; e (b) para movimentos, como esperado, quanto maior o tamanho das clulas, maior a taxa de compactao, pois mais movimentos so sumarizados em uma mesma tupla. Analisando os resultados do experimento (ii), possvel perceber a grande quantidade de dados armazenada usando o modelo clssico, at mesmo para intervalos de captura longos (acima de 1 minuto), onde as trajetrias capturadas so imprecisas. Para facilitar a comparao dos modelos clssico e proposto, nesse experimento, a soluo proposta no usa a interpolao linear local para reconstruir os movimentos das trajetrias. Ao invs disso, supe-se um mtodo capaz de recuperar sempre os mesmos movimentos da trajetria, independente do intervalo de captura usado. Dessa maneira, a forma espacial da trajetria reconstruda sempre a mesma. Embora, nos experimentos (i) para clulas menores que 200 x 200 m2, e (ii) para intervalos de captura maiores que 20 segundos, a compactao dos movimentos gera mais dados que o nmero de observaes. Isso ocorre porque o intervalo de captura usado grande demais para o tamanho da clula, consequentemente, durante a carga de dados, novas observaes so acrescentadas trajetria para que seus movimentos se encaixem dentro dos limites das clulas, como discutido na Seo 5.2 (passo 3). 6.3. Tamanho das Dimenses Direo do Movimento Para reduzir o nmero de dimenses direo do movimento e, consequentemente, o nmero de chaves estrangeiras no fato, a soluo encontrada consiste em unir algumas dessas dimenses em uma s. Entretanto, essa soluo possui um inconveniente: essas unies podem gerar uma dimenso grande, o que pode levar a perda de desempenho. Para avaliar o tamanho dessas dimenses, vrios experimentos foram realizados, envolvendo: (i) a unio das dimenses direo do movimento entre regies adjacentes; e (ii) a unio das dimenses direo do movimento no tempo. Considerando clulas de tamanho 200x200 m2, e a hierarquia de agregao 1x1 < 3x3 < 5x5 < 9x9 < 15x15, onde cada nvel da hierarquia permite agregar um dado conjunto de clulas vizinhas. Por exemplo, cada agregao no nvel 2 (3x3) agrega 9 clulas vizinhas da base do cubo (nvel 1), gerando uma grade regular cujas clulas possuem 600x600 m2 (isto , 3 200x200 m2). Os resultados dos experimentos (i) e (ii) so mostrados nas Tabelas 2(a) e 2(b), respectivamente. No foram encontrados problemas relacionados unio das dimenses no experimento (i), o nmero de registros gerados ficou abaixo de 1 milho de tuplas, o que recomendado para uma dimenso [Kimball et al., 2002], mesmo quando se deseja analisar a movimentao entre pequenas regies (por exemplo, regies com 200x200 m2). Entretanto, no experimento (ii), a unio de duas ou mais dimenses ultrapassou o nme-

ro de tuplas recomendado. Portanto, para analisar a direo do movimento entre regies menores que 1x1 km2, no recomendada a unio de dimenses.
Nmero de observaes referentes a movimentos 82 milhes, paradas 935 milhes, total 1 bilho. Tamanho da Clula Fato Movimento Nm. de Tuplas%) Proporo (em Nm. de Tuplas Fato Parada Proporo (em %) Paradas + Mov - Proporo (em %) Intervalo de Captura Proposto: Mov/Paradas/Total Proporo (em %)
em milhes

50x50 m2 100x100 m2 200x200 m2 300x300 m2 1x1 km2 2x2 km2 3x3 km2 262 132 66 44 14 7 5 318 160 80 54 17 9 7 4 0,5 26,4 13,5 7 4,9 1,8 1,2 1

em milhes

(a)
10 seg. 20 seg. 1 min. 27 / 311 / 339 66 / 4 / 71 40,1 / 0,2 / 3,5 80,2 / 0,5 / 7 240,7 / 1,4 / 20,9 481,3 / 2,9 / 41,8 722 / 4,3 / 62,7 2 min. 13 / 155 / 169 3 min. 9 / 103 / 113 Clssico: Mov/Paradas/Total 165 / 1.871 / 2.037 82 / 935 / 1.018

(b) Tabela 1. Tamanho dos fatos, parada e movimento, usando o modelo proposto. Resultados dos experimentos: (a) variando apenas o tamanho das clulas da grade. (b) variando apenas o intervalo de captura entre observaes.
20, e 40 min. 200x200 m2 :: Nveis 1..5 200x200 m2 :: Nveis 1..5 + Bairro 1x1 km2 :: Nveis 1..5 1x1 km2 :: Nveis 1..5 + Bairro Bairro Tamanho das Clulas 200x200 m2 1x1 km2 20, 40, e 60 min. 2.588.365 210.237 Clulas Nm. de Reg. 635.636 28.170 35.346 1.324 20 min. 535.730 8.570 485.900

1.697.040 137.840

(a) (b) Tabela 2. Tamanho das dimenses sobre diferentes configuraes. (a) Dimenses Direo do Movimento entre Regies Adjacentes (DirMovAdjDim). (b) Dimenses Direo do Movimento entre Regies (DirMovDim) no tempo.

7. Concluses
Neste trabalho, proposto um modelo para DW de Trajetrias (DWTr) que permite analisar o comportamento dos objetos mveis sobre e entre as regies no espao e tempo, o que proporcionado pelo uso de clulas espao-temporais e dimenses direo do movimento como critrios de agregao. Para amenizar o problema da grande quantidade dos dados de trajetria, prope-se compactar trajetrias atravs da sumarizao de suas paradas e movimentos. Com isso, conseguiu-se reduzir drasticamente o tamanho do fato parada e, de forma significativa, o tamanho do fato movimento, como mostrado atravs dos experimentos realizados. Para analisar o deslocamento dos objetos mveis entre as regies, mantido um conjunto de dimenses, que armazenam todas as direes do movimento (em termos de origem-destino) possveis, para o conjunto de trajetrias armazenado. Como mostrado atravs dos experimentos, a soluo mostrou-se eficaz para a dimenso direo do movimento entre regies adjacentes (DirMovAdjDim), o tamanho da dimenso permaneceu abaixo do valor mximo recomendado (1 milho de tuplas), mesmo quando se analisa o deslocamento entre clulas pequenas (algumas dezenas de metros). Entretanto, o mesmo no aconteceu para a dimenso direo do movimento entre regies no tempo (DirMovDim), a soluo foi eficaz apenas para clulas grandes (acima de 1x1 km2), quando se analisa o deslocamento entre clulas pequenas, o tamanho da dimenso ultrapassou o valor mximo recomendado. Para esses casos, recomendado cautela para a unio entre dimenses. Como sugestes de trabalhos futuros, destacamos o desenvolvimento de: (i) operadores TrOLAP para agrupamento de trajetrias similares [Baltzer et al., 2008]; (ii)

mtodos para reconstruo de trajetrias [Marketos et al., 2008] e deteco de paradas [Bogorny et al., 2009], visto que o monitoramento dos objetos mveis gera apenas dados brutos, onde o incio e fim das trajetrias ainda no so conhecidos, e no existe distino entre paradas e movimentos, o que fundamental para anlise correta de trajetrias; (iii) mtodos para enriquecer trajetrias com informaes semnticas de forma automtica; e (iv) mtodos mais robustos para reconstruo dos movimentos da trajetria pois, embora a interpolao linear local seja um mtodo simples e eficiente, no leva em considerao os dados sobre a infra-estrutura de rede sobre a qual os objetos mveis se movem (por exemplo, o mapa de ruas). Essas informaes poderiam ser usadas para aproximar ainda mais as trajetrias reconstrudas das trajetrias reais.

Referncias
Andrienko, G. e Andrienko, N. (2008). Spatio-Temporal Aggregation for Visual Analysis of Movements. Visual Analytics Science and Technology, 2008. VAST08. IEEE Symposium on, pg. 5158. Andrienko, G., Andrienko, N., e Wrobel, S. (2007). Visual analytics tools for analysis of movement data. SIGKDD Explor. Newsl., 9(2):3846. Baltzer, O., Dehne, F., Hambrusch, S., e Rau-Chaplin, A. (2008). OLAP for trajectories. In Database and Expert Systems Applications, volume 5181 of Lecture Notes in Computer Science, pg. 340347. Springer Berlin / Heidelberg. Bdard, Y., Merrett, T., e Han, J. (2001). Geographic Data Mining and Knowledge Discovery, Captulo: Fundamentals of spatial data warehousing for geographic knowledge discovery, pg. 5373. CRC Press. Bogorny, V., Kuijpers, B., e Alvares, L. O. (2009). ST-DMQL: A semantic trajectory data mining query language. International Journal of Geographical Information Science, 23(10):12451276. Departamento Nacional de Trnsito (DENATRAN) / Fundao Getlio Vargas (FGV) (2001). Manual de Procedimentos para o Tratamento de Plos Geradores de Trfego. Braslia DF. Disponvel em: http://www.denatran.gov.br/publicacoes/download/PolosGeradores.pdf. Acesso em: 02 fev 2011. Gomez, L. I., Kuijpers, B., e Vaisman, A. A. (2008). Aggregation languages for moving object and places of interest. In SAC08: Proceedings of the 2008 ACM symposium on Applied computing, pg. 857862, New York, NY, USA. ACM.; Springer. Kimball, R., Ross, M., e Merz, R. (2002). The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling. Wiley Computer Publishing, 2a edio. Kuijpers, B. e Vaisman, A. A. (2007). A data model for moving objects supporting aggregation. In ICDE Workshops, pg. 546554. Orlando, S., Orsini, R., Rafaeta, A., and Silvestri, A. R. C. (2007). Trajectory data warehouses: Design and implementation issues. Journal of Computing Science and Engineering (JCSE), 1(2):211232. Pelekis, N., Raffaeta, A., Damiani, M. L., Vangenot, C., Marketos, G., Frentzos, E., Ntoutsi, I., e Theodoridis, Y. (2008). Towards trajectory data warehouses. In Mobility, Data Mining and Privacy: Geographic Knowledge Discovery, Captulo 7, pg. 189211. Springer Publishing Company, Incorporated. Spaccapietra, S., Parent, C., Damiani, M. L., de Macedo, J. A., Porto, F., e Vangenot, C. (2008). A conceptual view on trajectories. Data & Knowledge Engineering, 65(1):126146.

Você também pode gostar