Minerao de Dados Meteorolgicos Empregando Dados de
Temperatura: o caso de uma cidade gacha
Morgana Magnus Wagner, Vinicius Gadis Ribeiro Faculdade de Informtica Centro Universitrio Ritter dos Reis (UniRitter) 90840-440 Porto Alegre RS Brasil morgana.wagner@gmail.com,vinicius@uniritter.edu.br Abstract. In this paper implements to the meteorological data mining town of So Martinho da Serra / RS, in order to analyze the variables, trying to find a pattern or change in the last ten years. Were used data on temperature and solar radiation, obtained by the Data Collection Platform (DCP) of the Instituto Nacional de Pesquisas Espaciais (INPE). The methods used in data mining proved to be viable, since it is possible to suggest meteorologically consistent standards, encouraging further research. Resumo. Neste trabalho implementa-se a minerao de dados meteorolgicos da cidade de So Martinho da Serra/RS, com o intuito de analisar as variveis, buscando encontrar um padro ou mudana nos ltimos dez anos. Foram empregados dados de temperatura e radiao solar, obtidos pela Plataforma de Coleta de Dados (PCD) do Instituto Nacional de Pesquisas Espaciais (INPE). Os mtodos utilizados na minerao de dados mostraram- se viveis, j que possvel sugerir padres meteorologicamente coerentes, encorajando a novas pesquisas. 1. Introduo A monitorao ou previso de eventos climticos so, sem dvida, essenciais para diversas atividades humanas. Certas reas de conhecimento, como por exemplo, na agricultura, ou em outros ramos de atividades como na indstria ou no transporte, h a necessidade de se ter previses confiveis para seus planejamentos. Na agricultura a previso climtica importante, por exemplo, para avaliar a aptido de um cultivo, a necessidade de irrigao e a melhor poca de semeadura. Mas analisar dados meteorolgicos gerados por estaes automticas no uma atividade to simples que conseguimos realizar sem o uso de ferramentas especficas. Com o uso de tcnicas computacionais, conseguimos analisar as correlaes, variaes, modelos e gerar relatrios dos dados obtidos. A minerao de dados uma dessas tcnicas, que auxilia o descobrimento de conhecimento em grandes bases de dados. O objetivo deste trabalho verificar a possibilidade de utilizao de tcnicas de minerao de dados para identificar padres, tendncias ou correlaes nos dados meteorolgicos. Como prova de conceito, foram obtidos dados de uma pequena localidade do estado do Rio Grande do Sul. No foi escolhida uma grande cidade, pela possibilidade de ocorrncia do fenmeno de microclimas. Os dados meteorolgicos incluem dados de temperatura e radiao solar dos ltimos dez anos da cidade de So Martinho da Serra. Os dados foram disponibilizados pelo INPE/CPTEC atravs do Sistema Nacional de Dados Ambientais (SINDA).
A estrutura do presente trabalho se encontra da seguinte forma: a seo 2 apresenta um breve referencial terico. Na seo 3 encontra-se algumas ferramentas que podem ser aplicadas na minerao de dados. Na seo 4 detalha-se o estudo de caso realizado. Finalizando o artigo, apresentam-se as consideraes finais e as referncias bibliogrficas. 2. Referencial Terico Os constantes avanos na rea da Tecnologia da Informao tm viabilizado o armazenamento de grandes e mltiplas bases de dados. A anlise destes dados pelo homem invivel sem o auxlio de ferramentas computacionais apropriadas. Portanto, torna-se imprescindvel o desenvolvimento de ferramentas que auxiliem o ser humano, de forma automtica e inteligente, na tarefa de analisar, interpretar, e relacionar estes dados para que se possa desenvolver e selecionar estratgias de ao em cada contexto de aplicao (Goldschmidt e Passos, 2005). Para atender este novo contexto, surge uma nova rea denominada Descoberta de Conhecimento em Bases de Dados (Knowledge Discovery in Databases - KDD), que vem despertando grande interesse junto s comunidades cientfica e industrial (Boente, 2006). O processo de minerao de dados pode ser considerado como uma parte do KDD (Knowledge Discovery in Databases Descoberta de Conhecimento em Banco de Dados), que foi definido por Fayyad como sendo o processo no trivial de identificao de padres vlidos, novos, potencialmente teis e compreensveis, embutidos nos dados (Fayyad 1996). Ele composto por vrias etapas interligadas, que vo desde a definio de domnio, seleo, preparao e transformao dos dados at a etapa de Minerao de Dados, onde se pode analisar os padres descobertos e utilizar tcnicas usadas em Estatstica e Banco de Dados para extrao do conhecimento. A Figura 1 apresenta - de modo genrico - o processo de Descoberta de Conhecimento em Banco de Dados (KDD) atravs de suas etapas interligadas.
Figura 1 - Etapas do Processo de Descoberta de Conhecimento. Fonte Fayyad (1996)
A primeira etapa do processo a definio e compreenso do domnio, aps a definio, necessrio selecionar/criar os dados que sero trabalhados. Na transformao, trabalha-se com os dados que contm representaes ou informaes inadequadas para o algoritmo a ser usado, excesso de atributos (redundantes ou desnecessrios), atributos insuficientes, excesso de instncias que podem afetar o tempo de processamento, instncias insuficientes, instncias incompletas (sem valores para alguns atributos). Esta etapa do Processo de Descoberta de Conhecimento (KDD) relevante para se conseguir fazer a minerao de dados - pois, como exemplo, alguns algoritmos de associaes s trabalham com valores simblicos/discretos. Depois dos dados limpos, pr-processados, reduzidos - com o intuito de minimizar rudos - e transformados de acordo com a proposta, aplica-se a tcnica de Minerao de Dados a ser utilizada. Com o resultado em mos, j pode-se analisar, interpretar ou avaliar o conhecimento descoberto, podendo tambm repetir alguma etapa, se necessrio. 2.1 Minerao de Dados Para Hand, Mannila and Smyth (2001) A Minerao de Dados a anlise dos conjuntos de dados observacionais, para encontrar relaes insuspeitas e para resumir os dados de maneira compreensveis e teis para o proprietrio dos mesmos. Neste contexto, a Minerao de dados - ou Data Mining -, um processo de extrao de informaes de uma grande base de dados para tomada de decises e aplicada em diversas reas como empresas, pesquisas e indstrias que utilizam os resultados, como exemplo, para melhoria de processos ou analisar tendncias. Ele automatiza o processo de transformao e anlise dos dados para descrever caractersticas do passado ou predizer tendncias do futuro. A Minerao de Dados tem ligao com outras tcnicas e cincias, usando muitos conceitos e tcnicas de estatstica, visualizao, reconhecimento de padres, processamento de alto desempenho, aprendizado por mquina, inteligncia artificial, etc. Para extrair o conhecimento, pode-se utilizar diversos mtodos como: Classificao, Modelos de Relacionamento entre Variveis, Anlise de Agrupamento, Sumarizao, Modelo de Dependncia, Regras de Associao e Anlise de Sries Temporais, conforme definido por Fayyad (1996). Os mtodos de Data Mining estudados e escolhidos neste trabalho para implementao foram: 2.1.1 Classificao O mtodo de Classificao faz o aprendizado de uma funo a ser usada para mapear dados em uma de vrias classes discretas definidas previamente. Segundo Mattar (1998), a anlise discriminante permite que dois ou mais grupos possam ser comparados, com o objetivo de determinar se diferem uns dos outros e, tambem, a natureza da diferena, de forma que, com base em um conjunto de variveis
independentes, seja possvel classificar indivduos ou objetos em duas ou mais categorias mutuamente exclusivas. Dentre os mtodos de Classificao pode-se citar a Mnima Distncia Euclidiana, Vizinhos Mais Prximos, Redes Neurais e rvores de deciso, mtodo utilizado no proposto trabalho. As rvores de Deciso tem a estrutura de uma rvore, que faz representaes simples do conhecimento e tem a funo de particionar recursivamente um conjunto de treinamento, at que cada subconjunto contenha casos de uma nica classe. Segundo Quinlan (1993), os resultados obtidos, aps a construo de uma rvore de deciso, so dados organizados de maneira compacta, com a rvore podendo ser utilizada para classificar novos casos. Ela contm nodos que representam os atributos, arcos que correspondem ao valor de um atributo e nodos folha que designam uma classificao. A rvore pode ser lida a partir do teste encontrado na parte superior da mesma, normalmente chamado n raiz da rvore. Aplicada ao trabalho proposto, a rvore de deciso gerar regras que podem ser teis na consulta do comportamento das variveis, tais como, verificar a comparao da temperatura real com a amplitude trmica. Como exemplo de algoritmos que implementam a rvore de deciso temos o ID3, C4.5 e C5.0. No algoritmo C4.5 desenvolvido pelo Prof. Ross Quinlan (Quinlan, 2001), que permite trabalhar com valores contnuos, indisponveis, podar rvores de deciso e derivar regras, gerado um classificador, que capaz de agir como um especialista olhando para um conjunto de casos desconhecidos, verificando como eles so classificados e a partir da fazendo uma predio para novos casos. O algoritmo tambm possui um sitema de avaliao, pelo qual o usurio pode construir um classificador e estudar a sua performance para novos casos. 2.1.2 Sumarizao As funes de Sumarizao so utilizadas na anlise exploratria dos dados com a gerao de relatrios, sendo responsveis pela descrio compacta do que caracteriza um conjunto de dados (ex. conjunto de regras que descreve o comportamento e relao entre os valores dos dados de meteorologia). As medidas de posio e variabilidade so exemplos simples de sumarizao. As funes mais sosticadas envolvem tcnicas de visualizao e a determinao de relaes funcionais entre variveis. A sumarizao utilizada, tambm, no pr- processamento dos dados, quando valores invlidos so determinados por meio de clculos de medidas estatsticas como mnimo, mximo, mdia, moda, mediana e desvio padro amostral, no caso de variveis quantitativas, e, no caso de variveis categricas, por meio da distribuio de freqncia dos valores. No trabalho a tcnica foi utilizada por exemplo, para agrupar os dados de temperatura e radiao solar por estaes ou separados por ano para verificar suas estatsticas.
3 Estado da Arte Nesta seo so apresentadas algumas ferramentas de minerao de dados, estudadas para o projeto em questo. Foram descritas as ferramentas ROSETTA, Tanagra e WEKA.
3.1 ROSETTA ROSETTA (Rough Set Toolkit for Analisys of Data) um conjunto de ferramentas para anlise de dados no mbito da teoria dos conjuntos aproximativos. Foi desenvolvido pelo Knowledge Discover Group da NTNU (Norwegian University of Science and Technology), na Noruega e o Logic Group da Universidade de Varsvia, Polnia. O sistema ROSETTA capaz de suportar todo o ciclo da descoberta de conhecimento apresentado na seo 2. Pode-se separar o sistema ROSETTA em duas partes distintas: kernel e frontend. O kernel a biblioteca de classes desenvolvida em C++ para minerao de dados. O front-end a interface grfica do usurio (Graphical User Interface GUI). O kernel pode ser utilizado de dois modos: junto com a GUI ou atravs de linhas de comandos. O sistema ROSETTA importa dados tabulares diretamente de uma grande variedade de fontes, por exemplo, planilhas do Microsoft Excel, arquivos de texto e bancos de dados de sistemas como Oracle ou MSAccess.
3.2 Tanagra O Tanagra um software livre de minerao de dados desenvolvido em Delphi por pesquisadores da Universidade de Lyon. utilizado para fins acadmicos e de pesquisa. Como um open source (cdigo aberto), os usurios podem acessar seus cdigos e adicionar seus prprios algoritmos. Este projeto o sucessor do SIPINA que implementa vrios algoritmos de aprendizado supervisionado, especialmente uma construo interativa e visual de rvores de deciso. O Tanagra prope diversos mtodos de minerao de dados, anlise exploratria e classificao estatstica. Conta com processos de classificao supervisionada e no- supervisionada, tais como clusterizao, anlise fatorial, estatsticas parametrizadas e no parametrizadas e regras de associao. Este um sistema integrado para anlises estatsticas e de Minerao de Dados (RAKOTOMALALA, 2005).
3.3 WEKA O WEKA (Waikato Environment for Knowledge Analysis) um ambiente que utiliza uma coleo de algoritmos de aprendizado de mquina e algumas tarefas de minerao
de dados como: classificao, agrupamento e regras associativas e, apresenta uma interface amigvel para o usurio. Foi desenvolvido em Java, pelo Departamento de Cincia da Computao da Universidade de Waikato, na Nova Zelndia em 1999, constituindo-se como um opensource. Devido portabilidade da linguagem Java, o Weka pode ser executado em diversas plataformas. Por ser tambm uma linguagem orientada a objetos, Java proporcionou ao software vantagens como modularidade, polimorfismo, encapsulamento, reutilizao de cdigo entre outras. WEKA composto por dois pacotes que podem ser embutidos em outros programas Java, permitindo que o desenvolvedor possa criar seu prprio ambiente de minerao de dados. O primeiro pacote possui interfaces para a manipulao interativa de algoritmos de minerao de dados e o segundo possui classes Java responsveis pelo encapsulamento desses algoritmos.
3.4 Escolha da Ferramenta Para a atividade de Minerao de Dados, foi escolhido o software Tanagra, por dispor de uma coleo de algoritmos para diversas tarefas de minerao de dados, pelo seu uso ser livre e gratuito e pela convenincia, j que o software j foi utilizado em outras atividades acadmicas. Como os dados foram gerados em uma planilha do Microsoft Excel, o software serviu de apoio para algumas etapas da minerao de dados.
4 Descrio do Processo de Minerao de Dados Aplicado ao Problema 4.1 Identificao do Problema O volume de informaes meteorolgicas no permite que sua anlise seja feita pelos mtodos tradicionais (planilhas, grficos, etc), j que com esses mtodos podemos gerar relatrios, mas no a extrao do conhecimento. Dessa forma, as tcnicas de minerao de dados sero aplicadas nas variveis da cidade de So Martinho da Serra no Rio Grande do Sul que so: radiao solar e temperatura. 4.2 Pr-Processamento Os dados foram coletados pelo Sistema Nacional de Dados Ambientais (SINDA), que alimentado pelas Plataformas de Coleta de Dados (PCDs). Foram selecionados os dados de radiao solar acumulada, temperatura do ar, temperatura mxima e temperatura mnima, juntamente com a data do fenmeno, do ms de janeiro de 2000 a dezembro de 2011. Para extrao dos dados, as opes possveis de formato eram: xls, xml e csv.
Os registros a qual algum campo no tivesse valor foram filtrados e apagados da planilha, no comprometendo o resultado final, j que para cada dia do ano temos um registro a cada 3 horas e os dados faltantes no somaram mais de 10% do total. Como h integrao entre as ferramentas Tanagra e Excel, os dados foram extrados em formato xls, sendo as tabelas j separadas por tabulaes, o que permitiu ser importada pelo Tanagra sem alterao nenhuma na estrutura da planilha. A Figura 2 mostra um exemplo da estrutura da planilha como extrada.
Figura 2: Dados exportados para Excel 4.3 Transformao Nesta fase de preparao dos dados alguns campos sero codificados ou transformados de forma a tornar vivel ou facilitar a extrao de padres. A seguir, esto listadas as aes efetuadas para transformao dos dados. A representao de data e hora do registro que estava na forma DD/MM/AAAA e HH:MM:SS foi convertido para data, no formato MM/AA, com o objetivo de facilitar o processo de minerao de dados, diminuindo a quantidade de variveis. Como os dados foram extrados em planilhas separadas por ms do ano, foram agrupados os dados referentes a cada ms em uma planilha separada por estaes. Na figura 3 tem-se um exemplo de como foram importados os dados.
Figura 3 Dados Formatados Essa transformao nos dados foi feita para aplicao da rvore de deciso sobre as variveis. Para aplicao das regras de sumarizao, foram feitas as seguintes transformaes: Todos os campos relativos os dados nmericos eram do tipo discreto na base original. Como as tcnicas de minerao de dados aplicadas ao trabalho, trabalham com variveis do tipo contnuo, para gerao das regras, todos os campos foram convertidos de discreto para contnuo, apenas substituindo os pontos por vrgulas. A transformao do campo data e hora foi realizado da mesma forma que para a rvore de deciso. O arquivo de dados est separado por ano.
4.4 Tcnicas de Minerao Escolhidas A partir do estudo das tcnicas de minerao de dados, as que mais se adaptam s informaes que se pretende obter do banco foram s tcnicas de rvore de deciso e sumarizao. Para minerao de dados utilizando a tcnica de rvores de deciso com o algoritmo C4.5, foi criado uma rvore utilizando parmetros de temperatura, temperatura mnima e temperatura mxima, para analisar se a previso de amplitude trmica corresponde temperatura registrada no dia, e verificar se a temperatura registrada segue algum padro de aproximao da amplitude. A figura 4 mostra o exemplo da rvore de deciso criada com dados da estao vero de 2005.
Figura 4 rvore de Deciso Depois de extrada a rvore de deciso, os dados mais relevantes apontados pela rvore topo -, foram passados para uma planilha Microsoft Excel, onde foi gerado um grfico comparando a amplitude trmica com a temperatura real para melhor visualizao. Nas figuras 5, 6 e 7, visualiza-se os grficos das estaes de vero, para avaliar os resultados e comparar as evolues.
Figura 5 Dados do vero de 2000
Pode-se observar na Figura 5 que a temperatura real tende a se aproximar com a temperatura mnima nos dados da estao vero de 2000. 0 10 20 30 40 1 3 5 7 9 11 13 15 17 19 21 23 25 T e m p e r a t u r a
Srie Vero - 2000 Mxima Mnima Temp
Figura 6 Dados do vero 2005
Nos dados referentes ao vero de 2005, verifica-se que a temperatura real continua tendo prximidade com os dados de temperatura mnima, alm da temperatura mxima, no demonstrar muita varincia.
Figura 7 Dados do vero 2010
Os dados referentes ao vero de 2010 mantiveram o mesmo comportamento, temperatura real tendendo a temperatura mnima. Mas pode-se observar que a temperatua mxima teve maior varincia. 0 10 20 30 40 1 3 5 7 9 11 13 15 17 19 21 23 25 T e m p e r a t u r a
Srie Vero - 2005 Mxma Mnima Temp 0 10 20 30 40 1 3 5 7 9 11 13 15 17 19 21 23 25 T e m p e r a t u r a
Srie Vero - 2010 Mxima Mnimo Temp
Com as regras de sumarizao, utilizando o algoritmo Statistics Group Characterization -, pode-se verificar tambm, algumas tendncias pela Figura 8.
Figura 8 - Group Characterization
O algoritmo Group Characterization permite comparar diversos subgrupos, comparando as estatsticas descritivas sobre os dados. Caracterizando o subconjunto de dados de alguns meses aleatrios referente ao ano de 2001, e comparando com dados tambm aleatrios de alguns meses do ano de 2011 na Figura 9, obtem-se o seguinte resultado:
Figura 9 - Group Characterization A coluna Test Value (Valor de Teste) mostra a resistncia da diferena. Quanto maior o valor absoluto desse indicador, maior a diferena entre a mdia calculada no subgrupo e a mdia calculada sobre o conjunto de dados inteiro. Dessa forma, percebemos que o ms de abril, por exemplo, teve uma varincia muito maior de temperatura dentro do ano de 2001 do que em 2011, confirmado tambm pela rvore de Deciso. Com o algoritmo Univariate Continuous Stat, conseguimos verificar as estatsticas bsicas de mdia de todo perodo do ano de 2001 e 2011, nas Figuras 10 e 11.
Figura 10 - Univariate Continuous Stat 2001
Analisando a varivel temperatura, temos uma mdia de 18,5 com o desvio padro de 5,4.
Figura 11 - Univariate Continuous Stat 2011 J na figura 11 temos uma mdia de 17,88 com desvio padro de 6,0. Uma mdia de temperatura ainda mais baixa que a de 2001. A partir dos resultados obtidos pode-se sugerir, que no tivemos uma diferena considervel de temperatura nos ltimos dez anos na cidade analisada, assim como a variao da radiao solar no foi consideravelmente alta.
5. Consideraes Finais Atravs da Minerao de Dados, conseguiu-se encontrar padres sobre um conjunto de dados meteorolgicos. A anlise e comparao desses dados pode contribuir de forma interessante ao conhecimento que se tem sobre os eventos climticos, bem como mostrar a capacidade das tcnicas de minerao de dados quando aplicados fins meteorolgicos. Analisando-se os resultados gerados pelos algoritmos, verifica-se que o algoritmo C4.5 encontrou padres sobre a temperatura real em comparao com a amplitude estimada, no conhecidos. Pois a mdia de previso da temperatura de acordo com a variao da amplitude sempre tender a temperatura mnima. Pelas regras de Sumarizao constatou-se que a temperatura apresentou uma maior variao h 10 anos do que apresenta agora, mas que a mdia no subiu nos ltimos anos, incluindo a radiao solar. Acredita-se que os objetivos propostos para o presente trabalho foram alcanados, tendo-se em vista que todas as etapas previstas foram realizadas: estudo do banco de dados, estudo da ferramenta utilizada, estudo e definio das tcnicas de minerao a serem adotados, pr-processamento dos dados, aplicao das tcnicas de minerao atravs da ferramenta Tanagra, concluso sobre os dados minerados.
O processo proposto pode ser sintetizado da seguinte forma: Selecionar os dados a serem minerados; Verificar quais mtodos de minerao de dados sero utilizados; De acordo com as especificaes do mtodo, e dados aceitos, tranforma- los para aplicao das tcnicas; Realizar a aplicao das tcnicas de minerao de dados escolhido; Realizar a extrao do conhecimento. Algumas dificuldades foram encontradas, principalmente no que diz respeito documentao da ferramenta Tanagra. Devido s dificuldades de se trabalhar com os mtodos da ferramenta por falta de documentao, foi dedicado muito tempo s para a escolha do tipo de minerao a ser realizado, j que os testes foram feitos com a maioria dos algoritmos disponveis na ferramenta, at se encontrar um resultado satisfatrio. A metodologia proposta da minerao de dados possibilitou encontrar de forma automtica e quantitativa alguns padres de conhecimento geral sobre climatologia na cidade estudada e buscou encontrar padres que possam ser teis para a meteorologia e reas ans. Como a anlise foi realizada sobre uma pequena cidade, tem-se como objetivo futuro o estudo em uma cidade maior, levando em considerao o efeito de microclimas.
References Boente, A. N. P (2006) Descoberta de Conhecimento em Bases de Dados, Tese de Doutorado - Departamento de Informtica, AWU - Iowa (USA). Fayyad, U.M and Piatetsky-Shapiro, G and Smyth, P (1996) Knowledge Discovery and Data Mining: Towards a Unifying Framework, In: Second International Conference on Knowledge Discovery and Data Mining, Portland, Oregon. Goldschmidt, R., Passos, E. (2005), Data Mining: Um Guia Prtico. Elsevier, Rio de Janeiro. Gujarati, D. N. (2000), Econometria Bsica, Makron Books, So Paulo. Hand, D., Mannila, H. and Smyth, P. (2001), Principles of Data Mining, The MIT Press, Cambridge, Massachusetts. Hodge, V.J. (2004), A Survey of Outlier Detection Methodologies, Kluwer Academic Publishers, Rotterdan Holanda. Mattar, F.N. (1998), Pesquisa de Marketing, Atlas, So Paulo. Murray, R.S. (1993), Estatstica, Makron Books, So Paulo. Pereira, J.C.R. (1999), Anlise de Dados Qualitativos, Edusp/Fapesp, So Paulo. Quinlan, J.C. (1993), C4.5: Programs for Machine Learning, San Mateo: Morgan Kaufmann.
RAKOTOMALALA, R. (2005), "TANAGRA: a free software for research and academic purposes", in Proceedings of EGC'2005, RNTI-E-3, vol. 2, pp.697-702, Frana. Tubelis, A. N, F. J. L. (1992), Meteorologia descritiva: fundamentos e aplicaes brasileiras. Nobel, So Paulo.