Um Estudo Comparativo entre rvores de Deciso e Redes Neurais
Artificiais para Classificao de Dados de Sensores
Evaristo Wychoski Benfatti, Fernando Nunes Bonifacio, Clodis Boscarioli Universidade Estadual do Oeste do Paran Campus de Cascavel CEP 85819-110, Cascavel, Paran, Brasil {evaristowb, fernando.nunes.info}@gmail.com, boscarioli@unioeste.br Resumo A diversidade de tipos de sensores disponveis permitiu o desenvolvimento de aplicaes envolvendo seu uso nas mais diversas reas, aumentando assim a gerao de dados brutos coletados a partir de sensores. Embora haja a massiva produo de bases de dados, a extrao de conhecimento no uma tarefa trivial, seja pela grande quantidade de dados, de natureza distribuda, ou pela alta dimensionalidade presente nessas bases de dados. Este artigo traz, a partir de um estudo de caso, uma anlise comparativa entre rvores de Deciso e Rede Neural Artificial na tarefa de classificao de dados de sensores. Palavras-chave: rvores de Deciso, Redes Neurais Artificiais, Classificao de Dados. 1. Introduo Aplicaes envolvendo sensores esto cada vez mais presentes nas mais diversas reas de conhecimento, como medicina, indstria e robtica. Esse amplo uso se deve, principalmente, pela quantidade de tipos de sensores disponveis no mercado, e pela quantidade de dados produzidos e carentes de anlise. Extrair conhecimento til a partir de dados brutos advindos destes sensores no uma tarefa fcil, pois ferramentas convencionais de anlise de dados podem no ser adequadas ao manuseio de grandes bases de dados, de natureza distribuda e de alta dimensionalidade [21]. O processo de extrair conhecimento de base de dados conhecido como Descoberta de Conhecimento em Banco de Dados (KDD - Knowledge Discovery in Databases) o qual defino por Fayyad et al. [8] como um processo no trivial, de vrias etapas, interativo e iterativo, para identificao de padres compreensveis, vlidos, novos e potencialmente teis a partir de bases de dados. Dentre as diversas etapas que compem este processo na etapa chamada Minerao de Dados (Data Mining - DM) onde ocorre a efetiva aplicao de algoritmos para extrair padres presentes nos dados que representam conhecimento til [9]. Existem diversas tarefas atribudas Minerao de Dados como Classificao, Regras de Associao, Agrupamento e Predio [9]. Dentre essas tarefas, a Classificao o foco deste estudo, a partir das tcnicas rvores de Deciso (AD) e a Rede Neural Artificial (RNA) Multilayer Perceptron (MLP), avaliadas quanto ao desempenho e acuidade para a classificao de dados de sensores. Este artigo segue assim organizado: A Seo 2 introduz as tcnicas AD e MLP em seus elementos principais; a Seo 3, apresenta a avaliao experimental realizada, descrevendo a base de dados utilizada, a metodologia de testes adotada e uma discusso dos resultados obtidos; e, por fim, a Seo 4 traz as concluses e trabalhos futuros desse estudo. 2. Fundamentao Terica Classificao necessria quando um objeto precisa ser designado a uma classe (rtulo) predeterminada a partir de seus atributos. Pode ser definida como um processo que permite a extrao de informaes a partir de um conjunto de dados brutos, por meio de sua categorizao. Pode ser utilizada com sucesso em diferentes situaes, como na rea mdica [24], [2] e [3], deteco de falhas [1], [14], reconhecimento de voz [4], bioinformtica [32], entre outros. Na prtica, a classificao um processo de duas etapas. Na primeira etapa, chamada de treinamento, um classificador construdo descrevendo um conjunto pr-determinado de dados. Esse treinamento feito de forma supervisionada, onde o algoritmo de treinamento recebe registros de entradas que possuem um valor de sada, que serve como um tutor para o algoritmo. A segunda etapa refere-se classificao propriamente dita, onde um conjunto de dados apresentado para o modelo construdo e o mesmo determina a classe de cada registro de teste baseando-se Ibersensor 2010, 9-11 November 2010, Lisbon, Portugal IB-047 no conhecimento adquirido na etapa anterior [11]. Para determinar a efetividade de um modelo de classificador, mtricas de avaliao so utilizadas. A acuidade uma das mtricas mais utilizadas, que corresponde porcentagem de registros que foram corretamente classificados pelo classificador a partir de algum conjunto de dados de teste. Nas subsees seguintes as tcnicas de classificao utilizadas nesse estudo so apresentadas. 2.1 rvores de Deciso Uma AD um classificador expresso como um particionador hierrquico do conjunto de aprendizagem [22]. Este nome devido utilizao da estratgia de resoluo dividir- para-conquistar e pela representao baseada em rvores. Os algoritmos de AD esto entre os mais maduros e exaustivamente estudados da literatura, com alta eficcia comprovada em DM [20], [25]. Neste modelo de rvore, um n que apresenta filhos chamado de n interno, definido como uma regra de segmentao, a qual representa uma quebra (teste) de uma entrada em um ou mais ramos de sada, por meio de algum atributo de teste segmentador. Os demais ns, chamados de ns folhas, representam o processo de deciso pela atribuio da classe predominante nas instncias por ele j classificadas. [22]. So capazes de classificar seguindo caminhos de condies satisfeitas do n raiz at algum n folha, que representa o valor classe para a entrada [17].
Figura 1: Exemplo de uma rvore de Deciso
Na Figura 1 pode-se visualizar um exemplo clssico de rvore de deciso para a classificao de ces, onde ns internos so representados por retngulos e ns folhas so representados por elipses. Cada n de deciso possui um atributo que ser avaliado (atributos Tamanho e Peso). Cada ramo de sada do n representa um valor que o atributo que est sendo testado pode assumir, (pequeno, mdio e grande para o atributo Tamanho e para Peso menor igual a vinte ou maior que vinte). Os ns folhas indicam os valores que cada registro pode assumir (bonito ou feio). Assim, para classificar, os testes so realizados a partir de algum n arbitrado como n raiz da rvore, seguindo ramos que satisfazem as condies, at que um n folha seja atingido, determinando a classe predita. A induo de uma rvore tima para um conjunto de dados arbitrrio uma tarefa consideravelmente difcil, que requer buscas exaustivas limitadas a conjuntos relativamente pequenos [22]. Como alternativa, mtodos heursticos so utilizados para tal construo, compostos de dois processos conhecidos como crescimento (treinamento) e poda. O crescimento consiste em cada nvel da rvore particionar o conjunto de treinamento de acordo com um atributo selecionado. A escolha deste atributo dentre todos os atributos feita sobre um critrio que maximiza as parties. O processo inicia no n raiz da rvore e pra em um n folha quando no mais possvel aplicar o critrio de particionamento. No existe um critrio global para um particionamento timo, assim, cada algoritmo implementa estratgias particulares para otimizao desse critrio. Durante a construo do modelo alguns problemas so encontrados, como super crescimento e super adaptao. O primeiro deles diz respeito ao modelo poder crescer muito, tornando lenta a classificao. O outro problema diz respeito super adaptao da estrutura ao conjunto de treinamento, onde, as AD aprendem ao ponto de reconhecerem com perfeio todos os registros de treinamento, mas sem a capacidade de generalizao para registros nunca vistos. Assim a fim de melhorar a classificao, ramos considerados muito especficos podem ser eliminados do modelo acarretando ganho de predio, processo este conhecido por poda. A poda pode ocorrer durante a construo, tambm chamada de pr- poda (pre-pruning) ou posterior construo, chamada ps-poda (post-pruning). Na pr-poda, conforme o modelo construdo o mesmo reduzido a fim de eliminar ramos que no agregam na classificao geral, estando mais suscetveis aos rudos embutidos no conjunto de treinamento. J na ps-poda todo o modelo construdo, e ao final, o mesmo podado, removendo ramos desnecessrios. H estudos que demonstram que a ps-poda apresenta melhores resultados quando comparados pr-poda, mas devido necessidade de que todo o modelo permanea na memria at que seja podado, a menos utilizada [22]. Os algoritmos de AD utilizados neste trabalho foram o C4.5 [18] e o CART [26], que apresentam como critrio central de particionamento decises estatsticas e teorias Ibersensor 2010, 9-11 November 2010, Lisbon, Portugal IB-047 da informao para avaliao dos segmentos. Para o CART, usado o ndice Gini [28], que se baseia na razo de ganho de informao do segmento, e para o C4.5, o ganho de informao a partir da entropia do conjunto de dados usado. Com relao estratgia de particionamento, ambos utilizam o conceito de ps-poda, tal que para o CART utilizada a complexidade de custo mnimo, e para o C4.5, a poda baseada em erro. 2.2 Redes Neurais MLP Redes neurais artificiais so processadores paralelamente distribudos constitudos a partir de unidades de processamento simples (neurnios artificiais), que tm propenso natural para armazenar conhecimento experimental e torn-lo disponvel para o uso. Suas configuraes assemelham-se ao crebro humano pelo fato do conhecimento ser adquirido por um processo de aprendizagem (treinamento), e pelo fato deste mesmo conhecimento estar armazenado na fora de conexo entre os neurnios, tambm chamada de pesos sinpticos [27]. A Figura 2 representa um modelo de neurnio artificial, onde w representa os pesos das conexes do neurnio k, x o valor de cada um dos m estmulos que chegam ao neurnio k; b um valor de bias que ser somado ao valor do combinador linear e f() a funo de ativao que fornece o valor da sada do neurnio k.
Figura 2: Modelo de um Neurnio Artificial
Uma RNA classificada de acordo com sua estrutura podendo ser de camada nica ou de mltiplas camadas, alimentada para frente (feedforward) ou recorrente, ou ainda, total ou parcialmente conectada. Em uma rede feedforward o sinal de cada neurnio propagado apenas para os neurnios da camada da frente, enquanto que na rede recorrente um neurnio pode propagar seu sinal para um neurnio que no seja o da camada da frente. Em uma rede totalmente conectada cada neurnio fornece sua sada a todas as unidades da camada seguinte, e em uma rede parcialmente conectada estas conexes no ocorrem integralmente [11]. Neste trabalho a RNA utilizada a rede Multilayer Perceptron (Figura 3), uma rede com mltiplas camadas, do tipo feedforward totalmente conectada. O algoritmo de treinamento mais utilizado para redes MLP o conhecido por backpropagation [19], cujo treinamento ocorre em duas fases: uma fase forward e uma fase backward. Na fase forward a entrada apresentada primeira camada da rede, a qual calcula seus sinais de sada e passa os valores para a camada seguinte, que por sua vez, calcula seus sinais de sada e os passa para a prxima camada, e assim por diante, at a camada de sada calcular as sadas da rede, que so comparadas s sadas desejadas. J a fase backward percorre o caminho inverso, a partir da camada de sada at a de entrada os pesos dos neurnios vo sendo ajustados de forma a diminuir seus erros (os erros dos neurnios das camadas intermedirias so calculados utilizando o erro dos neurnios da camada seguinte ponderado pelo peso da conexo entre eles). Este processo repetido at atingir algum critrio de parada.
Figura 3: Estrutura da Rede MLP
Em termos matemticos, cada neurnio da rede calcula o seu nvel de ativao v j de acordo com a Equao 1, onde m o tamanho do vetor de entrada, b o bias do neurnio e x i
a entrada do peso w ij .
(Equao 1)
Esse valor utilizado em dois momentos, primeiro para calcular a sada y j da rede de acordo com a Equao 2, onde F a funo de ativao do neurnio, e depois, para calcular o sinal de erro de cada peso w dos neurnios, conforme Equao 3 para um neurnio de sada e de acordo com a Equao 4 para um neurnio de camada oculta, onde d i a sada desejada e F a derivada da funo de ativao.
(Equao 2)
(Equao 3)
Ibersensor 2010, 9-11 November 2010, Lisbon, Portugal IB-047 (Equao 4)
Depois de calculado o sinal de erro, cada neurnio tem seu valor atualizado de acordo com as Equaes 5 e 6, onde a taxa de aprendizado e o termo momentum.
(Equao 5)
(Equao 6)
A taxa de aprendizagem determina a velocidade com que so feitas as mudanas no valor dos pesos e o termo momentum utilizado para aumentar a velocidade de treinamento e reduzir o risco de instabilidade da rede. 3. Anlise Experimental O experimento de comparao baseou-se na anlise da base de dados da UCI Machine Learning Repository [16] intitulada Wall- Following Robt Navigation Data DataSet, a qual representa as aes tomadas pelo rob SCITOS G5 na tarefa de navegao, seguindo a abordagem wall-following sem colidir em nenhum obstculo. Os dados foram coletados quando o rob navegava em uma sala seguindo a parede em direo horria, por 4 voltas, usando 24 sensores de ultra-snicos arranjados circularmente na "cintura" do equipamento. Baseado nestas medidas o rob tinha que decidir qual o seu prximo movimento: Move- Forward (Mover para frente), Slight-Right-Turn (Virar levemente para a direita), Sharp-Right- Turn (Virar fortemente para a direita), Slight- Left-Turn (Virar levemente para a esquerda). Os dados fornecidos foram obtidos a uma freqncia de 9 amostras por segundo e incluem trs conjuntos diferentes: - O primeiro conjunto de dados contm os valores medidos para todos os 24 sensores do rob e o correspondente rtulo de classe (Tabela 1). - O segundo conjunto de dados contm a leitura de 4 sensores nomeados de "distncias simplificadas" e seu correspondente rtulo de classe. Estas distncias simplificadas correspondem s distncias das partes frontal, esquerda, direita e traseira do rob (Tabela 2). - O terceiro conjunto de dados contm apenas a leitura das distncias dos sensores da parte da frente e esquerda do rob e o rtulo de classe (Tabela 3). Os conjuntos de dados foram coletados ao mesmo tempo, de forma que possuem o mesmo nmero registros (5456 entradas). Para a execuo dos testes foi utilizado o software Weka [23] verso 3.6, plataforma Java JRE [15] verso 1.6.0_21 e sistema operacional Windows 7 Ultimate 32 bits. A avaliao do desempenho dos classificadores foi realizada utilizando o mtodo da validao cruzada. Cada conjunto de dado foi dividido em 10 partes (folds), e destas, 9 partes foram utilizadas para o treinamento e a outra para testes. O processo foi repetido 10 vezes, de forma que cada parte fosse utilizada como conjunto de testes.
Tabela 1. Atributos da Base de Dados 1 (24 Sensores) Coluna Tipo de dado Leitura Sensor 1 (Referente ao ngulo 180 - frente do rob) real Leitura Sensor 2 (Referente ao ngulo -165) real Leitura Sensor 3 (Referente ao ngulo -150) real Leitura Sensor 4 (Referente ao ngulo -135) real Leitura Sensor 5 (Referente ao ngulo -120) real Leitura Sensor 6 (Referente ao ngulo -105) real Leitura Sensor 7 (Referente ao ngulo -90) real Leitura Sensor 8 (Referente ao ngulo -75) real Leitura Sensor 9 (Referente ao ngulo -60) real Leitura Sensor 10 (Referente ao ngulo -45) real Leitura Sensor 11 (Referente ao ngulo -30) real Leitura Sensor 12 (Referente ao ngulo -15) real Leitura Sensor 13 (Referente ao ngulo 0 - atrs do rob) real Leitura Sensor 14 (Referente ao ngulo 15) real Leitura Sensor 15 (Referente ao ngulo 30) real Leitura Sensor 16 (Referente ao ngulo 45) real Leitura Sensor 17 (Referente ao ngulo 60) real Leitura Sensor 18 (Referente ao ngulo 75) real Leitura Sensor 19 (Referente ao ngulo 90) real Leitura Sensor 20 (Referente ao ngulo 105) real Leitura Sensor 21 (Referente ao ngulo 120) real Leitura Sensor 22 (Referente ao ngulo 135) real Leitura Sensor 23 (Referente ao ngulo 150) real Leitura Sensor 24 (Referente ao ngulo 165) real Classe - Ao do robo: Move-Foward (Mover para frente), Slight-Right-Turn (Virar levemente para direita), Sharp-Right-Turn (Virar fortemente para direita), Slight-Left-Turn (Virar levemente para esquerda) texto
Tabela 2. Atributos da Base de Dados 2 (4 Sensores) Coluna Tipo de dado Leitura do Sensor da Esquerda real Leitura do Sensor da Frente real Leitura do Sensor da Direita real Leitura do Sensor de Traz real Classe - Ao do robo: Move-Foward (Mover para frente), Slight-Right-Turn (Virar levemente para direita), Sharp-Right-Turn (Virar fortemente para direita), Slight-Left-Turn (Virar levemente para esquerda) texto
Tabela 3. Atributos da Base de Dados 3 (2 sensores) Coluna Tipo de dado Leitura do Sensor da Frente real Leitura do Sensor da Esquerda real Classe - Ao do robo: Move-Foward (Mover para frente), Slight-Right-Turn (Virar levemente para direita), Sharp-Right-Turn (Virar fortemente para direita), Slight-Left-Turn (Virar levemente para esquerda) texto
A seguir, apresentada uma anlise individual das tcnicas AD e MLP, seguindo de uma avaliao comparativa.
Ibersensor 2010, 9-11 November 2010, Lisbon, Portugal IB-047 3.1 Resultados com AD Para a anlise experimental utilizando AD foram realizados testes com os algoritmos J48 e SimpleCART da ferramenta Weka [23] os quais so as tcnicas C4.5 e CART, respectivamente. Para parametrizao, foram utilizados os valores padres definidos na ferramenta 1 . A Tabela 1 apresenta os dados referentes aos testes efetuados com os algoritmos. No eixo das ordenadas encontram-se as tcnicas e no eixo das abscissas as bases de dados utilizadas.
Tabela 1: Resultados (em %) da classificao por AD Bases de Dados 1 2 3 Tcnicas 100 100 99,6518 J48 100 100 99,4135 SimpleCart
Ambos os algoritmos apresentaram bons resultados para as trs bases de dados, independentemente de sua dimensionalidade. Esse comportamento bastante positivo, pois um dos maiores problemas de se analisar dados provenientes de sensores tratar de forma coerente sua alta dimensionalidade [21]. 3.2 Resultados com MLP Escolher uma estrutura ideal para uma rede para resolver um problema uma tarefa emprica e no trivial, muito j estudada, como em [7], [10] e [13], que mostram que uma camada intermediria o suficiente para aproximar qualquer funo contnua e duas camadas intermedirias so suficientes para aproximar qualquer funo matemtica, sendo que o nmero de neurnios por camada oculta deve ser definido empiricamente, [6], [7] e [12]. Embora em alguns casos a utilizao de mais de duas camadas intermedirias possa facilitar o treinamento, sua utilizao no recomendada, pois o erro propagado atravs da rede se torna menos til e preciso, como afirmado por [5]. Para este trabalho as trs bases de dados foram treinadas em 24 configuraes diferentes de rede, com alterao em trs atributos: taxa de aprendizado, nmero de camadas ocultas e nmero de neurnios por camada. As redes foram treinadas por 500 pocas, com uma taxa momentum de 0,3. Os testes na primeira base de dados foram iniciados com valores de atributos baixos: taxa de aprendizado no valor 0,25 e uma camada oculta de 5 neurnios, que obteve uma taxa de acerto da classificao em 89,81%. A posteriori,
1 Outras configuraes dos algoritmos foram testadas, mas no houve ganho expressivo na classificao e, portanto, no foram consideradas. fixou-se o valor da taxa de aprendizado e a quantidade de camadas ocultas, alterando-se o nmero de neurnios da camada oculta para 10, 15, 20 e 30 neurnios, respectivamente, onde foi possvel verificar que o aumento do nmero de neurnios no estava influenciando na taxa de acertos. Passou-se ento para uma nova etapa do treinamento, onde foram testadas trs novas redes com duas camadas ocultas, sendo que a primeira rede continha 5 neurnios na primeira e na segunda camada oculta, a segunda rede 10 neurnios na primeira e na segunda camada oculta, e a terceira rede com 15 neurnios na primeira camada oculta e 20 na segunda. O resultado dos testes destas redes para um taxa de aprendizado de 0,25 pode ser verificado na Tabela 2.
Tabela 2: Taxa de Acertos com Taxa de Treinamento 0,25 Taxa de acerto Neurnios por camada (Nk onde N nmero de neurnios na k-sima camada) 89,8113 51 88,7871 101 88,7871 151 86,7925 201 86,7385 301 85,283 51,52 82,4798 101,102 89,434 151,202
A fim de comparar a influncia da taxa de aprendizado no resultado final da rede, as mesmas estruturas testadas com taxa de aprendizado 0,25 foram testadas com taxas de aprendizado de 0.5 e 0.75. O resultado desses testes apresentado na Tabela 3, juntamente com os resultados da Tabela 2 a fim de facilitar comparaes, onde possvel verificar que no existe uma relao direta da eficincia de classificao de uma rede MLP com as caractersticas de sua estrutura ou do treinamento: nmero de neurnios, nmero de camadas ocultas ou taxa de aprendizado.
Tabela 3: Taxa de Acerto para Base de Dados com 24 Entradas. Taxa de Aprendizado 0,25 0,5 0,75 Neurnios por camada (Nk onde N nmero de neurnios na k-sima camada) 89,8113 85,6604 78,6523 51 88,7871 88,5526 87,7089 101 88,7871 88,3558 87,0081 151 86,7925 86,9003 87,7628 201 86,7385 86,9542 85,9299 301 85,283 81,4555 80,7008 51,52 82,4798 85,4987 85,9299 101,102 89,434 86,6846 86,0916 151,202
As duas bases de dados restantes, com valores de 4 e de 2 sensores, passaram pelo mesmo processo de testes, ou seja, com os mesmos valores de taxa de aprendizado e mesmas estruturas de rede, e o resultado da classificao pode ser verificado na Tabela 4 e na Tabela 5, respectivamente. Ibersensor 2010, 9-11 November 2010, Lisbon, Portugal IB-047 Tabela 4: Taxa de Acerto para Base de Dados com 4 Entradas. Taxa de Aprendizado 0,25 0,5 0,75 Neurnios por camada (Nk onde N nmero de neurnios na k-sima camada) 96,0647 96,2264 96,2264 51 96,0108 95,3639 95,9569 101 96,5499 96,6577 95,7412 151 95,9569 96,7116 95,903 201 95,5499 94,9865 95,0943 301 94,4474 91,4825 93,531 51,52 94,5553 95,4717 96,7655 101,102 96,1725 96,5499 97,1429 151,202
Tabela 5: Taxa de Acerto para Base de Dados com 2 Entradas. Taxa de Aprendizado 0,25 0,5 0,75 Neurnios por camada (Nk onde N nmero de neurnios na k-sima camada) 96,9272 96,496 97,035 51 96,9811 96,2803 95,9569 101 96,2803 96,496 96,1725 151 95,2561 96,2264 95,6873 201 95,9569 95,6873 95,4717 301 94,8787 78,4367 78,814 51,52 97,035 88,3019 95,1482 101,102 96,6577 96,0647 94,0162 151,202
Ao fornecer uma entrada de dimensionalidade menor para a rede MLP e reduzir o nmero de medidas de sensores de 24 para 4 e para 2, esperava-se, inicialmente, que haveria uma queda no desempenho de classificao, j que teoricamente a rede estaria recebendo uma quantidade menor de valores, menos informao. Porm, pode-se perceber que os resultados foram melhores para a grande maioria dos casos. Uma queda mais evidente no desempenho ocorreu quando a dimensionalidade foi reduzida de 24 para 2 para uma rede de duas camadas ocultas com 5 neurnios em cada uma delas e com taxas de aprendizado 0,5 e 0,75, no restante, todos os resultados foram melhores. 3.3 AD versus MLP Confrontando os resultados das AD com a Rede Neural MLP pode-se verificar que as rvores de Deciso apresentaram melhores resultados do que a MLP para as bases de dados aplicadas. Mesmo considerando o pior resultado da AD, este foi superior ao melhor resultado encontrado pela rede MLP. Isto se deve, em grande parte, propenso do modelo de AD crescer independentemente de quantos atributos estejam em anlise. Na rede MLP, verificou-se que quanto maior a dimensionalidade da base de treinamento menor foi seu poder de classificao, ou seja, a rede teve dificuldade quanto a analisar um conjunto de dados de maior dimensionalidade. Um fato a ser observado que a reduo do nmero de atributos no significou degradao nos resultados de classificao para ambas as tcnicas, ao contrrio, foram melhores em todos os casos. Essa constatao de grande importncia quando se est trabalhando com dados de sensores, em robtica mais especificamente, pois caso a deciso de direcionar o rob fosse implementada em hardware com as tcnicas aqui apresentadas, uma menor quantidade de atributos significaria menor quantidade de processamentos a ser feito, o que influncia diretamente no consumo de energia do equipamento. 4. Concluso Embora as tcnicas aqui apresentadas tenham conseguido timos resultados na classificao dos dados de sensores provenientes de um rob, no se pode afirmar que estes mesmos resultados sejam atingidos na aplicao em outras bases de dados, provenientes ou no de sensores. A eficincia das tcnicas de classificao depende de vrios fatores, entre os quais est a natureza dos dados, de forma que se pode afirmar que no h uma tcnica que seja ideal para todos os tipos de conjuntos de dados. Trabalhos como [29], [30] e [31] so exemplos de variaes da eficincia de classificao de RNA MLP e AD em diferentes contextos. Como trabalhos futuros, esto a avaliao de desempenho de classificao das tcnicas aqui apresentadas em outras bases de dados de sensores provenientes de diferentes domnios, bem como sua comparao com outras tcnicas de classificao aplicadas nas mesmas bases de dados. Referencias [1] E. B. Barlett, R. E. Uhrig. Nuclear power plant status diagnostics using artificial neural networks, International conference on frontiers in innovative computing for the nuclear industry, Jackson, WY, United States, Janeiro, Vol. 97, pp. 272281, 1991.
[2] W. G. Baxt. Use of an artificial neural network for data analysis in clinical decision-making: The diagnosis of acute coronary occlusion, Neural Computation, Vol. 2, pp. 480 489, 1990.
[3] W. G. Baxt. Use of an artificial neural network for the diagnosis of myocardial infarction, Annals of Internal Medicine, Vol. 115, pp. 843848, 1991.
[4] H. Bourlard, N. Morgan. Continuous speech recognition by connectionist statistical methods, IEEE Transactions on Neural Networks, vol. 4, 893909, Novembro, 1993.
[5] A. Braga, A. Carvalho, T. Ludermir. Redes Neurais Artificiais: Teoria e Aplicaes, LTC, Segunda Edio, Rio de Janeiro, Brasil, 2000. Ibersensor 2010, 9-11 November 2010, Lisbon, Portugal IB-047 [6] G. Cybenko. Continuous valued neural networks with two hidden layers are sufficient, Technical Report, Department of Computer Science, Tufts University, 1988.
[7] G. Cybenko. Approximation by superpositions of a sigmoid function, Mathematics of Control, Signals and Systems, Vol. 2, pp. 303-314, 1989.
[8] U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth. From data mining to knowledge discovery: an overview, Advances in knowledge discovery and data mining, American Association for Artificial Intelligence, Menlo Park, CA, 1996.
[9] U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth. The KDD process for extracting useful knowledge from volumes of data, Communications of the ACM, Vol. 39, No. 11, pp. 27- 34, November, 1996.
[10] K. I. Funuhashi. On the approximate realization of continuous mappings by neural networks, Neural Networks, Vol. 2, pp. 183-192, 1989.
[11] J. Han, M. Kamber. Data Mining: Concepts and Techniques, Morgan Kaufmann, Second Edition, 2005.
[12] J. Hertz, A. Krogh, R. G. Palmer. Introduction to the Theory of Neural Computation, Addison-Wesley, First Edition, 1991.
[13] K. Hornik, M. Stinchcombe, H. White. Multilayer feedforward networks are universal approximators, Neural Networks, Vol. 2, pp. 359-366, 1989.
[14] J. C. Hoskins, K. M. Kaliyur, D. M. Himmelblau. Incipient fault detection and diagnosis using artificial neural networks, International Joint Conference on Neural Networks, San Diego, CA, Vol. 1, pp. 8186, June, 1990.
[15] Oracle and Sun, Java + You. Available on: http://www.java.com/en/. Last access: 25/09/2010.
[16] National Science Foundation. UCI Machine Learning Repository. Available on: http://archive.ics.uci.edu/ml/. Last access: 25/09/2010.
[17] C. Pitangui. Aprendizado Gentico Utilizando de Regras de Deciso Utilizando a Codificao Natural e Novos Operadores de Recombinao. Master Dissertation, COPPE/UFRJ, Rio de Janeiro, Brasil, 2000.
[18] J. R. Quilan. "C4.5: Programs for Machine Learning", Morgan Kaufmann, First Edition, 1993.
[19] D. E. Rumelhart, J. L. McClelland, Parallel distributed processing: explorations in the microstructure of cognition, Psychological and Biological Models, Vol. 2, 1986.
[20] S. Salzberg, A. Segre. "Book review: 'C4.5: Programs for machine learning' by J. Ross Quinlan", Morgan Kaufmann Publishers, First Edition, 1994.
[21] G. Bontempi, Y. L. Borgne. An adaptive modular approach to the mining of sensor network data, First International Workshop on Data Mining in Sensor Networks, Newport Beach, CA, USA, pp. 3-9, April, 2005.
[22] N. Voisine, M. Boull, C. Hue, Bayes Evaluation Criterion for Decision Trees, Advances in Knowledge Discovery and Management (AKDM), pp. 21-38, 2009.
[23] Weka. Available on: http://www.cs.waikato.ac.nz/~ml/weka/. Last access: 30/03/2010.
[24] G. P. Zhang, Neural networks for classification: a survey, IEEE Transactions on Systems, Man, and Cybernetics, Vol. 30, No.4, pp. 451-462, 2000.
[25] X. Wu, V. Kumar, J. R. Quinlan, J. Ghosh, K. Yang, H. Motoda, G. J. McLachlan, A. Ng, B. Liu, P. S. Yu, Z. H. Zhou, M. Steinbach, D. J. Hand, D. Steinberg, Top 10 algorithms in data mining, Knowledge and Information Systems, Vol. 14, pp. 137, 2008.
[26] L. Breiman, J. H. Friedman, R. A. Olshen, C. J. Stone, "Classification And Regression Trees", First Edition, Chapman and Hall, New York, 1984.
[27] S. Haykin, "Redes Neurais. Princpios e prtica", Bookman, Porto Alegre, RS, Brazil, 2001.
[28] C. Gini, Variabilita e Mutabilita, Journal of the Royal Statistical Society, Vol. 76, No. 3, pp. 326-327, February, 1913.
[29] M. Ture, I. Kurt,A. T. Kurum, K. Ozdamar. Comparing classification techniques for predicting essential hypertension, Expert Systems with Applications, Vol. 29, pp 583-588, 2005.
[30] I. Kurt, M. Ture, A. T. Kurum. Comparing performances of logistic regression, classification and regression tree, and neural networks for predicting coronary artery disease. Expert Systems with Applications. No. 34, pp. 366-374, 2008
[31] L. Atlas, J. Connor, D. Park, M. El-Sharkawi, R. Marks, A. Lippman, R. Cole, Y. Muthusamy. A performance comparison of trained multilayer perceptrons and trained classification trees, Systems, Man and Cybernetics, IEEE International Conference on Proceedings, Vol. 3, pp.915- 920, November 1989.
[32] E. P. Costa, Investigao de tcnicas de classificao hierrquica para problemas de bioinformtica. Master Thesis, Universidade Federal de Campina Grande, Campina Grande, Paraba, Brasil, Maro 2008.
Ibersensor 2010, 9-11 November 2010, Lisbon, Portugal IB-047