Você está na página 1de 7

Um Estudo Comparativo entre rvores de Deciso e Redes Neurais

Artificiais para Classificao de Dados de Sensores


Evaristo Wychoski Benfatti, Fernando Nunes Bonifacio, Clodis Boscarioli
Universidade Estadual do Oeste do Paran Campus de Cascavel
CEP 85819-110, Cascavel, Paran, Brasil
{evaristowb, fernando.nunes.info}@gmail.com, boscarioli@unioeste.br
Resumo
A diversidade de tipos de sensores disponveis permitiu o desenvolvimento de aplicaes envolvendo
seu uso nas mais diversas reas, aumentando assim a gerao de dados brutos coletados a partir de
sensores. Embora haja a massiva produo de bases de dados, a extrao de conhecimento no
uma tarefa trivial, seja pela grande quantidade de dados, de natureza distribuda, ou pela alta
dimensionalidade presente nessas bases de dados. Este artigo traz, a partir de um estudo de caso,
uma anlise comparativa entre rvores de Deciso e Rede Neural Artificial na tarefa de classificao
de dados de sensores.
Palavras-chave: rvores de Deciso, Redes Neurais Artificiais, Classificao de Dados.
1. Introduo
Aplicaes envolvendo sensores esto
cada vez mais presentes nas mais diversas
reas de conhecimento, como medicina,
indstria e robtica. Esse amplo uso se deve,
principalmente, pela quantidade de tipos de
sensores disponveis no mercado, e pela
quantidade de dados produzidos e carentes de
anlise.
Extrair conhecimento til a partir de dados
brutos advindos destes sensores no uma
tarefa fcil, pois ferramentas convencionais de
anlise de dados podem no ser adequadas ao
manuseio de grandes bases de dados, de
natureza distribuda e de alta dimensionalidade
[21].
O processo de extrair conhecimento de
base de dados conhecido como Descoberta
de Conhecimento em Banco de Dados (KDD -
Knowledge Discovery in Databases) o qual
defino por Fayyad et al. [8] como um processo
no trivial, de vrias etapas, interativo e
iterativo, para identificao de padres
compreensveis, vlidos, novos e
potencialmente teis a partir de bases de
dados. Dentre as diversas etapas que compem
este processo na etapa chamada Minerao
de Dados (Data Mining - DM) onde ocorre a
efetiva aplicao de algoritmos para extrair
padres presentes nos dados que representam
conhecimento til [9].
Existem diversas tarefas atribudas
Minerao de Dados como Classificao,
Regras de Associao, Agrupamento e
Predio [9]. Dentre essas tarefas, a
Classificao o foco deste estudo, a partir das
tcnicas rvores de Deciso (AD) e a Rede
Neural Artificial (RNA) Multilayer Perceptron
(MLP), avaliadas quanto ao desempenho e
acuidade para a classificao de dados de
sensores.
Este artigo segue assim organizado: A
Seo 2 introduz as tcnicas AD e MLP em
seus elementos principais; a Seo 3,
apresenta a avaliao experimental realizada,
descrevendo a base de dados utilizada, a
metodologia de testes adotada e uma discusso
dos resultados obtidos; e, por fim, a Seo 4
traz as concluses e trabalhos futuros desse
estudo.
2. Fundamentao Terica
Classificao necessria quando um
objeto precisa ser designado a uma classe
(rtulo) predeterminada a partir de seus
atributos. Pode ser definida como um processo
que permite a extrao de informaes a partir
de um conjunto de dados brutos, por meio de
sua categorizao. Pode ser utilizada com
sucesso em diferentes situaes, como na rea
mdica [24], [2] e [3], deteco de falhas [1],
[14], reconhecimento de voz [4], bioinformtica
[32], entre outros.
Na prtica, a classificao um processo
de duas etapas. Na primeira etapa, chamada de
treinamento, um classificador construdo
descrevendo um conjunto pr-determinado de
dados. Esse treinamento feito de forma
supervisionada, onde o algoritmo de
treinamento recebe registros de entradas que
possuem um valor de sada, que serve como
um tutor para o algoritmo. A segunda etapa
refere-se classificao propriamente dita,
onde um conjunto de dados apresentado para
o modelo construdo e o mesmo determina a
classe de cada registro de teste baseando-se
Ibersensor 2010, 9-11 November 2010, Lisbon, Portugal IB-047
no conhecimento adquirido na etapa anterior
[11].
Para determinar a efetividade de um
modelo de classificador, mtricas de avaliao
so utilizadas. A acuidade uma das mtricas
mais utilizadas, que corresponde
porcentagem de registros que foram
corretamente classificados pelo classificador a
partir de algum conjunto de dados de teste.
Nas subsees seguintes as tcnicas de
classificao utilizadas nesse estudo so
apresentadas.
2.1 rvores de Deciso
Uma AD um classificador expresso como
um particionador hierrquico do conjunto de
aprendizagem [22]. Este nome devido
utilizao da estratgia de resoluo dividir-
para-conquistar e pela representao baseada
em rvores.
Os algoritmos de AD esto entre os mais
maduros e exaustivamente estudados da
literatura, com alta eficcia comprovada em DM
[20], [25].
Neste modelo de rvore, um n que
apresenta filhos chamado de n interno,
definido como uma regra de segmentao, a
qual representa uma quebra (teste) de uma
entrada em um ou mais ramos de sada, por
meio de algum atributo de teste segmentador.
Os demais ns, chamados de ns folhas,
representam o processo de deciso pela
atribuio da classe predominante nas
instncias por ele j classificadas. [22]. So
capazes de classificar seguindo caminhos de
condies satisfeitas do n raiz at algum n
folha, que representa o valor classe para a
entrada [17].


Figura 1: Exemplo de uma rvore de Deciso

Na Figura 1 pode-se visualizar um exemplo
clssico de rvore de deciso para a
classificao de ces, onde ns internos so
representados por retngulos e ns folhas so
representados por elipses. Cada n de deciso
possui um atributo que ser avaliado (atributos
Tamanho e Peso). Cada ramo de sada do n
representa um valor que o atributo que est
sendo testado pode assumir, (pequeno, mdio e
grande para o atributo Tamanho e para Peso
menor igual a vinte ou maior que vinte). Os ns
folhas indicam os valores que cada registro
pode assumir (bonito ou feio). Assim, para
classificar, os testes so realizados a partir de
algum n arbitrado como n raiz da rvore,
seguindo ramos que satisfazem as condies,
at que um n folha seja atingido, determinando
a classe predita.
A induo de uma rvore tima para um
conjunto de dados arbitrrio uma tarefa
consideravelmente difcil, que requer buscas
exaustivas limitadas a conjuntos relativamente
pequenos [22]. Como alternativa, mtodos
heursticos so utilizados para tal construo,
compostos de dois processos conhecidos como
crescimento (treinamento) e poda. O
crescimento consiste em cada nvel da rvore
particionar o conjunto de treinamento de acordo
com um atributo selecionado. A escolha deste
atributo dentre todos os atributos feita sobre
um critrio que maximiza as parties. O
processo inicia no n raiz da rvore e pra em
um n folha quando no mais possvel aplicar
o critrio de particionamento. No existe um
critrio global para um particionamento timo,
assim, cada algoritmo implementa estratgias
particulares para otimizao desse critrio.
Durante a construo do modelo alguns
problemas so encontrados, como super
crescimento e super adaptao. O primeiro
deles diz respeito ao modelo poder crescer
muito, tornando lenta a classificao. O outro
problema diz respeito super adaptao da
estrutura ao conjunto de treinamento, onde, as
AD aprendem ao ponto de reconhecerem com
perfeio todos os registros de treinamento,
mas sem a capacidade de generalizao para
registros nunca vistos. Assim a fim de melhorar
a classificao, ramos considerados muito
especficos podem ser eliminados do modelo
acarretando ganho de predio, processo este
conhecido por poda. A poda pode ocorrer
durante a construo, tambm chamada de pr-
poda (pre-pruning) ou posterior construo,
chamada ps-poda (post-pruning). Na pr-poda,
conforme o modelo construdo o mesmo
reduzido a fim de eliminar ramos que no
agregam na classificao geral, estando mais
suscetveis aos rudos embutidos no conjunto
de treinamento. J na ps-poda todo o modelo
construdo, e ao final, o mesmo podado,
removendo ramos desnecessrios. H
estudos que demonstram que a ps-poda
apresenta melhores resultados quando
comparados pr-poda, mas devido
necessidade de que todo o modelo permanea
na memria at que seja podado, a menos
utilizada [22].
Os algoritmos de AD utilizados neste
trabalho foram o C4.5 [18] e o CART [26], que
apresentam como critrio central de
particionamento decises estatsticas e teorias
Ibersensor 2010, 9-11 November 2010, Lisbon, Portugal IB-047
da informao para avaliao dos segmentos.
Para o CART, usado o ndice Gini [28], que se
baseia na razo de ganho de informao do
segmento, e para o C4.5, o ganho de
informao a partir da entropia do conjunto de
dados usado. Com relao estratgia de
particionamento, ambos utilizam o conceito de
ps-poda, tal que para o CART utilizada a
complexidade de custo mnimo, e para o C4.5, a
poda baseada em erro.
2.2 Redes Neurais MLP
Redes neurais artificiais so processadores
paralelamente distribudos constitudos a partir
de unidades de processamento simples
(neurnios artificiais), que tm propenso
natural para armazenar conhecimento
experimental e torn-lo disponvel para o uso.
Suas configuraes assemelham-se ao crebro
humano pelo fato do conhecimento ser
adquirido por um processo de aprendizagem
(treinamento), e pelo fato deste mesmo
conhecimento estar armazenado na fora de
conexo entre os neurnios, tambm chamada
de pesos sinpticos [27].
A Figura 2 representa um modelo de
neurnio artificial, onde w representa os pesos
das conexes do neurnio k, x o valor de cada
um dos m estmulos que chegam ao neurnio k;
b um valor de bias que ser somado ao valor
do combinador linear e f() a funo de
ativao que fornece o valor da sada do
neurnio k.


Figura 2: Modelo de um Neurnio Artificial

Uma RNA classificada de acordo com sua
estrutura podendo ser de camada nica ou de
mltiplas camadas, alimentada para frente
(feedforward) ou recorrente, ou ainda, total ou
parcialmente conectada. Em uma rede
feedforward o sinal de cada neurnio
propagado apenas para os neurnios da
camada da frente, enquanto que na rede
recorrente um neurnio pode propagar seu sinal
para um neurnio que no seja o da camada da
frente. Em uma rede totalmente conectada cada
neurnio fornece sua sada a todas as unidades
da camada seguinte, e em uma rede
parcialmente conectada estas conexes no
ocorrem integralmente [11].
Neste trabalho a RNA utilizada a rede
Multilayer Perceptron (Figura 3), uma rede com
mltiplas camadas, do tipo feedforward
totalmente conectada. O algoritmo de
treinamento mais utilizado para redes MLP o
conhecido por backpropagation [19], cujo
treinamento ocorre em duas fases: uma fase
forward e uma fase backward. Na fase forward
a entrada apresentada primeira camada da
rede, a qual calcula seus sinais de sada e
passa os valores para a camada seguinte, que
por sua vez, calcula seus sinais de sada e os
passa para a prxima camada, e assim por
diante, at a camada de sada calcular as
sadas da rede, que so comparadas s sadas
desejadas. J a fase backward percorre o
caminho inverso, a partir da camada de sada
at a de entrada os pesos dos neurnios vo
sendo ajustados de forma a diminuir seus erros
(os erros dos neurnios das camadas
intermedirias so calculados utilizando o erro
dos neurnios da camada seguinte ponderado
pelo peso da conexo entre eles). Este
processo repetido at atingir algum critrio de
parada.


Figura 3: Estrutura da Rede MLP

Em termos matemticos, cada neurnio da
rede calcula o seu nvel de ativao v
j
de
acordo com a Equao 1, onde m o tamanho
do vetor de entrada, b o bias do neurnio e x
i

a entrada do peso w
ij
.

(Equao 1)

Esse valor utilizado em dois momentos,
primeiro para calcular a sada y
j
da rede de
acordo com a Equao 2, onde F a funo de
ativao do neurnio, e depois, para calcular o
sinal de erro de cada peso w dos neurnios,
conforme Equao 3 para um neurnio de sada
e de acordo com a Equao 4 para um neurnio
de camada oculta, onde d
i
a sada desejada e
F a derivada da funo de ativao.

(Equao 2)

(Equao 3)

Ibersensor 2010, 9-11 November 2010, Lisbon, Portugal IB-047
(Equao 4)

Depois de calculado o sinal de erro, cada
neurnio tem seu valor atualizado de acordo
com as Equaes 5 e 6, onde a taxa de
aprendizado e o termo momentum.

(Equao 5)

(Equao 6)

A taxa de aprendizagem determina a
velocidade com que so feitas as mudanas no
valor dos pesos e o termo momentum
utilizado para aumentar a velocidade de
treinamento e reduzir o risco de instabilidade da
rede.
3. Anlise Experimental
O experimento de comparao baseou-se
na anlise da base de dados da UCI Machine
Learning Repository [16] intitulada Wall-
Following Robt Navigation Data DataSet, a
qual representa as aes tomadas pelo rob
SCITOS G5 na tarefa de navegao, seguindo
a abordagem wall-following sem colidir em
nenhum obstculo.
Os dados foram coletados quando o rob
navegava em uma sala seguindo a parede em
direo horria, por 4 voltas, usando 24
sensores de ultra-snicos arranjados
circularmente na "cintura" do equipamento.
Baseado nestas medidas o rob tinha que
decidir qual o seu prximo movimento: Move-
Forward (Mover para frente), Slight-Right-Turn
(Virar levemente para a direita), Sharp-Right-
Turn (Virar fortemente para a direita), Slight-
Left-Turn (Virar levemente para a esquerda).
Os dados fornecidos foram obtidos a uma
freqncia de 9 amostras por segundo e
incluem trs conjuntos diferentes:
- O primeiro conjunto de dados contm os
valores medidos para todos os 24 sensores do
rob e o correspondente rtulo de classe
(Tabela 1).
- O segundo conjunto de dados contm a
leitura de 4 sensores nomeados de "distncias
simplificadas" e seu correspondente rtulo de
classe. Estas distncias simplificadas
correspondem s distncias das partes frontal,
esquerda, direita e traseira do rob (Tabela 2).
- O terceiro conjunto de dados contm
apenas a leitura das distncias dos sensores da
parte da frente e esquerda do rob e o rtulo de
classe (Tabela 3).
Os conjuntos de dados foram coletados ao
mesmo tempo, de forma que possuem o mesmo
nmero registros (5456 entradas).
Para a execuo dos testes foi utilizado o
software Weka [23] verso 3.6, plataforma Java
JRE [15] verso 1.6.0_21 e sistema operacional
Windows 7 Ultimate 32 bits. A avaliao do
desempenho dos classificadores foi realizada
utilizando o mtodo da validao cruzada. Cada
conjunto de dado foi dividido em 10 partes
(folds), e destas, 9 partes foram utilizadas para
o treinamento e a outra para testes. O processo
foi repetido 10 vezes, de forma que cada parte
fosse utilizada como conjunto de testes.

Tabela 1. Atributos da Base de Dados 1 (24 Sensores)
Coluna Tipo de dado
Leitura Sensor 1 (Referente ao ngulo 180 - frente
do rob) real
Leitura Sensor 2 (Referente ao ngulo -165) real
Leitura Sensor 3 (Referente ao ngulo -150) real
Leitura Sensor 4 (Referente ao ngulo -135) real
Leitura Sensor 5 (Referente ao ngulo -120) real
Leitura Sensor 6 (Referente ao ngulo -105) real
Leitura Sensor 7 (Referente ao ngulo -90) real
Leitura Sensor 8 (Referente ao ngulo -75) real
Leitura Sensor 9 (Referente ao ngulo -60) real
Leitura Sensor 10 (Referente ao ngulo -45) real
Leitura Sensor 11 (Referente ao ngulo -30) real
Leitura Sensor 12 (Referente ao ngulo -15) real
Leitura Sensor 13 (Referente ao ngulo 0 - atrs
do rob) real
Leitura Sensor 14 (Referente ao ngulo 15) real
Leitura Sensor 15 (Referente ao ngulo 30) real
Leitura Sensor 16 (Referente ao ngulo 45) real
Leitura Sensor 17 (Referente ao ngulo 60) real
Leitura Sensor 18 (Referente ao ngulo 75) real
Leitura Sensor 19 (Referente ao ngulo 90) real
Leitura Sensor 20 (Referente ao ngulo 105) real
Leitura Sensor 21 (Referente ao ngulo 120) real
Leitura Sensor 22 (Referente ao ngulo 135) real
Leitura Sensor 23 (Referente ao ngulo 150) real
Leitura Sensor 24 (Referente ao ngulo 165) real
Classe - Ao do robo:
Move-Foward (Mover para frente),
Slight-Right-Turn (Virar levemente para direita),
Sharp-Right-Turn (Virar fortemente para direita),
Slight-Left-Turn (Virar levemente para esquerda)
texto


Tabela 2. Atributos da Base de Dados 2 (4 Sensores)
Coluna Tipo de dado
Leitura do Sensor da Esquerda real
Leitura do Sensor da Frente real
Leitura do Sensor da Direita real
Leitura do Sensor de Traz real
Classe - Ao do robo:
Move-Foward (Mover para frente),
Slight-Right-Turn (Virar levemente para direita),
Sharp-Right-Turn (Virar fortemente para direita),
Slight-Left-Turn (Virar levemente para esquerda)
texto


Tabela 3. Atributos da Base de Dados 3 (2 sensores)
Coluna Tipo de dado
Leitura do Sensor da Frente real
Leitura do Sensor da Esquerda real
Classe - Ao do robo:
Move-Foward (Mover para frente),
Slight-Right-Turn (Virar levemente para direita),
Sharp-Right-Turn (Virar fortemente para direita),
Slight-Left-Turn (Virar levemente para esquerda)
texto

A seguir, apresentada uma anlise
individual das tcnicas AD e MLP, seguindo de
uma avaliao comparativa.

Ibersensor 2010, 9-11 November 2010, Lisbon, Portugal IB-047
3.1 Resultados com AD
Para a anlise experimental utilizando AD
foram realizados testes com os algoritmos J48 e
SimpleCART da ferramenta Weka [23] os quais
so as tcnicas C4.5 e CART, respectivamente.
Para parametrizao, foram utilizados os
valores padres definidos na ferramenta
1
. A
Tabela 1 apresenta os dados referentes aos
testes efetuados com os algoritmos. No eixo
das ordenadas encontram-se as tcnicas e no
eixo das abscissas as bases de dados
utilizadas.

Tabela 1: Resultados (em %) da classificao por AD
Bases de Dados
1 2 3 Tcnicas
100 100 99,6518 J48
100 100 99,4135 SimpleCart

Ambos os algoritmos apresentaram bons
resultados para as trs bases de dados,
independentemente de sua dimensionalidade.
Esse comportamento bastante positivo, pois
um dos maiores problemas de se analisar
dados provenientes de sensores tratar de
forma coerente sua alta dimensionalidade [21].
3.2 Resultados com MLP
Escolher uma estrutura ideal para uma rede
para resolver um problema uma tarefa
emprica e no trivial, muito j estudada, como
em [7], [10] e [13], que mostram que uma
camada intermediria o suficiente para
aproximar qualquer funo contnua e duas
camadas intermedirias so suficientes para
aproximar qualquer funo matemtica, sendo
que o nmero de neurnios por camada oculta
deve ser definido empiricamente, [6], [7] e [12].
Embora em alguns casos a utilizao de mais
de duas camadas intermedirias possa facilitar
o treinamento, sua utilizao no
recomendada, pois o erro propagado atravs da
rede se torna menos til e preciso, como
afirmado por [5].
Para este trabalho as trs bases de dados
foram treinadas em 24 configuraes diferentes
de rede, com alterao em trs atributos: taxa
de aprendizado, nmero de camadas ocultas e
nmero de neurnios por camada. As redes
foram treinadas por 500 pocas, com uma taxa
momentum de 0,3.
Os testes na primeira base de dados foram
iniciados com valores de atributos baixos: taxa
de aprendizado no valor 0,25 e uma camada
oculta de 5 neurnios, que obteve uma taxa de
acerto da classificao em 89,81%. A posteriori,

1
Outras configuraes dos algoritmos foram
testadas, mas no houve ganho expressivo na
classificao e, portanto, no foram consideradas.
fixou-se o valor da taxa de aprendizado e a
quantidade de camadas ocultas, alterando-se o
nmero de neurnios da camada oculta para
10, 15, 20 e 30 neurnios, respectivamente,
onde foi possvel verificar que o aumento do
nmero de neurnios no estava influenciando
na taxa de acertos. Passou-se ento para uma
nova etapa do treinamento, onde foram
testadas trs novas redes com duas camadas
ocultas, sendo que a primeira rede continha 5
neurnios na primeira e na segunda camada
oculta, a segunda rede 10 neurnios na primeira
e na segunda camada oculta, e a terceira rede
com 15 neurnios na primeira camada oculta e
20 na segunda. O resultado dos testes destas
redes para um taxa de aprendizado de 0,25
pode ser verificado na Tabela 2.

Tabela 2: Taxa de Acertos com Taxa de Treinamento 0,25
Taxa de acerto
Neurnios por camada
(Nk onde N nmero de
neurnios na k-sima camada)
89,8113 51
88,7871 101
88,7871 151
86,7925 201
86,7385 301
85,283 51,52
82,4798 101,102
89,434 151,202

A fim de comparar a influncia da taxa de
aprendizado no resultado final da rede, as
mesmas estruturas testadas com taxa de
aprendizado 0,25 foram testadas com taxas de
aprendizado de 0.5 e 0.75.
O resultado desses testes apresentado na
Tabela 3, juntamente com os resultados da
Tabela 2 a fim de facilitar comparaes, onde
possvel verificar que no existe uma relao
direta da eficincia de classificao de uma
rede MLP com as caractersticas de sua
estrutura ou do treinamento: nmero de
neurnios, nmero de camadas ocultas ou taxa
de aprendizado.

Tabela 3: Taxa de Acerto para Base de Dados com 24
Entradas.
Taxa de Aprendizado
0,25 0,5 0,75
Neurnios por camada
(Nk onde N nmero de
neurnios na k-sima camada)
89,8113 85,6604 78,6523 51
88,7871 88,5526 87,7089 101
88,7871 88,3558 87,0081 151
86,7925 86,9003 87,7628 201
86,7385 86,9542 85,9299 301
85,283 81,4555 80,7008 51,52
82,4798 85,4987 85,9299 101,102
89,434 86,6846 86,0916 151,202

As duas bases de dados restantes, com
valores de 4 e de 2 sensores, passaram pelo
mesmo processo de testes, ou seja, com os
mesmos valores de taxa de aprendizado e
mesmas estruturas de rede, e o resultado da
classificao pode ser verificado na Tabela 4 e
na Tabela 5, respectivamente.
Ibersensor 2010, 9-11 November 2010, Lisbon, Portugal IB-047
Tabela 4: Taxa de Acerto para Base de Dados com 4
Entradas.
Taxa de Aprendizado
0,25 0,5 0,75
Neurnios por camada
(Nk onde N nmero de
neurnios na k-sima camada)
96,0647 96,2264 96,2264 51
96,0108 95,3639 95,9569 101
96,5499 96,6577 95,7412 151
95,9569 96,7116 95,903 201
95,5499 94,9865 95,0943 301
94,4474 91,4825 93,531 51,52
94,5553 95,4717 96,7655 101,102
96,1725 96,5499 97,1429 151,202


Tabela 5: Taxa de Acerto para Base de Dados com 2
Entradas.
Taxa de Aprendizado
0,25 0,5 0,75
Neurnios por camada
(Nk onde N nmero de
neurnios na k-sima camada)
96,9272 96,496 97,035 51
96,9811 96,2803 95,9569 101
96,2803 96,496 96,1725 151
95,2561 96,2264 95,6873 201
95,9569 95,6873 95,4717 301
94,8787 78,4367 78,814 51,52
97,035 88,3019 95,1482 101,102
96,6577 96,0647 94,0162 151,202

Ao fornecer uma entrada de
dimensionalidade menor para a rede MLP e
reduzir o nmero de medidas de sensores de 24
para 4 e para 2, esperava-se, inicialmente, que
haveria uma queda no desempenho de
classificao, j que teoricamente a rede estaria
recebendo uma quantidade menor de valores,
menos informao. Porm, pode-se perceber
que os resultados foram melhores para a
grande maioria dos casos. Uma queda mais
evidente no desempenho ocorreu quando a
dimensionalidade foi reduzida de 24 para 2 para
uma rede de duas camadas ocultas com 5
neurnios em cada uma delas e com taxas de
aprendizado 0,5 e 0,75, no restante, todos os
resultados foram melhores.
3.3 AD versus MLP
Confrontando os resultados das AD com a
Rede Neural MLP pode-se verificar que as
rvores de Deciso apresentaram melhores
resultados do que a MLP para as bases de
dados aplicadas. Mesmo considerando o pior
resultado da AD, este foi superior ao melhor
resultado encontrado pela rede MLP. Isto se
deve, em grande parte, propenso do modelo
de AD crescer independentemente de quantos
atributos estejam em anlise.
Na rede MLP, verificou-se que quanto maior
a dimensionalidade da base de treinamento
menor foi seu poder de classificao, ou seja, a
rede teve dificuldade quanto a analisar um
conjunto de dados de maior dimensionalidade.
Um fato a ser observado que a reduo
do nmero de atributos no significou
degradao nos resultados de classificao
para ambas as tcnicas, ao contrrio, foram
melhores em todos os casos. Essa constatao
de grande importncia quando se est
trabalhando com dados de sensores, em
robtica mais especificamente, pois caso a
deciso de direcionar o rob fosse
implementada em hardware com as tcnicas
aqui apresentadas, uma menor quantidade de
atributos significaria menor quantidade de
processamentos a ser feito, o que influncia
diretamente no consumo de energia do
equipamento.
4. Concluso
Embora as tcnicas aqui apresentadas
tenham conseguido timos resultados na
classificao dos dados de sensores
provenientes de um rob, no se pode afirmar
que estes mesmos resultados sejam atingidos
na aplicao em outras bases de dados,
provenientes ou no de sensores.
A eficincia das tcnicas de classificao
depende de vrios fatores, entre os quais est a
natureza dos dados, de forma que se pode
afirmar que no h uma tcnica que seja ideal
para todos os tipos de conjuntos de dados.
Trabalhos como [29], [30] e [31] so exemplos
de variaes da eficincia de classificao de
RNA MLP e AD em diferentes contextos.
Como trabalhos futuros, esto a avaliao
de desempenho de classificao das tcnicas
aqui apresentadas em outras bases de dados
de sensores provenientes de diferentes
domnios, bem como sua comparao com
outras tcnicas de classificao aplicadas nas
mesmas bases de dados.
Referencias
[1] E. B. Barlett, R. E. Uhrig. Nuclear power plant status
diagnostics using artificial neural networks, International
conference on frontiers in innovative computing for the
nuclear industry, Jackson, WY, United States, Janeiro, Vol.
97, pp. 272281, 1991.

[2] W. G. Baxt. Use of an artificial neural network for data
analysis in clinical decision-making: The diagnosis of acute
coronary occlusion, Neural Computation, Vol. 2, pp. 480
489, 1990.

[3] W. G. Baxt. Use of an artificial neural network for the
diagnosis of myocardial infarction, Annals of Internal
Medicine, Vol. 115, pp. 843848, 1991.

[4] H. Bourlard, N. Morgan. Continuous speech recognition
by connectionist statistical methods, IEEE Transactions on
Neural Networks, vol. 4, 893909, Novembro, 1993.

[5] A. Braga, A. Carvalho, T. Ludermir. Redes Neurais
Artificiais: Teoria e Aplicaes, LTC, Segunda Edio, Rio
de Janeiro, Brasil, 2000.
Ibersensor 2010, 9-11 November 2010, Lisbon, Portugal IB-047
[6] G. Cybenko. Continuous valued neural networks with two
hidden layers are sufficient, Technical Report, Department of
Computer Science, Tufts University, 1988.

[7] G. Cybenko. Approximation by superpositions of a
sigmoid function, Mathematics of Control, Signals and
Systems, Vol. 2, pp. 303-314, 1989.

[8] U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth. From data
mining to knowledge discovery: an overview, Advances in
knowledge discovery and data mining, American Association
for Artificial Intelligence, Menlo Park, CA, 1996.

[9] U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth. The KDD
process for extracting useful knowledge from volumes of
data, Communications of the ACM, Vol. 39, No. 11, pp. 27-
34, November, 1996.

[10] K. I. Funuhashi. On the approximate realization of
continuous mappings by neural networks, Neural Networks,
Vol. 2, pp. 183-192, 1989.

[11] J. Han, M. Kamber. Data Mining: Concepts and
Techniques, Morgan Kaufmann, Second Edition, 2005.

[12] J. Hertz, A. Krogh, R. G. Palmer. Introduction to the
Theory of Neural Computation, Addison-Wesley, First
Edition, 1991.

[13] K. Hornik, M. Stinchcombe, H. White. Multilayer
feedforward networks are universal approximators, Neural
Networks, Vol. 2, pp. 359-366, 1989.

[14] J. C. Hoskins, K. M. Kaliyur, D. M. Himmelblau. Incipient
fault detection and diagnosis using artificial neural networks,
International Joint Conference on Neural Networks, San
Diego, CA, Vol. 1, pp. 8186, June, 1990.

[15] Oracle and Sun, Java + You. Available on:
http://www.java.com/en/. Last access: 25/09/2010.

[16] National Science Foundation. UCI Machine Learning
Repository. Available on: http://archive.ics.uci.edu/ml/. Last
access: 25/09/2010.

[17] C. Pitangui. Aprendizado Gentico Utilizando de Regras
de Deciso Utilizando a Codificao Natural e Novos
Operadores de Recombinao. Master Dissertation,
COPPE/UFRJ, Rio de Janeiro, Brasil, 2000.

[18] J. R. Quilan. "C4.5: Programs for Machine Learning",
Morgan Kaufmann, First Edition, 1993.

[19] D. E. Rumelhart, J. L. McClelland, Parallel distributed
processing: explorations in the microstructure of cognition,
Psychological and Biological Models, Vol. 2, 1986.

[20] S. Salzberg, A. Segre. "Book review: 'C4.5: Programs
for machine learning' by J. Ross Quinlan", Morgan
Kaufmann Publishers, First Edition, 1994.

[21] G. Bontempi, Y. L. Borgne. An adaptive modular
approach to the mining of sensor network data, First
International Workshop on Data Mining in Sensor Networks,
Newport Beach, CA, USA, pp. 3-9, April, 2005.

[22] N. Voisine, M. Boull, C. Hue, Bayes Evaluation
Criterion for Decision Trees, Advances in Knowledge
Discovery and Management (AKDM), pp. 21-38, 2009.

[23] Weka. Available on:
http://www.cs.waikato.ac.nz/~ml/weka/. Last access:
30/03/2010.

[24] G. P. Zhang, Neural networks for classification: a
survey, IEEE Transactions on Systems, Man, and
Cybernetics, Vol. 30, No.4, pp. 451-462, 2000.

[25] X. Wu, V. Kumar, J. R. Quinlan, J. Ghosh, K. Yang, H.
Motoda, G. J. McLachlan, A. Ng, B. Liu, P. S. Yu, Z. H.
Zhou, M. Steinbach, D. J. Hand, D. Steinberg, Top 10
algorithms in data mining, Knowledge and Information
Systems, Vol. 14, pp. 137, 2008.

[26] L. Breiman, J. H. Friedman, R. A. Olshen, C. J. Stone,
"Classification And Regression Trees", First Edition,
Chapman and Hall, New York, 1984.

[27] S. Haykin, "Redes Neurais. Princpios e prtica",
Bookman, Porto Alegre, RS, Brazil, 2001.

[28] C. Gini, Variabilita e Mutabilita, Journal of the Royal
Statistical Society, Vol. 76, No. 3, pp. 326-327, February,
1913.

[29] M. Ture, I. Kurt,A. T. Kurum, K. Ozdamar. Comparing
classification techniques for predicting essential
hypertension, Expert Systems with Applications, Vol. 29, pp
583-588, 2005.

[30] I. Kurt, M. Ture, A. T. Kurum. Comparing performances
of logistic regression, classification and regression tree, and
neural networks for predicting coronary artery disease.
Expert Systems with Applications. No. 34, pp. 366-374, 2008

[31] L. Atlas, J. Connor, D. Park, M. El-Sharkawi, R. Marks,
A. Lippman, R. Cole, Y. Muthusamy. A performance
comparison of trained multilayer perceptrons and trained
classification trees, Systems, Man and Cybernetics, IEEE
International Conference on Proceedings, Vol. 3, pp.915-
920, November 1989.

[32] E. P. Costa, Investigao de tcnicas de classificao
hierrquica para problemas de bioinformtica. Master
Thesis, Universidade Federal de Campina Grande, Campina
Grande, Paraba, Brasil, Maro 2008.

Ibersensor 2010, 9-11 November 2010, Lisbon, Portugal IB-047

Você também pode gostar