4082 Algoritimos

Algoritmos
Autor:
Alisson Patrick Maximino
Centro Universitrio Baro de Mau Curso de Bacharelado em Cincia da Computao
COMPARAO DE ALGORITMOS DE APRENDIZADO DE MQUINA PARA CLASSIFICAO DE PADRES EM UMA BASE DE DADOS MDICOS
Ribeiro Preto 2007
COMPARAO DE ALGORITMOS DE APRENDIZADO DE MQUINA PARA CLASSIFICAO DE PADRES EM UMA BASE DE DADOS MDICOS
Monografia apresentada ao Curso de Cincia da Computao do Centro Universitrio Baro de Mau, como parte dos requisitos para obteno do ttulo de Bacharel em Cincia da Computao.
Orientador: Prof. Dr. Paulo Eduardo Ambrsio
Ribeiro Preto 2007
Dedicatria Aos meus pais, minha amada Me Marli, meu amado Pai Vanderlei e minha amada Av Floripes, pessoas maravilhosas, batalhadoras, minha fonte maior de inspirao, cuidaram e doaram incondicionalmente seu sangue e suor em forma de amor e trabalho por mim, a minha grande e maravilhosa companheira Juliana, que me deram apoio e carinho nos momentos mais difceis durante esses anos dedicados aos estudos,
Agradecimentos
Primeiramente Deus, dedico o meu agradecimento maior, porque tm sido tudo em minha vida, o maior responsvel por este grande sonho que se realiza. todos professores(as), que conseguiram transmitir o seu conhecimento, contribuindo para minha sabedoria, e para meu crescimento pessoal e profissional, em especial ao professor Dr. Paulo Ambrsio, pela pacincia e dedicao, e todos aqueles(as) que cruzaram em minha vida, participando de alguma forma construtiva. Aos meus grandes amigos e companheiros, Roger e Flvio, que sempre me incentivaram e proporcionaram momentos de lazer, imprescindveis ao bom andamento desses 4 anos de estudos.
Resumo
A classificao de padres, neste caso, para diversos tipos de patologias, doenas aplicadas ao pulmo, podem ser classificadas por um profissional, como um mdico, onde, atravs de seu vasto conhecimento e estudo, capaz de analisar e identificar uma doena especifica. A partir da rea de estudo de Inteligncia Artificial, e utilizando os conceitos e tcnicas de aprendizado de mquina, no qual, existem diversos tipos de algoritmos de aprendizado de mquina que podem ser utilizados na classificao de padres. Na prtica, difcil saber qual tipo de algoritmo utilizar para cada problema. Os diversos sistemas de aprendizado de mquina possuem caractersticas particulares e comuns que possibilitam sua classificao quanto linguagem de descrio, modo, paradigma e forma de aprendizado utilizado. O objetivo principal desse trabalho realizar um estudo sobre alguns dos principais algoritmos de aprendizado de mquina, dentre eles, algoritmos de induo, de regras de deciso, redes neurais artificiais, algoritmos baseados em mtodos estatsticos, e outros, onde sero realizadas comparaes de desempenho sobre resultados obtidos pelos algoritmos.
Palavras-chave: Aprendizado de mquina, Algoritmos, Minerao de Dados, Base de Dados, Resultados.
Abstract
The pattern classification, in this case, for several kinds of pathologies, lung related diseases may be classified by a physian, where through his or her vast knowledge and study, is capable of analyzing and spotting a specific disease. Starting from the Artificial Intelligence field, and using the concepts and learning techniques of machines, in which, there are several types of learning algorithms of machines that can be used in pattern classification. In
practice, it is hard to know what kind of algorithm to use for each problem. The different learning systems of machines bear particular and common characteristics, which make their classification possible as to description language, manner, paradigm and the learning method used. The main goal of the present study is to carry out a study on some of the principal learning algorithm of machine, among them, induction algorithms, decision rules, artificial neural nets, algorithms based on statistical methods, and others, where performance comparisons will be carried out over the results obtained by algorithms.
Keywords: Learning Machine, Algorithms, Data Mining, Database, Results.
Lista de Figuras
Figura 1.1 Hierarquia do aprendizado. ..................................................................................... 16 Figura 2.1 Redes Neurais. ........................................................................................................ 19 Figura 2.2 rvores de Deciso. ................................................................................................ 21 Figura 2.3 Processo KDD......................................................................................................... 24 Figura 2.4 Tela inicial do WEKA............................................................................................. 26 Figura 2.5 Tela do Pr-Processo............................................................................................... 27 Figura 2.6 Tela de Classificao. ............................................................................................. 28 Figura 3.1 Parmetros Clnicos e Parmetros Radiolgicos..................................................... 32 Figura 3.2 Exemplo extrado da base de dados. ....................................................................... 34 Figura 3.3 Grfico em (%) de Acerto com Cross-Validation................................................... 36 Figura 3.4 Grfico em (%) de Erro Absoluto Relativo com Cross-Validation. ....................... 36 Figura 3.5 Grfico em (s) Tempo de Execuo com Cross-Validation.................................... 37 Figura 3.6 Grfico em (%) de Acerto com Leave-One-Out. .................................................... 38 Figura 3.7 Grfico em (%) de Erro Absoluto Relativo com Leave-One-Out........................... 39 Figura 3.8 Grfico em (s) Tempo de Execuo com Leave-One-Out...................................... 40 Figura 3.9 Matriz confuso Redes Neurais (MLP) Cross-Validation. ..................................... 41 Figura 3.10 Matriz Confuso Redes Neurais (MLP) Leave-One-Out...................................... 41 Figura 3.11 Matriz Confuso Redes Neurais (RBF) Cross-Validation. ................................... 42 Figura 3.12 Matriz Confuso Redes Neurais (RBF) Leave-One-Out. ..................................... 42 Figura 3.13 Matriz Confuso C4.5 Cross-Validation............................................................... 43 Figura 3.14 Matriz Confuso C4.5 Leave-One-Out. ................................................................ 43 Figura 3.15 Matriz Confuso ZEROR Cross-Validation. ........................................................ 44 Figura 3.16 Matriz Confuso ZEROR Leave-One-Out............................................................ 44 Figura 3.17 Matriz Confuso ONER Cross-Validation. .......................................................... 45 Figura 3.18 Matriz Confuso ONE Leave-One-Out. ............................................................... 45 Figura 3.19 Matriz Confuso Rede Bayesiana Cross-Validation............................................. 46 Figura 3.20 Matriz Confuso Rede Bayesiana Leave-One-Out. .............................................. 46
Lista de Tabelas
Tabela 1 Estrutura do arquivo ARRF. ...................................................................................... 29 Tabela 2 Relao das patologias investigadas.......................................................................... 30 Tabela 3 (%) de Acerto com Cross-Validation. ....................................................................... 35 Tabela 4 (%) de Erro Absoluto Relativo com Cross-Validation. ............................................. 36 Tabela 5 (s) Tempo de Execuo com Cross-Validation. ........................................................ 37 Tabela 6 (%) de Acerto com Leave-One-Out........................................................................... 38 Tabela 7 (%) de Erro Absoluto Relativo com Leave-One-Out. ............................................... 39 Tabela 8 (s) Tempo de Execuo com Leave-One-Out. .......................................................... 39
Lista de Siglas
AM: Aprendizado de Mquina IA: Inteligncia Artificial KDD: Knowledge Discovery in Databases GPL: General Public Licence WEKA: Waikato Environment for Knowledge Analysis
Sumrio
INTRODUO........................................................................................................................ 25 1 APRENDIZADO.............................................................................................................. 13 1.1 A HIERARQUIA DE APRENDIZADO.................................................................. 13 1.2 PARADIGMAS DE APRENDIZADO .................................................................... 14 1.3 TCNICAS DE VALIDAO................................................................................ 16 1.3.1 CROSS-VALIDATION ................................................................................... 16 1.3.2 LEAVE-ONE-OUT .......................................................................................... 17 2 APRENDIZADO DE MQUINA ................................................................................... 18 2.1 REDES NEURAIS ................................................................................................... 18 2.2 RVORES DE DECISO....................................................................................... 20 2.3 C4.5 .......................................................................................................................... 21 2.4 ZERO RULE (ZEROR) ........................................................................................... 22 2.5 ONE RULE (ONER) ................................................................................................ 22 2.6 REDE BAYESIANA................................................................................................ 22 2.7 INTRODUO MINERAO DE DADOS ..................................................... 23 2.8 WEKA ...................................................................................................................... 24 2.8.1 AMBIENTE EXPLORER DO WEKA ............................................................ 25 2.8.2 AMBIENTE EXPLORER - PR-PROCESSO................................................ 26 2.8.3 AMBIENTE EXPLORER - CLASSIFICAO ............................................. 27 2.8.4 ARQUIVO ARRF ............................................................................................ 28 3 DESENVOLVIMENTO PRTICO ................................................................................ 30 3.1 LEVANTAMENTOS DE DADOS.......................................................................... 30 3.2 PARMETROS CLNICOS E RADIOLGICOS ................................................. 31 3.3 DADOS COLETADOS............................................................................................ 34 3.4 BASE DE DADOS PARA TREINAMENTO E TESTES....................................... 34 3.5 RESULTADOS OBTIDOS POR CADA ALGORITMO........................................ 34 3.5.1 RESULTADOS OBTIDOS - CROSS-VALIDATION.................................... 35 3.5.2 RESULTADOS OBTIDOS - LEAVE-ONE-OUT .......................................... 37 3.5.3 REDES NEURAIS (MLP) - CROSS-VALIDATION ..................................... 40 3.5.4 REDES NEURAIS (MLP) - LEAVE-ONE-OUT............................................ 41 3.5.5 REDES NEURAIS (RBF) - CROSS-VALIDATION...................................... 41 3.5.6 REDES NEURAIS (RBF) - LEAVE-ONE-OUT ............................................ 42 3.5.7 C4.5 - CROSS - VALIDATION ...................................................................... 42 3.5.8 C4.5 - LEAVE-ONE-OUT ............................................................................... 43 3.5.9 ZEROR - CROSS-VALIDATION................................................................... 43 3.5.10 ZEROR - LEAVE-ONE-OUT ......................................................................... 44 3.5.11 ONER - CROSS-VALIDATION ..................................................................... 44 3.5.12 ONER - ONE-LEAVE-OUT............................................................................ 45 3.5.13 REDE BAYESIANA - CROSS-VALIDATION ............................................. 45 3.5.14 REDE BAYESIANA - LEAVE-ONE-OUT .................................................... 46 CONCLUSES ........................................................................................................................ 47 REFERNCIAS BIBLIOGRFICAS ..................................................................................... 48
INTRODUO
Nos ltimos anos a informtica tem se apresentado como um fator significativo no diaa-dia das pessoas, causando assim mudanas marcantes no modo de viver. O computador tem sido de grande influncia em diversas reas de atuao, quer no emprego, em casa, centros de pesquisas ou diversas reas de estudos, est relacionado a constantes melhorias em qualidade e desempenho, e, atravs de sua rpida evoluo surgem cada vez mais equipamentos cada vez menores e mais acessveis. Atravs deste crescimento computacional, ocorre uma intensificao de estudos cientficos sobre o assunto, como ferramenta de auxlio para todas as demais cincias. O conceito de Aprendizado de Mquina representa parte desta interao como uma forma de extrao de conhecimento, ou seja, uma forma de aprendizado realizado por um computador com o objetivo de obter comportamentos computacionalmente inteligentes, por exemplo o reconhecimento de padres. Especificamente na Medicina, os computadores podem ser utilizados como ferramenta de auxlio tomada de decises, como por exemplo, em sistemas de apoio ao diagnstico, os quais tm como principal objetivo auxiliar o profissional da rea no processo de tomada de decises. Para um mdico, diagnosticar certa doena, com base nos sintomas, exames, bem mais simples, devido ao conhecimento, ou seja, o poder do ser humano relacionado alta capacidade de aprendizagem, e recursos a serem utilizados. Agora, utilizar um sistema com base em Aprendizado de Mquina que realize com mesmo grau de eficincia no processo de diagnosticar, no uma tarefa to simples. O objetivo deste trabalho a realizao de estudos sobre algoritmos de aprendizado de mquina, aplicados a uma base de dados mdicos, e utilizando a biblioteca de algoritmos WEKA (biblioteca gratuita de minerao de dados, que possui suporte a vrios algoritmos, que ser apresentada com mais detalhe no capitulo 2). Os resultados obtidos pelos algoritmos de classificao de padres, nem sempre apresentam o mesmo grau de eficincia, ou melhor, podem-se obter resultados variados, tendo a viso de qual dos algoritmos utilizados tiveram um melhor desempenho durante a sua execuo.
13
1 APRENDIZADO
Os seres humanos possuem varias habilidades, destacando a capacidade de aprender, tal assunto, ao longo dos anos tornaram-se grande alvo para a realizao de pesquisas. Os homens e alguns animais possuem essa capacidade de aprendizagem muito evoluda. Eles adquirem aprendizagem com base na experincia, aprendem ouvindo, aprendem aumentando a capacidade do conhecimento que j possuem, atravs de acontecimentos sucessivos. Pode-se considerar o aprendizado um processo complexo, no apenas por reunir diversas habilidades e reas de conhecimento, mas tambm por reunir diferentes nveis de abstrao, no qual, podemos encontrar varias definies sobre o processo de aprendizado (AMBRSIO, 2002).
O aprendizado descrito como o processo atravs do qual um sistema melhora o seu desempenho (SIMON, 1983 apud AMBRSIO, 2002). Esta melhoria no desempenho pode ocorrer devido aplicao de novos mtodos e conhecimentos, podendo tambm ocorrer atravs do aperfeioamento dos mtodos e conhecimentos existentes, tornando-os mais rpidos e precisos.
1.1 A HIERARQUIA DE APRENDIZADO

O conhecimento sobre um determinado problema ou situao pode ser interpretado de varias formas. A induo a forma lgica, do qual, podem-se tirar concluses incertas sobre conjuntos de exemplos em questo. A induo caracterizada como um raciocnio obtido de forma generalizada atravs de um conceito especfico, onde esse conceito pode ser aprendido atravs da utilizao indutiva partir de exemplos citados.As possveis hipteses adquiridas pela induo podem ou no estarem corretas (MONARD, 2002). Segundo Monard (2002), Foi atravs da induo que Arquimedes descobriu a primeira lei da hidrosttica e princpio da alavanca, que Kepler descobriu as leis do movimento planetrio, que Darwin descobriu as leis da seleo natural das espcies. A induo uma das formas de se obter um novo conhecimento mais utilizado pelo crebro humano, no qual, deve-se ter cuidado em utilizar, pois, se os exemplos a serem escolhidos no forem os mais adequados, a hiptese resultante pode no ser verdadeira. Os
14
sistemas de aprendizado podem ser classificados em duas grandes categorias (BARANAUSKAS, 2001): Sistemas tipo caixa preta que desenvolvem sua prpria representao do conceito, isto , sua representao interna pode no ser facilmente interpretada por humanos e no fornecem nem esclarecimento, nem explicao do processo de reconhecimento. Sistemas orientados a conhecimento que objetivam a criao de estruturas simblicas que sejam compreensveis por humanos.
1.2 PARADIGMAS DE APRENDIZADO

O aprendizado de mquina pode ser implementado seguindo diferentes paradigmas. Uma das classificaes adotadas separa os paradigmas em: Simblico, Estatstico, Baseado em Exemplos, Conexionista e Gentico (BARANAUSKAS, 2001):
Simblico - Sistemas simblicos de Aprendizado de Mquina podem ser classificados com base na linguagem de representao de exemplos utilizados, de forma simblica. Estes smbolos podem ser representados de forma lgica, seja ela, utilizando rvore de deciso, regras ou rede semntica.
Estatstico - Estudiosos da rea de Estatstica vem desenvolvendo variados mtodos de classificao, tendo uma grande semelhana com sistemas de aprendizado de mquina. Tais estudiosos tm como objetivo utilizar modelos estatsticos para encontrar solues parecidas com a forma indutiva de conhecimento. Alguns autores consideram Redes Neurais e aprendizado Bayesiano, como mtodos estatsticos semi-paramtricos.
Baseado em Exemplos - Uma forma de classificar um exemplo lembrar-se de outro similar cuja classe conhecida e assumir que o novo exemplo ter a mesma classe. Essa filosofia exemplifica os sistemas baseados em exemplos, que classificam exemplos nunca vistos atravs de exemplos similares conhecidos.
15
Conexionista - No aprendizado conexionista baseia-se nos estudos de Redes Neurais, tal sistema similar ao modelo biolgico do sistema nervoso do ser humano. No se procura obter regras como na abordagem simblica da Inteligncia Artificial, mas determinar a intensidade de conexes entre neurnios.
Gentico De acordo com Baranauskas (2001) Um classificador gentico consiste de uma populao de elementos de classificao que competem para fazer a predio. Elementos mais fortes sobrevivem, e os mais fracos so descartados, produzindo variaes de si mesmo. O paradigma gentico esta relacionado diretamente com a teoria de Darwin, na qual sobrevivem os mais bem adaptados ao ambiente.
Por meio dos paradigmas citados, a aprendizagem pode ser classificada em dois tipos: aprendizado supervisionado e aprendizado no supervisionado. Aprendizado supervisionado - Definido tambm como aprendizagem com um professor, passando valores necessrios de entrada ao sistema, como a presena de um elemento externo supervisor que fornece as informaes, ou seja, atravs dessa informao ocorre superviso, onde, o sistema poder verificar a sada, a resposta esperada para que assim verifique o quanto errou durante o processo, para que possa aprender com esse erro (AMBRSIO, 2002). Aprendizado no-supervisionado - Diferente da aprendizagem supervisionada, no depende do elemento (professor) para que possa realizar a superviso para o processo de aprendizagem (AMBRSIO, 2002).
Na Figura 1.1 ilustrado o processo de aprendizagem, aps realizar o aprendizado, sendo supervisionado ou no supervisionado, at chegar classificao, onde, poder se obter resultados, como objetivo principal deste trabalho.
16
Figura 1.1 Hierarquia do aprendizado.
Fonte: Adaptado de MONARD, 2002.
1.3 TCNICAS DE VALIDAO

As tcnicas de validao so fundamentais para que as execues com classificadores, ou seja, o algoritmo em questo possa ocorrer, pois, a maneira de como se validar o mesmo referenciado a essas tcnicas. Dentre as vrias opes de validao disponveis no Software WEKA, foram escolhidas duas tcnicas para validar os testes realizados neste trabalho, validao por Cross-Validation e Leave-One-Out, sendo elas brevemente descritas a seguir: 1.3.1 CROSS-VALIDATION Cross-Validation em r-fold - CV. Os exemplos so aleatoriamente divididos em r parties mutuamente exclusivas (folds) de tamanho aproximadamente igual a n/r exemplos. Os exemplos nos (r-1) folds so usados para treinamento e a hiptese induzida testada no fold diferente para teste. O erro na Cross-Validation a mdia dos erros calculados em cada um dos r folds (MONARD, 2002).
17
1.3.2
LEAVE-ONE-OUT Leave-One-Out um caso especial de Cross-Validation. computacionalmente
dispendioso e frequentemente usado em amostras pequenas. Para uma amostra de tamanho n uma hiptese induzida utilizando (n1) exemplos; a hiptese ento testada no nico exemplo remanescente. Este processo repetido n vezes, cada vez induzindo uma hiptese deixando de considerar um nico exemplo. O erro a soma dos erros em cada teste dividido por n (MONARD, 2002).
18
2 APRENDIZADO DE MQUINA
Aprendizado de Mquina - AM, pertence rea de IA, tem como objetivo principal desenvolver tcnicas computacionais como relao ao aprendizado desenvolver sistemas com a misso de obter conhecimento de forma automtica. Define-se sistema de aprendizado, como um programa de computador, sendo capaz de tomar decises com base de experincias realizadas atravs da soluo bem sucedida de problemas anteriores. Para simplificar o entendimento, aprendizado de mquina, uma tcnica utilizada para obter um novo conhecimento automtico, aplicado em um computador, esse processo utiliza os algoritmos de AM, para realizar o aprendizado de forma computacional (MITCHELL, 1997). Desde a inveno dos computadores, o ser humano teve a curiosidade de saber se a inveno foi feita para aprender, e tambm compreender como os programar para obter um melhor aprendizado sobre o mesmo. Os algoritmos para a aprendizagem de mquina nos auxiliam a uma melhor compreenso como habilidades de aprendizagem humanas (MITCHELL, 1997). Conforme Carvalho (2001) Os algoritmos de aprendizado de mquina so muito interessantes, pois, alm de modelarem bem os dados, permitindo previses e classificaes. Por meio dessa teoria de aprendizagem de mquina sero respondidas perguntas de como ser realizado aprendizagem e o desempenho variando dos treinamentos apresentados, e, se os algoritmos de aprendizagem so os mais apropriados para vrios tipos de formas de aprendizagem, visando saber qual algoritmo teve um melhor desempenho.
2.1 REDES NEURAIS

Pode-se dizer que redes neurais artificiais consistem em um modo de abordar a soluo de problemas de inteligncia artificial. A aprendizagem de uma rede neural artificial ocorre atravs de um processo iterativo de correes e ajustes associados a suas conexes, pelo qual a rede vai aprendendo aos poucos a cada iterao realizada durante o processo de treinamento (AMBRSIO, 2002). Neste caso, ao invs de programar um computador de modo a faz-lo similar a um comportamento humano inteligente como, saber jogar xadrez, compreender e manter um dilogo,
19
resolver problemas matemticos, procura-se construir um sistema computacional que possa modelar circuitos de forma semelhante aos circuitos cerebrais humanos (BARRETO, 2002). Espera-se ver um comportamento inteligente, aprendendo novas tarefas, errando, fazendo generalizaes e descobertas, com caractersticas de um neurnio pertencente ao crebro humano. O algoritmo de treinamento conhecido como backpropagation, responsvel por fazer esses ajustes associados s conexes da rede, sendo a propagao para frente (feed forward) do sinal de entrada e propagao para trs (backpropagation) do erro da sada obtida em relao sada desejada (AMBRSIO, 2002). Da mesma forma, estes circuitos neurais artificiais podero se auto-organizar, quando apresentados em ambientes diversos, criando suas prprias representaes internas e apresentar comportamentos imprevisveis. Neste trabalho utilizou-se duas redes neurais, a rede RBF (Radial Basis Function) aplicada normalmente em pequenas amostras devido a utilizao de funes em base radial, e a rede MLP (Multilayer Perceptron) rede neural de mltiplas camadas. Uma rede MLP possui a camada de entrada, as camadas intermedirias e a camada de sada, uma rede RBF possui apenas uma camada intermediria. Uma rede neural pode ter o treinamento supervisionado e no supervisionado (BARRETO, 2002). Um exemplo de uma rede neural MLP ilustrado na figura 2.1.
Figura 2.1 Redes Neurais.
Fonte: TATIBANA e KAETSU, SD.
20
2.2 RVORES DE DECISO

Dentre os vrios algoritmos utilizados em minerao de dados, destaca-se o algoritmo de rvore de deciso. Pode-se definir e representar uma rvore de deciso graficamente, ou seja, gerando uma estrutura na forma de uma rvore que ajuda na classificao e deciso a serem tomadas (JUSTINO, sd). O algoritmo de classificao por rvores de deciso um algoritmo supervisionado, ou seja, necessrio conhecer todos os registros, as informaes da base de dados utilizadas no treinamento (LPEZ & HERRERO, 2004). O processo de gerao da rvore, realizada pelo algoritmo inicia-se com a definio de quais so os elementos, ou seja, os valores da rvore. A figura 2.2, um exemplo de uma estrutura de uma rvore de deciso. Para um fcil entendimento, a rvore constituda por um conjunto de ns que so conectados por ramificaes, que auxiliam na compreenso dos processos de ligao entre os ns. A estrutura bsica de uma rvore pode ser formada por trs tipos de ns: o n raiz, que representa o inicio da rvore, os ns comuns que dividem um determinado atributo e geram ramificaes e os ns folha que contm as informaes de classificao do algoritmo (PICHILIANI, 2006)..
21
N Raiz
N Comum
N Comum
N Comum
Regra de Deciso
Regra de Deciso
Regra de Deciso
Ns Folhas Classificao
Figura 2.2 rvores de Deciso.
Fonte: Adaptado de BARANAUSKAS, 2002.
2.3 C4.5
O J48 o algoritmo mais conhecido do WEKA. Baseado na implementao do C 4.5 release 8, desenvolvido por Ross Quinlan, que gera uma rvore de deciso baseado em um conjunto de dados de treinamento, sendo que este modelo usado para classificar as instncias no conjunto de teste. A verso mais recente do algoritmo, disponibilizada apenas comercialmente, a C 5.0 (WITTEN & FRANK, 1999).
22
2.4 ZERO RULE (ZEROR)

Este o algoritmo de aprendizagem mais antigos do software WEKA. Consiste em modelar uma base de dados com uma nica regra. Devido a essa caracterstica, o poder de desempenho deste algoritmo inferior aos demais. Para uma base de dados, onde ocorrer uma nova classificao, o algoritmo ZEROR prediz o valor de maior freqncia, nos dados de treinamento. O algoritmo ZEROR pode ser aplicado em problemas com valores nominais ou valor da classe comum para problemas numricos (WITTEN & FRANK, 1999).
2.5 ONE RULE (ONER)

O algoritmo ONER um algoritmo que produz uma regra simples, pois, baseado em um nico atributo, assim como o ZEROR, possui baixo desempenho para os demais, mas, comparando os dois algoritmos, o ONER ao ser aplicado na base de dados de treinamento, consegue obter maior sucesso se referindo porcentagem de acertos. Este algoritmo leva um nico parmetro que o nmero mnimo de exemplos (WITTEN & FRANK, 1999).
2.6 REDE BAYESIANA

Redes Bayesianas um algoritmo de aprendizado supervisionado, baseia-se no teorema de probabilidade de Bayes, tambm conhecido por classificador de Nave Bayes. Tem como objetivo calcular valores de probabilidade como predizer a classe mais provvel, onde se caracteriza como uma classificao estatstica, pois completamente baseada em probabilidades (PICHILIANI, 2006). A rede bayesiana considerada simples ou ingnua, segundo (PICHILIANI, 2006) ela considera que o efeito do valor de um atribudo sobre uma determinada classe independente dos valores dos outros atributos, o que simplifica os clculos envolvidos. O raciocnio Bayesiano fornece uma aproximao probabilstica de inferncia. As decises timas podem ser feitas analisando estas probabilidades junto aos dados utilizados. O raciocnio Bayesiano fornece a base para algoritmos de aprendizagem isso manipula diretamente probabilidades, como uma estrutura para analisar operao de outros algoritmos que no
23
manipulam explicitamente probabilidades. Os mtodos Bayesianos so importantes para nosso estudo de aprendizado de mquina, no qual, fornecem uma perspectiva para compreenso de vrios algoritmos de aprendizagem que no manipulam explicitamente probabilidades (MITCHELL, 1997).
2.7 INTRODUO MINERAO DE DADOS

A Minerao de Dados consiste no do processo de Extrao de Conhecimento de um grande volume de dados. A Extrao de Conhecimento definida por Fayyad et al. (1996) como: KDD (Knowledge Discovery in Databases) se refere ao processo global de descobrir conhecimento til de dados. E minerao de dados se refere a um passo particular neste processo. A minerao de dados a aplicao de algoritmos especficos para extrair padres de dados. O processo da utilizao de tcnicas de minerao de dados (data mining) vem sendo bastante utilizado em diversas reas como finanas, economia, biologia, astronomia, anlise de mercado, diagnsticos, entre outros, mas principalmente o seu crescimento aplicado rea de Cincia da Computao, denominada KDD. O processo de KDD combina tcnicas de aprendizado de mquina, conforme j citado neste trabalho, reconhecimento de padres, estatsticas, banco de dados e visualizao para extrair conhecimento (ou informao) de dados brutos, atravs da tcnica de minerao de dados. Carvalho (2001) define mineirao de dados como o uso de tcnicas automticas de explorao de grandes quantidades de dados de forma a descobrir novos padres e relaes que, devido ao volume de dados, no seriam facilmente descobertos a olho nu pelo ser humano. Destacam-se algoritmos como Redes Neurais, Algoritmos Genticos, baseados em estatsticas e Arvores de Decises. Pode-se dividir esse processo em algumas etapas (FAYYAD et al., 1996): Seleo Processamento Transformao Minerao dos dados Interpretao/Evoluo
24
Os processos dessas etapas esto representados na figura 2.3, refere-se ao processo de preparao e seleo dos dados a serem analisados, padronizando o tipo, formato, e estrutura de tal, neste trabalho ser utilizado dados mdicos. Visa cumprir os objetivos definidos na etapa de identificao do problema, compreende o processo de escolha do algoritmo a ser utilizado para processar as informaes e extrair os padres propriamente ditos, focado na transformao dos dados, representando os padres obtidos no processo da minerao de dados aplicado, obtendo-se a interpretao ou evoluo dos dados para o conhecimento.
Figura 2.3 Processo KDD.
FONTE: FAYYAD et al., 1996.
2.8 WEKA
Para aplicar a tcnica de minerao de dados foi utilizado o software de domnio pblico, um software livre que possui sua licena baseada na GPL (General Public Licence) denominado WEKA (Waikato Environment for Knowledge Analysis), da Universidade de Waikato, Nova Zelndia. O pacote WEKA consiste de uma coleo de algoritmos de aprendizado de mquina para tarefas de minerao de dados. Pode ser usado para aplicar mtodos de aprendizado a um conjunto de dados e analisar a sada para extrair informaes a partir dos dados de entrada. Todos os algoritmos so implementados em Java, tanto novos como aqueles pr-existentes. Por
25
exemplo, o indutor C 4.5, originalmente escrito em linguagem de programao C foi recodificado para linguagem Java, nomeado como J.48 (WITTEN & FRANK, 1999). Assim como os algoritmos contidos no WEKA, o prprio software foi escrito em linguagem Java, uma vez que esta linguagem est disponvel em varias plataformas como Windows, Linux e Macintosh, transformando assim, num software bastante portvel (WITTEN & FRANK, 1999). Neste trabalho ser utilizado o ambiente Explorer do WEKA, para a realizao dos testes, a seguir ser ilustrado imagens dos respectivos ambientes utilizados do software. 2.8.1 AMBIENTE EXPLORER DO WEKA Neste trabalho utilizado o ambiente Explorer do WEKA representada na figura 2.4, para a realizao dos testes, como abertura do arquivo da base de dados com extenso arff, a escolha dos algoritmos para os testes e a validao aplicada a eles, onde, se obter os resultados para a realizao de comparao de desempenho.
26
Figura 2.4 Tela inicial do WEKA.
2.8.2
AMBIENTE EXPLORER - PR-PROCESSO Nesta tela (Figura 2.5), ocorre a abertura do arquivo da base de dados, onde realizada a
identificao dos atributos e instncias da base por completo.
27
Figura 2.5 Tela do Pr-Processo.
2.8.3
AMBIENTE EXPLORER - CLASSIFICAO Aps a abertura da base de dados, utilizado o ambiente de classificao, onde acontece a
escolha do classificador (Figura 2.6), ou seja, o algoritmo a ser executado e a tcnica de validao. Feito as escolhas dos requisitos, inicia-se o processo de execuo, onde ao final do processo o WEKA disponibiliza os resultados em porcentagem de erro e acerto, neste, caso representa os erros e acertos para classificao de certo tipo da doena esperada.
28
Figura 2.6 Tela de Classificao.
2.8.4
ARQUIVO ARRF
O WEKA utiliza arquivos de dados de treinamento, com formato (arff), onde devem ser mostradas quais variveis so permitidas para uma relao especfica, bem como o tipo de dado de cada varivel, isto , nominal ou valor numrico (Tabela 1). Dever conter uma lista de todos os atributos definindo-se o tipo do atributo ou os valores que ele pode representar. Os valores devem estar representados entre chaves {} e separados por vrgulas.
29
Tabela 1 Estrutura do arquivo ARRF.
@relation
Representa o conjunto de dados a ser analisado.
@attribute
Define as caractersticas, ou seja, o tipo de cada varivel. O atributo pode ser do tipo: Nominal Booleano Numrico
@data
a representao dos registros da base de dados. As informaes devem ser colocadas separadas por vrgulas, e cada linha
representa um nico registro.
30
3 DESENVOLVIMENTO PRTICO
O objetivo principal deste trabalho a utilizao de algoritmos de AM, para aplicao em dados mdicos, precisamente em um grupo de patologias classificadas como leses intersticiais pulmonares, obtendo resultados onde ser utilizado para comparao de desempenho entre os mesmos.
3.1 LEVANTAMENTOS DE DADOS

Os dados utilizados foram retirados de (AMBRSIO, 2002), dentre varias doenas que podem ser classificadas no grupo das leses intersticiais pulmonares, totalizando mais de 180 diferentes doenas. Para realizar a escolha de quais seriam utilizadas como exemplo para o desenvolvimento do sistema, contou-se com a ajuda de um mdico especializado na rea, no qual, foram selecionadas as seguintes patologias:
Tabela 2 Relao das patologias investigadas.
Paracoccidioidomicose Fibrose Pulmonar Idioptica (IPF) Tuberculose Miliar Histoplasmose Sarcoidose Silicose Esclerose Sistmica (Escleroderma) Histiocitose X (Granuloma Eosinoflico) Linfangite Carcinomatosa
31
3.2 PARMETROS CLNICOS E RADIOLGICOS

Em seguida, aps a escolha das patologias, tambm atravs do auxlio de um especialista, criou-se os principais parmetros a serem analisados no exame clnico e radiolgico que podem auxiliar no diagnstico diferencial, obtendo-se aos seguintes (AMBRSIO, 2002): a) parmetros clnicos: idade do paciente; sexo; tempo de durao dos sintomas; constatao de estado febril; nvel de imunidade; relato de doena maligna; paciente fumante; relato de tratamentos com drogas; relato de exposio constante poeira; relato de exposio constante a antgenos orgnicos.
b) Parmetros radiolgicos: grau de leses apresentadas na rea superior, nas metades esquerda e direita; grau de leses apresentadas na rea mdia, nas metades esquerda e direita; grau de leses apresentadas na rea inferior, nas metades esquerda e direita; apresentao de padro proximal ou perifrico; homogeneidade das leses apresentadas; apresentao de padro fino ou grosseiro; apresentao de nodularidade; apresentao de linhas septais; apresentao de pulmo em favo de mel; verificao de perda de volume pulmonar; apresentao de linfadenopatia; apresentao de efuso pleural;
32
tamanho cardaco alterado. Com o conjunto de elementos, j bastante reduzidos, e analisados por um especialista, foi realizado a quantificao dos parmetros radiolgicos e o preenchimento do protocolo utilizado como entrada de dados para o sistema.
Figura 3.1 Parmetros Clnicos e Parmetros Radiolgicos.
Fonte: Adaptado de AMBRSIO, 2002.
33
Os dados caracterizados como parmetros clnicos foram obtidos atravs do pronturio do paciente, adaptados e quantificados da seguinte maneira (AMBRSIO, 2002):
a) Idade: idade do paciente, em anos; b) Sexo: sexo do paciente, sendo o valor masc para sexo masculino e fem para sexo feminino; c) Durao dos sintomas: relatado pelo paciente, de 0 a 12 meses (relatos de mais de doze meses foram fixados no valor 12); d) Temperatura: observao de estado febril no momento do exame, sendo classificada com o valor febre, para a constatao de febre e valor normal para temperatura normal; e) Imunidade: valor normal para pacientes com imunidade normal e suprimido para os portadores de doenas do sistema imune; f) Doena maligna: relatado pelo paciente, sendo o valor sim para os pacientes portadores de doena maligna e nao caso contrrio; g) Fumante: relatado pelo paciente, sendo nao para no fumantes e sim para fumantes; h) Tratamento com drogas: pacientes com tratamento por drogas txicas foram classificados com o valor txico, pacientes tratados por drogas pouco txicas receberam o valor pouco_toxico, tratados com drogas no txicas valor nao_toxico, e pacientes que no receberam nenhum tratamento por drogas classificados com o valor nao; i) Exposio poeira: pacientes que relataram exposio constante poeira receberam valor sim, caso contrrio nao; j) Exposio a antgenos orgnicos: tambm relatada pelo paciente, exposio para qualquer tipo de antgeno orgnico recebeu o valor sim, e valor nao caso contrrio.
Os parmetros radiolgicos foram quantificados pelo profissional especializado com base na observao das imagens radiolgicas catalogadas tambm no pronturio do paciente. Essa quantificao foi realizada com valores inteiros no intervalo de 0 a 5 para todos os campos,
34
exceto o tamanho cardaco (intervalo de 1 a 5), sendo dado o valor 0 para a ausncia de leso, e valores maiores para o nvel (ou tamanho) da presena de leso.
3.3 DADOS COLETADOS

Um total de 112 (cento e doze) casos das patologias investigadas, distribudos como: 22 casos de paracoccidioidomicose; 14 casos de histoplasmose; 17 casos de fibrose pulmonar idioptica; 20 casos de tuberculose miliar; 11 casos de sarcoidose; 12 casos de esclerodermia; 5 casos de silicose; 5 casos de histiocitose X; e 6 casos de linfangite carcinomatosa.
3.4 BASE DE DADOS PARA TREINAMENTO E TESTES

Atravs dos dados coletados, criou-se uma base computacional, para a aplicao dos algoritmos. Cada um dos 112 registros dessa base (total de casos coletados) compe-se de uma cadeia de 27 valores para o protocolo de entrada, sendo eles 18 valores numricos e 9 entre nominais e booleanos, representando os 26 campos do protocolo de entrada, mais 1 valor para representar a sada esperada.
Figura 3.2 Exemplo extrado da base de dados.
Fonte: Adaptado de AMBRSIO, 2002.
3.5 RESULTADOS OBTIDOS POR CADA ALGORITMO

A seguir sero ilustrados grficos mostrando o desempenho e tabelas com seus respectivos resultados em porcentagem de acerto e tempo de execuo para cada algoritmo com
35
validao Cross-Validation e Leave-One-Out, sendo que, o algoritmo que obteve o maior desempenho foi a Rede Neural (MLP) e o pior desempenho foi o Zero Rule. 3.5.1 RESULTADOS OBTIDOS - CROSS-VALIDATION Na Tabela 3, obteve-se o resultado em porcentagem de acerto para cada algoritmo com validao Cross-Validation, sendo que, o algoritmo que obteve o maior desempenho foi a Rede Neural (MLP) com 69,70% de acerto, 42,70% de erro absoluto relativo e 12,05 segundos em tempo de execuo e o que obteve o pior desempenho com execuo rpida foi o Zero Rule, com 19,60% de acerto, 100% de erro absoluto relativo e - segundos em tempo de execuo, assim como o algoritmo One Rule 28,60% de acerto, 82,50% de erro absoluto relativo e 0,03 segundos em tempo de execuo, tambm no obteve um bom desempenho de acerto, sendo o penltimo em termos de valor. Destaca-se os algoritmos Rede Neural (RBF) 46,40% de acerto, 61,90% de erro absoluto relativo e 37,8 segundos em tempo de execuo, Rede Bayesiana 57,10% de acerto, 56,99% de erro absoluto relativo e 0,13 segundos em tempo de execuo e o C 4.5 (J.48) 52,70% de acerto, 56,77% de erro absoluto relativo e 0,25 segundos em tempo de execuo, que
obtiveram um bom desempenho. Os valores de desempenho esto representados no grfico da figura 3.3, onde cada algoritmo possui a sua respectiva cor fixada na legenda de cada grfico. Na tabela 3 esto os valores em % de acerto, tabela 4 valores de erro absoluto relativo e os valores de tempo de execuo representados na tabela 5.
Tabela 3 (%) de Acerto com Cross-Validation. Cross-Validation Algoritmos One Rule Zero Rule Rede Neural (MLP) Rede Neural (RBF) Rede Bayesiana C 4.5 (J.48) (%) Acerto 28,60% 19,60% 69,70% 46,40% 57,10% 52,70%
36
80,00% 70,00% 60,00% 50,00% 40,00% 30,00% 20,00% 10,00% 0,00% 28,60% 19,60% 69,70% 57,10% 52,70% 46,40% Algoritmos One Rule Zero Rule Rede Neural (MLP) Rede Neural (RBF) Rede Bayesiana C 4.5 (J.48)
Figura 3.3 Grfico em (%) de Acerto com Cross-Validation. Tabela 4 (%) de Erro Absoluto Relativo com Cross-Validation. Cross-Validation (%) Erro Absoluto Relativo 82,50% 100% 42,70% 61,90% 56,99% 56,77%
Algoritmos One Rule Zero Rule Rede Neural (MLP) Rede Neural (RBF) Rede Bayesiana C 4.5 (J.48)
100,00% 90,00% 80,00% 70,00% 60,00% 50,00% 40,00% 30,00% 20,00% 10,00% 0,00%
100% 82,50% 61,90% 56,99% 56,77% 42,70%

1
Figura 3.4 Grfico em (%) de Erro Absoluto Relativo com Cross-Validation.
37
Tabela 5 (s) Tempo de Execuo com Cross-Validation. Cross-Validation Algoritmos One Rule Zero Rule Rede Neural (MLP) Rede Neural (RBF) Rede Bayesiana C 4.5 (J.48) (s) Tempo de Execuo 0,03 12,05 37,8 0,13 0,25
40 35 30 25 20 15 10 5 0,03 0 12,05
37,8
Algoritmos One Rule Zero Rule Rede Neural (MLP) Rede Neural (RBF) Rede Bayesiana C 4.5 (J.48) 0,13 0,25
Figura 3.5 Grfico em (s) Tempo de Execuo com Cross-Validation.
3.5.2
RESULTADOS OBTIDOS - LEAVE-ONE-OUT Na Tabela 4, obteve-se o resultado em porcentagem de acerto para cada algoritmo com
validao Leave-One-Out, sendo que, o algoritmo que obteve o maior desempenho foi a Rede Neural (MLP) com 70,50% de acerto, 42,64% de erro absoluto relativo e 12,89 segundos em tempo de execuo e o que obteve o pior desempenho com execuo rpida foi o Zero Rule, com 19,60% de acerto, 100% de erro absoluto relativo e - segundos em tempo de execuo, assim como o algoritmo One Rule 24,10% de acerto, 87,10% de erro absoluto relativo e - segundos em tempo de execuo, tambm no obteve um bom desempenho de acerto, sendo o penltimo em termos de valor. Destaca-se os algoritmos Rede Neural (RBF) 48,20% de acerto, 60,10% de erro absoluto relativo e 36,33 segundos em tempo de execuo, Rede Bayesiana 57,10% de acerto,
38
55,13% de erro absoluto relativo e - segundos em tempo de execuo e o C 4.5 (J.48) 50,90% de acerto, 57,33% de erro absoluto relativo e 0,05 segundos em tempo de execuo, que obtiveram um bom desempenho. Os valores de desempenho esto representados no grfico da figura 3.5, onde cada algoritmo possui a sua respectiva cor fixada na legenda de cada grfico. Na tabela 6 esto os valores em % de acerto, tabela 7 valores de erro absoluto relativo e os valores de tempo de execuo representados na tabela 8.
Tabela 6 (%) de Acerto com Leave-One-Out. Leave-One-Out Algoritmos One Rule Zero Rule Rede Neural (MLP) Rede Neural (RBF) Rede Bayesiana C 4.5 (J.48) (%) Acerto 24,10% 19,60% 70,50% 48,20% 57,10% 50,90%
80,00% 70,00% 60,00% 50,00% 40,00% 30,00% 20,00% 10,00% 0,00%
70,50% 57,10% 50,90% 48,20% Algoritmos One Rule Zero Rule Rede Neural (MLP) 24,10% 19,60% Rede Neural (RBF) Rede Bayesiana C 4.5 (J.48)
Figura 3.6 Grfico em (%) de Acerto com Leave-One-Out.
39
Tabela 7 (%) de Erro Absoluto Relativo com Leave-One-Out. Leave-One-Out (%) Erro Absoluto Relativo 87,10% 100% 42,64% 60,10% 55,13% 57,33%
100,00% 90,00% 80,00% 70,00% 60,00% 50,00% 40,00% 30,00% 20,00% 10,00% 0,00%
100% 87,10% Algoritmos 60,10% 55,13% 57,33% 42,64% One Rule Zero Rule Rede Neural (MLP) Rede Neural (RBF) Rede Bayesiana C 4.5 (J.48)
Figura 3.7 Grfico em (%) de Erro Absoluto Relativo com Leave-One-Out.
Tabela 8 (s) Tempo de Execuo com Leave-One-Out. Leave-One-Out Algoritmos One Rule Zero Rule Rede Neural (MLP) Rede Neural (RBF) Rede Bayesiana C 4.5 (J.48) (s) Tempo de Execuo 12,89 36,33 0,05
40
40 35 30 25 20 15 10 5 12,89
36,33
Algoritmos One Rule Zero Rule Rede Neural (MLP) Rede Neural (RBF) Rede Bayesiana C 4.5 (J.48) 0,05
Figura 3.8 Grfico em (s) Tempo de Execuo com Leave-One-Out.
Foram realizados dois testes para cada algoritmo, aplicado por duas validaes, por Cross-Validation e Leave-One-Out, com o objetivo de verificar qual algoritmo vai obter o melhor desempenho com relao porcentagem de erro e acerto, levando em conta o tempo de execuo de cada um. Dentre todos o que obteve o pior desempenho foi o algoritmo ZEROR, resultado j esperado, pois, o algoritmo aplica a base de dados uma nica regra, onde, prediz o valor mais freqente nos dados, sendo assim, resultando em uma porcentagem baixe de acerto. O algoritmo que obteve o maior desempenho foi a rede neural (MLP), com maior porcentagem de acerto. 3.5.3 REDES NEURAIS (MLP) - CROSS-VALIDATION O teste aplicado ao algoritmo de redes neurais com validao de Cross-Validation, com testes realizados com o nmero total de 112 registros obteve o resultado de 78 acertos com porcentagem de 69.6429 % e 34 erros com porcentagem de 30.3571 % de erro. A seguir a matriz resultante gerada pelo algoritmo, representa o nmero de acertos e erros sobre a classificao da doena esperada:
41
Figura 3.9 Matriz confuso Redes Neurais (MLP) Cross-Validation.
3.5.4
REDES NEURAIS (MLP) - LEAVE-ONE-OUT O teste realizado ao algoritmo de redes neurais com validao de Leave-One-Out,
realizados com o nmero total de 112 registros obteve o resultado de 79 acertos com porcentagem de 70.5357 % e 33 erros com porcentagem de 29.4643 % de erro. A seguir a matriz resultante gerada pelo algoritmo, representa o nmero de acertos e erros sobre a classificao da doena esperada:
Figura 3.10 Matriz Confuso Redes Neurais (MLP) Leave-One-Out.
3.5.5
REDES NEURAIS (RBF) - CROSS-VALIDATION O teste realizado ao algoritmo de redes neurais RBF com validao de Cross-Validation,
42
Figura 3.11 Matriz Confuso Redes Neurais (RBF) Cross-Validation.
3.5.6
REDES NEURAIS (RBF) - LEAVE-ONE-OUT O teste realizado ao algoritmo de redes neurais RBF com validao de Leave-One-Out,
Figura 3.12 Matriz Confuso Redes Neurais (RBF) Leave-One-Out.
3.5.7
C4.5 - CROSS - VALIDATION O teste realizado ao algoritmo J.48 com validao de Cross-Validation, realizados com o
nmero total de 112 registros obteve o resultado de 59 acertos com porcentagem de 52.6786% e 53 erros com porcentagem de 47.3214 % de erro. A seguir a matriz resultante gerada pelo algoritmo, representa o nmero de acertos e erros sobre a classificao da doena esperada:
43
Figura 3.13 Matriz Confuso C4.5 Cross-Validation.
3.5.8
C4.5 - LEAVE-ONE-OUT O teste realizado ao algoritmo J.48 com validao de Leave-One-Out, realizados com o
nmero total de 112 registros obteve o resultado de 57 acertos com porcentagem de 50.8929% e 55 erros com porcentagem de 49.1071 % de erro. A seguir a matriz resultante gerada pelo algoritmo, representa o nmero de acertos e erros sobre a classificao da doena esperada:
Figura 3.14 Matriz Confuso C4.5 Leave-One-Out.
3.5.9
ZEROR - CROSS-VALIDATION O teste realizado ao algoritmo ZEROR com validao de Cross-Validation, realizados
com o nmero total de 112 registros obteve o resultado de 22 acertos com porcentagem de 19.6429 % e 90 erros com porcentagem de 80.3571 % de erro. A seguir a matriz resultante gerada pelo algoritmo, representa o nmero de acertos e erros sobre a classificao da doena esperada:
44
Figura 3.15 Matriz Confuso ZEROR Cross-Validation.
3.5.10 ZEROR - LEAVE-ONE-OUT O teste realizado ao algoritmo ZEROR com validao de Leave-One-Out, realizados com o nmero total de 112 registros obteve o mesmo resultado pela validao de Cross-Validation de 22 acertos com porcentagem de 19.6429 % e 90 erros com porcentagem de 80.3571 % de erro. A seguir a matriz resultante gerada pelo algoritmo, representa o nmero de acertos e erros sobre a classificao da doena esperada:
Figura 3.16 Matriz Confuso ZEROR Leave-One-Out.
3.5.11 ONER - CROSS-VALIDATION O teste realizado ao algoritmo ONER com validao de Cross-Validation, realizados com o nmero total de 112 registros obteve o resultado de 32 acertos com porcentagem de 28.5714 % e 80 erros com porcentagem de 71.4286 % de erro. A seguir a matriz resultante gerada pelo algoritmo, representa o nmero de acertos e erros sobre a classificao da doena esperada:
45
Figura 3.17 Matriz Confuso ONER Cross-Validation.
3.5.12 ONER - ONE-LEAVE-OUT O teste realizado ao algoritmo ONER com validao de Leave-One-Out, realizados com o nmero total de 112 registros obteve o resultado de 27 acertos com porcentagem de 24.1071 % e 85 erros com porcentagem de 75.8929 % de erro. A seguir a matriz resultante gerada pelo algoritmo, representa o nmero de acertos e erros sobre a classificao da doena esperada:
Figura 3.18 Matriz Confuso ONE Leave-One-Out.
3.5.13 REDE BAYESIANA - CROSS-VALIDATION O teste realizado pela rede bayesiana com validao de Cross-Validation, realizados com o nmero total de 112 registros obteve o resultado de 64 acertos com porcentagem de 57.1429 % e 48 erros com porcentagem de 42.8571 % de erro. A seguir a matriz resultante gerada pelo algoritmo, representa o nmero de acertos e erros sobre a classificao da doena esperada:
46
Figura 3.19 Matriz Confuso Rede Bayesiana Cross-Validation.
3.5.14 REDE BAYESIANA - LEAVE-ONE-OUT O teste realizado pela rede bayesiana com validao de Leave-One-Out, realizados com o nmero total de 112 registros obteve o mesmo resultado pela validao de Cross-Validation 64 acertos com porcentagem de 57.1429 % e 48 erros com porcentagem de 42.8571 % de erro. A seguir a matriz resultante gerada pelo algoritmo, representa o nmero de acertos e erros sobre a classificao da doena esperada:
Figura 3.20 Matriz Confuso Rede Bayesiana Leave-One-Out.
47
CONCLUSES
Observou-se que o processo de extrao de conhecimento e a utilizao dos algoritmos de aprendizado de mquina para classificao de padres, possuem certa diferenciao entre eles, como resultados aplicado ao desempenho de ambos, variando de algoritmo para algoritmo, levando em conta o paradigma pertencente ao mesmo. Foram realizados estudos tericos sobre cada algoritmo, a fim de se obter um conhecimento sobre cada um com relao ao desempenho, ou seja, a capacidade de classificar uma sada esperada de forma eficaz. Os testes foram iniciados a partir de uma base dados, no qual, foi aplicada ao software WEKA, onde se realizou dois testes para cada algoritmo, com duas validaes Cross-Validation e Leave-One-Out, para a obteno de resultados. O software WEKA por ser uma licena GPL facilitou bastante durante o processo dos testes, contribuiu com a possibilidade de se realizar vrios testes em pouco espao de tempo, e tambm por dar suporte a diversos algoritmos de aprendizagem de mquina. Observando os resultados obtidos pela pesquisa, pode-se concluir que o algoritmo de melhor desempenho como classificador de padres, especificamente para a base de dados trabalhada, foi o de rede neural multicamadas, que teve a maior porcentagem de acerto, bem como o menor erro absoluto relativo. Aps a concluso do algoritmo de maior desempenho, como classificador de padres, observou-se que o mesmo obteve tal desempenho sobre os demais especificamente em uma base dados apenas, porm, os demais algoritmos utilizados no trabalho podem obter melhor desempenho, por exemplo, em duas ou mais base de dados, e tambm em base de dados adaptada para a estrutura prpria de tal algoritmo. Espera-se, com esse trabalho, por meio dos estudos de desempenho realizados com os algoritmos e seus resultados, proporcionar uma fonte para futuras pesquisas na rea. Como proposta de trabalhos futuros, espera-se desenvolver os testes comparativos utilizando-se bases de dados distintas, a fim de comparar o desempenho dos algoritmos em situaes diversas.
48
REFERNCIAS BIBLIOGRFICAS
AMBRSIO, P. E. Redes neurais artificiais no apoio ao diagnstico de leses intersticiais pulmonares. Dissertao (Mestrado). Ribeiro Preto: Faculdade de Filosofia, Cincias e Letras de Ribeiro Preto, Universidade de So Paulo, 2002. BARANAUSKAS, J. A. Extrao Automtica de Conhecimento por Mltiplos Indutores. So Carlos: Instituto de Cincias Matemticas e de Computao, Universidade de So Paulo, 2001. BARRETO, J. M. Introduo Redes Neurais Artificiais. Florianpolis: Laboratrio de Conexionismo e Cincias Cognitivas UFSC - Departamento de Informtica e de Estatstica, 2002. Disponvel em: <http://twiki.im.ufba.br/bin/viewfile/MAT054/TodoMaterial?rev=1.1;filename=REDESNEURAI S.PDF >. Acesso em: 14 ago. 2007. CARVALHO, L. A.V. Datamining: A Mineirao de Dados no Marketing, Medicina, Economia, Engenharia e Administrao. So Paulo: Editora rica Ltda, 2001. FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMITH, P. The KDD process for extracting useful knowledge from volumes of Data. Communications of the ACM, New York, 1996. JUSTINO, G. Induo de rvores de Deciso Difusas. Disponvel em: <http://www.cesblu.br/revista/ver_artigo.php?id=21>. Acesso em: 30 ago. 2007. LPEZ, J. M. M; HERRERO, J. G. Tcnicas de Anlisis de Datos: Aplicaciones Prcticas Utilizando Microsoft Excel Y Weka. Disponivel em: <http://galahad.plg.inf.uc3m.es/~docweb/ad/transparencias/apuntesAnalisisDatos.pdf >. Acesso em: 25 set. 2007. MITCHELL, T. M. Machine Learning. S.l.: McGraw-Hill. 1997. MONARD, M. C.; BARANAUSKAS, J. A. Conceitos sobre Aprendizado de Mquina. Captulo 4. In: REZENDE, S. O. Sistemas Inteligentes: Fundamentos e Aplicaes. Barueri: Manole, 2002. PICHILIANI, M. DataMining na Prtica: rvores de Deciso. Disponvel em: <http://www.imasters.com.br/artigo/5130/sql_server/data_mining_na_pratica_arvores_de_decisa o/> Acesso em: 16 ago. 2007. TATIBANA, C. Y. e KAETSU, D. Y. Disponvel em: <http://www.din.uem.br/ia/neurais/#neural>. Acesso em: 12 jul. 2007. WITTEN, I. H., AND FRANK E. Data Mining: Practical Machine Learning Toolsand Techniques with Java Implementations. San Francisco, 1999.

4082 Algoritimos

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

4082 Algoritimos

Enviado por

Direitos autorais:

Formatos disponíveis

Algoritmos

Centro Universitrio Baro de Mau Curso de Bacharelado em Cincia da Computao

Alisson Patrick Maximino

Ribeiro Preto 2007

Alisson Patrick Maximino

Orientador: Prof. Dr. Paulo Eduardo Ambrsio

Ribeiro Preto 2007

Palavras-chave: Aprendizado de mquina, Algoritmos, Minerao de Dados, Base de Dados, Resultados.

Keywords: Learning Machine, Algorithms, Data Mining, Database, Results.

1.1 A HIERARQUIA DE APRENDIZADO

1.2 PARADIGMAS DE APRENDIZADO

Figura 1.1 Hierarquia do aprendizado.

Fonte: Adaptado de MONARD, 2002.

1.3 TCNICAS DE VALIDAO

LEAVE-ONE-OUT Leave-One-Out um caso especial de Cross-Validation. computacionalmente

2.1 REDES NEURAIS

Figura 2.1 Redes Neurais.

Fonte: TATIBANA e KAETSU, SD.

2.2 RVORES DE DECISO

Figura 2.2 rvores de Deciso.

Fonte: Adaptado de BARANAUSKAS, 2002.

2.4 ZERO RULE (ZEROR)

2.5 ONE RULE (ONER)

2.6 REDE BAYESIANA

2.7 INTRODUO MINERAO DE DADOS

Figura 2.3 Processo KDD.

FONTE: FAYYAD et al., 1996.

Figura 2.4 Tela inicial do WEKA.

identificao dos atributos e instncias da base por completo.

Figura 2.5 Tela do Pr-Processo.

Figura 2.6 Tela de Classificao.

Tabela 1 Estrutura do arquivo ARRF.

Representa o conjunto de dados a ser analisado.

representa um nico registro.

3.1 LEVANTAMENTOS DE DADOS

Tabela 2 Relao das patologias investigadas.

3.2 PARMETROS CLNICOS E RADIOLGICOS

Figura 3.1 Parmetros Clnicos e Parmetros Radiolgicos.

Fonte: Adaptado de AMBRSIO, 2002.

3.3 DADOS COLETADOS

3.4 BASE DE DADOS PARA TREINAMENTO E TESTES

Figura 3.2 Exemplo extrado da base de dados.

Fonte: Adaptado de AMBRSIO, 2002.

3.5 RESULTADOS OBTIDOS POR CADA ALGORITMO

100% 82,50% 61,90% 56,99% 56,77% 42,70%

Figura 3.5 Grfico em (s) Tempo de Execuo com Cross-Validation.

80,00% 70,00% 60,00% 50,00% 40,00% 30,00% 20,00% 10,00% 0,00%

Figura 3.6 Grfico em (%) de Acerto com Leave-One-Out.

Figura 3.7 Grfico em (%) de Erro Absoluto Relativo com Leave-One-Out.

Figura 3.8 Grfico em (s) Tempo de Execuo com Leave-One-Out.

Figura 3.9 Matriz confuso Redes Neurais (MLP) Cross-Validation.

Figura 3.10 Matriz Confuso Redes Neurais (MLP) Leave-One-Out.

Figura 3.11 Matriz Confuso Redes Neurais (RBF) Cross-Validation.

Figura 3.12 Matriz Confuso Redes Neurais (RBF) Leave-One-Out.

Figura 3.13 Matriz Confuso C4.5 Cross-Validation.

Figura 3.14 Matriz Confuso C4.5 Leave-One-Out.

Figura 3.15 Matriz Confuso ZEROR Cross-Validation.

Figura 3.16 Matriz Confuso ZEROR Leave-One-Out.

Figura 3.17 Matriz Confuso ONER Cross-Validation.

Figura 3.18 Matriz Confuso ONE Leave-One-Out.

Figura 3.19 Matriz Confuso Rede Bayesiana Cross-Validation.

Figura 3.20 Matriz Confuso Rede Bayesiana Leave-One-Out.

Você também pode gostar