Você está na página 1de 12

ANLISE DOS ALGORITMOS DE MINERAO J48 E APRIORI

APLICADOS NA DETECO DE INDICADORES DA QUALIDADE


DE VIDA E SADE
LIBRELOTTO, Solange Rubert1; MOZZAQUATRO, Patricia Mariotto2
Resumo
O crescente avano e evoluo da tecnologia da informao possibilitou que grandes volumes
de dados pudessem ser armazenados e processados mais rapidamente, com maior preciso. A
Minerao de Dados (MD) pode ser vista como uma tcnica para auxiliar nos processos de
extrao e busca das informaes, permitindo um tratamento individualizado dos dados,
tornando possvel o conhecimento de caractersticas e preferncias dos usurios. Frente a isso,
surgem tcnicas e ferramentas de Minerao de Dados, que esto sendo, cada vez mais,
empregadas em organizaes e pesquisadas em ambiente acadmico, pois oferecem, de forma
rpida, uma alternativa para a gerao de informaes e produo do conhecimento. Este
artigo apresentou um estudo sobre as tcnicas de Minerao de Dados (MD), como associao
e classificao aplicadas na identificao e classificao de indicadores de sade, a fim de
gerar um perfil de usurio. O objetivo foi implementar os algoritmos J48 e Apriori,
comparando e medindo sua eficincia na classificao de informaes em banco de dados.
Com a pesquisa desenvolvida constatou-se que a tcnica de classificao apresentou melhor
desempenho na identificao e gerao de perfis de usurios similares em uma base de dados.
Palavras-chave: Minerao de Dados, Apriori, J48
Abstract
The increasing advancement and evolution of information technology has enabled the storage
and processing of large volumes of data, with greater accuracy. Data Mining (DM) can be
seen as a technique to assist in the extraction processes and search of information, allowing an
individualized treatment of the data, making it possible the knowledge of characteristics and
preferences of users. Taking it into account, new techniques and tools for data mining arise
and are being increasingly employed in organizations and are becoming the focus of research
in the academic environment, since they offer a quick alternative for the generation of
information and knowledge production. This paper presented a study on Data Mining (DM)
techniques, like association and classification, applied in the identification and classification
of health indicators, aiming to generate a user profile. The main goal was to implement
algorithms J48 and Apriori, comparing and measuring their efficiency in the classification of
information in a database. The research pointed out to the conclusion that the classification
technique showed better performance in the identification and generation of similar users
profiles in a database.

1
2

Graduao em Andamento em Cincia da Computao pela Universidade de Cruz Alta (Unicruz).


Mestre em Cincia da Computao pela Universidade Federal de Santa Maria.

Revista Interdisciplinar de Ensino, Pesquisa e Extenso, vol.1 n1


26

Key Words: Data Mining. Apriori. J48.


Introduo
O crescente avano e evoluo da tecnologia da informao possibilitou que grandes
volumes de dados pudessem ser armazenados e processados mais rapidamente, com uma
maior preciso (SANTOS, 2002).
Atualmente, a questo est focada na competncia de anlise desses dados, de forma
a extrair informaes teis, como descrito por (TARGA, 2002). Neste contexto, cada vez mais
se fazem necessrias novas formas de entender a quantidade (volume) de dados. Frente a isso,
surgem tcnicas e ferramentas de minerao de dados, que esto sendo cada vez mais
empregadas em organizaes e pesquisadas em ambiente acadmico (MOZZAQUATRO,
2006), pois oferecem, de forma rpida, uma alternativa para a gerao de informaes e
produo do conhecimento.
Este artigo parte integrante do Trabalho de Concluso de Curso onde foram
estudadas as tcnicas de associao e classificao a serem aplicadas na identificao e
classificao de indicadores de sade a fim de gerar um perfil de usurio. A tcnica de
associao visa classificar um padro de itens em uma base de dados de uma aplicao que
ocorre com uma certa frequncia (TARGA, 2002). Um dos algoritmos mais referenciados
para realizar a tarefa de associao o Apriori, utilizado no trabalho proposto. Ele avalia e
retorna associaes relevantes entre os itens, segundo critrios de suporte e confiana
(ROMO, 2002).
A tcnica de classificao uma das tarefas mais estudadas pela comunidade
cientfica de Knowledge Discovery in Database (KDD). O princpio da tarefa de classificao
descobrir algum relacionamento entre os atributos preditivos e o atributo meta, de modo a
descobrir um padro que possa ser utilizado para previses.
Dessa forma, esta pesquisa tem o objetivo de implementar os algoritmos J48 e
Apriori integrantes das duas tcnicas de minerao de dados, classificao e regras de
associao aplicadas na identificao e classificao de indicadores de sade, gerando, assim,
perfis de usurios.

Revista Interdisciplinar de Ensino, Pesquisa e Extenso, vol.1 n1


27

Descoberta de Conhecimento em Base de Dados


A minerao de dados uma etapa do KDD que auxilia as empresas na anlise das
informaes contidas em suas bases de dados. As informaes descobertas sero utilizadas
para ajudar na tomada de deciso, otimizando os processos e retornando de forma eficiente a
informao para que se possa definir a estratgia mais adequada ao mercado e clientes. O
KDD uma tcnica que possibilita analisar grandes conjuntos de dados, utilizando mtodos
aproximados (COLLAZO; BARRETO, 2003).
O autor CARVALHO (1999) mostra a abrangncia do KDD ao afirmar que
interdisciplinar e envolve diversas reas, entre elas estatstica e matemtica, banco de dados,
sistemas especialistas e reconhecimento de padres. O processo KDD combina tcnicas,
mtodos e algoritmos de todas as reas com o objetivo principal de extrair conhecimento, a
partir de grandes bases de dados (CARVALHO, 1999).
As Etapas da Descoberta de Conhecimento (KDD) na seleo de dados, definido o
domnio sobre o qual se pretende executar o processo de descoberta; o prximo passo
selecionar e coletar o conjunto de dados ou variveis necessrias para representar o domnio.
Na etapa de seleo de dados pode ser necessrio integrar e compatibilizar as bases de dados.
Na etapa do pr-processamento e limpeza acontece a atividade de limpeza de dados,
da etapa de pr-processamento, as informaes consideradas desnecessrias so removidas.
Adotam-se estratgias para manusear dados faltantes ou inconsistentes (REFAAT, 2007).
A fase de pr-processamento tem como objetivo consolidar e trabalhar com as
informaes relevantes, buscando reduzir a complexidade do problema. Este objetivo
alcanado fazendo uma seleo para escolher apenas atributos relevantes de um conjunto de
atributos do banco de dados, onde as escolhas destes subconjuntos estaro disponveis para
serem usados no algoritmo do KDD, de acordo com a finalidade proposta. Uma motivao
para esta seleo otimizar o tempo de processamento do algoritmo, visto que ele apenas
trabalhar com um subconjunto de atributos, diminuindo o seu espao de busca e fazendo com
que a velocidade dos algoritmos seja maior (BATISTA, 2003).
Na etapa de transformao, aps a fase de pr-processamento, em que nem todos os
dados presentes em um banco de dados so informativos ou teis em um processo de
aquisio de conhecimento e nem sempre esto em um formato adequado para os algoritmos
os utilizarem, torna-se necessrio que esses dados sejam transformados (MACHADO, 2002).

Revista Interdisciplinar de Ensino, Pesquisa e Extenso, vol.1 n1


28

O motivo da transformao dos dados superar quaisquer limitaes existentes nos


algoritmos empregados para extrao de padres, que dependem dos algoritmos utilizados na
fase de minerao de dados. Existem alguns tipos de transformaes mais comuns, como:
normalizao, discretizao (que transforma um atributo contnuo da base de dados em um
atributo discreto) de atributos quantitativos, transformaes de atributos qualitativos em
quantidades, entre outros (WIVES, 1998).
A fase da minerao de dados considerada como a principal etapa no processo de
KDD, onde realizada a extrao e a descoberta de padres propriamente dita. A minerao
de dados envolve um conjunto de tcnicas e ferramentas computacionais usadas para a
identificao desses padres (conhecimentos) embutidos em grandes massas de dados.
Os algoritmos so aplicados para extrair padres dos dados, ou gerar regras que
descrevam o comportamento da base de dados (BERRY, 1997).

Minerao de Dados
Minerao de Dados a explorao e a anlise, por meio automtico ou
semiautomtico, de grandes quantidades de dados, a fim de descobrir padres e regras
significativas (BERRY e LINOFF, 1997).
O processo de Minerao de Dados baseia-se na interao entre vrias classes de
usurios, e grande parte do seu sucesso depende dessa interao. Existem trs classes
diferentes nas quais podem ser divididos os usurios deste processo: especialista do domnio,
que deve oferecer apoio para a execuo do processo e possuir grande conhecimento do
domnio da aplicao; analista, que deve conhecer profundamente todas as etapas que fazem
parte do processo e o usurio especialista no processo de extrao de conhecimento; e o
usurio final, que utiliza o conhecimento obtido no processo para a tomada de deciso
(REZENDE, 2005). Os principais objetivos da minerao de dados so: descobrir
relacionamentos entre dados e fornecer subsdios para que possa ser feita uma previso de
tendncias futuras, baseada no passado.
A Minerao de Dados utilizada nas mais diversas reas, desde a descoberta de
pesos de atributos em um sistema de raciocnio baseado em casos, conforme (SILVEIRA,
2003).

Revista Interdisciplinar de Ensino, Pesquisa e Extenso, vol.1 n1


29

Tcnica de Classificao
Conforme os autores WEISS e INDURKHYA (1998) explicam que classificao o
processo de encontrar um conjunto de modelos que descrevem e distinguem classes, com o
propsito de utilizar o modelo final (refinado) para predizer a classe de objetos que ainda no
foram classificados. O modelo construdo baseia-se na anlise prvia de um conjunto de
dados de amostragem ou dados de treinamento, contendo objetos corretamente classificados.
A classificao consiste na predio de um valor categrico, como, por exemplo, predizer a
cobertura ou no de uma classe de defeitos. Na regresso, o atributo a ser predito consiste em
um valor contnuo como, por exemplo, predizer a porcentagem de cobertura para um
determinado critrio de teste.
O algoritmo J48 surgiu da necessidade de recodificar o algoritmo C4.5, que,
originalmente, escrito na linguagem C, para a linguagem Java (WITTEN, et al., 2005). Ele
tem a finalidade de gerar uma rvore de deciso baseada em um conjunto de dados de
treinamento, sendo este modelo usado para classificar as instncias no conjunto de teste.
Um dos aspectos para a grande utilizao do algoritmo J48 pelos especialistas em
Data Mining que o mesmo se mostra adequado para os procedimentos, envolvendo as
variveis (dados) qualitativas contnuas e discretas presentes nas bases de dados. O algoritmo
J48, proposto por QUINLAN (1993), considerado o que apresenta o melhor resultado na
montagem de rvores de deciso, a partir de um conjunto de dados de treinamento. Para a
montagem da rvore, o algoritmo J48 utiliza a abordagem de dividir-para-conquistar, onde
um problema complexo decomposto em subproblemas mais simples, aplicando
recursivamente a mesma estratgia a cada subproblema, dividindo o espao definido pelos
atributos em subespaos, associando-se a eles uma classe (WITTEN E FRANK, 2005).

Regras de Associao
A minerao de regras de associao pode ser vista como uma das mais importantes
tarefas de minerao de dados. O desafio de encontrar regras de associao, no contexto de
bases de dados, foi inicialmente exposto em (AGRAWAL et.al, 1993) e consiste na busca por
padres associativos que indiquem o relacionamento entre conjuntos de itens.
O algoritmo Apriori foi proposto por (AGRAWAL, IMIELINKSYI & SWAMI,
1993), e o algoritmo mais utilizado para descobrir regras de associao. Para isto, o

Revista Interdisciplinar de Ensino, Pesquisa e Extenso, vol.1 n1


30

algoritmo Apriori executa mltiplas passagens sobre o banco de dados de transaes, e


capaz de trabalhar com um nmero grande de atributos, obtendo como resultado, vrias
alternativas combinatrias entre eles, a partir da realizao de buscas sucessivas em toda a
base de dados e, apesar disso, os autores apontam o timo desempenho em termos de
processamento desse algoritmo.
O motivo da realizao das buscas sucessivas na base de dados d-se pelo fato de o
algoritmo utilizar um mtodo com o mesmo raciocnio da tcnica dividir-para-conquistar,
com o objetivo de encontrar regras de associao para todas as expresses possveis,
executando um procedimento de induo de regras para todas as combinaes possveis de
atributos. As regras de associao obtidas atravs da induo so do tipo X_antecedente _
Y_consequente, sendo consideradas apenas as que forem classificadas como relevante pelo
algoritmo (MADUELL, 2007).

Metodologia
O trabalho desenvolvido rene caractersticas qualitativa e quantitativa em sua
trajetria metodolgica, (MINAYO, 2010). As etapas da pesquisa so as que seguem:
Levantamento Bibliogrfico (Estudo sobre as tcnicas de Minerao de Dados Classificao e
Associao; Anlise e estudo sobre o funcionamento dos algoritmos J48 e Apriori; Pesquisa e
anlise sobre linguagens de programao com suporte a implementao dos algoritmos
citados, como tambm estudo sobre a ferramenta Weka; Projeto lgico da implementao
necessria para o desenvolvimento do ambiente experimental) e Desenvolvimento prtico
(Obter informaes sobre os requisitos de hardware e software para a extrao e validao dos
dados nos testes com os algoritmos; Criao da base de dados utilizando MYSQL;
Implementao dos algoritmos de classificao e associao: J48 e Apriori; Gerao de perfis
de usurios aplicando as tcnicas de classificao e associao na identificao e classificao
de indicadores de sade; Anlise dos resultados das tcnicas j citadas e desenvolvimento de
um estudo comparativo, apresentando aquele algoritmo que demonstrou melhor desempenho
na identificao e classificao de indicadores de sade, gerando perfis de usurios.
Conforme ilustra a Figura 1 (Diagrama de Casos de Uso) no primeiro momento o
usurio ir acessar o sistema. Aps ser realizado o clculo do IMC (ndice de Massa
Corporal), para isso dever ser informado o peso e a altura. Para gerao do perfil com o

Revista Interdisciplinar de Ensino, Pesquisa e Extenso, vol.1 n1


31

resultado j obtido do IMC devero ser apresentados a presso arterial sistlica, presso
arterial diastlica e circunferncia da cintura. O perfil poder ser normal, pequeno risco,
mdio risco e grande risco.

Figura 1 Caso de Uso geral


O processo de classificao dos dados acontece da seguinte forma: O sistema
apresenta na primeira etapa a base de dados, local onde ficam armazenadas todas as
informaes dos usurios. Aps ocorreu a etapa da seleo dos dados (pr-processamento).
Com os dados j processados (transformao) aconteceu a implementao da tcnica de
classificao. Nesta etapa foi implementado o algoritmo J48. Aps testou-se a segunda
tcnica, associao implementando o algoritmo Apriori. Finalizando o processo aplicou-se o a
ferramenta weka para a visualizao dos perfis de usurios.
Os recursos utilizados no trabalho proposto foram de hardware utilizando notebook
Dell Inspiron 2.50 GHz. E os recursos de software foi o software weka, o banco de dados
MySQL e a linguagem de programao PHP.
Conforme ilustra a Figura 2, no primeiro momento para gerao do perfil geral o
usurio ter que acessar o link IMC, fornecer os dados para assim dar continuidade ao
processo de gerao do seu perfil.

Revista Interdisciplinar de Ensino, Pesquisa e Extenso, vol.1 n1


32

Figura 2- Perfil Geral e parmetro

Ainda na figura 2 (parmetro) ilustrado o perfil de um usurio grande risco, ou seja


foi calculado seu IMC e perfil geral. Um perfil grande risco envolveu uma pontuao de 20.8.
Este perfil avaliado pelos indicadores: o somatrio IMC, Presso Arterial Sistlica, Presso
Arterial Diastlica e Circunferncia da Cintura apresentam um parmetro de 16 pontos.

Resultados
Para a visualizao dos resultados foi utilizada a ferramenta weka, integrada ao
sistema. Aps a implementao do sistema, a base de dados foi integrada ao software Weka a
fim de obter a visualizao em forma grfica.
Em um primeiro momento avaliou-se o algoritmo J48, por meio da aplicao da
regra de use training set . Foi selecionado um conjunto de treinamento e dividido em duas
partes: cerca de sessenta (60) por cento dos dados utilizados para criar o modelo Aps, para
testar a exatido do algoritmo foi aplicada a regra supplied test set com os dados restantes de
cerca de 40 por cento, colocando-os em um conjunto de testes. Conforme ilustra a Figura 3 o
algoritmo de classificao apresentou como Correctly Classified Instances (instancias
classificadas corretamente) (85,6115%) e s Incorrectly Classified Instances (14,3885%).
Apresentou um erro mdio de 0,0911 em um nmero total de instancias (139). Baseando-se
na taxa de correteza de 85,61%, pode-se constatar que atravs de uma anlise inicial ,esse
um modelo muito bom.

Revista Interdisciplinar de Ensino, Pesquisa e Extenso, vol.1 n1


33

139
140
120
100

85,6115

80
60
40
14,3885

20

0,2411

0,0911

0
Instancias
corretas

Instancias
incorretas

Erro mdio Raiz do erro


mdio

Total

Figura 3 Avaliao do algoritmo J48


Aps, avaliou-se o algoritmo Apriori. A Figura 4 apresenta os maiores graus de
confiana gerados aps a aplicao do algoritmo Apriori. Em um total de 139 instncias
classificadas gerou-se as 10 melhores regras, assim sendo 6 das regras demonstraram grau de
confiana 100%, 2 regras grau de confiana 98%, 1 regra com grau de confiana 97%, 2
regras grau de confiana 96%. Deve-se ressaltar que foi gerada a etapa de treinamento e a
etapa de teste a fim de comprovar a veracidade do algoritmo.

Grau de confiana gerado com a aplicao


do algoritmo Apriori
160
140
120
100
80
60
40
20
0

139
83
56

Modelo Treinamento
9 10 6

0 0 2

1 0 0

0 0 2

Modelo Teste
Total

Figura 4- Avaliao do algoritmo Apriori

Revista Interdisciplinar de Ensino, Pesquisa e Extenso, vol.1 n1


34

A Figura 5 ilustra o comparativo entre os algoritmos J48 e Apriori, constatou-se que


algoritmo J48 apresentou o grau de correteza 91,61% enquanto o Apriori apresentou 80% de
correteza. Ocorreu um diferencial de 11,61% apontando o algoritmo J48 como o mais eficaz
para o objetivo proposto.

Comparativo entre os Algoritmos J48 e


Apriori
Desempenho

100,00%
80,00%
60,00%
40,00%

91,61%

80%

J48
Apriori

20,00%
8,37%
0,00%
J48
Apriori

20%

Grau Correteza

Grau Incorreteza

91,61%

8,37%

80%

20%

Figura 5 Comparativo entre o algoritmo J48 e Apriori


Concluso
O artigo proposto objetivou definir a tcnica de minerao de dados mais eficiente na
identificao e classificao de indicadores de sade, gerando, assim, perfis de usurios
diferenciados.
Foi implementado um sistema computacional que identifica perfis de usurios
classificando-os conforme o indicadores de sade. Assim, foram implementados os
algoritmos J48 e Apriori. Com os testes comprovou-se que o algoritmo J48 com diferencial de
11,61% destacou-se como o mais eficaz na classificao e gerao de perfil. Inicialmente a
hiptese gerada seria que o algoritmo Apriori seria o melhor. Ressalta-se a contribuio
cientfica deste artigo aplicando na prtica dois algoritmos apresentando resultados validados.
O resultado gerado pelo algoritmo J48 justifica-se devido ao mesmo mostrar-se
adequado para os procedimentos deste artigo, envolvendo as variveis (dados) qualitativas
contnuas e discretas presentes na base de dados. Ainda o algoritmo J48 utiliza a abordagem

Revista Interdisciplinar de Ensino, Pesquisa e Extenso, vol.1 n1


35

de dividir-para-conquistar, onde um problema complexo decomposto em subproblemas


mais simples, aplicando recursivamente a mesma estratgia a cada subproblema, dividindo o
espao definido pelos atributos em subespaos, associando-se a eles uma classe.

Referncias
AGRAWAL, Rakesh; IMIELINSKI, T.; SWAMI, A. Mining Association Rules between
Sets of Items in Large Databases. SIGMOD , Washington,USA, 1993.
BATISTA, Gustavo Enrique de Almeida Prado Alves. Pr-processamento em aprendizado
de
mquina
supervisionado.
2003.
Disponvel
em:
<http://www.teses.usp.br/teses/disponiveis/55/55134/tde-06102003160219/publico/TeseDoutorado.pdf>. Acesso em: 21 set. 2012.
BERRY, M. J. A.; LINOFF, G. Data Mining Tehniques for marketing, sales,
andcustomer support. United States: Wiley Computer Publishing, 1997.
COLLAZO, K.; BARRETO, J. KDD ferramenta para analise de dados epidemiolgico.
Anais do III Congresso Brasileiro de Computao Workshop de Informtica aplicada
Sade-CBXOMP2003, Itaja, p.2226, 1003. Acessado em: 01 maio, 20012 (MADUELL,
2007.
MACHADO, Letcia Santos. Minerao do Uso da Web na Educao a Distncia:
Propostas para a Conduo de um Processo a partir de um Estudo de Caso. Dissertao
em Cincia da Computao. Pontifcia Universidade Catlica do Rio Grande do Sul. Porto
Alegre.2002. Disponvel em:.
<http://www.
pucrs.br/uni/poa/info/pos/dissertacoes/arquivos/leticiam.pdf>. Acesso em: 10 mai. 2012.
MINAYO, Maria Ceclia de Souza. Pesquisa social: teoria, mtodo e criatividade. 29. ed.
Petrpolis, RJ: Vozes, 2010.
MOZZAQUATRO, Patricia Mariotto. Estudo da Aquisio e Modelos de Perfil de
Usurios da Biblioteca Digital Acadmica. Trabalho de Concluso de Curso em Sistemas
de Informao. Universidade Luterana do Brasil, Cachoeira do Sul, 2006.
QUINLAN, J. R.; C4.5: Programs for machine learning. Morgan Kaufmann PublishersInc.,
San Francisco, CA, USA, 1993.
REFAAT, M.Data Preparation for Data Mining Usisg SAS. So Francisco:Elsevier, 2007.
REZENDE, Solange Oliveira. Minerao de Dados. In: XXV Congresso da Sociedade

Revista Interdisciplinar de Ensino, Pesquisa e Extenso, vol.1 n1


36

Brasileira de Computao, 2005. Anais do XXV Congresso da Sociedade


Computao. So Leopoldo: SBC, 2005.

Brasileira de

ROMO, W. Descoberta de conhecimento relevante em banco de dados sobre cincia e


tecnologia. Tese em Engenharia de Produo . Universidade Federal de Santa Catarina,
Florianpolis, 2002.
SANTOS, M.A.M. Extraindo Regras a partir de Textos. Pontifcia Universidade Catlica
do Paran. 2002.
SILVEIRA, Rosemari de Freitas. Minerao de Dados Aplicada Definio de ndices em
Sistemas de Raciocnio Baseado em Casos. Porto Alegre: CPGCC da UFRGS, 2003.
TARGA, C. N. Minerao Eficiente de Regras de Associao atravs da Indexao de
Conjuntos Candidatos. Dissertao de Mestrado em Cincia da Computao, Universidade
Federal Fluminense, 2002.
WEISS, S. M.; INDURKHYA N. Predictive Data Mining: A Practical Guide. Morgan
Kaufmann, San Francisco, CA, USA, 1998.
WITTEN, I. H.; FRANK, E. Data mining: practical machine learning tools and
techniques. 2 ed. San Francisco: Morgan Kaufmann Publishers, 2005.
WIVES, L..K. Um Estudo sobre Agrupamento de Documentos Textuais em
Processamento de Informaes no Estruturadas Usando Tcnicas de"Clustering".
Dissertao de Mestrado em Cincia da Computao, UFRGS. Porto Alegre, 1998.

Revista Interdisciplinar de Ensino, Pesquisa e Extenso, vol.1 n1


37

Você também pode gostar