Você está na página 1de 7

ComparativoEntreAlgoritmosdeClassificaoem

ConjuntosdeDadosTextuaisUsandoWEKA
AdrianoFranciscoKultzak
CursodeTecnologiaemAnliseeDesenvolvimentodeSistemasUniversidade
TecnolgicaFederaldoParan(UTFPR)CampusPontaGrossa
84016210PontaGrossaPRBrasil
adriano_fk@hotmail.com

Abstract. TheimmenseamountoftextavailableontheInternetandstored
todaycanserveasasourceforknowledgeextractionindifferentinformation
areas, benefit that can be increased from the study and development of
knowledge extraction from texts that have as one of its specific areas the
classification of documents for various purposes. Ranking algorithms that
makeuseofmachinelearningarebeingusedtotextclassificationandthis
work search a comparison between some of these algorithms applied to
textualdatasetswithdifferentcharacteristics.
Resumo.Aimensaquantidadedeinformaotextualdisponvelnainternete
armazenada atualmente pode servir como fonte para a extrao de
conhecimentoemdiversasreas,aproveitamentoquepodesermaiorapartir
doestudoedesenvolvimentodaprpriaextraodeconhecimentoemtextos
quetemcomoumadesuasreasespecficasaclassificaodedocumentos
para diversas finalidades. Algoritmos de classificao que fazem uso da
aprendizagemdemquinaestosendoaplicadosnaclassificaodetextose
este trabalho busca um comparativo entre alguns destes algoritmos
implementadosaconjuntosdedadostextuaiscomdiferentescaractersticas.

1.Introduo
A grande quantidade de informao textual disponvel na internet alm de ter o
potencialparaserfontedeconhecimentoemdiversasreascientficasservetambm
comoobjetodeestudoparaaprpriareadadescobertadeconhecimentoemtextosque
tementreseusobjetivosaprimorarastcnicasdeprocessamentodalinguagemnatural
que inclui uso de stop words, seleo de atributos, escolha, desenvolvimento e
aprimoramentodealgoritmosespecficosparatrabalharcomtextos,etc.
Oestudodadescobertadeconhecimentoembancosdedados, segundoRizzi
(2000),podeserutilizadoparadisseminao,quecompreendeoenviodedocumentos
paradeterminadosusuriosdeacordocomasclasses,recuperaodeinformaesque
envolveastarefasdeobtenodedocumentosquepodemserdeinteressedousurioe
para navegao na estrutura de conhecimento atravs da organizao de forma
hierrquica.
Aelaboraodecontedoterico,porexemploaproduodealgoritmosnovos
podeserumatarefadifcilporoutroladoeaatualdisponibilidadetantodeferramentas
completas como o Weka quanto de bases de dados disponveis online tornam a

pesquisaprticanareadadescobertadeconhecimentocadavezmaisinteressanteea
visualizaoderesultadosmotivadora.

2.Classificaodetextos
Aclassificaodetextosatravsdaanlisehumanaocorreacadavezqueselecionamos
oquelemosatravsdocontedo,pormquandoainformaoestpresenteemuma
basededadoscomtamanhoecaractersticasquedificultemaanlisehumana,comoa
basededadosdeumaempresaonderecolhidagrandequantidadedeinformaes,uma
maneira automatizada para classificao de documentos seria fundamental, logo,
construirumaestruturadedadosquepossarepresentarosdocumentos,econstruirum
classificadorquepossaserusadoparapreverascategoriasdeumdocumentocomalta
preciso so os pontoschave para a classificao de textos, BAHARUDIN et al
(2010).
DeacordocomJoachims(1998)oobjetivodaclassificaodetextosseparar
documentosdentrodeumaquantidadeprdefinidadecategorias,podendopertencer
inclusiveamaisdeuma,aapenasumaounenhumacategoriaespecificada.Aoutilizara
aprendizagemdemquinapararealizaratarefadeclassificaodeformaautomticaa
partirdeexemplos,consideramseproblemasdeaprendizagemsupervisionada.
Exemplos prticos da classificao de textos podem ser observados na
identificaodeSpamsporservidoresdeemail,aindexaoautomticadecontedo
preferencialcomonotciaseclassificaodeliteraturaespecficacomoamdica,por
exemplo.

3.Weka
AinterfaceutilizadaparaatarefadeclassificaooWeka(WaikatoEnvironmentfor
KnowledgeAnalysis)umaferramentaparaanlisededadosdesenvolvidaemJavapela
universidadedeWaikatonaNovaZelndia,Bouckaert(2015).
O Weka da suporte a diversas tarefas de minerao de dados, mais
especificamente ao preprocessamento, clusterizao, classificao, regresso,
visualizaoeseleodeatributos,paraaaplicaodastcnicasosdadosdevemestar
disponveisemumnicoarquivooqualpodesercarregadoatravsdevriosformatos.
Oconjuntodedadossercompostoporumnmerofixodeatributosquepodemser
numricos, nominais como no caso deste trabalho, ou outros tipos de atributos
suportadospeloprograma,Arora(2012).
Para aumentar a compatibilidade das bases de dados o Weka oferece a
possibilidade desde trabalhar com um formato prprio que o .arff (Attribute
Relation File Format) at a captao de dados em formato .txt armazenados em
diretrios respectivos as classes que pertencem, Bouckaert (2015). Filtros para
preprocessamentoenovosalgoritmosforamadicionadosaoWekaduranteaevoluode
suas verses e podem tambm ser encontrados em um repositrio no menu de
ferramentas,almdessagrandequantidadederecursosasinterfacesdeusuriofacilitam
oestudoatravs dotratamento separadoentre etapas comoopreprocessamento ea
realizaodaclassificaodeformaindividualcomatelaExploreroucomparativacom
orecursoExperimenter.

4.Metodologia
Tabela1.Detalhesdosconjuntosdedados
Conjuntodedados

Instancias

Atributos

dbworld_bodies

64

4702

dbworld_subjects

64

242

SMSSpamCollection

5574

1833

segment_challenge

1500

20

Composio dos datasets


INTNCIAS

6000

ATRIBUTOS

5000
4000
3000
2000
1000
0
dbworld_bodies

dbworld_subjects

SmsSpam

segment_challenge

Figura1.Grficodevisualizaodarelaoentreinstnciaseatributosdos
conjuntosdedadosestudados.

Oprimeiroconjuntodedadosrepresentaumconjuntode64emailcoletadosde
umnoticirio divididoentre duasclasses announces ofconferenceseeverything
elserepresentadasporbinrio,assimcomoosegundoconjuntoquecompostoapenas
peloassuntodecadaemailporessemotivoseunmerodeatributosmenor,UCI
(2016).
SMSSpamCollection umacoleodemensagensdecelularclassificadasde
forma binaria entre spams e no spams, possui um nmero grande de instncias e
atributoscomparadocomosdemaisconjuntos,UCI(2016).
OconjuntodedadosSegmentChallengeoniconobinriodosapresentados
sendocompostopor7classes,comquantidadedeinstnciasgrandeebaixaquantidade
deatributos,WEISS(2016).
De acordo com Filannino (2011) o conjunto de dados DBWorld email que
possui64instnciasmuitopequenopararealizaodeexperimentoscommtodosde
reamostragem como o Kfold Cross Validation a informao contida em cada
documentomuitoimportanteenecessitasedamaiorquantidadepossvelparaaetapa
detreinamentodoclassificador.Umadasabordagenspossveisnessecasoseriadeixar
apenas umdocumento separadoparatestar eorestante paratreinaroclassificador,
realizandoestaetapaemtodasasamostras,ouseja,umnmerodevezesigualaototal
deamostrasalternandoentretodas.Umaalternativaquandosetempoucosdocumentos
atcnica deBootstrapqueconsisteemaumentar onmerode amostras,gerando

novasatravsdereposio.Damesmaformaafasedetestesaplicadaapenasnos
documentosquenoforamutilizadosnotreinamento,estatcnicasepara63,2%para
treinamento eignorar 36,8%dos documentos originais etorna aestimativa deerro
pessimista, para resolver este problema devemos repetir a medio de preciso do
algoritmoecalcularumamdia,Filannino(2011).
OconjuntodedadosDBWorldemailtevesuaquantidadedeinstnciasdobrada
comautilizaodofiltroResampledoWeka,passandoater128instncias,onmero
derepetiesdaexecuodosalgoritmosfoidefinidocomo10,paraqueosresultados
geradosfossemamdiadasiteraes.
O filtro StringToWordVector foi aplicado ao conjunto de dados SMS Spam
Collectionqueoriginalmentecompostoporstringsefoitransformadoemvetorespara
aclassificao.
Em todos os algoritmos foi aplicado o Filtro de seleo de atributos
InformationGain quecalculaaquantidadedeinformaoquecadaatributorepresenta
para o conjunto, utilizouse o fator de corte 0 assim todos os atributos que no
representamganhodeinformaoforamexcludosdoconjuntodedados.

5.Experimento
As tabelas 2, 3, 4 e 5 apresentam os resultados da aplicao dos algoritmos de
classificao SMO, NaiveBayes, BayesNet, J48, SimpleLogistic e Ibk sobre os
conjuntos de dados. Os resultados apresentados foram obtidos a partir da interface
Experimenter do Weka atravs deCrossValidation com10folds e10iteraes. O
smbolo*indicaqueoWekaidentificoucomosendopiorresultadoeovum
resultadomelhorestatisticamenteemrelaoaoalgoritmousadocomobasequenocaso
oSMO.
Osalgoritmos selecionados representam cincodiferentes abordagens sendoo
SMOumarepresentaodeMquinadevetoresdeSuporte,NaiveBayeseBayesNet
soabordagensBayesiana,oJ48umarvorededeciso,oSimpleLogisticusamodelos
deregressologsticaeoIbkaversodoKNNparaWeka.
Tabela2.ResultadosemDBWorld_bodies
Parmetro

SMO

BayesNet

NaiveBayes

J48

SimpleLogistic

Ibk

Percent_correct

97,21

91,37

88,71

91,84

95,03

89,49

(4.19)

(7.44)*

(8.00)*

(7.64)*

(7.10)

(6.79)*

0,96

0,88

0,85

0,91

0,93

0,85

(0.06)

(0.10)*

(0.10)*

(0.10)

(0.08)

(0.09)*

0,97

0,99

(0.02)

(0.02)

(0.00)

(0.07)

(0.05)

(0.00)

0,98

0,93

0,91

0,93

0,96

0,92

(0.03)

(0.06)*

(0.06)*

(0.06)*

(0.06)

(0.05)*

Precision

Recall

FMeasure

Tabela3.ResultadosemDBWorld_subjects
Parmetro

SMO

BayesNet

NaiveBayes

J48

SimpleLogistic

Ibk

Percent_correct

97,90

96,27

92,16

92,93

95,96

97,73

(4.10)

(5.46)

(5.57)

(7.70)

(5.80)

(4.51)

0,97

0,97

0,97

0,91

0,95

0,99

(0.06)

(0.05)

(0.05)

(0.10)*

(0.08)

(0.03)

0,96

0,96

0,99

0,99

0,97

(0.02)

(0.08)

(0.09)

(0.06)

(0.04)

(0.07)

0,98

0,97

0,96

0,94

0,97

0,98

(0.03)

(0.05)

(0.05)

(0.06)

(0.05)

(0.04)

Precision

Recall

FMeasure

Tabela4.ResultadosemSMSSpamCollection
Parmetro

SMO

BayesNet

NaiveBayes

J48

SimpleLogistic

Ibk

Percent_correct

98,40

98,25

96,88

96,05

98,21

95,27

(0.50)

(0.57)

(0.68)*

(0.82)*

(0.59)

(0.78)*

0,99

0,98

0,98

0,97

0,98

0,95

(0.01)

(0.01)*

(0.01)

(0.01)*

(0.01)

(0.01)*

0,98

0,99

(0.00)

(0.00)

(0.01)*

(0.00)*

(0.00)

(0.00)v

0,99

0,99

0,98

0,98

0,99

0,97

(0.00)

(0.00)

(0.00)*

(0.00)*

(0.00)

(0.00)*

Precision

Recall

FMeasure

Tabela5.ResultadosemSegmentChallenge
Parmetro

SMO

BayesNet

NaiveBayes

J48

SimpleLogistic

Ibk

Percent_correct

91,79

90,52

81,13

95,67

95,21

96,68

(2.07)

(2.18)

(2.36)*

(1.90)v

(1.47)v

(1.20)v

0,96

0,78

0,97

0,98

0,99

(0.01)

(0.04)*

(0.07)*

(0.05)

(0.03)

(0.02)

0,98

0,95

0,96

0,97

0,99

0,99

(0.03)

(0.05)

(0.04)

(0.04)

(0.02)

(0.03)

0,99

0,95

0,86

0,97

0,99

0,99

(0.02)

(0.03)*

(0.05)*

(0.03)

(0.02)

(0.02)

Precision

Recall

FMeasure

Porcentagem de documentos
classificados corretamente
dbworld_bodies

dbworld_subjects

SmsSpam

segment_challenge

120
100
80
60
40
20
0
SMO

BayesNet NaiveBayes

J48

SimpleLogistic

IBK

Figura2.Grficodeporcentagemcorretadasinstnciasclassificadasemcadaconjunto
dedadosdeacordocomosalgoritmos.

6.Concluses
NotaseumcomportamentomaislinearnoconjuntodedadosSMSSpamcommaior
nmero de instncias e segunda maior quantidade de atributos entre os conjuntos
utilizados,obtendomelhorclassificaoemquasetodososalgoritmos.
Asmaioresvariaesocorreramnoconjunto SegmentChallenge quepossuio
menornmerodeatributoscomparadoaosdemais,obtendoopiorresultadorelativoa
percentagemdearquivosclassificadoscorretamentecomoalgoritmo NaiveBayeseo
segundomelhorresultadoparaoalgoritmoIbk.
Quantoaosalgoritmosutilizados,oSimpleLogisticfoioqueteveosresultados
maisprximosentresi,independentementedabasededadosclassificada.Osresultados
maisesparsossoosdoNaiveBayes.
Apesar da quantidade pequena de amostras representar um obstculo
classificao de textos, recursos como o bootstrapping podem ser utilizados para
performaratarefa.Oqueficaevidenciadonosresultadosdostestesqueapesarda
disparidade entre aquantidade de instncias e atributos dos conjuntos dedados, os
resultadoscomoporcentagemcorretaacabamsendoquasetoeficientesparapoucas
instnciasquantoparamuitasquandousadosdeterminadosalgoritmos.
Explorarosrecursosdaaprendizagemdemquinaassociadosdescobertade
conhecimento em conjuntos de dados compostos por textos acaba auxiliando
mutuamenteessasduasreasdeformaprticaqueconstituielementoessencialparaa
motivaodapesquisaapartirdomomentoqueresultadosobservveisaparecem.

6.1TrabalhosFuturos
Otratamentoespecficodeconjuntosdedadostextuaiscomquantidadedeinstncias
reduzidaspodeserfrutodepesquisasmaisavanadas,tantoporestetipodebasede
dadosserdisponvelemgrandequantidade,quantopelofatodenosertorelevante
estatisticamenteapesquisasobreapenasumconjuntoreduzido,necessitandoassimde
mais informao para constatar qual tratamento realmente eficiente durante a
classificaodestetipodebasededados.
Aoseremcomparadosbasesdedadoscomcaractersticas diferentes,podese
observar quais algoritmos no sofrem tanta interferncia relacionada ao nmero de
instnciaseatributos.Ascaractersticasdestesalgoritmospodemserestudadasparaque
possam ser produzidas ferramentas de classificao com menor especificidade que
classifiquemconjuntosvariadoscommaioreficinciaesemdisparidadederesultados.

Referncias
UCI

Machine

Learning

Repository.
http://archive.ics.uci.edu/ml/datasets.html,Maro/2016.

Disponvel:

WEISS,GaryM. Disponvel:http://storm.cis.fordham.edu/~gweiss/datamining/weka
data/segmentchallenge.arff,Maro/2016.
Bouckaert,RemcoR.,etal."WEKAmanualforversion3713."(2015).
Rizzi,C.,Wives,L.K.,Oliveira,J.,&Engel,P.(2000,Novembro).Fazendousoda
categorizaodetextosematividadesempresariais.InInternationalSymposiumon
KnowledgeManagement/DocumentManagement(ISKM/DM2000),III.
BAHARUDIN, B., Lee, L. H., & Khan, K. (2010). A review of machine learning
algorithms for textdocuments classification. Journal of advances in information
technology,1(1),420.
Filannino,Michele."DBWorldemailclassificationusingaverysmallcorpus."The
UniversityofManchester(2011).
Arora,Rohit."Comparativeanalysisofclassificationalgorithmsondifferentdatasets
usingWEKA."InternationalJournalofComputerApplications54.13(2012).
Joachims,Thorsten.Textcategorizationwithsupportvectormachines:Learningwith
manyrelevantfeatures.SpringerBerlinHeidelberg,(1998).