Escolar Documentos
Profissional Documentos
Cultura Documentos
n
c
i
a
5.4.Comentrios gerais sobre a avaliao das descobertas e validao dos resultados.
Procurando traar uma comparao entre os mtodos classificadores, pode-se afirmar
que o uso de stemming e de stop words, em ambos, contribuiu para que melhores resultados
fossem obtidos. Outro ponto observado foi com relao reduo do nmero de palavras,
apresentando valores mais satisfatrios tanto para o mtodo linear como para o nbayes.
O linear apresentou melhores resultados (Grfico 02), comparado ao nbayes,
considerando os valores 200, 500 e 2000 atribudos aos termos em cada execuo, com
stemming e com stop words.
Grfico 02: Mtodo linear - Documentos versus Preciso
75
100 100 100 100
85
100 100
85
100 100
42
40
62
60
50
46
31
0
10
20
30
40
50
60
70
80
90
100
P
r
e
c
i
s
o200 Documentos
500 Documentos
2000 Documentos
Com respeito ao k-means, foi observado que o uso do stemming e stop words levou a
se ter melhores resultados. Ao se diminuir o nmero de termos, em geral, houve um aumento
da quantidade de clusters e a diminuio da distncia. Ou seja, foi obtida maior qualidade ou
9
similaridade entre os clusters. Por outro lado, aumentando o nmero de termos e usando o
feature-type binrio, o valor da distncia melhorou. Executando 70% dos documentos, o valor
da distncia aumentou, isto , a qualidade diminuiu. Alm disso, quando o nmero de clusters
foi aumentado conforme o clculo de uma PA finita de razo=6, a distncia assumiu valores
maiores, o que revela um resultado pior.
6. Utilizando o RIKTEXT
O RIKTEXT um pacote completo para categorizao de documentos. Ele tem por
objetivos determinar o melhor conjunto de regras lgicas para a predio e classificao com
a melhor preciso possvel. A seguir, esto sendo apresentados e avaliados os resultados da
aplicao do RIKTEXT. Para essa avaliao tambm foram analisados os valores para
preciso, recall e f-measure.
6.1. Resultados da aplicao do RIKTEXT: avaliao das descobertas e validao.
Executou-se este classificador para um dicionrio de 1000 palavras, sem o stemming e
sem stop words e outro com 1000 palavras, mas com o stemming e com o stop words.
Fazendo-se uma comparao entre essas duas execues, observou-se que o recall
aumentou na segunda execuo para todas as classes de documentos. Isso significa que a
quantidade de itens relevantes recuperados aumentou em relao coleo. Com respeito
preciso, pode-se afirmar que, para a maior parcela das classes, esse valor permaneceu
inalterado (100%) da primeira execuo para a segunda. Quanto ao f-measure, pode-se
observar que, para a maior parte das categorias, houve um aumento de valor, tambm no caso
da segunda execuo, o que era previsto, j que o valor da preciso relativo a maioria das
classes se manteve.
Pode-se afirmar que com o uso do stemming e com o stop words, o acerto do
classificador do RIKTEXT maior e o seu poder de contabilizao tambm.
Por outro lado, foi observado que no houve nenhuma alterao de valores para a
preciso, o recall e o f-measure, para o dicionrio com 200 palavras e com 1000, tendo ou no
sido usado, em ambos os casos, o stemming e o stop words. Ou seja, o resultado foi igual em
relao ao dicionrio com 1000 palavras, tambm com o uso de stemming e de stop words, em
se tratando dos valores das variveis consideradas. Esse fato se repetiu sem a utilizao de
stemming e sem stop words, considerando 200 palavras para o dicionrio em relao ao uso de
1000 palavras, tambm, sem stemming e sem stop words. Vale a pena reafirmar que, em se
tratando da base de dados em questo, a reduo do nmero de palavras no dicionrio com o
uso de stemming e de stop words apresentou resultados iguais.
10
7. TMSK versus RIKTEXT
Ambos os pacotes suportam a utilizao de stop words e de stemming. Esses recursos
possibilitaram melhores resultados, tanto durante a execuo do TMSK quanto do RIKTEXT.
O TMSK possibilita a categorizao e a clusterizao (mtodo k-means), mostrando-se
ser mais completo em relao ao RIKTEXT, que no possui mtodos de clusterizao.
Durante a execuo de ambos os pacotes e tendo como base a criao de um dicionrio
com 1000 termos com o emprego de stop words e de stemming, o TMSK, usando o linear
como classificador, demonstrou preciso menor, mostrando um resultado pior que o
RIKTEXT, o qual apresentou os valores de recall menores.
8. Consideraes Finais
Tendo em vista a base de documentos utilizada neste trabalho e os experimentos
descritos anteriormente, pode-se observar que:
1. o stemming e o stop words so recursos imprescindveis para se obter resultados
satisfatrios, tanto na execuo do TMSK como do RIKTEXT, para a categorizao e
clusterizao;
2. o mtodo linear se mostrou melhor que o nbayes durante a execuo do TMSK;
3. a reduo de 1000 para 200 palavras acarretou numa melhoria de resultados tanto no caso
do nbayes quanto no do linear;
4. o TMSK mostrou piores resultados, considerando o uso do mtodo linear, em comparao
com o RIKTEXT;
5. o mtodo k-means, utilizando-se de 1000 palavras, com stemming e stop word, apresentou
melhores resultados no que se refere distncia, tendo sido usada a opo binrio para o
feature-type. Trabalhando com 70% da base de documentos, houve uma queda na
qualidade. Com o aumento o nmero de clusters (fixando 1000 termos), observou-se uma
queda na qualidade dos resultados.
Com base na experincia obtida neste trabalho, visualizou-se que seria possvel
aperfeio-lo, futuramente, aumentando a quantidade de testes e o aprimoramento dos
procedimentos de anlise. O que poderia levar a generalizao em algumas concluses.
Valendo, ainda, acrescentar que no se elaborou um captulo destinado somente
procedimentos metodolgico, porque se preferiu dar nfase as etapas do processo de
minerao. Sendo que esses procedimentos ficaram diludos parte na seo de transformao
dos dados, e outra em texto referente utilizao dos pacotes em questo.
11
9 - Referncias Bibliogrficas
[1] TERRA, J. C. C. Os desafios da Produtividade: Novas Habilidades na Era da Informao e
do Conhecimento e o papel central da Gesto do Conhecimento. Seminrio Preparatrio
da 3a. Conferncia Nacional de Cincia, Tecnologia e Inovao. Braslia, 2005.
[2] FRAWLEY, W.; GIATETSKY-SCHAPIRO, G.; MATHEUS, C. Knowledge discovery in
databases: an overview. AI Magazine, Fall, 1992.
[3] WEISS, S., INDUSKHYA, N., ZHANG, T. DAMERU, F. Text Mining: Predictive
Methods for Analyzing Unstructured Information, Springer, New York, NY, 2005.
[4] LOPES, M. C. S. Minerao de dados textuais, utilizando tcnicas de clustering para o
idioma portugus. Tese de doutorado, Universidade Federal do Rio de Janeiro, Rio de
Janeiro, 2004.
[5] PASSOS, E.; GOLDSHMIDT, R. Data mining: um guia prtico. Elsevier, Rio de
Janeiro, 2005.