Você está na página 1de 11

1

Minerao de textos: uma experincia usando TMSK e RIKTEXT


Altemar Sales de Oliveira
1
, Rosa A.S.M. da Motta
2
, Gerson Cunha
3
, Ricardo Marciano dos
Santos
4
, Ronaldo R. Goldschmidt
5
.

Resumo
A minerao de texto consiste no processo de extrair informaes interessantes e no-triviais
de textos no-estruturados. As tarefas de categorizao e de clusterizao so usadas nesse
processo. Existem softwares que do suporte execuo desses conceitos como, por exemplo,
o TMSK e o RIKTEXT. Este trabalho descreve uma experincia com o uso desses sistemas,
considerando um conjunto de textos e procurando estabelecer uma comparao entre esses
dois softwares. As concluses obtidas resultaram da submisso de ambos s mesmas
condies de valores de testes, tendo como base de dados documentos categorizados em arte,
fsica, geografia, musica, religio e teatro.
Palavras-chave: Minerao de Textos; Minerao de Dados; Clustering de Dados Textuais.
Abstract
The text mining consists of the process of extracting interesting and no-trivial information
from no-structured texts. The categorization concepts and clustering are used in that process.
Softwares that give support to the execution of those concepts exist as, for instance, TMSK
and RIKTEXT. This work describes an experience with the use of those systems, considering a
group of texts and trying to establish a comparison among those two softwares. The obtained
conclusions resulted of the submission of both to the same conditions of values, tends as base
of data documents classified in art, physics, geography, music, religion and theater.
Keywords: Text Mining; Data Mining; Clustering of Textual Data.

1. Introduo
Vive-se na era da Informao e do Conhecimento [1], na qual o grande volume de
textos e documentos, geralmente no-estruturados, esto a disposio da sociedade ou de
empresas. Nesse contexto, a minerao de textos uma aliada na transformao desses itens
em conhecimento til. Essa transformao fundamentada na busca por padres, tendncias e

1
Doutorando e Mestre em Sistemas Computacionais (COPPE/UFRJ)
2
Mestre em Cincia da Computao (UFF) e Doutora em Educao (UFRJ)
3
Doutor em Computao de Alto Desempenho (COPPE/UFRJ)
4
Mestre em Informtica (NCE/UFRJ)
5
Doutor em Sistemas e Computao, IME.
2
regularidades de textos e documentos em uma linguagem compreensvel, tendo como produto
final a extrao de informaes relevantes [2].
Para dar suporte a esse tipo de minerao, pode-se utilizar, dentre outros, os pacotes
TMSK (Kit Software Minerao de Textos) e RIKTEXT (Regra de Induo de Textos).
Este trabalho tem como objetivo relatar uma experincia do uso desses dois softwares,
particularmente quanto a classificao, usando esses dois pacotes, e clusterizao, utilizando
somente o TMSK, tendo como base de dados 112 documentos, categorizados em arte, fsica,
geografia, msica, religio e teatro. Alm desta introduo, este artigo possui mais sete partes
e est organizado da seguinte forma: primeiramente, abordaram-se alguns conceitos bsicos
sobre a minerao de textos como, por exemplo, o conceito de categorizao exposto
anteriormente; posteriormente, est sendo relatado o que foi realizado no experimento em
questo em cada uma das etapas da minerao, utilizando os pacotes mencionados, incluindo
a avaliao das descobertas e validao dos resultados. Em seguida, uma concluso exposta,
procurando traar comparaes entre os mtodos usados, enfatizando algumas diferenas
entre os pacotes e vantagens e desvantagens de utilizao de ambos.
2. Minerao de Textos
A minerao de textos busca extrair respostas ou retornos de maneira inteligente e
confivel a partir de grandes volumes de informao textual. Ela possui alguma correlao
com a minerao de dados que busca obter informaes, tendo como origem base de dados
estruturadas [5].
O processo de descoberta de conhecimento em textos (KDT), minerao, constitui-se
das seguintes etapas: preparao dos dados, transformao dos dados e avaliao das
descobertas e validao dos resultados.
A preparao dos dados consiste em separar o assunto desejado ou til dentro dos
documentos. Ainda nessa etapa, com objetivo de tratar as palavras que porventura possuam a
mesma similaridade, mas que possam sofrer distores quanto a sua estrutura e forma, pode-
se usar, para analisar os dados, os seguintes recursos: Stemming , Stop words, Stop lists e
Thesaurus, para se obter maior confiabilidade em relao ao que se procura.
O Stemming usado quando uma palavra assume diferentes sufixos. Nesse caso,
convertem-se, ento, as variaes existentes em um radical comum. Usa-se o Stop words (uma
palavra por vez) em se tratando de relacionar palavras que devam ser descartadas do
processamento. Esse recurso tambm conhecido como Stop list (conjunto de palavras por
vez), quando se tem vrias palavras. Seu uso pode ser aplicado devido ao fato de existirem
3
palavras sem contedo semntico, preposies, pronomes, artigos entre outros; ou termos,
com alto ndice de incidncia, os quais devam ser descartados. Emprega-se o Thesaurus
quando preciso definir um vocabulrio, chamado de dicionrio, prprio para representar
termos especficos, sinnimos, relacionamentos, grias entre outros itens.
Na etapa seguinte, a de transformao dos dados, dentre vrias tarefas, existe a
Categorizao e a Clusterizao.
A Categorizao consiste na utilizao de mtodos classificadores para a utilizao de
categorias pr-definidas associadas a termos que identificam as bases de dados, com o intuito
de encontrar e relacionar os itens principais do documento por tpicos-chave. H vrios
classificadores como, por exemplo, o nbayes (classificador Bayesiano Ingnuo) [4]. A
Clusterizao uma tarefa usada para agrupar os documentos que possuam similaridade.
Existem vrios algoritmos para realizar a clusterizao: clustering hierrquico (aglomerativo e
divisivo), K-means e SOM (Mapa Auto-organizvel de Kohonen) [4].
Antes da transformao dos dados, para que ocorra a classificao e a clusterizao da
base de dados teste, necessrio o treinamento, que consiste na extrao de padres e regras
de predio de documentos, tendo em vista treinar os grupos de documentos para aprender a
trabalhar adequadamente durante o teste. Esse treinamento utiliza a base de dados treino.
Na etapa de avaliao das descobertas e validao dos resultados, so considerados os
seguintes conceitos: preciso (precision), que o percentual de documentos recuperados
relevantes consulta ou ao perfil, calculada como o nmero de itens relevantes recuperados,
dividido pelo nmero total de itens recuperados, ou seja, indica o quanto o mtodo acerta; o
recall, que mede o percentual de itens relevantes recuperados em relao ao nmero total de
itens relevantes no banco de dados, indicando o quanto o mtodo contabiliza, e o f-measure,
que o percentual calculado com base no recall e na preciso. A duas primeiras medidas tm
uma relao inversa. Conforme o nmero de resultados retornados aumenta, a probabilidade
de retornar respostas erradas tambm aumenta [4].
Outro conceito que pode ser considerado, na avaliao dos resultados a similaridade
(ou distncia) entre dois documentos. Ela definida como a distncia entre os pontos ou como
o ngulo entre os vetores, desconsiderando o comprimento do documento [4].
Cada documento representado como um vetor cujas dimenses so os termos (ou
palavras) presentes na coleo de documentos inicial a ser minerada. Cada coordenada do
vetor um termo e tem um valor numrico que representa sua relevncia para o documento.
Normalmente, valores maiores implicam em mais relevncia. Esse processo de associar
4
valores numricos a coordenadas de vetor referenciado como atribuio de pesos ou
weighting. Formalmente falando, weighting o processo de dar nfase aos termos mais
importantes. Existem vrias medidas de atribuio de pesos (weighting), dentre as quais
podemos citar trs mais populares, que so: Binria, TF e TF*IDF [4]. No TMSK, o feature-
type uma propriedade para atribuio de pesos.
Dentre vrios pacotes usados na minerao de textos, existem o TMSK e o RIKTEXT,
os quais so abordados neste trabalho. Uma, dentre muitas, caracterstica do TMSK a
possibilidade de escolha do mtodo de classificao e de clusterizao. Ambos os pacotes so
distribudo gratuitamente com o livro Text Mining - Predictive Methods for Analyzing
Unstructured Information [3] ou esto disponveis no endereo eletrnico http://www.data-
miner.com. Funcionam em qualquer computador que possua JAVA (pode ser a verso
runtime) instalado e trabalham com textos no formato XML (eXtensible Markup Language),
que uma Linguagem de Marcao Estendida escrito em ASCII, possuindo em seu corpo
marcas e contedos.
O RIKTEXT um pacote de software completo que toma decises de forma compacta
para reger a categorizao e a clusterizao de documentos. Ele usa regras fixas de lgica que
so refletidas em seus algoritmos ou mtodos.
3. Preparao dos dados
Para utilizao do TMSK e do RIKTEXT foi usado, como base de dados, um total de
112 documentos, divididos em 6 (seis) categorias: 1) arte, 2) fsica, 3) geografia, 4) msica, 5)
religio e 6) teatro.
O primeiro passo foi utilizar um conversor de textos para documentos no formato
XML. Aps a converso, foi realizada uma triagem dos documentos, trabalhando-se com 70%
dos textos para treinamento e 30% dos arquivos para teste em pastas separadas, exceto no
caso da clusterizao em que se utilizou 100% da base de dados.
Ambas as pastas com os mesmos documentos. Para o treinamento (arquivos de treino),
selecionou-se os arquivos com o menor tamanho em bytes, criou-se o dicionrio, informando
a quantidade de palavras desejadas. Logo em seguida, o vetor foi criado e escolheu-se o
classificador. Repetiram-se esses passos para a base de teste. Vale pena ressaltar que no caso
da clusterizao no houve treinamento e que o RIKTEXT na escolha do classificador, tanto
para a base de treino como para a base de teste.
A execuo das rotinas foi realizada com base nas orientaes, contidas no manual do
TMSK e do RIKTEXT.
5
Foram utilizados os recursos stemming e stop words tanto para a categorizao como
para a clusterizao.
4. Transformao dos dados
Os testes foram realizados variando-se o nmero de termos e usando ou no stemming
e stop words.
Para a clusterizao, no TMSK, variou-se, tambm, o feature-type, a quantidade de
clusters e quantidade de documentos. Em se tratando do TMSK, os classificadores utilizados
foram o nbayes, o linear e o clusterizador foi o k-means.
No caso da utilizao do RIKTEXT, no permitido a escolha de mtodos para a
classificao, pois ele j baseado em regras prprias de deciso.
5. Utilizando o TMSK
Aps os passos j descritos na preparao dos dados, foram executados os mtodos
linear e nbayes, para realizao da classificao e o K-means, para executar a clusterizao.
Na seo seguinte, os resultados da aplicao so apresentados e avaliados. Na
avaliao, observaram-se os valores relativos ao recall, preciso e ao f-measure, no que se
refere classificao; e os relativos ao tamanho do documento e distncia, no caso da
clusterizao.
5.1. Resultados da aplicao do mtodo linear
Esse mtodo foi aplicado em um dicionrio com 1000 palavras, sem o stemming e sem
stop words e outro no mesmo dicionrio com o stemming e com o stop words. Fazendo-se
uma comparao entre essas duas execues, observou-se que o recall aumentou na segunda
execuo para todas as classes de documentos. Isso significa que a quantidade de itens
relevantes recuperados aumentou em relao coleo. A preciso teve o seu valor
aumentado para todas as classes em questo.
Quanto ao f-measure, pode-se observar que, para a maior parte das categorias, houve
um aumento de valor, tambm no caso da segunda execuo, o que era previsto, j que o valor
da preciso relativo a cada classe aumentou.
De forma sucinta, pode-se afirmar que com o uso do stemming e com o uso de stop
words, o acerto do mtodo maior e o seu poder de contabilizao tambm.
Para outra execuo deste mtodo, utilizando 200 palavras para o dicionrio, com
stemming e com stop words, o recall e a preciso aumentaram para a maioria das classes em
relao ausncia desses recursos e, conseqentemente, o mesmo aconteceu com o f-measure.
Por outro lado, observou-se tambm que utilizando o dicionrio com 200 palavras,
6
tendo sido usado stemming e stop words, o resultado foi melhor em relao ao dicionrio com
1000 palavras, tambm, com o uso de stemming e de stop words, em se tratando dos valores
das variveis consideradas. Esse fato se repetiu sem a utilizao de stemming e sem stop
words, para 200 palavras em relao ao uso de 1000 palavras, tambm sem stemming e sem
stop words.
Nesse contexto, torna-se relevante afirmar, em se tratando da base de dados em
questo, que a reduo do nmero de palavras no dicionrio com o uso de stemming e de stop
words apresentou resultados melhores.
5.2. Mtodo nbayes
Esse classificador baseado no teorema de Bayes. A regra de Bayes mostra como
alterar as probabilidades antecipadamente, tendo em conta novas evidncias de forma a obter
probabilidades posteriormente.
O nbayes em problemas prticos tem boa performance. Ele robusto a transtornos
causados por termos irrelevantes e possui estabilidade, considerando perturbaes no conjunto
de treino. Todas as quantidades requeridas para construir o classificador podem ser calculadas
numa nica passagem pelo conjunto de treino.
A execuo deste mtodo foi realizada para um dicionrio de 1000 palavras, sem o
stemming e sem stop words, e outro para 1000 palavras, mas com o stemming e com o stop
words. Comparando essas duas execues, foi observado que a preciso aumentou na segunda
execuo para todas as classes de documentos. Com respeito recall, pode-se afirmar que a
maioria das classes teve esse valor mantido da primeira execuo para a segunda. Quanto ao
f-measure, pode-se observar que, para todas as categorias, houve um aumento de valor,
tambm no caso da segunda execuo, o que era previsto, j que o valor da preciso relativo a
cada classe aumentou. Os acertos na recuperao da informao aumentaram (100% na
maioria).
Pode-se afirmar que com o uso de stemming e de stop words, o acerto foi maior e o seu
poder de contabilizao foi mantido.
Utilizando 200 palavras para o dicionrio, com stemming e com stop words, o recall
aumentou e a preciso (100%) permaneceu com o mesmo valor para a maioria das classes, em
relao ausncia desses recursos. Nesse caso, o f-measure aumentou para a maioria das
classes.
Em contrapartida, foi observado tambm que utilizando o dicionrio com 200
palavras, tendo sido usado stemming e stop words, o resultado foi melhor em relao ao
7
dicionrio com 1000 palavras tambm, com o uso de stemming e de stop words, para os
valores das variveis abordadas. Esse fato se repetiu sem a utilizao de stemming e sem stop
words, para 200 palavras em relao ao uso de 1000 palavras, tambm sem stemming e sem
stop words.
Para a base de dados em questo, a reduo do nmero de palavras no dicionrio com
o uso de stemming e de stop words apresentou resultados melhores.
5.3.Resultados da aplicao do mtodo k-means
Dado um nmero fixo de k, o clustering K-means cria um conjunto de k clusters e
distribui o conjunto de documentos dados entre esses clusters, usando a similaridade entre os
vetores-documento e os centrides dos clusters. Sendo um centride o vetor mdio de todos os
vetores-documento no respectivo cluster. Cada vez que se adiciona um documento em um
cluster, o centride daquele cluster recalculado. Note que, quase sempre, um centride no
corresponde a um documento. A similaridade entre um documento d e um centride c
calculada como o somatrio de todos os vetores documento no cluster dividido pelo nmero
de vetores-documento [4].
Na execuo deste mtodo, para um dicionrio de 1000 palavras, sem o stemming e
sem stop words, e outro com 1000 palavras, mas com o stemming e com o stop words, tendo
sido comparadas essas duas execues, foi observado que na maioria dos casos houve, para
cada cluster gerado, um aumento do nmero de documentos, sendo que a distncia diminuiu,
ou seja, houve maior qualidade.
Para outra execuo deste mtodo, utilizando 200 palavras para o dicionrio, com
stemming e com stop words, observou-se o aumento da quantidade de documentos na maioria
dos clusters e diminuio da distncia em relao ausncia desses recursos.
Fixando 200 palavras (com stemming e stop words) e mudando o feature-type de
binrio para TF, no houve variao significativa nem em relao ao tamanho de cada cluster,
nem ao clculo da distncia ou similaridade. Para 1000, houve melhor resultado quanto
distncia, utilizando o binrio. Nesse caso, o binrio apresentou melhor resultado para
distncia, quando o nmero de termos foi aumentado.
Com o uso de stemming e stop words, mudando somente a quantidade de documentos
da base de dados e fixando o nmero de termos em 1000, pode-se afirmar que, para 100% dos
documentos em comparao com a execuo, considerando 70%, houve uma queda na
qualidade.
Com 100% dos documentos e fixando 1000 termos, usando stemming, stop words e
8
alterando o nmero de clusters, de acordo com uma PA de razo 6, pode-se observar, por
intermdio do Grfico 01, que houve um aumento no valor da distncia.
Grfico 01: Nmero de clusters versus Distncia
0,513
0,595
0,619
0,583
0,62
0,653
0,674
0,701
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
6 12 18 24 30 36 42 48
Nmero de clusters
D
i
s
t

n
c
i
a

5.4.Comentrios gerais sobre a avaliao das descobertas e validao dos resultados.
Procurando traar uma comparao entre os mtodos classificadores, pode-se afirmar
que o uso de stemming e de stop words, em ambos, contribuiu para que melhores resultados
fossem obtidos. Outro ponto observado foi com relao reduo do nmero de palavras,
apresentando valores mais satisfatrios tanto para o mtodo linear como para o nbayes.
O linear apresentou melhores resultados (Grfico 02), comparado ao nbayes,
considerando os valores 200, 500 e 2000 atribudos aos termos em cada execuo, com
stemming e com stop words.
Grfico 02: Mtodo linear - Documentos versus Preciso
75
100 100 100 100
85
100 100
85
100 100
42
40
62
60
50
46
31
0
10
20
30
40
50
60
70
80
90
100
P
r
e
c
i
s

o200 Documentos
500 Documentos
2000 Documentos

Com respeito ao k-means, foi observado que o uso do stemming e stop words levou a
se ter melhores resultados. Ao se diminuir o nmero de termos, em geral, houve um aumento
da quantidade de clusters e a diminuio da distncia. Ou seja, foi obtida maior qualidade ou
9
similaridade entre os clusters. Por outro lado, aumentando o nmero de termos e usando o
feature-type binrio, o valor da distncia melhorou. Executando 70% dos documentos, o valor
da distncia aumentou, isto , a qualidade diminuiu. Alm disso, quando o nmero de clusters
foi aumentado conforme o clculo de uma PA finita de razo=6, a distncia assumiu valores
maiores, o que revela um resultado pior.
6. Utilizando o RIKTEXT
O RIKTEXT um pacote completo para categorizao de documentos. Ele tem por
objetivos determinar o melhor conjunto de regras lgicas para a predio e classificao com
a melhor preciso possvel. A seguir, esto sendo apresentados e avaliados os resultados da
aplicao do RIKTEXT. Para essa avaliao tambm foram analisados os valores para
preciso, recall e f-measure.
6.1. Resultados da aplicao do RIKTEXT: avaliao das descobertas e validao.
Executou-se este classificador para um dicionrio de 1000 palavras, sem o stemming e
sem stop words e outro com 1000 palavras, mas com o stemming e com o stop words.
Fazendo-se uma comparao entre essas duas execues, observou-se que o recall
aumentou na segunda execuo para todas as classes de documentos. Isso significa que a
quantidade de itens relevantes recuperados aumentou em relao coleo. Com respeito
preciso, pode-se afirmar que, para a maior parcela das classes, esse valor permaneceu
inalterado (100%) da primeira execuo para a segunda. Quanto ao f-measure, pode-se
observar que, para a maior parte das categorias, houve um aumento de valor, tambm no caso
da segunda execuo, o que era previsto, j que o valor da preciso relativo a maioria das
classes se manteve.
Pode-se afirmar que com o uso do stemming e com o stop words, o acerto do
classificador do RIKTEXT maior e o seu poder de contabilizao tambm.
Por outro lado, foi observado que no houve nenhuma alterao de valores para a
preciso, o recall e o f-measure, para o dicionrio com 200 palavras e com 1000, tendo ou no
sido usado, em ambos os casos, o stemming e o stop words. Ou seja, o resultado foi igual em
relao ao dicionrio com 1000 palavras, tambm com o uso de stemming e de stop words, em
se tratando dos valores das variveis consideradas. Esse fato se repetiu sem a utilizao de
stemming e sem stop words, considerando 200 palavras para o dicionrio em relao ao uso de
1000 palavras, tambm, sem stemming e sem stop words. Vale a pena reafirmar que, em se
tratando da base de dados em questo, a reduo do nmero de palavras no dicionrio com o
uso de stemming e de stop words apresentou resultados iguais.
10

7. TMSK versus RIKTEXT
Ambos os pacotes suportam a utilizao de stop words e de stemming. Esses recursos
possibilitaram melhores resultados, tanto durante a execuo do TMSK quanto do RIKTEXT.
O TMSK possibilita a categorizao e a clusterizao (mtodo k-means), mostrando-se
ser mais completo em relao ao RIKTEXT, que no possui mtodos de clusterizao.
Durante a execuo de ambos os pacotes e tendo como base a criao de um dicionrio
com 1000 termos com o emprego de stop words e de stemming, o TMSK, usando o linear
como classificador, demonstrou preciso menor, mostrando um resultado pior que o
RIKTEXT, o qual apresentou os valores de recall menores.
8. Consideraes Finais
Tendo em vista a base de documentos utilizada neste trabalho e os experimentos
descritos anteriormente, pode-se observar que:
1. o stemming e o stop words so recursos imprescindveis para se obter resultados
satisfatrios, tanto na execuo do TMSK como do RIKTEXT, para a categorizao e
clusterizao;
2. o mtodo linear se mostrou melhor que o nbayes durante a execuo do TMSK;
3. a reduo de 1000 para 200 palavras acarretou numa melhoria de resultados tanto no caso
do nbayes quanto no do linear;
4. o TMSK mostrou piores resultados, considerando o uso do mtodo linear, em comparao
com o RIKTEXT;
5. o mtodo k-means, utilizando-se de 1000 palavras, com stemming e stop word, apresentou
melhores resultados no que se refere distncia, tendo sido usada a opo binrio para o
feature-type. Trabalhando com 70% da base de documentos, houve uma queda na
qualidade. Com o aumento o nmero de clusters (fixando 1000 termos), observou-se uma
queda na qualidade dos resultados.
Com base na experincia obtida neste trabalho, visualizou-se que seria possvel
aperfeio-lo, futuramente, aumentando a quantidade de testes e o aprimoramento dos
procedimentos de anlise. O que poderia levar a generalizao em algumas concluses.
Valendo, ainda, acrescentar que no se elaborou um captulo destinado somente
procedimentos metodolgico, porque se preferiu dar nfase as etapas do processo de
minerao. Sendo que esses procedimentos ficaram diludos parte na seo de transformao
dos dados, e outra em texto referente utilizao dos pacotes em questo.
11
9 - Referncias Bibliogrficas
[1] TERRA, J. C. C. Os desafios da Produtividade: Novas Habilidades na Era da Informao e
do Conhecimento e o papel central da Gesto do Conhecimento. Seminrio Preparatrio
da 3a. Conferncia Nacional de Cincia, Tecnologia e Inovao. Braslia, 2005.
[2] FRAWLEY, W.; GIATETSKY-SCHAPIRO, G.; MATHEUS, C. Knowledge discovery in
databases: an overview. AI Magazine, Fall, 1992.
[3] WEISS, S., INDUSKHYA, N., ZHANG, T. DAMERU, F. Text Mining: Predictive
Methods for Analyzing Unstructured Information, Springer, New York, NY, 2005.
[4] LOPES, M. C. S. Minerao de dados textuais, utilizando tcnicas de clustering para o
idioma portugus. Tese de doutorado, Universidade Federal do Rio de Janeiro, Rio de
Janeiro, 2004.
[5] PASSOS, E.; GOLDSHMIDT, R. Data mining: um guia prtico. Elsevier, Rio de
Janeiro, 2005.

Você também pode gostar