JORNALSTICOS Manoel Neto, Alisson B. Nascimento, Andrea A. Gomes Faculdade Ruy Barbosa (FRB) Salvador BA Brazil {andreiagomes, alissonbn, manoelneto}@frb.br Resumo. Criar sumrios uma tarefa comum que se concentra em extrair pontos principais de um texto. A sumarizao automtica, um ramo da Lingstica Computacional, permite que esse processo seja realizado atravs de uma ferramenta computacional em um tempo relativamente curto. O objetivo deste trabalho a criao de uma ferramenta que sumarize textos jornalsticos a partir de um mtodo da abordagem superficial, a Minerao de Textos. O sumarizador tem por finalidade, alm de gerar resumos, apresentar uma lista com as palavras- chave relacionadas ao texto fonte e um dicionrio com as palavras menos usuais da lngua portuguesa. A Minerao de Textos, por ser uma rea em que se possvel extrair informaes a partir de textos, tornou-se de interesse para o desenvolvimento da ferramenta SATSumm. Palavras-chave: Sumarizao, Resumo, Minerao de Textos. Abstract. Creating summaries is a common task that is based on the extraction of main points of a text. The automatic summarization, a Computational Linguistcs research field, allows this process to be realized through a computational tool in a relatively short time. The goal of this work is the creation of a tool that summarizes journalistic texts from a superficial approachs method, the Text Mining. The summarizer also intends to produce a list with the keywords related to the original text and a dictionary with the least usual Portuguese words. Since Text Mining is a field that makes possible the extraction of information from texts, it became useful to the development of the SatSumm tool. Keywords: Summarization, Abstract, Text Mining. 1. A Sumarizao de Textos Sumarizar o processo de seleo das informaes mais importantes de um texto para produzir uma verso mais curta [MANI; BLOEDORN; GATES 1998]. A sumarizao automtica de textos surgiu com o intuito de tornar o processo de resumir mais prtico e eficiente. Com o advento da Internet, o repertrio de textos produzidos tornou-se ainda mais amplo, incorrendo em uma quantidade maior de dados informativos a serem pesquisados.
Particularmente, o interesse em aplicar a sumarizao automtica para o mbito dos textos jornalsticos ocorre por conterem informao extra para detalhar o fato abordado. Isso faz com que o leitor gaste um tempo maior na leitura, quando a inteno seria apenas saber a idia essencial da notcia. Um outro motivo seria a existncia de tcnicas que so capazes de detectar a sua idia principal [MARTINS et al 2001]. Existem tcnicas que so utilizadas no campo da sumarizao automtica de textos, porm os sumrios gerados no apresentam um nvel de coerncia e coeso to satisfatrio, a exemplo do Auto-resumo do Word. Propostas de mtodos que melhoram o processo de sumarizar automaticamente so estudados para garantir resumos mais coesos e coerentes [MRISEP; MUTSO 2005]. H duas abordagens principais de Processamento de Linguagem Natural (PLN) para a sumarizao automtica - a profunda e a superficial. A primeira concentra-se no mbito das teorias lingsticas e formais, ao passo que a segunda utiliza mtodos estatsticos e experimentais [MARTINS et al 2001]. A sumarizao automtica do interesse da Minerao de Textos, que definida como o processo de extrao de padres, a partir de um nico texto ou conjunto de documentos textuais [TAN 1999]. Nesse caso, torna-se importante para a sumarizao tcnicas que eliminem palavras irrelevantes para serem aplicadas a um nico texto. Os textos jornalsticos normalmente no apresentam resumos e em diversas situaes contm informaes irrelevantes, incorrendo em um tempo maior para leitura integral e compreenso da idia. Alm disso, a presena de palavras no usuais da lngua portuguesa em um texto dessa categoria contribui para que o leitor gaste mais tempo no entendimento da leitura e por recorrer a outras fontes para buscar o significado de uma palavra desconhecida. O objetivo deste trabalho o desenvolvimento de uma ferramenta, utilizando a abordagem superficial, que sumarize um texto jornalstico, gere um dicionrio com as palavras no usuais da lngua portuguesa presentes no texto e uma lista de palavras-chave. A ferramenta permite que o usurio no perca tempo para compreender o texto, em decorrncia da sua extenso ou por conter palavras que no so de uso to freqente na lngua portuguesa. O dicionrio facilita a compreenso da leitura, pois apresenta o significado de palavras desconhecidas por parte do leitor e faz com que no seja desperdiado tempo pesquisando a sua definio. A lista com as palavras-chave utilizada para verificar os termos que so essenciais no texto. O artigo compe-se das seguintes partes: na seo 2, situam-se os conceitos da sumarizao e Minerao de Textos. A seo 3 trata da fase de implementao e testes da ferramenta. A concluso final do trabalho encontra-se na seo 4. A seguir, vm as referncias bibliogrficas.
2. Fundamentos e Automatizao do Processo de Sumarizar Esta seo aborda os conceitos que norteiam a rea da sumarizao automtica e apresenta a Minerao de Textos aplicada a esse campo. 2.1. Contextualizao da sumarizao H duas propriedades do sumrio que devem ser medidas: a taxa de compresso, ou seja, o quo curto o sumrio em relao ao texto original e o fator de reteno, que se refere ao quanto de informao do texto fonte permanece retido [SMEDT et al 2005]. As taxas de compresso e reteno se relacionam, pois quanto maior for o valor da primeira, mais curto ser um sumrio e menos informao ser retida do texto fonte. Caso o leitor deseje apenas o mnimo de informao possvel, o grau de compresso pode ser alto, a fim de produzir um resumo mais preciso. Esses aspectos so observados mais claramente na sumarizao automtica de textos. Atribui-se a necessidade de pesquisas na rea devido grande quantidade de informao online disponvel, tornando-se vivel desenvolver ferramentas que sumarizem de modo automtico [PARDO 2002b]. A Minerao de Textos um campo que explora acerca da sumarizao automtica, por apresentar etapas passveis de identificar as informaes importantes em um texto, como ser descrito a seguir. 2.2. Minerao de Textos (Text Mining) A Minerao de Dados uma rea que trata com grande volume de dados, sendo uma de suas variantes a Minerao de Textos. As duas concentram-se em tipos de dados distintos, pois, enquanto em Minerao de Dados contemplam-se dados estruturados, em Minerao de Textos, busca-se o estudo das relaes existentes entre componentes de textos no estruturados [SANTOS 2002]. Esse relacionamento pode ser interno, isto , relativo a apenas um texto, ou externo, abrangendo vrios textos, dependendo do objetivo da aplicao. Para a sumarizao automtica, no entanto, a importncia est em identificar informaes relevantes em um determinado documento textual e, portanto, contemplar um texto por vez - aquele que ser sumarizado [MARTINS et al 2001]. O processo de Minerao de Textos engloba etapas que so indispensveis para a sumarizao automtica, como a anlise lxica, remoo de irrelevantes, normalizao morfolgica e remoo de stopwords, isto , palavras que no carregam significado como os artigos, pronomes, interjeies e preposies [PARDO 2002b]. Finalizada a etapa de pr-processamento, realiza-se a preparao dos dados e os seleciona, para que sejam identificados os termos representativos, ou seja, aqueles que so relevantes para definir o assunto principal do texto.
Como por meio da Minerao de Textos tambm se pode procurar pelas informaes significativas, existem tcnicas que ajudam a prover isso. De acordo com Santos (2002), a freqncia de um termo pode ser verificada atravs de clculos de relevncia utilizados para computar o peso de um termo x em um determinado documento N. Em Silva (2004), ilustrado um clculo de freqncia relativa, cuja frmula apresenta um termo x de um documento N com uma freqncia (Tf) dividida pelo nmero total de termos no mesmo documento (N), como pode ser verificado a seguir: Frelx = Tf(x) / N A aplicao de uma frmula matemtica que estime a ocorrncia das palavras facilita a obteno das palavras-chave pertencentes ao documento textual. 3. Implementao da Ferramenta Satsumm Nesta seo discute-se sobre o desenvolvimento da ferramenta SATSumm, incluindo seus mdulos e tcnicas utilizadas. 3.1. Desenvolvimento e Arquitetura da Ferramenta Nesta subseo, apresentam-se a arquitetura e algoritmos utilizados para implementao da ferramenta SATSumm. A arquitetura da ferramenta SATSumm, ilustrada na figura 1, apresenta o mdulo de entrada de dado que, por ser a nica que se comunica com o banco de dados, viabiliza a sumarizao e a criao do dicionrio.
Figura 1. Arquitetura Sumarizador SATSumm Antes de se abordar os mdulos da ferramenta, faz-se necessria uma explanao dos algoritmos da etapa de pr-processamento da Minerao de Textos empregados para o seu desenvolvimento.
O primeiro algoritmo o case fold, que consiste em tornar todas as letras do texto maisculas ou minsculas, padronizando em uma nica forma as palavras. Por conveno, adotou-se a forma minscula para as letras. Assim, no h distino de uma mesma palavra iniciar em maiscula em um momento e, em minscula, em um outro e vice-versa. Aps essa etapa, aplicado um algoritmo de steeming, que reduz uma palavra sua forma radical, removendo os sufixos, prefixos e vogais temticas. O ltimo algoritmo a ser aplicado o de remoo de stopwords, que eliminar do texto todas as palavras de classe fechada (aquelas que no apresentam significado como os pronomes, artigos, preposies). H uma lista com esses termos, onde durante o processo de sumarizao, todas as palavras que constarem nessa lista sero eliminadas do texto. Assim, no momento em que as palavras-chave forem selecionadas, para extrao dos termos que exprimem a idia central, as stopwords sero ignoradas. O algoritmo de steeming utilizado neste trabalho foi o de Porter, implementado na linguagem Snowball, projetada para criar algoritmos dessa categoria. O compilador Snowball traduz um script nessa linguagem em um programa em C ou Java [PORTER 2006]. O algoritmo de Porter original foi desenvolvido para remover os sufixos das palavras da lngua inglesa, porm, a partir de sua implementao em Snowball para outras lnguas, permitiu-se aplic-lo a outros idiomas, inclusive para o portugus. A ferramenta dividida em mdulos para uma melhor organizao e facilitar o desenvolvimento: mdulo de entrada de dados, mdulo de sumarizao e mdulo de manuteno do dicionrio. A seguir, h o detalhamento de cada um deles. 3.2.1. Mdulo de Entrada de Dados O mdulo de entrada se relaciona com a escolha do texto, ou seja, o arquivo a ser selecionado para sumarizar (o texto pode tambm ser digitado pelo usurio). Esse mdulo tambm responsvel pela insero de palavras e seu respectivo significado no banco de dados. A classe de interface trata da entrada de dados via arquivo, onde a leitura se realiza no momento em que o usurio seleciona a opo Abrir Arquivo, presente no menu de opes da ferramenta ou na barra de tarefas presente no SATSumm. O processo para atualizar e remover palavras e significados do dicionrio pode ser realizado no mdulo de manuteno do dicionrio, que se relaciona com o de entrada de dados. 3.2.2. Mdulo de Sumarizao A gerao de um resumo do texto carregado atravs do mdulo de entrada de dados processa-se seguindo algumas etapas que so realizadas no mdulo de sumarizao. A ferramenta, inicialmente, divide o texto em sentenas e estas em palavras, a fim de
conseguir uma representao estruturada do texto. Uma vez obtida essa representao, possvel iniciar o processamento dos algoritmos para sumarizar o texto. Para alcanar a representao estruturada do texto, foram criadas as classes Palavra, PalavraClasseFechada, PalavraClasseAberta, Sentenca e Texto. A classe Palavra armazena um determinado termo do texto que deve, posteriormente, ser tratado em PalavraClasseAberta, que representa as palavras com significado relevante, ou PalavraClasseFechada, correspondendo aos termos sem significado. A classe Sentenca composta por uma lista de Palavras e contm mtodos como classificaAbertaFechada, que decide se uma palavra ou no relevante ao texto, classificando-a para PalavraClasseFechada ou PalavraClasseAberta. Essa classe apresenta o mtodo steem, que extrai apenas o radical de um termo, excluindo a vogal temtica, sufixos e prefixos. Alm disso, a classe responsvel por dividir uma sentena em palavras. A diviso realizada atravs de um analisador lxico implementado nessa classe, conforme ilustra a figura 2, em que o autmato desconsidera qualquer smbolo que no apresente sentido de palavra, como, por exemplo, abre e fecha parnteses. E considera letras e dgitos, alm de smbolos significativos, como $ e %, terminando uma palavra quando encontra um smbolo no significativo.
Figura 2. Autmato que Divide Sentenas em Palavras
A classe Texto composta por uma lista de sentenas. Para isso, divide um texto que dado como entrada em uma lista de sentenas. Na ocasio da sada de dados, essa classe que tambm transforma o texto da representao estruturada para uma string padro. Por fim, essa classe aplica o algoritmo de case fold sobre o texto, tornando todas as letras presentes, acentuadas ou no, em palavras minsculas. Na figura 3, apresentado o autmato do analisador lxico utilizado na classe Texto que divide um texto em sentenas do seguinte modo: o autmato considera que uma frase termina quando encontrado ponto final, exclamao ou interrogao.
Figura 3. Autmato que Divide um Texto em Sentenas
Este trabalho utiliza a tcnica TF-ISF (Term Frequency-Inverse Sentence Frequency) para pontuar as sentenas mais importantes do texto, que descrita em Larocca Neto et al [2000 apud MARTINS et al, 2001, p.16]. A tcnica TF-ISF similar ao TF-IDF, que utilizado na Recuperao de Informaes, e originado das tcnicas de estatstica, isto , baseadas na freqncia de palavras. O TF-IDF aplicado sobre um texto e contra um corpus, onde as palavras que aparecem com maior freqncia no texto do que no corpus recebem um peso maior. A idia do TF-ISF tratar com sentenas, ao invs de documentos [MARTINS et al 2001]. Ao se substituir a noo de documento para texto, a importncia de uma palavra w em uma sentena s ilustrada atravs da frmula TF-ISF(w,s) =TF(w,s)*ISF(w), onde TF consiste no nmero de vezes em que w aparece em s. A freqncia inversa da sentena vem de ISF(w)=log(|S|/SF(w)), onde SF diz respeito ao nmero de sentenas onde w ocorre, e S o numero de sentenas do texto. O peso final da sentena obtido pela media das TF-ISF de todas as palavras com relevncia no texto. Logo, o Avg-TF-ISF(s), corresponde mdia aritmtica dos valores de TF-ISF de cada palavra da sentena s, ou seja, este valor a relevncia da sentena no texto. Com base no nmero de sentenas do texto original e na taxa de porcentagem escolhida pelo usurio, calculado um threshold. Sentenas com Avg-TF-ISF maior que o threshold so selecionadas para compor o sumrio, de acordo com a ordem em que aparecem, at que o nmero de sentenas seja satisfeito. O threshold tambm pode ser escolhido explicitamente pelo usurio. Algumas alteraes foram realizadas na tcnica, onde aps calcular o Avg-TF- ISF das sentenas, ordenou-as em ordem decrescente de Avg-TF-ISF, e se escolheu as X primeiras sentenas dessa lista que so necessrias para compor o sumrio desejado. Assim, o resumo composto, colocando cada sentena selecionada na ordem em que aparece no texto fonte. No processo original, eram compostos sumrios coesos, porm em grande parte incoerentes. Com essas modificaes, foi possvel melhorar substancialmente a coerncia dos sumrios. Em outras tcnicas, como a das palavras-chave, os termos mais freqentes de um texto so considerados representativos, porm as palavras de domnio fechado (stopwords), como artigos ou pronomes, que no carregam significado, tambm so consideradas sem, no entanto, serem relevantes ou expressarem informaes importantes. Outros mtodos como o da localizao, que realiza o mesmo procedimento do anterior, sendo que seleciona as sentenas do primeiro e ltimo pargrafo do texto, tambm no tratam da questo das stopwords. A Minerao de Textos j realiza a remoo dessas stopwords, alm de considerar iguais palavras que aparecem de modo distinto no texto, ou seja, maisculas em um momento e minsculas em um outro, o que no realizado nas outras tcnicas [MARTINS et al 2001]. Na classe Sumarizador, foram implementados os algoritmos da TF-ISF responsveis em realizar os clculos a fim de localizar as sentenas que iro compor o sumrio. Nessa classe, onde ocorre de fato a sumarizao do texto.
A classe Sumarizador contm os mtodos que calculam o peso de cada sentena do texto. Os mtodos so: calculaISF que consiste em calcular a freqncia inversa da sentena; calculaTF representando a quantidade de ocorrncia de uma palavra em uma determinada sentena; o mtodo calculaTFISF que determina a importncia de uma palavra; e o mtodo calculaAvgTFISF o qual fornece o peso mdio de cada sentena, ou seja, a mdia aritmtica dos pesos obtidos em calculaTF-ISF de todas as palavras pertencentes sentena. A partir desses clculos, as sentenas mais importantes sero selecionadas para gerar o resumo automaticamente. 3.3. Interface com o usurio representada por uma janela que a interface da ferramenta com o usurio. Atravs dela, pode-se abrir um texto, sumariz-lo, salvar um sumrio, imprimi-lo, gerar dicionrio e lista de palavras-chave, configurar percentual da taxa de compresso, inserir e consultar informaes do dicionrio. O texto, aps passar por todo processo de sumarizao, apresenta um resumo ao usurio em um campo, ao lado do texto original. Caso as opes para exibir o dicionrio e a lista de palavras-chave sejam selecionadas, tambm so exibidas nos campos especficos. A figura 4 apresenta a tela principal da ferramenta, onde ocorre a sumarizao propriamente dita. Notam-se os campos para o texto fonte e resumo gerado, alm das opes seguintes: exibir dicionrio, lista de palavras-chave, porcentagem de compresso e o boto para sumarizar e outro para limpar os textos dos campos.
Figura 4. Janela de Sumarizao
O usurio poder alterar o contedo do dicionrio, removendo uma palavra dele, inserindo novas, alm de acrescentar informaes do significado de um determinado termo. A figura 5, a seguir, ilustra a tela de manuteno do dicionrio, onde essas operaes se concretizam e o usurio acessa quando precisa consultar um termo desconhecido no dicionrio.
Figura 5. Janela de Manuteno do Dicionrio 3.4 Avaliao da ferramenta SATSumm Nesta subseo, so apresentados os experimentos realizados com o sumarizador SATSumm e os resultados obtidos.. Foram realizados dois experimentos que envolveram a classificao de cada sumrio a partir dos parmetros: idia principal conservada e de acordo com a coerncia e coeso, atribuindo-se uma nota na escala de 0 a 3. Um outro teste foi agrupar alguns textos jornalsticos e solicitar que os avaliadores selecionassem as sentenas que melhor expressassem a idia central de cada um, e tomando como base essa mesma amostra de textos, gerou-se a partir do SATSumm, os sumrios. Experimento 1: Pontuar o sumrio gerado a partir do SATSumm O objetivo desse experimento foi atribuir notas aos sumrios gerados pela ferramenta. Primordialmente, um texto era escolhido e o usurio definia a taxa de compresso desejada. Para esse experimento, padronizou-se as notas de acordo com alguns parmetros adotados que foram a conservao da idia central e o grau de coerncia e coeso dos resumos criados, conforme ilustra a tabela 1.
Tabela 1 Parmetros para avaliao dos sumrios A nota 3, que corresponde a mais alta, mensura o quo coerente e coeso o sumrio, ou seja, se as sentenas escolhidas foram realmente as mais expressivas. Uma mdia de 20% dos usurios que testaram a ferramenta, pontuaram com o valor 3 o resumo gerado pela SATSumm. A maioria dos avaliadores, cerca de 80%, indicaram a nota 2, que corresponde a um sumrio, onde a conservao da idia central do texto foi preservada, e com a sua textualidade pouco prejudicada, sendo considerado bom. Um nmero de 40% dos usurios pontuou como regular (nota 1) os sumrios gerados atravs da ferramenta, considerando que a idia principal no foi mantida, assim como os termos escolhidos para compor a lista de palavras-chave, no correspondiam aos mais relevantes. Em relao nota 0, ou seja, um sumrio sem textualidade e idia principal, classificado como ruim, cerca de 20% atriburam esse valor. Experimento 2: Verificar as sentenas selecionadas O intuito desse experimento foi analisar se as sentenas selecionadas manualmente correspondem, em geral, as mesmas que aparecem no sumrio gerado a partir da ferramenta SATSumm e da GistSumm, sumarizador desenvolvido a partir do trabalho de Pardo [PARDO 2002a]. Os usurios realizavam a leitura do texto e extraiam as sentenas que melhor expressavam a idia principal. A partir disso, confrontavam-se os resultados, verificando se as sentenas selecionadas pelo usurio manualmente correspondiam s mesmas que apreciam no sumrio gerado de modo automtico. Em relao ao GistSumm, o SATSumm apresentou-se com um grau desejvel, gerando sumrios, com textualidade razovel, e mantendo, em grande parte dos casos, a idia central. A partir dos testes com usurios, onde foi solicitado que marcassem as sentenas mais relevantes, o SATSumm, selecionou em mdia 70% das mesmas sentenas que um humano, ao passo que outras ferramentas extraiam na faixa dos 60%. A figura 6, a seguir, ilustra os sumrios gerados pela ferramenta SATSumm e GistSumm, com uma taxa de compresso de 90%. As sentenas que aparecem na composio do sumrio gerado pelo SATSumm correspondem apenas aquelas que tambm foram selecionadas por um humano. Ao passo que, o outro sumarizador, destacou sentenas que no foram consideradas relevantes para um humano, ao apontar manualmente as sentenas de um texto. Idia principal Coerncia e Coeso Nota Conceito Conservada Sim 3 timo Conservada Pouco prejudicada 2 Bom Prejudicada Pouco prejudicada 1 Regular Prejudicada No 0 Ruim
Figura 6. Amostra de sumrios gerados automaticamente 4. Concluso A sumarizao automtica de textos uma rea que se tornou de interesse dos estudiosos devido a crescente quantidade de informao disponvel em meio digital. O enfoque deste projeto foi a sumarizao em textos jornalsticos, por conterem sempre uma idia central bem definida. Utilizou-se o mtodo da Minerao de Textos, uma das tcnicas da abordagem superficial, capaz de extrair padres e idias de um texto. O algoritmo de stemming usado foi o de Porter, implementado na linguagem snowball, cujo compilador gera cdigos na linguagem Java. Este algoritmo foi modificado incluindo novas regras de derivao sufixal, a fim de que extrao da forma raiz de algumas palavras ocorresse de modo correto. Alm disso, o modo de escolha das sentenas foi tambm alterado, onde primeiro ordenou-se as frases de acordo com o valor do avgTFISF, o qual fornece o peso mdio de cada sentena, e assim escolhe-se as primeiras, onde a quantidade de sentenas depende do valor da taxa de compreenso fornecida pelo usurio. A partir disso, organiza-se as frases no sumrio na ordem em que aparecem no texto fonte. A rea da sumarizao automtica que utiliza a abordagem superficial ainda no gera resumos satisfatrios, tornando-a alvo de pesquisas que proponham melhorar a qualidade dos sumrios gerados a partir dessa abordagem. Referncias Bibliogrficas MANI, Inderjeet ; BLOEDORN, Eric ; GATES, Barbara. Using cohesion and coherence models for text summarization. In: SYMPOSIUM ON INTELLIGENT TEXT Sumrio Gerado pela SATSumm
Lula vai congelar at R$ 19 bilhes do Oramento Contingenciamento preventivo ser revisto caso as receitas superem previso inicial de R$ 600 bilhes
Embora ocorra no momento em que o governo tenta fazer decolar o Programa de Acelerao do Crescimento (PAC), a medida ser adotada de forma preventiva, como todos os anos, diante de uma expectativa menos otimista para a arrecadao do que o previsto pelo Congresso. A diferena entre o que previsto no papel e o que efetivamente realizado em matria de obras se deve ao tipo de ajuste fiscal feito pelo governo, que sacrifica os investimentos mais do que outros tipos de gastos menos prioritrios. Esses cortes so mantidos enquanto a arrecadao no supera as projees oficiais.
Sumrio Gerado por outro sumarizador
Lula vai congelar at R$ 19 bilhes do Oramento Contingenciamento preventivo ser revisto caso as receitas superem previso inicial de R$ 600 bilhes
Dos R$ 27,3 bilhes previstos para investimentos no Oramento da Unio de 2007, o governo s deve liberar inicialmente R$ 18 bilhes, a includos os R$ 4,6 bilhes do projeto piloto - uma carteira de obras especiais, no sujeitas a contingenciamento. No ano passado, o governo chegou a autorizar R$ 19,6 bilhes de investimentos, mas R$ 12,3 bilhes esto em aberto, dependendo de execuo e liberao de recursos.
SUMMARIZATION, 13, 1998, Stanford. Proceedings. Stanford: [s.n], 1998, p.69-76. Disponvel em: <http://complingone.georgetown.edu/~linguist/papers/Spring98 Symp.pdf>. Acesso em: 26 mar. 2006. MARTINS, Camilla et al. Introduo sumarizao automtica. So Carlos:[s.n], 2001. Disponvel em: <http://www.nilc.icmc.usp.br/~thiago/RTDC00201-CMartinsEtAl.pdf>. Acesso em: 20 mar. 2006. MRISEP, Kaili; MUTSO, Pilleriin. ESTSUM- Estonian newspaper texts summarizer. In: THE BALTIC CONFERENCE ON HUMAN LANGUAGES TECHNOLOGIES, 2, 2005, Tallin. Proceedings. Tallin: [s.n.], 2005, p.311-316. Disponvel em: <http://math.ut.ee/~kaili/papers/estsumbhlt05.pdf>. Acesso em: 23 mar. 2006. PARDO, Thiago. GISTSumm: um sumarizador automtico baseado na idia principal de textos. So Carlos:[s.n], 2002a. Disponvel em: <http://www.nilc.icmc.usp.br /~thiago /NILCTR0213-Pardo.pdf>. Acesso em: 23 mar. 2006. PARDO Thiago. DMSumm: um gerador automtico de sumrios. 2002b. Dissertao (Mestrado em Cincias da Computao) - UFSCar, So Carlos, 2002. Disponvel em: <http://www.nilc.icmc.sc.usp.br/~thiago/DISSERTATION-Pardo.pdf>. Acesso em: 29 mar. 2006. PORTER; BOULTON. Snowball.Disponvel em: <http://snowball.tartarus.org >. Acesso em: 12 out. 2006. SANTOS, M. Extraindo regras de associao a partir de textos. 2002. Dissertao (Mestrado em Informtica Aplicada) PUC-PR, Curitiba, 2002. Disponvel em: <http://www.ppgia.pucpr.br/ensino/defesas/Maria_Angela%20_2002.PDF>. Acesso em: 23 mar. 2006. SILVA, Cassiana. Uso de informaes lingsticas na etapa de pr-processamento em Minerao de Textos. 2004. Dissertao (Mestrado em Computao Aplicada) UNISINOS, So Leopoldo, 2004. Disponvel em: <http://bdtd.unisinos.br /tde_arquivos/1 /TDE-2004-04-30T11:16:38Z-3/Publico/Informacoeslinguisticas.pdf>. Acesso em: 02 abr. 2006. SMEDT, Koenraad et al. How short is good? an evaluation of automatic summarization. Disponvel em:<http://www.nada.kth.se/~xmartin/reports/ScandSum-yearbook2004- fullpage.pdf>. Acesso em: 23 mar. 2006. TAN, Ah-Hwee. Text mining: the state of the art and the challenges. Disponvel em: < http:// www.ewastrategist.com/papers/text_mining_kdad99.pdf >. Acesso em: 27 maio 2006.