Você está na página 1de 10

Ordenador Semntico de Mensagens do Correio Eletrnico

Abstract. This article presents experiences gained from the use of Natural
Language Processing for contextualization of email messages. These
experiences were recorded and tested allowing assess the context of each of
the areas for educational, professional and entertainment, resulting in the
development of a prototype that automatically prioritizes the messages to the
user in the selected area.
Resumo. Esse artigo apresenta experincias adquiridas com o uso de
Processamento de Linguagem Natural para contextualizao das mensagens
de correio eletrnico. Essas experincias foram registradas e testadas
permitindo avaliar o contexto de cada uma para as reas educacionais,
profissionais e de entretenimento, resultando no desenvolvimento de um
procedimento digital que ordena semanticamente as mensagens para o
usurio na rea selecionada.

1. Introduo
O correio eletrnico (e-mail) tem sido usado como um importante servio no ambiente
educacional, uma vez que a interao o procedimento indispensvel para a
aprendizagem. Seja em qualquer modalidade de ensino, encontramos esse servio
aplicado nos ambientes acadmicos, quer seja na interao aluno-aluno, aluno-professor
ou aluno-monitor, nos dois sentidos.
Fcil de usar e disponvel gratuitamente, o correio eletrnico tornou-se um
grande aliado dos docentes, que incentivam seus alunos a usarem esse servio,
principalmente por permitir uma comunicao assncrona, alm do registro das dvidas,
questionamentos, sugestes e crticas, sem a necessidade de conhecimento avanado de
computao.
O e-mail ainda uma das ferramentas de comunicao mais usadas na web,
mesmo quando comparadas com as redes sociais, devido sua facilidade de uso. Pode
ser empregado para a entrega de trabalhos; oferecimento de informaes; orientaes;
atividades escolares; incentivo ao trabalho colaborativo (Montovani et al. 2011).
Apesar do crescente uso de sofisticados sistemas de webmail com recursos de
automao para troca de mensagens, localizao de contatos e diversos outros, o
processo de ordenao das mensagens para leitura ainda realizado com base na ordem
cronolgica de recebimento, o que impe uma srie de desafios para o proprietrio do email. Afinal, a classificao da importncia de mensagens no algo trivial ou
facilmente automatizvel.
Desta forma propomos o desenvolvimento de um procedimento computacional
inteligente, que utiliza um conjunto de tcnicas e ferramentas para auxiliar o
proprietrio do e-mail na ordenao de suas mensagens. Cada tcnica tem como
objetivo criar uma classificao automtica do e-mail, conforme seu contexto e no
apenas por palavras-chave como o utilizado na maioria destes sistemas convencionais.

O uso de Processamento de Linguagem Natural (PLN) proposto em diversas


reas do conhecimento, com aplicaes em traduo, interpretao, auto resumo, busca
de informao em texto, interface homem-mquina chatterbots ensino-aprendizagem,
entre outras. Em Fontana et al. (2007), encontramos o uso de PLN em um sistema com
interface em linguagem natural, denominado Hades, onde o mdico pode consultar
informaes do paciente usufruindo da prpria linguagem utilizada em um dilogo.
Em Araujo e Carvalho (2006) proposto o uso de PLN para anlise de frases,
obtendo informaes sobre cada palavra, de forma a encontrar as sentenas, a
organizao, ttulo, rvore sinttica, entre outros.
Borges e Lima (2008) propem o uso de PLN como um mtodo de expanso de
consulta o que representar um ganho de preciso e abrangncia na recuperao dos
documentos.
Nosso objetivo descrever neste artigo, as tcnicas e ferramentas utilizadas para
o desenvolvimento de um procedimento computacional inteligente que utiliza PLN para
ordenao semntica de mensagens eletrnicas, permitindo aos docentes maior rapidez
no retorno das mensagens de contexto educacional.
Este artigo est estruturado de acordo com a seguinte ordem: na sesso 2, temos
a definio do problema. Na sesso 3, apresentamos o referencial terico. Na sesso 4,
apresentamos a metodologia usada. Na sesso 5, mostramos o procedimento
computacional inteligente desenvolvido e os experimentos. Na sesso 6 apontamos as
dificuldades encontradas. Na sesso 7, trazemos as consideraes finais, seguidas das
referncias.

2. Definio do Problema
A ordenao semntica das mensagens recebidas no e-mail, ainda um desafio. A cada
dia recebemos em nossa caixa de entrada algumas dezenas de mensagens, que so
organizadas por ordem de chegada.
A maior parte destas mensagens so propagandas ou mesmo informaes no
relevantes. Com isso nos deparamos com dificuldades originadas pela necessidade de
organizar, priorizar, reutilizar e localizar nossas mensagens.
Neste sentido abordaremos apenas uma dificuldade, a de distinguir os e-mails
que so de fato importantes e que devem ser tratados com prioridade. Muitos usurios,
por exemplo, utilizam uma conta de e-mail para assuntos pessoais e outra para assuntos
profissionais, o que acaba onerando o tempo e reduzindo a produo destes usurios.
Caber ao procedimento computacional inteligente encontrar no contexto das
mensagens caractersticas que apontaro tendncia da mensagem para uma determinada
rea, neste caso, examinaremos nas mensagens sua tendncia para assuntos
educacionais, profissionais e de entretenimento.
Nesta proposta foi utilizada a base da WordNet para o ingls, por estar mais
consolidada, sendo possvel substituir no futuro a base pela WordNet Br.

3. Referencial Terico
Nos ltimos anos, o uso do e-mail ocupou um lugar de destaque na comunicao
humana, pelo baixo custo e simplicidade. Paiva (2002), afirma que as principais

vantagens do e-mail, so: rapidez, confiabilidade na recepo e envio de mensagens,


facilidade em anexar arquivos, reenvio e integrao com ambientes que compem um
sistema de informao.
Todavia existe ainda, uma grande preocupao com relao a priorizao das
mensagens recebidas. Uma vez que no mtodo tradicional, as mensagens so recebidas
por ordem de chegada, o que dificulta muitas das vezes, ao proprietrio do e-mail,
encontrar uma mensagem que considere importante.
A tarefa de processar uma linguagem natural permite que os seres humanos se
comuniquem com os computadores da forma mais natural possvel, usando a
linguagem com a qual esto habituados.
Elimina-se, desta maneira, a necessidade de adaptao a formas inusitadas de
interao, ou mesmo o aprendizado de uma linguagem artificial, cuja sintaxe costuma
ser de difcil aprendizado e domnio (Oliveira 2013).
Oliveira (2013) destaca ainda que o carter interdisciplinar do Processamento de
Linguagem Natural apresenta um nvel de complexidade normalmente requerido s
abordagens desenvolvidas, as quais usam conceitos de Inteligncia Artificial, teoria da
computao, compiladores e lingustica computacional, dentre outras disciplinas.
Para o prottipo computacional foi usada a API em Java desenvolvida pelo The
Stanford Natural Language Processing Group. O trabalho deste grupo da Universidade
de Stanford favorece a anlise de sentenas no idioma ingls, especificamente os
substantivos extrados de mensagens para anlise semntica.
Basicamente, as aplicaes dos sistemas que tratam a lngua natural podem ser
divididas em duas classes: aplicaes baseadas em texto e aplicaes baseadas em
dilogos (Oliveira, 2013). Para o procedimento proposto foi usada a aplicao baseada
em dilogo, ou seja, na troca de mensagens entre os usurios do e-mail.
3.1. Processamento de Linguagem Natural
A rea de Processamento da Linguagem Natural (PLN), tambm denominada
Lingustica Computacional ou, ainda, Processamento de Lnguas Naturais, lida com
problemas relacionados automao da interpretao e da gerao da lngua humana
em aplicaes como traduo automtica, sumarizao automtica de textos,
ferramentas de auxlio escrita, perguntas e respostas, categorizao textual,
recuperao e extrao de informao, entre muitas outras (SBC 2013).
O objetivo de uso do Processamento de Linguagem Natural fornecer aos
aplicativos computacionais a capacidade de entender o texto. Neste sentido, o termo
entender um texto significa reconhecer o contexto, fazer anlise sinttica, semntica,
lxica e morfolgica, criar resumos, extrair informao, interpretar os sentidos e at
aprender conceitos com os textos processados. No
procedimento
computacional
inteligente proposto, o uso desta tcnica se restringe anlise semntica.
3.2. Lucene
O Lucene uma biblioteca de mecanismo de procura de texto altamente escalvel e de
software livre, disponibilizada pela Apache Software Foundation. Sua utilizao pode
ser feita em aplicativos comerciais e de software livre.

Neste procedimento a Lucene foi utilizada com dois objetivos: o da remoo das
stop words e da radicalizao ou Steamming das palavras.
As stop words so palavras frequentes em um texto e que no representam
nenhuma informao de maior relevncia para a extrao de palavras-chave. Por
exemplo: advrbios, artigos, conjunes, preposies e pronomes.
Sua remoo tem como objetivo eliminar palavras que no so representativas e
com isso diminuir o nmero de palavras a serem analisadas (Foly 2010). Outra tcnica
utilizada do Lucene o processo de combinar as formas diferentes de uma palavra em
uma representao comum, o radical (stem).
O radical o conjunto de caracteres resultante de um processo de radicalizao.
Este no necessariamente igual raiz lingustica, mas permite tratar variaes
diferentes de uma palavra da mesma forma (Foly 2010).
Neste processo de radicalizao das palavras possvel combinar a soluo
Lucene + PLN com o Prolog, e, mais especificamente, com a base de informao
disponvel na WordNet, descrita no item 3.4.
3.3. Prolog
O Prolog uma linguagem declarativa que usa lgica de 1 ordem para representar o
conhecimento sobre um dado problema. Um programa em Prolog formado por um
conjunto de fatos e regras de inferncia (definindo relaes entre objetos ou entre
objetos e seus atributos).
Esse conjunto, chamado de base de conhecimento, descreve o domnio de um dado
problema. A execuo de um programa em Prolog consiste na deduo de
consequncias lgica da base de conhecimento.
No procedimento desenvolvido fizemos uso de uma API em Java do SWIProlog, para buscar os sinnimos relacionados aos substantivos, com o objetivo de
encontrar a relao da palavra pesquisada com o contexto (educacional, profissional e
entretenimento). A Figura 1 apresenta a base da WordNet de sinnimos.

Figura 1. Base de sinnimos da WordNet.

3.4. WordNet
A WordNet uma base de dados de conhecimento lexical. um grande banco de dados
lxico do ingls. Substantivos, verbos, adjetivos e advrbios so agrupados em
conjuntos de sinnimos cognitivos (synsets), cada um expressando um conceito distinto
(WordNet 2013).
importante reforar que os Synsets esto interligados por meio de relaes
semnticas e conceitual-lexical e que a WordNet tambm livre e publicamente
disponvel para Download.
Sua estrutura torna-se uma ferramenta til para o Processamento de Linguagem
Natural. A WordNet superficialmente se assemelha a um dicionrio, onde esto
agrupadas palavras de acordo com seus significados.
No entanto, h algumas diferenas importantes: 1) articula no s a palavra, mas
sentidos especficos das palavras. Como resultado, as palavras que se encontram na
proximidade uma da outra na rede so semanticamente diferenciadas. 2) rotula as
relaes semnticas entre as palavras, enquanto que os agrupamentos de palavras em
um dicionrio de sinnimos no segue nenhum padro explcito que no signifique
semelhana.
Para melhorar a qualidade da classificao, tambm foi utilizado o hipernimo
alm dos sinnimos. Hipernimo uma palavra que pertence ao mesmo campo
semntico de outra, mas com o sentido mais abrangente, podendo ter vrias
possibilidades para um nico hipnimo. Por exemplo, a palavra flor est associada a
todos os tipos de flores: rosa, dlia, violeta, etc. Conforme mostra a Figura 2.

Figura 2. Regras Hipernimos.

Tambm na Figura 2 ilustrada a definio das regras para buscar em


profundidade os substantivos, com o intuito de encontrar a relao da palavra com os
contextos abordados no procedimento computacional inteligente.

4. Metodologia
A metodologia aplicada fez uso de uma pesquisa qualitativa e quantitativa, com o
mtodo de coleta de dados, pesquisa bibliogrfica e de campo. A pesquisa bibliogrfica
fundamentou-se principalmente na busca da aplicao de Processamento de Linguagem
Natural, baseada em uma ontologia lingustica (Wordnet) e nas ferramentas para auxlio,
como Lucene e o Prolog, no ambiente JAVA com o uso do IDE Netbeans.
O procedimento computacional inteligente apresentado segue a estrutura
ilustrada na Figura 3.

Figura 3. Diagrama do Procedimento computacional inteligente.

Tambm foi aplicado como instrumento de pesquisa, um questionrio


constitudo por trs questes objetivas. O principal objetivo das questes era entender
quais eram os critrios adotados pelo usurio para selecionar uma mensagem a ser lida
primeiro. Observamos que a maioria tomava esta deciso aps a leitura de um pequeno
trecho da mensagem, analisando a importncia de seu contedo. Este trecho aparece do
lado direito do remetente na maioria dos provedores de webmail e aplicativos de e-mail.
Um item que chamou ateno neste questionrio foi que vrios usurios relataram que
observava primeiro este trecho que contem parte do contedo do e-mail, antes de
verificar o remetente do mesmo.
Esse questionrio foi aplicado a 20 pessoas com faixa etria de 15 a 50 anos.
Aps o levantamento dos dados, comeamos a desenvolver o procedimento
computacional inteligente para o problema proposto.

5. Prottipo Computacional
O procedimento computacional foi desenvolvido em Java, usando o Netbeans IDE
7.2.1, alm das APIs descritas anteriormente (PLN, Lucene, Prolog e WordNet).
O procedimento computacional inteligente recebe uma mensagem texto cujo
contedo apresentado na Figura 4. Abordaremos uma mensagem de contexto
educacional neste experimento apresentado.

Figura 4. Mensagem original retirada do e-mail recebido.

Em seguida retira as stop words e executa o processo de stemming. Conforme


ilustra a Figura 5.

Figura 5. Remoo das stop words e stemming.

Logo aps, so retiradas do texto da mensagem somente os substantivos


utilizando as tags NN Substantivo no singular e NNS Substantivo no plural, PNN
nome prprio no singular e NNPS nome prprio no plural, conforme ilustra a Figura
6, o restante das palavras que no esto neste conjunto no sero analisadas.

Figura 6. Somente os substantivos.

Note que o processo de radicalizao do Lucene trouxe algumas palavras com


erros, o caso de economics, theori e practical que retornaram com falhas. Consequente
estas palavras no sero encontradas na base de conhecimento da Wordnet.
Em seguida, conforme ilustrado na Figura 7, o procedimento computacional
apresenta os substantivos, retirados anteriormente, e os sinnimos coletados na base de
dados da WordNet usando o Prolog.

Figura 7. Substantivos e sinnimos Wordnet e Prolog.

Ao final do processamento o procedimento apresenta uma mensagem


informando o contexto do e-mail, neste exemplo tem contexto educacional, se o usurio
parametrizar o prottipo para priorizar os e-mails deste contexto, este teria maior
prioridade para a leitura, ou seja, entraria no grupo de mensagens prioritrias de forma
automtica, com base no contedo do corpo da mensagem, conforme mostra a Figura 8.

Figura 8. Resultado para esta mensagem Contexto Educacional.

Outros experimentos semelhantes a este, foram realizados para validar a eficcia


do procedimento computacional inteligente correspondente a diferentes mensagens
recebidas para os contextos educacionais, profissionais e de entretenimento.

6. Dificuldades Encontradas
Durante o perodo em que se deu a pesquisa, as seguintes dificuldades foram
encontradas:

tempo excessivo de processamento para algumas mensagens: algumas


mensagens demoraram cerca de 10 minutos para serem processadas em um
micro-computador Celeron com 1 GB de memria RAM e processador 1.6 GHz;

palavras compostas no analisadas: cada palavra foi analisada separadamente e


as palavras compostas no foram analisadas, por exemplo: inteligncia artificial
seria processada de forma separada o que no condiz com a forma correta;

problema com a radicalizao de algumas palavras: encontramos algumas


palavras, apresentadas neste artigo, que o Lucene retornou de forma incorreta,
porm, uma grande quantidade de palavras apresentou resultado correto, como
no exemplo, learning que resultou em learn;

no contexto educacional: observamos que diversos termos comumente utilizados


por ns brasileiros, que estariam relacionados na rea de educao, por exemplo,
escola, professor, disciplina entre outros, na base da WordNet esto relacionados
na rea profissional e no educacional.

7. Consideraes Finais
A ordenao semntica de mensagens em um correio eletrnico, tem se tornado um
grande desafio, para os pesquisadores e profissionais da rea, isso porque cada
indivduo possui um perfil diferenciado, para a ordenao de mensagens.
Nos testes realizados podemos observar que vrias mensagens obtiveram uma
classificao indefinida, com tendncia para assuntos profissionais e educacionais
empatados. Esta incerteza exige um apoio do usurio para tal tomada de deciso.
Para aplicar nas mensagens os testes realizados em lngua portuguesa,
necessrio aguardarmos uma maior consistncia da base de dados da WordNet BR, que
est em crescente expanso, por isso, o procedimento computacional inteligente foi
parametrizado para dar suporte nestes futuros testes.
Este artigo apresentou a descrio de um procedimento computacional
inteligente que permite a priorizao de mensagens utilizando Processamento de
Linguagem Natural. Os prximos passos so: recurso de interao com o usurio para
resolver situaes de incerteza (por exemplo, empate no peso semntico de assuntos); a
implementao deste procedimento em um servidor de mensagens (pop3 e smtp), alm
do incremento da base WordNet (para domnios de conhecimento especficos) para
facilitar a contextualizao dos experimentos ampliando a base de testes, alm de
experimentos usando a base da WordNet BR.

8. Referncias
Araujo, Vanessa Leonardo. (2006) Um Agente de Interface em Linguagem Natural
para Recuperao de Informaes na Web Semntica, in: Congresso de Pesquisa,
Ensino e Extenso da UFG - Conpeex, 2, Goinia.
Borges, Thyago Bohrer e Lima, Vera Lcia Strube de. (2008) Aplicao de uma
Tcnica Tradicional de Expanso de Consulta ao Modelo TR+, Evento Integrao
PLN. PUC - Rio Grande do Sul.
Foly, L. S. (2010) Uma Arquitetura para Aferir o Conhecimento do Aluno em um
Ambiente de Aprendizagem, Dissertao de Mestrado. Universidade Candido
Mendes Campos dos Goytacazes RJ.
Fontana, Adas Pavei; Mattos, Merisandra Crtes de; Simes, Priscyla Waleska
Targino de Azevedo; Ramos, Rozenir; Cechinel, Cristian. (2007) Aplicao de
Processamento de Linguagem Natural em Interface Mdica, Grupo de Pesquisa em
Inteligncia Computacional Aplicada. UNESC e UNIPAMPA/Bag.
Mantovani, Daielly Melina Nassif; Viana, Adriana Backx Noronha; Gouva, Maria
Aparecida. (2011) Mtodos para implementao e acompanhamento de atividades
on-line em disciplinas de estatstica aplicada administrao, Revista Eletrnica
de Educao. So Carlos, SP: UFSCar, v. 5, no. 2, p. 236-255.

Oliveira, F. A. D. (2013)
Processamento de linguagem natural,
http://www.inf.ufrgs.br/gppd/disc/cmp135/trabs/992/Parser/parser.html. Janeiro.
Paiva, M. A. P. (2002) O monitoramento do correio eletrnico no ambiente de
trabalho, in conferencia proferida no Congresso Internacional de Direito e
Tecnologias da Informao, Braslia.
SBC, Sociedade Brasileira de Computao. (2013) Processamento de Linguagem
Natural,
http://www.sbc.org.br/index.php?option=com_content&view=category&layout=blog
&id=50&Itemid=71. Abril.
WordNet. (2013) About WordNet, http://wordnet.princeton.edu/. Janeiro.

Você também pode gostar