Escolar Documentos
Profissional Documentos
Cultura Documentos
Abstract. This article presents experiences gained from the use of Natural
Language Processing for contextualization of email messages. These
experiences were recorded and tested allowing assess the context of each of
the areas for educational, professional and entertainment, resulting in the
development of a prototype that automatically prioritizes the messages to the
user in the selected area.
Resumo. Esse artigo apresenta experincias adquiridas com o uso de
Processamento de Linguagem Natural para contextualizao das mensagens
de correio eletrnico. Essas experincias foram registradas e testadas
permitindo avaliar o contexto de cada uma para as reas educacionais,
profissionais e de entretenimento, resultando no desenvolvimento de um
procedimento digital que ordena semanticamente as mensagens para o
usurio na rea selecionada.
1. Introduo
O correio eletrnico (e-mail) tem sido usado como um importante servio no ambiente
educacional, uma vez que a interao o procedimento indispensvel para a
aprendizagem. Seja em qualquer modalidade de ensino, encontramos esse servio
aplicado nos ambientes acadmicos, quer seja na interao aluno-aluno, aluno-professor
ou aluno-monitor, nos dois sentidos.
Fcil de usar e disponvel gratuitamente, o correio eletrnico tornou-se um
grande aliado dos docentes, que incentivam seus alunos a usarem esse servio,
principalmente por permitir uma comunicao assncrona, alm do registro das dvidas,
questionamentos, sugestes e crticas, sem a necessidade de conhecimento avanado de
computao.
O e-mail ainda uma das ferramentas de comunicao mais usadas na web,
mesmo quando comparadas com as redes sociais, devido sua facilidade de uso. Pode
ser empregado para a entrega de trabalhos; oferecimento de informaes; orientaes;
atividades escolares; incentivo ao trabalho colaborativo (Montovani et al. 2011).
Apesar do crescente uso de sofisticados sistemas de webmail com recursos de
automao para troca de mensagens, localizao de contatos e diversos outros, o
processo de ordenao das mensagens para leitura ainda realizado com base na ordem
cronolgica de recebimento, o que impe uma srie de desafios para o proprietrio do email. Afinal, a classificao da importncia de mensagens no algo trivial ou
facilmente automatizvel.
Desta forma propomos o desenvolvimento de um procedimento computacional
inteligente, que utiliza um conjunto de tcnicas e ferramentas para auxiliar o
proprietrio do e-mail na ordenao de suas mensagens. Cada tcnica tem como
objetivo criar uma classificao automtica do e-mail, conforme seu contexto e no
apenas por palavras-chave como o utilizado na maioria destes sistemas convencionais.
2. Definio do Problema
A ordenao semntica das mensagens recebidas no e-mail, ainda um desafio. A cada
dia recebemos em nossa caixa de entrada algumas dezenas de mensagens, que so
organizadas por ordem de chegada.
A maior parte destas mensagens so propagandas ou mesmo informaes no
relevantes. Com isso nos deparamos com dificuldades originadas pela necessidade de
organizar, priorizar, reutilizar e localizar nossas mensagens.
Neste sentido abordaremos apenas uma dificuldade, a de distinguir os e-mails
que so de fato importantes e que devem ser tratados com prioridade. Muitos usurios,
por exemplo, utilizam uma conta de e-mail para assuntos pessoais e outra para assuntos
profissionais, o que acaba onerando o tempo e reduzindo a produo destes usurios.
Caber ao procedimento computacional inteligente encontrar no contexto das
mensagens caractersticas que apontaro tendncia da mensagem para uma determinada
rea, neste caso, examinaremos nas mensagens sua tendncia para assuntos
educacionais, profissionais e de entretenimento.
Nesta proposta foi utilizada a base da WordNet para o ingls, por estar mais
consolidada, sendo possvel substituir no futuro a base pela WordNet Br.
3. Referencial Terico
Nos ltimos anos, o uso do e-mail ocupou um lugar de destaque na comunicao
humana, pelo baixo custo e simplicidade. Paiva (2002), afirma que as principais
Neste procedimento a Lucene foi utilizada com dois objetivos: o da remoo das
stop words e da radicalizao ou Steamming das palavras.
As stop words so palavras frequentes em um texto e que no representam
nenhuma informao de maior relevncia para a extrao de palavras-chave. Por
exemplo: advrbios, artigos, conjunes, preposies e pronomes.
Sua remoo tem como objetivo eliminar palavras que no so representativas e
com isso diminuir o nmero de palavras a serem analisadas (Foly 2010). Outra tcnica
utilizada do Lucene o processo de combinar as formas diferentes de uma palavra em
uma representao comum, o radical (stem).
O radical o conjunto de caracteres resultante de um processo de radicalizao.
Este no necessariamente igual raiz lingustica, mas permite tratar variaes
diferentes de uma palavra da mesma forma (Foly 2010).
Neste processo de radicalizao das palavras possvel combinar a soluo
Lucene + PLN com o Prolog, e, mais especificamente, com a base de informao
disponvel na WordNet, descrita no item 3.4.
3.3. Prolog
O Prolog uma linguagem declarativa que usa lgica de 1 ordem para representar o
conhecimento sobre um dado problema. Um programa em Prolog formado por um
conjunto de fatos e regras de inferncia (definindo relaes entre objetos ou entre
objetos e seus atributos).
Esse conjunto, chamado de base de conhecimento, descreve o domnio de um dado
problema. A execuo de um programa em Prolog consiste na deduo de
consequncias lgica da base de conhecimento.
No procedimento desenvolvido fizemos uso de uma API em Java do SWIProlog, para buscar os sinnimos relacionados aos substantivos, com o objetivo de
encontrar a relao da palavra pesquisada com o contexto (educacional, profissional e
entretenimento). A Figura 1 apresenta a base da WordNet de sinnimos.
3.4. WordNet
A WordNet uma base de dados de conhecimento lexical. um grande banco de dados
lxico do ingls. Substantivos, verbos, adjetivos e advrbios so agrupados em
conjuntos de sinnimos cognitivos (synsets), cada um expressando um conceito distinto
(WordNet 2013).
importante reforar que os Synsets esto interligados por meio de relaes
semnticas e conceitual-lexical e que a WordNet tambm livre e publicamente
disponvel para Download.
Sua estrutura torna-se uma ferramenta til para o Processamento de Linguagem
Natural. A WordNet superficialmente se assemelha a um dicionrio, onde esto
agrupadas palavras de acordo com seus significados.
No entanto, h algumas diferenas importantes: 1) articula no s a palavra, mas
sentidos especficos das palavras. Como resultado, as palavras que se encontram na
proximidade uma da outra na rede so semanticamente diferenciadas. 2) rotula as
relaes semnticas entre as palavras, enquanto que os agrupamentos de palavras em
um dicionrio de sinnimos no segue nenhum padro explcito que no signifique
semelhana.
Para melhorar a qualidade da classificao, tambm foi utilizado o hipernimo
alm dos sinnimos. Hipernimo uma palavra que pertence ao mesmo campo
semntico de outra, mas com o sentido mais abrangente, podendo ter vrias
possibilidades para um nico hipnimo. Por exemplo, a palavra flor est associada a
todos os tipos de flores: rosa, dlia, violeta, etc. Conforme mostra a Figura 2.
4. Metodologia
A metodologia aplicada fez uso de uma pesquisa qualitativa e quantitativa, com o
mtodo de coleta de dados, pesquisa bibliogrfica e de campo. A pesquisa bibliogrfica
fundamentou-se principalmente na busca da aplicao de Processamento de Linguagem
Natural, baseada em uma ontologia lingustica (Wordnet) e nas ferramentas para auxlio,
como Lucene e o Prolog, no ambiente JAVA com o uso do IDE Netbeans.
O procedimento computacional inteligente apresentado segue a estrutura
ilustrada na Figura 3.
5. Prottipo Computacional
O procedimento computacional foi desenvolvido em Java, usando o Netbeans IDE
7.2.1, alm das APIs descritas anteriormente (PLN, Lucene, Prolog e WordNet).
O procedimento computacional inteligente recebe uma mensagem texto cujo
contedo apresentado na Figura 4. Abordaremos uma mensagem de contexto
educacional neste experimento apresentado.
6. Dificuldades Encontradas
Durante o perodo em que se deu a pesquisa, as seguintes dificuldades foram
encontradas:
7. Consideraes Finais
A ordenao semntica de mensagens em um correio eletrnico, tem se tornado um
grande desafio, para os pesquisadores e profissionais da rea, isso porque cada
indivduo possui um perfil diferenciado, para a ordenao de mensagens.
Nos testes realizados podemos observar que vrias mensagens obtiveram uma
classificao indefinida, com tendncia para assuntos profissionais e educacionais
empatados. Esta incerteza exige um apoio do usurio para tal tomada de deciso.
Para aplicar nas mensagens os testes realizados em lngua portuguesa,
necessrio aguardarmos uma maior consistncia da base de dados da WordNet BR, que
est em crescente expanso, por isso, o procedimento computacional inteligente foi
parametrizado para dar suporte nestes futuros testes.
Este artigo apresentou a descrio de um procedimento computacional
inteligente que permite a priorizao de mensagens utilizando Processamento de
Linguagem Natural. Os prximos passos so: recurso de interao com o usurio para
resolver situaes de incerteza (por exemplo, empate no peso semntico de assuntos); a
implementao deste procedimento em um servidor de mensagens (pop3 e smtp), alm
do incremento da base WordNet (para domnios de conhecimento especficos) para
facilitar a contextualizao dos experimentos ampliando a base de testes, alm de
experimentos usando a base da WordNet BR.
8. Referncias
Araujo, Vanessa Leonardo. (2006) Um Agente de Interface em Linguagem Natural
para Recuperao de Informaes na Web Semntica, in: Congresso de Pesquisa,
Ensino e Extenso da UFG - Conpeex, 2, Goinia.
Borges, Thyago Bohrer e Lima, Vera Lcia Strube de. (2008) Aplicao de uma
Tcnica Tradicional de Expanso de Consulta ao Modelo TR+, Evento Integrao
PLN. PUC - Rio Grande do Sul.
Foly, L. S. (2010) Uma Arquitetura para Aferir o Conhecimento do Aluno em um
Ambiente de Aprendizagem, Dissertao de Mestrado. Universidade Candido
Mendes Campos dos Goytacazes RJ.
Fontana, Adas Pavei; Mattos, Merisandra Crtes de; Simes, Priscyla Waleska
Targino de Azevedo; Ramos, Rozenir; Cechinel, Cristian. (2007) Aplicao de
Processamento de Linguagem Natural em Interface Mdica, Grupo de Pesquisa em
Inteligncia Computacional Aplicada. UNESC e UNIPAMPA/Bag.
Mantovani, Daielly Melina Nassif; Viana, Adriana Backx Noronha; Gouva, Maria
Aparecida. (2011) Mtodos para implementao e acompanhamento de atividades
on-line em disciplinas de estatstica aplicada administrao, Revista Eletrnica
de Educao. So Carlos, SP: UFSCar, v. 5, no. 2, p. 236-255.
Oliveira, F. A. D. (2013)
Processamento de linguagem natural,
http://www.inf.ufrgs.br/gppd/disc/cmp135/trabs/992/Parser/parser.html. Janeiro.
Paiva, M. A. P. (2002) O monitoramento do correio eletrnico no ambiente de
trabalho, in conferencia proferida no Congresso Internacional de Direito e
Tecnologias da Informao, Braslia.
SBC, Sociedade Brasileira de Computao. (2013) Processamento de Linguagem
Natural,
http://www.sbc.org.br/index.php?option=com_content&view=category&layout=blog
&id=50&Itemid=71. Abril.
WordNet. (2013) About WordNet, http://wordnet.princeton.edu/. Janeiro.