Você está na página 1de 66

lingua Volume 9, Número 1- Julho 2017

ISSN: 1647-0818
Volume 9, Número 1 – Julho 2017

Linguamática ISSN: 1647–0818

Editores
Alberto Simões
José João Almeida
Xavier Gómez Guinovart
Conteúdo
Artigos de Investigação

CORP: Uma Abordagem Baseada em Regras e Conhecimento Semân-


tico para a Resolução de Correferências
Evandro Fonseca, Vinicius Sesti, André Antonitsch, Aline Vanin e Renata Vieira 3

LinguaKit: uma ferramenta multilingue para a análise linguı́stica e a


extração de informação
Pablo Gamallo e Marcos Garcia . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

Projetos, Apresentam-se!

Geração Automática de Sentenças em Lı́ngua Natural para Sequências


de Pictogramas como Apoio à Comunicação Alternativa e Ampliada
Rafael Pereira, Hendrik Macedo, Rosana Givigi e Marco Túlio Chella . . . . . . 31

BrAgriNews: Um Corpus Temporal-Causal (Português-Brasileiro) para


a Agricultura
Brett Drury and Robson Fernandes and Alneu de Andrade Lopes . . . . . . . . . 41
Editorial

Este é o nono ano em que a Linguamática é editada. Todos os anos temos tido
novidades, o que tem levado a nossa/vossa revista cada vez mais longe. Desde a
publicação regular, até à indexação nos mais relevantes ı́ndices de indexação cientı́fica,
a Linguamática tem-se superado. E isto só é possı́vel graças aos nossos autores, que
continuam a apostar na publicação nas lı́nguas ibéricas, e aos nossos revisores, que
avaliam os artigos mas também dão sugestões construtivas no sentido de melhorar
todos os trabalhos publicados.

O nosso trabalho, como editores, tem sido a preparação das edições, mas também
a contı́nua vontade de recompensar os nossos autores e revisores.

Nesse sentido, nos últimos meses todas as revisões que foram feitas sobre artigos
publicados, foram registadas na plataforma Publons. O objetivo desta plataforma é
registar oficialmente todo o trabalho de revisão que habitualmente é feito pro bono.
Durante as próximas edições esse registo continuará a ser realizado, facilitando aos
revisores o processo de registo desta tarefa tão valiosa.

Finalmente, mas não menos importante, a Linguamática tem, a partir de agora,


através da Universidade do Minho, a possibilidade de atribuir aos artigos publicados
um Document Object Identifier (DOI). Assim, nesta edição, na folha de rosto de
cada artigo, estará presente o número de DOI, bem como um QR-Code que permite
aceder diretamente ao objeto respetivo. Durante os próximos meses serão adicionados
registos para todos os trabalhos publicados na Linguamática, desde a sua primeira
edição, a 5 de junho de 2009.

A todos, o nosso obrigado!

Xavier Gómez Guinovart


José João Almeida
Alberto Simões

vii
Comissão Científica
Alberto Álvarez Lugrı́s, Iñaki Alegria,
Universidade de Vigo Euskal Herriko Unibertsitatea

Alberto Simões, Irene Castellón Masalles,


Universidade do Minho Universitat de Barcelona

Aline Villavicencio, Joaquim Llisterri,


Universidade Federal do Rio Grande do Sul Universitat Autònoma de Barcelona

Álvaro Iriarte Sanroman, José João Almeida,


Universidade do Minho Universidade do Minho

Ana Frankenberg-Garcia, José Paulo Leal,


University of Surrey Universidade do Porto

Anselmo Peñas, Joseba Abaitua,


Univers. Nac. de Educación a Distancia Universidad de Deusto

Antón Santamarina, Juan-Manuel Torres-Moreno,


Universidade de Santiago de Compostela Lab. Informatique d’Avignon - UAPV

Antoni Oliver González, Kepa Sarasola,


Universitat Oberta de Catalunya, Euskal Herriko Unibertsitatea

Antonio Moreno Sandoval, Laura Plaza,


Universidad Autónoma de Madrid Complutense University of Madrid

António Teixeira, Lluı́s Padró,


Universidade de Aveiro Universitat Politècnica de Catalunya

Arantza Dı́az de Ilarraza, Marcos Garcia,


Euskal Herriko Unibertsitatea Universidade de Santiago de Compostela

Arkaitz Zubiaga, Marı́a Inés Torres,


Dublin Institute of Technology Euskal Herriko Unibertsitatea

Belinda Maia, Maria das Graças Volpe Nunes,


Universidade do Porto Universidade de São Paulo

Carmen Garcı́a Mateo, Mercè Lorente Casafont,


Universidade de Vigo Universitat Pompeu Fabra

Diana Santos, Mikel Forcada,


Linguateca/Universidade de Oslo Universitat d’Alacant

Ferran Pla, Pablo Gamallo Otero,


Universitat Politècnica de València Universidade de Santiago de Compostela

Gael Harry Dias, Patrı́cia Cunha França,


Université de Caen Basse-Normandie Universidade do Minho

Gerardo Sierra, Rui Pedro Marques,


Univers. Nacional Autónoma de México Universidade de Lisboa

German Rigau, Salvador Climent Roca,


Euskal Herriko Unibertsitatea Universitat Oberta de Catalunya

Helena de Medeiros Caseli, Susana Afonso Cavadas,


Universidade Federal de São Carlos University of Sheffield

Horacio Saggion, Tony Berber Sardinha,


University of Sheffield Pontifı́cia Univ. Católica de São Paulo

Hugo Gonçalo Oliveira, Xavier Gómez Guinovart,


Universidade de Coimbra Universidade de Vigo

ix
Artigos de Investigação
Proposta recebida em Agosto 2016 e aceite para publicação em Junho 2017.

CORP: Uma Abordagem Baseada em Regras e Conhecimento


Semântico para a Resolução de Correferências
CORP: A Rule Based Approach with Semantic Knowledge for Coreference Resolution

Evandro Fonseca Vinicius Sesti


PUCRS PUCRS
evandro.fonseca@acad.pucrs.br vinicius.sesti@acad.pucrs.br
André Antonitsch Aline Vanin Renata Vieira
PUCRS UFCSPA PUCRS
andre.antonitsch@acad.pucrs.br aline.vanin@ymail.com renata.vieira@pucrs.br

Resumo anáforas (Vieira et al., 2005; Bick, 2010; Rocha,


2000; Ferradeira, 1993; Basso, 2009) e o estudo da
Neste trabalho propomos o uso de conhecimento correferência nominal (Freitas et al., 2009; Fon-
lexical, sintático e semântico na tarefa de resolução de seca, 2014; Fonseca et al., 2014, 2016a,b). Este
correferência. Para isso, realizamos experimentos en- último é o foco deste trabalho.
volvendo diferentes combinações de heurı́sticas. Como
De forma geral, para este tipo de problema,
fruto deste estudo, geramos um sistema prático que
muitos trabalhos adotam técnicas de aprendizado
resolve correferência em textos da lı́ngua portuguesa.
de máquina. Soon et al. (2001) são dos pioneiros
Além disso, por meio do conhecimento semântico, in-
nesse tipo de abordagem. Para o aprendizado,
troduzido pelo Onto.PT, foi possı́vel obtermos um au-
a obtenção de bons resultados depende da qua-
mento significativo nos nı́veis de abrangência do nosso
lidade dos recursos utilizados. A lı́ngua portu-
modelo.
guesa ainda possui uma carência por corpora com
Palavras chave anotações de correferência suficientes para trei-
nar modelos mais robustos. E, quando envolve-
Resolução de Correferência, Conhecimento Semântico
mos o uso da semântica, a carência é ainda maior,
dado que a quantidade de amostras é significati-
vamente menor. Se compararmos os dois princi-
Abstract pais corpora para o Inglês e para o Português, te-
mos, respectivamente, 34290 cadeias para o cor-
In this paper we propose the use of lexical, syntac-
pus Ontonotes (Pradhan et al., 2011) e 560 ca-
tic and semantic knowledge for coreference resolution.
deias para o corpus Summ-it (Collovini et al.,
We conducted several experiments involving different
2007). Dessa forma, em idiomas com carência de
heuristics. As a result of this study, we generated
tais bases anotadas, uma abordagem baseada em
a practical system that solves coreference in Portu-
regras linguı́sticas pode prover resultados mais
guese texts. In addition, it was possible to increase
significativos. Por outro lado, tem crescido a dis-
our recall through semantic knowledge provided by
ponibilidade de recursos semânticos para o Por-
Onto.PT.
tuguês que podem ser utilizados para auxiliar em
Keywords problemas relacionados a essa tarefa. Portanto,
apresentamos neste artigo um sistema baseado
Coreference Resolution, Semantic Knowledge
em regras e conhecimento semântico para a re-
solução de correferências.
As principais contribuições deste trabalho são:
1 Introdução
• a análise individual e conjunta das regras
A Resolução de correferências é um processo que empregadas na solução do problema;
consiste em identificar as diversas menções feitas • um modelo para a resolução de corre-
a uma mesma entidade em um texto. ferências em Português, que faz uso de co-
Encontramos diversas iniciativas para a lı́ngua nhecimento semântico e, com isso, amplia a
portuguesa na literatura que abordam esse pro- abrangência nos resultados.
blema, geralmente separados entre a resolução de
DOI: 10.21814/lm.9.1.241
Linguamática — ISSN: 1647–0818
This work is Licensed under a
Creative Commons Attribution 4.0 License Vol. 9 Núm. 1 - Julho 2017 - Pág. 3–18
4– Linguamática Evandro Fonseca, Vinicius Sesti, André Antonitsch, Aline Vanin e Renata Vieira

Este artigo está estruturado da seguinte Nos exemplos em 1 temos núcleos idênticos,
forma: na Seção 2 é dada uma contextualização mas os complementos indicam que os referentes
referente à tarefa de resolução de correferências são diferenciados. Em 2 temos o termo “Bra-
e seus desafios, bem como é explorado o papel sil” em ambos os sintagmas; no entanto, o pri-
da semântica nesse processo; na Seção 3 são des- meiro refere-se ao paı́s “Brasil” e o segundo a
critos os principais trabalhos relacionados, bem “a região sul do Brasil”. Em 3, temos uma si-
como os nı́veis de semântica e recursos utiliza- tuação um pouco mais complexa, pois ambas as
dos por cada um; na Seção 4 são abordados os expressões possuem o termo “Portugal”. Nesse
principais recursos utilizados na concepção de caso, a palavra pode referir-se a uma entidade do
nosso modelo, que é descrito na Seção 5; na tipo “Pessoa” ou “Local”. Há casos, também, em
Seção 6 descrevemos os experimentos conduzidos, que dois sintagmas podem discordar em gênero e
as métricas utilizadas na avaliação do modelo e a (ou) número, mas ainda assim serem correferen-
análise dos resultados; na Seção 7 é dada uma tes, como em 4. Em casos como esse, precisamos
breve descrição do CORP, a ferramenta cons- recorrer à semântica. Por meio dela, é possı́vel
truı́da com base no modelo; na Seção 8 efetua- identificar relações que vão além do reconheci-
mos uma análise de erros; e, por fim, na Seção 9 mento de caracterı́sticas lexicais.
temos as conclusões e trabalhos futuros. Não é novidade que a semântica pode pro-
ver ganhos à resolução de correferência (Coreixas,
2 Semântica aplicada à Resolução de 2010; Rahman & Ng, 2011; Ponzetto & Strube,
Correferência 2006; Haghighi & Klein, 2009; Durrett & Klein,
2014; Fonseca et al., 2016b). Nesta Seção, cita-
A Resolução de correferências é um processo mos os principais recursos semânticos, utilizados
que consiste em identificar as diversas formas na resolução de correferência, disponı́veis para o
em que uma mesma entidade é evocada em um Inglês e para o Português: para o Inglês, temos
determinado texto. Em outras palavras, esse recursos bem conhecidos e consolidados, como
processo consiste em identificar as menções (ex- a WordNet (Miller, 1995), um banco de dados
pressões textuais) associadas a entidades ou even- lexical que possui informações sobre substanti-
tos do mundo real. Em um discurso, menções vos, verbos, adjetivos e advérbios. Todas essas
que referem a uma mesma entidade são cha- classes de palavras são agrupadas em conjuntos
madas menções correferentes e formam um con- de sinônimos, denominados synsets. Cada syn-
junto de menções, definido como cadeia de cor- set expressa um conceito distinto, que está in-
referência (Poesio et al., 2016). Na sentença “A terligado por meio de relações semânticas e lexi-
opinião é de Miguel Guerra, da Universidade de cais. Temos também o FrameNet (Baker et al.,
Santa Catarina (UFSC). Guerra participou. . . ”, 1998), contendo a similaridade semântica entre
podemos dizer que [Guerra] é uma correferência os verbos (caminhar, andar), e Yago (Suchanek
de [Miguel Guerra]. et al., 2007), uma ontologia que contém relações
semânticas como Means (significa) e Type (tipo
Existem casos em que estabelecer uma relação
de), análogas a, respectivamente, sinonı́mia e hi-
de correferência pode parecer uma tarefa sim-
ponı́mia.
ples, como em [Miguel Guerra] e [Guerra], dado
que ambos os sintagmas compartilham o termo Para o Português, temos algumas alterna-
“Guerra”. No entanto, ainda que estejamos li- tivas, como WordNet.PT. WordNet.BR, Mul-
dando com a tarefa em nı́vel lexical, existem si- tiWordNet.PT (Gonçalo Oliveira et al., 2015);
tuações mais complexas, que necessitam de trata- FrameNetBR (Salomão, 2009), contendo relações
mento distinto. Considere os seguinte exemplos: semânticas entre verbos, com foco no domı́nio
“Futebol”. TEP2.0 (Maziero et al., 2008), um
thesaurus contendo relações de sinonı́mia e an-
(1) a. [o sul do Brasil], [o sul da África] tonı́mia; e, mais recentemente, foi criada a
b. [Universidade do Paraná], Onto.PT (Gonçalo Oliveira, 2012), uma ontolo-
[Universidade de São Paulo] gia semântica para o Português, sobre a qual são
dados mais detalhes na Seção 4. Na Seção 3
(2) [O Brasil], [a região sul do Brasil] detalham-se as caracterı́sticas de cada recurso
semântico que foram utilizadas na concepção de
(3) [Adalberto Portugal], [Portugal] modelos de correferência.
(4) a. [a abelha], [o inseto]
b. [os ossos], [o fóssil]
Abordagem com Regras e Conhecimento Semântico para a Resolução de Correferências Linguamática – 5

3 Trabalhos Relacionados ver pequenos ganhos para a tarefa de resolução


de correferências e, mesmo que pequenos, se acu-
Na literatura, encontramos muitos trabalhos vol- mulados, podem tornar-se algo substancial.
tados à resolução de correferências. Em sua Hou et al. (2014) propôs um modelo baseado
grande maioria, esses trabalhos fazem um uso em regras, para a resolução de anáforas diretas
mais restrito da semântica, focando em catego- e indiretas (bridging). A resolução de anáforas
rias de entidades nomeadas e deixando de lado indiretas, consiste em reconhecer e criar um elo
relações importantes, que poderiam trazer ga- entre duas menções por meio de uma relação
nhos à tarefa. Nesta Seção, relatamos os prin- de “não identidade”. Um bom exemplo de tal
cipais trabalhos voltados à resolução de corre- relação é a meronı́mia (parte de), como em:
ferências para os idiomas Português e Inglês. Ve- “a casa” e “a chaminé”. Para identificar tais
remos que os nı́veis de semântica utilizados va- relações, os autores utilizaram o WordNet (Mil-
riam de acordo com o escopo e idioma de cada ler, 1995).
trabalho. Para a lı́ngua portuguesa, Silva (2011) propôs
O trabalho de Lee et al. (2013), para a lı́ngua um modelo para a resolução de correferências uti-
inglesa, faz uso de semântica para identificar lizando o conjunto de etiquetas semânticas provi-
menções que remetem a entidades do tipo “Pes- das pelo corpus do HAREM (Freitas et al., 2010).
soa”, objetivando resolver correferências prono- Para detectar tais categorias, Silva utilizou o par-
minais. Isto é, os autores utilizam semântica ser PALAVRAS (Bick, 2000) e o reconhecedor de
de forma mais simples, fazendo uso de apenas entidades nomeadas Rembrandt (Cardoso, 2012).
uma categoria de entidade, sem explorar quais- Como base de conhecimento semântico, o au-
quer outras possı́veis relações semânticas. Exis- tor utilizou o TEP2.0 (Maziero et al., 2008), um
tem trabalhos que fazem um uso mais elaborado thesaurus contendo relações de sinonı́mia e an-
da semântica, como o de Rahman & Ng (2011), tonı́mia para a lı́ngua portuguesa.
em que avaliaram a utilidade do conhecimento Ainda considerando o Português, Coreixas
de mundo usando duas bases de conhecimento: (2010) propôs a resolução de correferências,
Yago (Suchanek et al., 2007) e FrameNet (Ba- focando-se nas categorias “Pessoa”, “Local”,
ker et al., 1998). Utilizando os recursos cita- “Organização”, “Acontecimento”, “Obra”,
dos, os autores fazem a identificação de relações “Coisa” e “Outro”. Como recursos, foram uti-
semânticas como: “Means” (significa) e “Type” lizados o corpus do HAREM, o parser Palavras
(tipo de). Cada relação semântica é representada e o corpus Summ-it. De forma a demonstrar
por uma tripla (AlbertEinsten, Type, physicist). que o uso de categorias semânticas pode auxiliar
Essa instância denota o fato de que Albert Eins- na tarefa de resolução de correferências, o autor
tein é um fı́sico. A relação “Means”, análoga à compara duas versões de seu sistema: a primeira,
sinonı́mia, provê as diferentes formas de expres- sem fazer o uso de categorias semânticas; e a
sar uma entidade. Portanto, permite tratar casos segunda, fazendo uso dessas categorias. Como
ambı́guos, como: (Einstein, Means, AlbertEins- resultado, Coreixas (2010) mostrou que o uso de
tein) e (Einstein, Means, AlfredEinstein), pois categorias pode prover melhorias significativas,
denotam o fato de que “Einstein” pode referir-se dado que o uso de categorias pode auxiliar a
ao fı́sico Albert Einstein e ao músico Alfred Eins- determinar se dado par de menções é correferente
tein. Do FrameNet foram utilizados os papéis ou não. O autor também mostrou a importância
semânticos dos verbos, como por exemplo: do conhecimento de mundo para esta linha de
pesquisa.
Peter Anthony condena o programa de Garcia & Gamallo (2014a), propõem um mo-
negociação, limitando o jogo para al- delo baseado em regras (semelhante ao de Lee
guns, mas ele não tem certeza se quer et al. (2013), mas para múltiplos idiomas (Por-
denunciá-lo, porque. . . tuguês, Espanhol e Galego). Em seu trabalho,
os autores focam apenas na categoria semântica
Note que o papel semântico pode ajudar a “Pessoa”.
estabelecer um link de correferência entre “pro-
Em trabalhos anteriores (Fonseca et al., 2014)
grama negociação” e o pronome pessoal oblı́quo
propusemos uma abordagem baseada em apren-
“lo”, uma vez que com o FrameNet é possı́vel
dizado de máquina, com foco em nomes próprios
recuperar a relação entre “condena” e “denun-
e nas categorias de entidades “Pessoa”, “Local” e
cia”, pelo fato dessas duas palavras aparecerem
“Organização”. Para detectar as entidades, uti-
no mesmo frame e os dois sintagmas possuı́rem
lizamos o Repentino (Sarmento et al., 2006) e
o mesmo papel semântico. Como resultado, os
NERP-CRF (do Amaral, 2013). Adicionalmente,
autores constataram que a semântica pode pro-
6– Linguamática Evandro Fonseca, Vinicius Sesti, André Antonitsch, Aline Vanin e Renata Vieira

para casos mais genéricos de entidades, utiliza- 1995), o Onto.PT possui uma estrutura baseada
mos listas, contendo substantivos comuns, que re- em synsets 1 e relações semânticas conectando
metem a determinadas entidades, tais como: [ad- esses synsets, como: hiperonı́mia, hiponı́mia,
vogado, agrônomo, juiz] para a categoria “Pes- sinonı́mia, meronı́mia, entre outras. Na Ta-
soa”, e [avenida, rua, praça, cidade] para “Lo- bela 1, podemos visualizar os tipos de relações
cal”. semânticas consideradas por nosso modelo e suas
Como podemos ver, existem muitos trabalhos quantidades, presentes na ontologia.
propondo o uso de semântica, no entanto os nı́veis Para extrair as relações semânticas do
dessas regras variam de acordo com o escopo e Onto.PT, utilizamos uma API2 que, para um
quantidade de recursos disponı́veis. Nosso mo- dado par de palavras, retorna suas relações
delo atual teve como objetivo avançar no estado semânticas, conforme podemos visualizar na Ta-
da arte no que diz respeito à tarefa de resolução bela 2.
de correferências para o Português, utilizando re-
cursos semânticos mais recentes, disponı́veis para Relação Tipo Quantidade
o português. substantivo 84.015
verbo 37.068
Sinônimo De
adjetivo 45.149
4 Recursos advérbio 2.626
Hipônimo De substantivo 91.466
Nesta Seção, apresentamos quatro recursos fun-
damentais para a concepção de nosso trabalho: Total — 260.324
o CoGrOO (Silva, 2013), um corretor gramatical
com diversas funcionalidades para o português; o Tabela 1: Quantidade de relações no Onto.PT.
Onto.PT (Gonçalo Oliveira, 2012), ontologia uti-
lizada para obtenção de relações semânticas (hi- Par Relação
ponı́mia e sinonı́mia); e CoNLL Scorer (Pradhan estudo, pesquisa sinonimoDe
et al., 2014) e Summ-it++ (Antonitsch et al., abelha, inseto hiponimoDe
2016), utilizados na avaliação de nosso modelo. animal, cachorro hiperonimoDe

Tabela 2: Onto.PT: Exemplos de relações


CoGrOO
semânticas para um dado par de palavras.
CoGrOO é um corretor gramatical de código
aberto, capaz de prover anotação sintática.
Tendo como principal funcionalidade a correção Summ-it++
gramatical, o CoGrOO é capaz de identifi-
car erros como: colocação pronominal, con- Concebido a partir do corpus Summ-it, o Summ-
cordância nominal, concordância sujeito-verbo, it++ consiste em uma nova versão do Summ-it
uso da crase, concordância nominal e verbal e portada para o formato SemEval (Recasens et al.,
outros erros comuns de escrita em português do 2010) e enriquecida com duas novas camadas
Brasil. Para tal, o CoGrOO realiza uma análise de anotação semântica: Relação entre entidades
hı́brida: inicialmente, o texto é anotado usando nomeadas (Collovini et al., 2014); e Categorias
técnicas estatı́sticas de Processamento de Lingua- de Entidades Nomeadas (do Amaral, 2013). O
gens Naturais e, em seguida, um sistema base- Summ-it++, assim como o Summ-it, possui 5033
ado em regras é responsável por identificar os menções, 3022 links, 560 cadeias de correferência.
possı́veis erros gramaticais. Além das funcionali- Adicionalmente, possui 1086 entidades nomeadas
dades já descritas, o CoGrOO possui, da mesma classificadas e 37 descritores de relação entre es-
forma que o OGMA (Maia, 2008) e o PALA- sas entidades. Para nossa avaliação, o corpus
VRAS, a anotação de sintagmas nominais. Além Summ-it++ mostrou-se o mais indicado, dado
disso, conta também com análise morfológica e que possui anotação de correferência em nı́vel de
com lematização. sintagmas nominais. Outros corpora para o Por-
tuguês, como o HAREM ou o de Garcia & Ga-
mallo (2014b) possuem anotação de correferência
Onto.PT apenas para categorias de entidades nomeadas.
Construı́do de forma automática por meio de di- Na Tabela 3, podemos visualizar como são dis-
cionários e de thesaurus da lı́ngua portuguesa, 1
Grupos de palavras que possuem um mesmo signifi-
o Onto.PT é considerado uma ontologia de base cado ex: [moço, menino, filho, garoto, rapaz].
2
para o português. Similar ao Wordnet (Miller, http://github.com/rikarudo/OntPORT
Abordagem com Regras e Conhecimento Semântico para a Resolução de Correferências Linguamática – 7

postas as informações do corpus. Essas são im- Além disso, o recurso fornece também os resul-
portantes, dado que para efetuar nossa avaliação, tados de todas as métricas conhecidas (MUC,
a saı́da de nosso modelo também teve de ser con- B 3 , Ceaf e BLANC) (Vilain et al., 1995; Bagga
vertida para este formato. Na Tabela 3, cada & Baldwin, 1998; Luo, 2005; Recasens & Hovy,
coluna representa respectivamente: 2011).

ID: identificador de cada palavra na ordem em


que elas aparecem na sentença; 5 Descrição do Modelo
Token: palavra ou multi-palavra; Nosso modelo segue o padrão de uma arquitetura
Lemma: lema; multi-passos, baseada em regras linguı́sticas, as-
sim como o modelo de Lee et al. (2013). Em uma
POS: análise morfológica (part-of-speech) de arquitetura multi-passos, cada etapa consiste em
cada palavra; aplicar determinada regra, objetivando agrupar
duas menções mx e my , caso suas restrições se-
Feat: gênero e número (features) de cada pala-
jam satisfeitas. Diferente de Lee et al. (2013),
vra;
nosso modelo é aplicado para o Português, e in-
Head: denota se a palavra é um núcleo (head ) de troduz o uso de conhecimento semântico provido
sintagma nominal (caso sim, o campo recebe pelo Onto.PT.
o valor ‘0’); Nossas regras formam um conjunto facil-
NE: representa a categoria semântica das enti- mente encontrado em trabalhos realizados para
dades nomeadas; o Inglês (Lee et al., 2013; Rahman & Ng, 2011;
Soon et al., 2001). Contudo, nosso trabalho tem
Rel: representa o descritor que expressa a como diferencial o idioma para o qual é voltado e
relação entre um par de entidades nomea- sua combinação especı́fica de regras. Além disso,
das. Quando essa relação existe, ambas as poucos trabalhos, mesmo para o Inglês, abordam
entidades nomeadas envolvidas recebem o o uso de regras semânticas, como Hiponı́mia e Si-
ID das palavras que compõem o descritor de nonı́mia, para a resolução de correferências. Mui-
relação. tas de nossas regras foram adaptadas da litera-
tura, considerando o padrão linguı́stico do Por-
Corref: contém o identificador da cadeia, sendo
tuguês e as limitações dos recursos disponı́veis
que o inı́cio de um sintagma é marcado por
para o nosso idioma.
“(”, e o seu final, por “)”. Basicamente,
menções correferentes recebem o mesmo ID. Inicialmente, realizamos a detecção de
menções, por meio do parser CoGrOO (Silva,
2013); seguido de um pré-processamento, o
qual removemos menções que: iniciem com
CoNLL Scorer
entidades numéricas como percentual, dinheiro,
Desenvolvido com o intuito de atender as neces- cardinais e quantificadores (9%, $10,000, Dez,
sidades da CoNLL shared task (Pradhan et al., Mil, 100 metros). Apesar de existir correferência
2011, 2012), o CoNLL Scorer (Pradhan et al., numérica, esta é responsável pela maioria das
2014) consiste em uma API cujo objetivo é ava- ligações incorretas. Portanto, optamos por
liar modelos de resolução de correferência. Seu não tratá-los. Após as etapas de detecção de
objetivo principal é prover uma forma automati- menções e pré-processamento são aplicadas 13
zada e justa de avaliar tais modelos. Isso porque, regras (11 lexicais e 2 semânticas).
como descrito por Pradhan et al. (2014), cada
métrica favorece uma caracterı́stica especı́fica en- Regras Básicas
tre os links de menções. Dados os fatos, o recurso
utiliza a média entre as três principais métricas, Casamento de Padrões Exato (Regra 1)
para determinar uma pontuação única. Considera como correferentes duas menções, cu-
Basicamente, tendo como entrada dois arqui- jos sintagmas nominais sejam exatamente iguais,
vos (ambos necessitam estar no formato SemE- incluindo seus modificadores e determinantes.
val (Recasens et al., 2010), um formato muito co-
nhecido e utilizado pela maioria dos corpora): o (5) a. [o Brasil], [o Brasil]
primeiro, contendo as anotações que são o padrão b. [a Amazônia], [a Amazônia]
de referência, e o segundo contendo as anotações,
providas automaticamente pelo modelo a ser ava- Esta regra não agrupa pronomes e, para realizar o
liado, o CoNLL Scorer calcula uma pontuação. agrupamento, os sintagmas não podem pertencer
8– Linguamática Evandro Fonseca, Vinicius Sesti, André Antonitsch, Aline Vanin e Renata Vieira

ID Token Lemma PoS Feat Head NE Rel Corref


1 A o art F=S
2 opinião opinião n F=S 0
3 é ser v-fin PR=3S=IND
4 de de prp
5 o o art M=S (2
6 agrônomo agrônomo n M=S 0
7 Miguel Guerra prop M=S 0 PES (9)
8
9 de de prp
10 a o art F=S
11 UFSC prop F=S 0 ORG (9) (3)
12 ( ( (
Universidade de
13 prop F=S 0 ORG (3) | 2)
Santa Catarina
14 ) ) )
15 . . .

1 Guerra prop M=S 0 PES (2)


2 participou participar v-fin PS=3S=IND
...

Tabela 3: Esquema de anotação Summ-it++.

a uma construção de aposto especificativo (regra Assim como na regra Casamento de Padrões
4); caso eles pertençam, seus sintagmas ligeira- Exatos, pronomes e menções que estejam em
mente anteriores devem ser iguais. Com essa res- uma construção de Aposto Especificativo não são
trição evitamos links como: agrupados por esta regra.

(6) [[o telescópio] [Gemini]],


Aposto Explicativo (Regra 3)
[[o projeto] [Gemini]]
Agrupa duas menções caso essas estejam em uma
Note que os sintagmas “Gemini” são exatamente construção de aposto (Cadore & Ledur, 2013;
iguais, no entanto são sub-sintagmas (adjuntos) Bechara, 1972). Essa regra consiste em buscar
de “o telescópio” e “o projeto”. Em poucas pala- por marcações padrões que ajudam a identifi-
vras, após o processo de chunking3 , temos os se- car o aposto, como parênteses e menções entre
guintes sintagmas nominais: [o telescópio], [Ge- vı́rgulas.
mini],[o projeto] e [Gemini]. Logo, mesmo es-
(8) a. [A Embrapa] ([Empresa Brasileira de
ses sintagmas nominais possuindo um casamento
Pesquisa Agropecuária])
exato não necessariamente significa que existe
uma uma relação de correferência, dado que estes b. [A ministra da justiça do paı́s], [Elisabete
são adjuntos adnominais. Guigou], . . .

Casamento Parcial pelo Núcleo (Regra 2) Aposto Especificativo (Regra 4)


Considera como correferentes duas menções, cujo Consiste em verificar se duas menções vizinhas,
casamento obtido por meio do truncamento de mi e mi+1 , estão em uma construção de aposto
seus sintagmas seja igual num mesmo contexto. especificativo4 (Cadore & Ledur, 2013; Bechara,
O truncamento das menções é realizado levando 1972). Basicamente, se satisfazem as seguintes
em consideração seus núcleos, como nos exemplos restrições:
abaixo:
• menção mi+1 é um nome próprio;
(7) a. [o piloto americano], [o piloto]
• menção mi é um substantivo comum;
b. [o ministro da justiça], [o ministro]
• menção mi deve possuir um artigo definido;
3
Nem sempre o CoGrOO efetua a separação dos ad-
4
juntos adnominais. No entanto, para ambos os casos esta Diferente de Lee et al. (2013), aplicamos esta regra
restrição é válida e previne links incorretos, aumentando a todos os sintagmas nominais, não apenas a categoria
a precisão do modelo pessoa.
Abordagem com Regras e Conhecimento Semântico para a Resolução de Correferências Linguamática – 9

• menção mi+1 não pode possuir um determi- Pronome Relativo (Regra 7)


nante; Busca por menções que possuam/sejam prono-
mes relativos. Identificado um pronome relativo
• menções mi e mi+1 devem estar na mesma mi+1 , este é agrupado com a menção anterior ad-
sentença e serem adjacentes no texto (não jacente mi :
pode haver outras palavras entre elas).
(12) [Wilkinson Microwave Anisotropy Probe],
• caso o determinante de mi esteja no plural,
agrupa todas as menções subsequentes que: [cujos] primeiros dados.

– sejam nomes próprios; Casamento Restrito pelo Núcleo (Regras 8 e 9)


– estejam na mesma sentença; Consiste em agrupar (por meio de um casamento
ingênuo) duas menções, caso seus núcleos sejam
– estejam separados por vı́rgula (ou “e” iguais. Esse casamento, ao considerar apenas o
após as vı́rgulas). núcleo dos sintagmas, muitas vezes pode causar
um agrupamento incorreto, já que não considera
(9) a. [o arqueólogo português], [Francisco Al- que possam existir modificadores incompatı́veis,
ves] como, por exemplo: Universidade de São Paulo
e Universidade de Brası́lia. Note que os núcleos
b. [o galeão], [Nossa Senhora dos Mártires] desses sintagmas são iguais, no entanto referem-
se a entidades distintas. Para evitar esse tipo de
c. [os brasileiros], [Gilson Rambelli, Paulo
agrupamento incorreto, esta regra implementa al-
Bava de Camargo e Flávio Rizzi].
gumas cláusulas restritivas, que devem ser com-
binadas de modo a produzirem um link.
Acrônimo (Regra 5)
Agrupa duas menções se uma menção mi é sigla • Casamento entre Núcleos: O núcleo da
de mj . menção atual mj precisa ser o mesmo do an-
tecedente mi .
(10) [Organização das Nações Unidas], [a ONU] (13) [Universidade Federal de São Paulo]
. . . [a Universidade] . . .
Predicado Nominativo (Regra 6) • Palavra Modificadora: Todas as pala-
Tem como objetivo identificar predicados nomi- vras de dada menção mj , não considera-
nativos e agrupá-los com suas respectivas re- das como stopwords (substantivos comuns,
ferências. Para isso, buscamos por uma sequência próprios, verbos, adjetivos e advérbios) são
que possua um verbo de ligação seguido de incluı́das em uma lista e comparadas com
um determinante/artigo, como, por exemplo, (é a menção antecedente mi . Dessa forma, é
um, é uma, foi o, foram os. . . ); encontrada a possı́vel verificar se existe alguma palavra
sequência (verbo de ligação + determinante), que modifica o núcleo do antecedente. Essa
agrupamos as menções adjacentes, como em: cláusula explora a propriedade de discurso
que nos diz que é incomum introduzirmos
(11) [A França] é [o único paı́s que se recusa a novas informações em novas menções a uma
aceitar a determinação europeia] mesma entidade. Basicamente, menções
subsequentes a uma mesma entidade pos-
Nessa regra, consideramos apenas o verbo “ser”,
suem a tendência de serem menos explica-
conjugado no passado, presente e futuro do sin-
tivas.
gular e do plural. Outros verbos de ligação não
foram considerados, pois geralmente associam-se (14) [A menina que caiu e se machucou],
a adjetivos, e não a substantivos, como por exem-
[A menina que está feliz]
plo:
Note que as palavras “está” e “feliz”, exis-
• Cláudia anda nervosa. tentes na menção atual, não são stopwords,
então verificamos se essas duas palavras mo-
• Diana continua feliz.
dificam o antecedente. Como o antecedente
• Nicole ficou triste. não possui as palavras “está e feliz”, elas na-
turalmente o modificarão. Portanto, o agru-
• João está feliz. pamento das menções não é realizado.
10– Linguamática Evandro Fonseca, Vinicius Sesti, André Antonitsch, Aline Vanin e Renata Vieira

(15) [A estrada de Minas Gerais que ficará duas etapas. A primeira (8) realiza o agru-
pronta], [A estrada que talvez esteja pamento das menções levando em consi-
pronta] deração (Casamento entre Núcleos ∧ Pa-
lavra Modificadora ∧ Encapsulamento de
As menções contidas no exemplo acima Menções). A segunda (9) busca menções
também não seriam agrupadas, dado que o em que (Casamento entre Núcleos ∧ Mo-
advérbio “talvez” e o verbo “esteja” (conti- dificadores Compatı́veis ∧ Encapsulamento
dos em “A estrada que talvez esteja pronta”) de Menções) sejam satisfeitas. Essas duas
modificariam o antecedente. variações foram propostas por Lee et al.
(2013) e mostraram uma melhoria de 0.9%
• Modificadores Compatı́veis: Os modifi-
na medida-f, quando utilizadas linearmente.
cadores de uma menção mj atual são todos
incluı́dos na lista de modificadores do can-
didato antecedente mi . Essa cláusula é se- Casamento entre Nomes Próprios (Regra 10)
melhante à “Palavra Modificadora”, com o Agrupa duas menções caso as seguintes condições
diferencial de que considera apenas modifi- sejam satisfeitas:
cadores que são substantivos e adjetivos. Em
outras palavras, essa regra verifica se os mo- • ambas as menções devem conter nomes
dificadores do tipo adjetivos e substantivos, próprios;
quando existem na menção, são iguais aos da • os nomes próprios precisam ser iguais lexi-
menção anterior. Note que essa heurı́stica calmente;
realizaria o mesmo agrupamento que a re-
gra “Palavra Modificadora” para o exem- • as duas menções não devem estar encapsula-
plo 14, porém teria um resultado diferente das, ou seja, devem respeitar a cláusula “En-
para o exemplo 15. Ou seja, o fato de haver capsulamento de Menções”.
um modificador — advérbio (talvez) e um
verbo (esteja), por exemplo — não afeta o (17) [Califórnia],[a região sul da Califórnia].
fato de serem correferentes, altera apenas o
sentido do enunciado. Logo, a clásula “Mo- No exemplo acima, temos a violação da terceira
dificadores Compatı́veis” agruparia as duas condição. Note que ambos os sintagmas nomi-
menções do exemplo 15, pois as palavras da nais possuem o mesmo nome próprio, mas vio-
menção atual, mj , (A estrada que talvez lam a cláusula “Encapsulamento de Menções”,
esteja pronta), consideradas não stopwords de modo semelhante ao exemplo 16. Neste caso,
são: “Estrada” e “pronta”, palavras que não [Califórnia] e [da Califórnia] não podem ser cor-
modificariam o antecedente. referentes pelo fato de a segunda menção estar
ligada a uma preposição, tornando-a adjunto ad-
• Encapsulamento de Menções Esta
verbial de lugar. Portanto, há uma especificação,
cláusula nos diz que duas menções, para
em que não se está referindo a toda a Califórnia,
serem correferentes, uma menção não pode
mas somente à região sul desse estado.
ser parte constituinte da outra. De forma
a reconhecer este tipo de dependência,
utilizamos o reconhecimento de preposições, Casamento Parcial entre Nomes Próprios
como: “de” (e suas variações “do”, “da”, (Regra 11)

“dos”, “das”) e “em” (e suas variações Semelhante à regra “Casamento entre Nomes
“no”, “na”, “nos” e “nas”). No exemplo 16, Próprios”, mas permite que o núcleo da menção
[o menino] não pode fazer referência a [o atual mj combine com qualquer palavra existente
pijama listrado] justamente porque a regra na menção anterior mi . Como em: [o agrônomo
faz com que a preposição torne-se parte in- da UFSC, Miguel Guerra] e [Guerra]. Para reali-
dispensável para haver correferência. Desse zar o agrupamento, algumas cláusulas devem ser
modo, a preposição “de” torna o sintagma respeitadas:
[o pijama listrado] expressão adjunta de [o
menino]. • ambas as menções devem conter nomes
próprios;
(16) [O menino de pijama listrado],
• pelo menos uma palavra de mj deve ser igual
[o pijama listrado]. à mi ;
É importante mencionar que a Regra “Ca- • o agrupamento deve respeitar a cláusula
samento Restrito pelo Núcleo” consiste de “Palavra Modificadora”
Abordagem com Regras e Conhecimento Semântico para a Resolução de Correferências Linguamática – 11

Regras Semânticas Sinonı́mia (Regra 13)


Semelhante à regra Hiponı́mia, a regra Sinonı́mia
Hiponı́mia (Regra 12) agrupa duas menções quando há uma relação de
Agrupa duas menções (mi e mj ) se os le- sinonı́mia entre elas, respeitando as seguintes res-
mas, provenientes dos núcleos de mi e mj , são trições:
hipônimos. Para encontrar tais relações, utiliza-
mos o Onto.PT (Gonçalo Oliveira, 2012). Esta • o lema do núcleo das menções mi e mj ne-
regra ajuda a agrupar menções como as do exem- cessitam possuir uma relação de sinonı́mia;
plo abaixo:
• não podem haver palavras que modifiquem
(18) Já se perguntou como as abelhas fabricam as menções;
mel? Os insetos saem em busca de. . .
• cada nova menção a ser agrupada a dada ca-
Para evitar o agrupamento incorreto de menções deia de correferência, por esta regra, neces-
(exemplo 18), foram combinadas técnicas de pré sita possuir uma relação de sinonı́mia com
e pós modificadores. Nesse exemplo, se ex- todas as menções desta cadeia. Respeitando
trairmos o lema do núcleo das menções e efe- esta restrição, evitamos agrupar menções
tuarmos uma busca pela existência de relações como em:
semânticas entre “quebra-cabeça” e “problema”,
veremos que “quebra-cabeça” possui uma relação
de hiponı́mia com “problema”, mas note que as (20) A Terra é um astro do sistema solar.
menções “o quebra-cabeça genético” e “problema Esse planeta orbita a uma distância de
ambiental” não são correferentes. Para evitar tal 149.600.000 km do Sol.
agrupamento, adicionamos a cláusula “Palavra
Modificadora5 ”. Dessa forma, o termo “ambien-
6 Experimentos
tal” torna-se um modificador e o agrupamento
das menções não é realizado.
De forma a avaliar nosso modelo, usamos seis
(19) Foi o tempo em que decifrar o genoma métricas amplamente utilizadas pela literatura
. . . o quebra-cabeça genético. . . (descritas em 6.1). Cada uma delas objetiva ava-
Isso é um problema ambiental. . . liar um aspecto especı́fico no modelo e calcular
seu desempenho. Em nossos experimentos, efe-
Nesse sentido, para ocorrer o agrupamento de tuamos dois tipos de avaliação: na primeira (Ta-
duas menções, duas condições precisam ser sa- bela 4), avaliamos os ganhos que cada regra pode
tisfeitas: prover ao modelo, de forma independente; na se-
• o lema do núcleo das menções mi e mj ne- gunda (Tabela 5), avaliamos os ganhos que cada
cessita possuir uma relação de hiponı́mia; regra agrega ao modelo, de forma cumulativa.
Note que no corpus Summ-it++, o aposto
• não podem haver palavras que modifiquem e sua menção referente formam apenas uma
as menções (cláusula Palavra Modificadora). menção. Dessa forma, sintagmas que aparecem
Nós consideramos apenas a relação de hi- na forma de aposto são considerados como uma
ponı́mia entre um referente e seu antecedente única menção, como em: “o Instituto Nacional
(não utilizamos hiperonı́mia), dado que no Por- de Pesquisas Espaciais (INPE). . . ”. No corpus
tuguês é mais comum introduzirmos uma en- de referência temos apenas um sintagma [o Ins-
tidade de forma mais especı́fica e, em suas tituto Nacional de Pesquisas Espaciais (INPE)].
próximas menções, utilizarmos termos mais ge- Já nosso modelo identifica como duas menções
rais para referir à mesma entidade, conforme o e as agrupa, formando uma cadeia: [o Instituto
exemplo 19. Além disso, testes realizados com a Nacional de Pesquisas Espaciais], [Inpe]. Dessa
regra Hiperonı́mia foram realizados, no entanto, forma, na nossa avaliação, consideramos como
a regra acabou gerando muitos links incorretos acerto a criação de um link nesses casos.
entre as menções. Contudo, não descartamos
totalmente o uso de hiperônimos, estamos bus-
Métricas de Avaliação
cando apoio em Aprendizado de Máquina, obje-
tivando descobrir a eficácia da regra Hiperonı́mia • MUC (Vilain et al., 1995): baseada em
quando combinada com outras restrições e regras cadeias, mede quantos agrupamentos de
(Fonseca et al., 2016b). menções são necessários para cobrir as ca-
5
Nas regras de Hiponı́mia e Sinonı́mia os núcleos não deias padrão. O cálculo da métrica MUC é
são considerados palavras modificadoras. dado por meio das seguintes fórmulas:
12– Linguamática Evandro Fonseca, Vinicius Sesti, André Antonitsch, Aline Vanin e Renata Vieira

• BLANC (BiLateral Assessment of NounPh-


rase Coreference) (Recasens & Hovy, 2011):
Nk
P
(kKi k − kp(Ki )k) avalia tanto os links de correferência quanto
i=1 os não correferentes. Temos, então, CK e
Abrangência = Nk
P CR respectivamente como: links de corre-
(kKi k − 1) ferência padrão e preditos automaticamente
i=1
e; NK e NR como grupo dos links de não
correferência padrão e preditos automati-
P
Nr
camente; AbrangênciaC e PrecisãoC reme-
(kRi k − kp0 (Ri )k)
i=1 tem ao cálculo de abrangência e precisão
Precisão =
P
Nr dos links de correferencia, e AbrangênciaN
(kRi k − 1) e PrecisãoN , aos links de não correferência.
i=1

Onde: Ki é i-ésima key entity (padrão) e kCk ∩ Cr k


p(Ki ) é o grupo de partições criado por meio AbrangênciaC =
Ck
da intersecção de Ki e os links preditos pelo
modelo; Ri é a i-ésima Response entity (enti- kCk ∩ Cr k
dade predita pelo modelo) e p0 (Ri ) é o con- PrecisãoC =
Cr
junto de partições criadas por meio da in-
tersecção de Ri e Ki . Nk e Nr representam kNk ∩ Nr k
AbrangênciaN =
a quantidade de menções padrão e resposta, Nk
respectivamente.
kNk ∩ Nr k
• B3 (Bagga & Baldwin, 1998): baseada em PrecisãoN =
menções, gera resultados tendo como foco as Nr
menções de cada entidade. Sua abrangência • CoNLL (Pradhan et al., 2014): amplamente
e precisão são obtidas por: utilizada para avaliar modelos de resolução
de correferência, a métrica CoNLL calcula
Nk P
P Nk kK ∩ R k2 um score único, baseando-se no cálculo da
i j
i=1 j=1 Ki medida-f das métricas MUC, B 3 e CEAFe :
Abrangência = Nk
P
Ki
i=1 (F (MUC) + F (B 3 ) + F (CEAFe ))
CoNLL =
Nk PNk kK ∩ R k2 3
P i j
i=1 j=1 Rj
Precisão = Nk
P Análise dos Resultados
Rj
i=1
Analisando a Tabela6 4, podemos notar que as
Onde K representa o conjunto das key en- regras que lidam com o casamento de padrões en-
tities (menções padrão) e R o conjunto de tre palavras obtiveram precisões acima de 60%,
menções preditas pelo modelo. tendo como destaque as regras 8 e 9 (Casamento
• CEAF (Luo, 2005): baseada no alinhamento Restrito pelo Núcleo), cujos resultados ultrapas-
de menções e entidades, possui duas va- saram 46% de score para a métrica CoNLL. Po-
riações: CEAFm (Φ3 ) e CEAFe (Φ4 ). demos notar também que a regra 3 (Aposto Ex-
plicativo) possui uma alta precisão, no entanto
ocorre com pouca frequência no corpus utilizado
Φ3 (K, R) = kK ∩ Rk
para teste. Referente às regras semânticas Hi-
ponı́mia e Sinonı́mia (12 e 13), notamos que si-
2kK ∩ Rk nonı́mia apresenta melhores resultados do que hi-
Φ4 (K, R) =
kKk + kRk ponı́mia. Apesar de individualmente não apre-
sentarem os melhores resultados, quando utiliza-
Φx das em conjunto com outras regras, podemos ver
Abrangência = P
kKi k ganhos na abrangência.
i=1

Φx
Precisão = P 6
Nas Tabelas 4, 5 e 6 “P”,“A” e “F” representam res-
kRi k pectivamente: Precisão, Abrangência e Medida-F.
i=1
Abordagem com Regras e Conhecimento Semântico para a Resolução de Correferências Linguamática – 13

MUC B3 CEAFm CEAFe BLANC CoNLL


P A F P A F P A F P A F P A F F
Regra 1 66.4 22.8 34.0 68.0 19.1 29.8 64.5 26.5 37.6 50.5 28.1 36.1 83.2 64.5 68.4 33.3
Regra 2 61.9 30.7 41.1 63.3 25.8 36.7 58.9 34.6 43.6 47.3 37.0 41.5 80.6 59.9 62.1 39.8
Regra 3 74.8 5.9 10.9 78.7 6.9 12.6 80.4 8.6 15.5 70.2 11.8 20.2 92.4 92.4 92.4 14.6
Regra 4 11.1 0.4 0.7 22.3 0.7 1.4 32.6 1.4 2.8 26.9 1.8 3.5 57.5 57.3 57.3 1.9
Regra 5 58.8 0.7 1.4 65.5 0.7 1.5 75.9 1.1 2.2 66.7 1.2 2.5 65.1 63.9 63.6 1.8
Regra 6 18.2 0.1 0.3 34.1 0.1 0.3 50.0 0.5 1.1 26.5 0.4 0.9 47.7 48.2 44.4 0.5
Regra 7 0.0 0.0 0.0 11.8 0.1 0.3 21.0 0.4 0.8 17.7 0.5 1.0 47.2 46.9 46.4 0.4
Regra 8 61.2 39.4 48.0 60.6 34.2 43.7 61.1 43.4 50.7 52.3 44.5 48.1 76.8 59.7 61.9 46.6
Regra 9 61.1 39.8 48.2 60.5 34.6 44.0 61.3 43.8 51.1 52.4 44.9 48.4 76.7 59.7 61.9 46.9
Regra 10 70.2 7.8 14.0 73.0 6.7 12.3 78.6 10.1 17.9 62.4 10.4 17.8 85.9 85.9 85.9 14.7
Regra 11 66.7 8.1 14.4 69.7 7.3 13.3 77.4 10.6 18.7 64.3 11.0 18.8 81.7 85.2 83.3 15.5
Regra 12 6.0 1.2 2.1 15.9 3.1 5.2 23.5 5.5 8.9 21.0 6.1 9.4 52.5 51.4 45.0 5.6
Regra 13 28.5 13.7 18.5 24.3 12.8 16.8 34.1 16.1 21.9 28.5 12.9 17.8 57.5 53.6 50.0 17.7

Tabela 4: Regras individuais.


MUC B3 CEAFm CEAFe BLANC CoNLL
P A F P A F P A F P A F P A F F
Regra 1 66.4 22.8 34.0 68.0 19.1 29.8 64.5 26.5 37.6 50.5 28.1 36.1 83.2 64.5 68.4 33.3
+Regra 2 61.8 30.8 41.1 63.1 25.9 36.7 58.8 34.7 43.6 47.2 37.1 41.5 80.2 59.8 62.0 39.8
+Regra 3 63.3 36.4 46.3 64.8 32.8 43.6 61.2 41.5 49.5 51.7 46.5 49.0 81.5 60.4 63.2 46.3
+Regra 4 60.6 36.8 45.8 61.9 33.3 43.3 58.9 42.0 49.0 49.6 46.6 48.1 80.2 59.4 61.7 45.7
+Regra 5 60.4 37.0 45.9 61.7 33.5 43.4 58.7 42.2 49.1 49.6 46.8 48.1 79.9 59.3 61.6 45.8
+Regra 6 59.9 37.2 45.9 61.1 33.6 43.4 58.2 42.4 49.1 49.1 46.9 48.0 79.6 59.0 61.1 45.7
+Regra 7 58.3 36.9 45.2 59.7 33.5 42.9 56.8 42.2 48.4 47.7 46.5 47.1 78.9 58.4 59.9 45.1
+Regra 8 57.4 48.3 52.5 56.2 44.6 49.7 57.8 53.2 55.4 51.5 55.9 53.6 75.0 57.7 59.0 51.9
+Regra 9 57.4 48.6 52.6 56.2 44.8 49.8 57.9 53.4 55.6 51.6 56.2 53.8 75.0 57.7 59.0 52.1
+Regra 10 57.4 48.9 52.8 56.2 45.1 50.0 57.9 53.8 55.8 51.8 56.5 54.0 75.0 57.7 58.9 52.3
+Regra 11 57.0 48.7 52.5 55.4 45.1 49.7 57.9 53.5 55.6 52.0 55.7 53.8 74.1 57.8 59.1 52.0
+Regra 12 47.1 49.8 48.4 44.6 46.9 45.7 49.9 53.3 51.6 48.9 53.4 51.1 65.2 55.7 55.5 48.4
+Regra 13 42.3 53.6 47.3 38.7 50.8 43.9 45.2 55.6 49.9 45.6 52.8 48.9 62.9 54.6 53.3 46.7

Tabela 5: Regras cumulativas.

Por meio de nossas regras semânticas, foi 7 CORP


possı́vel identificar links como:
Como resultado da implementação do modelo
• [fungos], [pequenos cogumelos]; de regras, o CORP (Coreference Resolution for
Portuguese) é um sistema de resolução de corre-
• [cientistas], [pesquisadores]; ferências para o Português, disponı́vel em duas
versões: Desktop7 e Web8 .
• [universo], [o cosmo]. Ambas as versões produzem dois tipos de
saı́da: a primeira, em HTML, objetiva facilitar
a visualização da informação; e a segunda, em
Na Tabela 5, podemos inferir que a cada nova
XML, que garante facilidade de processamento e
regra adicionada o modelo perde precisão, mas
reutilização da informação anotada.
ganha em abrangência, aumentando, na maio-
ria dos casos, sua medida-f. Adicionalmente, Na Seção 8 são exibidas amostras de saı́das
quando acrescentamos semântica ao modelo, há em HTML, geradas pelo CORP. Menções cor-
uma redução na medida-f. Contudo, há um au- referentes entre si possuem o mesmo id e co-
mento significativo em sua abrangência. loração. Contudo, existem casos em que algumas
menções são parte constituinte de outras, como
Na Tabela 6, temos os resultados dos princi-
em: “[Claiton Campanhola, diretor de [a Em-
pais trabalhos encontrados na literatura, avalia-
brapa[46]][35]]” (Figura 1). Em casos como esse,
dos utilizando as métricas da conferência CoNLL.
suas “sub-menções” recebem a mesma coloração
Infelizmente, não é possı́vel compararmos o nosso
da menção principal. Seus delimitadores e id re-
e os demais modelos, dado que cada modelo pos-
cebem a cor correspondente à sua cadeia.
sui idioma e/ou escopos distintos. O trabalho
de Garcia & Gamallo (2014a), por exemplo, re- 7
http://www.inf.pucrs.br/linatural/wordpress/
solve correferências para o Português, mas possui index.php/recursos-e-ferramentas/corp-
escopo limitado à categoria de entidade nomeada coreference-resolution-for-portuguese/
8
“Pessoa”. http://ontolp.inf.pucrs.br/corref/
14– Linguamática Evandro Fonseca, Vinicius Sesti, André Antonitsch, Aline Vanin e Renata Vieira

MUC B3 Ceafe CoNLL


Modelo Idioma P A F P A F P A F F
Martschat et al., 2015 IN 76.8 68.1 72.2 66.1 54.2 59.6 59.5 52.3 55.7 62.5
IN 75.9 65.8 70.5 77.7 65.8 71.2 43.2 55.0 48.4 63.4
Fernandes et al., 2014 CH 71.5 59.2 64.8 80.5 67.2 73.2 45.2 57.5 50.6 62.9
AR 49.7 43.6 46.5 72.2 62.7 67.1 46.1 52.5 49.1 54.2
Lee et al., 2013 IN 60.9 59.6 60.3 73.3 68.6 70.9 46.2 47.5 46.9 59.4
ES 94.1 84.1 88.8 84.8 62.9 72.2 71.0 83.4 76.7 79.2
Garcia et al., 2014 GL 94.6 89.0 91.7 88.4 72.9 79.9 76.6 87.6 81.7 84.4
PT 92.7 82.7 87.4 84.5 65.8 74.0 67.9 84.4 75.2 78.9
Nosso PT 42.3 53.6 47.3 38.7 50.8 43.9 45.6 52.8 48.9 46.7

Tabela 6: Resultados não comparativos dos principais modelos da literatura.

8 Análise de Erros 40. [a técnica], [A técnica];

Nesta Seção, apresentamos uma análise deta- 46. [a Embrapa], [a Embrapa],[Empresa Brasi-
lhada de erros do modelo. Para efetuar a análise, leira de Pesquisa Agropecuária];
selecionamos três textos, pertencentes a dois cor- 66. [Roberto Rodrigues], [Agricultura], [Rodri-
pora (Summ-it++ e CST-News (Maziero et al., gues], [Rodrigues]
2010)). Podemos notar que os tipos mais comuns
de erros ocorrem por meio do casamento parcial 73. [o nascimento da bezerra Vitoriosa], [Vitori-
entre menções, agrupamento de duas ou mais ca- osa], [Vitoriosa , que] , [o nascimento];
deias de correferência, regra de aposto e regras
78. [O animal], [um clone], [o primeiro clone bo-
semânticas.
vino da América Latina , nascida], [O clone
do clone], [um clone];
Texto 1
82. [vaca], [Vitória], [a vaca], [Vitória], [Vitória];

Análise:
Na cadeia 22, podemos notar que o modelo agru-
pou incorretamente “a cria” e “animais”. Note
que “a cria” refere-se aos sintagmas “bezerra Vi-
toriosa, o animal e o clone”. No entanto, como
utilizamos o lema dos núcleos para as consultas
semânticas, para a menção “animais”, buscou-
se por uma relação entre os sintagmas: “a cria”
e “animal”, a qual retornou uma relação de Hi-
ponı́mia, que remete para o sintagma “animais”.
podemos notar o agrupamento de menções incor-
reto. Na primeira, trata-se da reprodução de ani-
mais ameaçados de extinção; a segunda, remete à
reprodução da qualidade genética do animal ge-
rado a partir da técnica.
Em 66, podemos ver que o sintagma “Agricul-
tura” foi unido à cadeia “[Roberto Rodrigues],
Figura 1: Texto 1. [Rodrigues], [Rodrigues]”. Isso ocorre pelo fato
do sintagma “Agricultura” estar entre parênteses
após o nome “Roberto Rodrigues”. Em 73 pode-
Cadeias Extraı́das: mos notar a união de duas cadeias: “ [Vitoriosa],
[Vitoriosa , que]” e “[o nascimento da bezerra
22. [a cria], [animais]; Vitoriosa], [o nascimento]”. Este agrupamento
33. [a reprodução], [a reprodução da qualidade]; incorreto deu-se por meio do casamento parcial
entre os sintagmas “o nascimento da bezerra Vi-
34. [elevado valor genético], [boa qualidade toriosa” e “Vitoriosa”.
genética], [a qualidade];
Podemos notar, também, que a cadeia 78’fi-
35. [Clayton Campanhola , diretor-presidente da cou separada do sintagma “Vitoriosa”. Isso por-
Embrapa], [Campanhola]; que dentro das regras implementadas não foi
Abordagem com Regras e Conhecimento Semântico para a Resolução de Correferências Linguamática – 15

possı́vel criar um link entre as menções “Vito- Análise:


riosa” e “ O animal”. Além disso, podemos no-
tar que a última menção do sintagma [um clone] Analisando cadeias do texto 2, podemos no-
(. . . a terceira tentativa de criar um clone. . . ) tar que alguns dos erros encontrados foram de-
não faz referência a [o primeiro clone bovino da correntes das regras semânticas Hiponı́mia e Si-
América Latina], haja vista que o artigo indefi- nonı́mia: na cadeia 39 alguns dos termos agru-
nido gera uma expressão genérica, em que se pode pados pelo sistema não são correferentes (‘inı́cio’
fazer referência a qualquer clone no mundo real. e ‘diretiva’) mas apresentam relações semânticas
no Onto.PT (‘inı́cio’ SinonimoDe ‘princı́pio’ e ‘di-
retiva’ HipônimoDe ‘norma’). Um problema se-
Texto 2
melhante ocorre na cadeia 64, dado que os ter-
mos ‘justiça’ e ‘direito’ apresentam relação de si-
nonı́mia, mas referem-se a menções distintas.

Texto 3

Figura 2: Texto 2.
Figura 3: Texto 3.

Cadeias Extraı́das:
Cadeias Extraı́das:
18. [o genoma], [o genoma];
1. [o Aeroporto Internacional de São Paulo],
22. [ patenteamento de genes], [ o patentea- [Cumbica];
mento], [ O patenteamento];
16. [a Empresa Brasileira de Infra-Estrutura Ae-
26. [ o sequenciamento], [genes], [genes], [um roportuária], [Infraero];
gene], [um gene], [o gene], [um gene], [o se-
quenciamento de genes )]; 24. [informações], [informações];

34. [a França], [único paı́s da União Européia a], 40. [A pista principal do Aeroporto Internaci-
[A França], [o único paı́s], [o paı́s]; onal de São Paulo], [a pista], [a pista], [a
pista];
39. [diretiva favorável], [o princı́pio de que], [a
42. [a reforma emergencial], [a reforma], [a re-
determinação européia], [a norma], [o inı́cio];
forma], [a reforma], [a reforma];
50. [A ministra da Justiça do paı́s], [Elisabeth 43. [a segunda parte], [a terceira parte], [parte];
Guigou], [a ministra];
52. [ a sequência de um gene ], [a sequência]; Análise:
Na cadeia 43 podemos notar que o modelo agru-
64. [a Justiça], [o direito]; pou os sintagmas [a segunda parte], [a terceira
69. [o CCNE (], [Comitê Consultivo Nacional de parte] e [parte]. Note que a regra Palavra Mo-
Ética], [o CCNE]; dificadora serve justamente para evitar este tipo
de agrupamento. No entanto, os sintagmas “[ter-
72. [a União Européia], [A UE], [a UE]; ceira parte]” e “[segunda parte]”, foram ligados
16– Linguamática Evandro Fonseca, Vinicius Sesti, André Antonitsch, Aline Vanin e Renata Vieira

por meio do sintagma “[parte]”. Note que os sin- Referências


tagmas “[a segunda parte] e [a terceira parte]”
remetem às etapas da reforma na pista do ae- do Amaral, Daniela Oliveira Ferreira. 2013. O re-
roporto. Embora o sintagma “[parte]” remete ao conhecimento de entidades nomeadas por meio
sintagma “[parte dos voos de Cumbica]”, isso não de conditional random fields para a lı́ngua por-
foi identificado no pré-processamento. tuguesa: Pontifı́cia Universidade Católica do
Rio Grande do Sul. Tese de Mestrado.
9 Conclusão Antonitsch, André, Anny Figueira, Daniela Ama-
ral, Evandro Fonseca, Renata Vieira & Sandra
Neste artigo, foi proposto um modelo baseado Collovini. 2016. Summ-it++: an enriched ver-
em regras linguı́sticas para a resolução de cor- sion of the Summ-it corpus. Em 10th edition of
referências em Português que emprega conheci- the Language Resources and Evaluation Con-
mento semântico. Avaliamos os impactos de cada ference (LREC), 2047–2051.
regra de forma individual e cumulativa. Mostra-
mos também que modelos baseados em regras po- Bagga, Amit & Breck Baldwin. 1998. Algorithms
dem ser uma boa alternativa, quando há carência for scoring coreference chains. Em 1st Interna-
de corpora ricos em anotação, necessários para tional Conference on Language Resources and
treinar modelos eficientes. Notamos que nossas Evaluation Workshop on Linguistics Corefe-
regras semânticas obtiveram um impacto positivo rence, 563–566.
na abrangência, com pequena queda na precisão. Baker, Collin F., Charles J. Fillmore & John B.
Contudo, mesmo com uma medida-F final um Lowe. 1998. The Berkeley framenet project.
pouco menor, consideramos que o aumento sig- Em 17th International Conference on Compu-
nificativo na abrangência é importante para esse tational Linguistics, 86–90.
tipo de tarefa. Em outras palavras, por meio da
aplicação de regras semânticas foi possı́vel iden- Basso, Renato Miguel. 2009. A semântica das
tificar relações que vão além da análise de simi- relações anafóricas entre eventos: Universi-
laridade lexical e de justaposição, como no caso dade Estadual de Campinas, SP. Tese de Dou-
da relação entre o par [as abelhas], [os insetos]. toramento.
Como trabalho futuro, pretendemos buscar Bechara, Evanildo. 1972. Lições de português,
novas alternativas semânticas e estudar novas pela análise sintática. Editora Fundo de Cul-
cláusulas restritivas, de forma a fazer com que tura.
nossas regras consigam atingir uma precisão mais
Bick, Eckhard. 2000. The parsing system
elevada sem abrir mão da abrangência. Outro ob-
PALAVRAS: Automatic grammatical analysis
jetivo futuro será testar nosso modelo utilizando
of Portuguese in a constraint grammar fra-
outros corpora, como o de Garcia & Gamallo
mework : Aarhus University Press. Tese de
(2014b), de forma a efetuar uma comparação en-
Doutoramento.
tre diferentes modelos.
Como resultado deste trabalho desenvolvemos Bick, Eckhard. 2010. A dependency-based appro-
e disponibilizamos o CORP, uma ferramenta para ach to anaphora annotation. Em 9th Internati-
a resolução de correferências em lı́ngua portu- onal Conference on Computational Processing
guesa que pode auxiliar em diversas tarefas de of the Portuguese Language (PROPOR), pu-
PLN. blicado online.
Cadore, Luiz Agostinho & Paulo Flávio Ledur.
Agradecimentos 2013. Análise sintática aplicada: fundamentos
de concordância, regência, crase, colocação,
Os autores agradecem o suporte financeiro do pontuação e significado. Editora AGE 4th edn.
CNPq (Conselho Nacional de Desenvolvimento
Cardoso, Nuno. 2012. Rembrandt: a named-
Cientı́fico e Tecnológico) e da CAPES (Coor-
entity recognition framework. Em Eighth In-
denação de Aperfeiçoamento de Pessoal de Nı́vel
ternational Conference on Language Resources
Superior).
and Evaluation (LREC), 1240–1243.
Collovini, Sandra, Thiago I. Carbonel, Juli-
ana Thiesen Fuchs, Jorge César Coelho, Lúcia
Rino & Renata Vieira. 2007. Summ-it: Um
corpus anotado com informações discursivas
visando a sumarização automática. Em V
Abordagem com Regras e Conhecimento Semântico para a Resolução de Correferências Linguamática – 17

Workshop em Tecnologia da Informação e da Garcia, Marcos & Pablo Gamallo. 2014a. An


Linguagem Humana, 1605–1614. entity-centric coreference resolution system for
person entities with rich linguistic information.
Collovini, Sandra, Lucas Pugens, Aline A. Va- Em 25th International Conference on Compu-
nin & Renata Vieira. 2014. Extraction of rela- tational Linguistics, 741–752.
tion descriptors for Portuguese using conditi-
onal random fields. Em 14th Ibero-American Garcia, Marcos & Pablo Gamallo. 2014b. Mul-
Conference on Advances in Artificial Intelli- tilingual corpora with coreferential annotation
gence, 108–119. of person entities. Em 9th edition of the Lan-
guage Resources and Evaluation Conference
Coreixas, Tatiane. 2010. Resolução de cor- (LREC), 3229–3233.
referência e categorias de entidades nomea-
das: Pontifı́cia Universidade Católica do Rio Gonçalo Oliveira, Hugo. 2012. Onto.PT: Towards
Grande do Sul. Tese de Mestrado. the automatic construction of a lexical onto-
logy for Portuguese: Universidade de Coimbra.
Durrett, Greg & Dan Klein. 2014. A joint model Tese de Doutoramento.
for entity analysis: Coreference, typing, and
linking. Transactions of the Association for Gonçalo Oliveira, Hugo, Valeria de Paiva,
Computational Linguistics 2. 477–490. Cláudia Freitas, Alexandre Rademaker, Livy
Real & Alberto Simões. 2015. As wordnets
Ferradeira, José Eduardo de Sousa. 1993. Re- do Português. Oslo Studies in Language 7(1).
solução de anáfora pronominal : Universidade 397–424.
Nova de Lisboa. Tese de Mestrado.
Haghighi, Aria & Dan Klein. 2009. Simple core-
Fonseca, Evandro, Renata Vieira & Aline Vanin. ference resolution with rich syntactic and se-
2014. Coreference resolution in Portuguese: mantic features. Em Conference on Empiri-
Detecting person, location and organization. cal Methods in Natural Language Processing
Learning and NonLinear Models 12(2). 86–97. (EMNLP), 1152–1161.
Fonseca, Evandro, Renata Vieira & Aline Va- Hou, Yufang, Katja Markert & Michael Strube.
nin. 2016a. Adapting an entity centric mo- 2014. A rule-based system for unrestric-
del for Portuguese coreference resolution. Em ted bridging resolution: Recognizing bridging
10th Annual Conference on Language Resour- anaphora and finding links to antecedents. Em
ces and Evaluation (LREC), 150–154. Conference on Empirical Methods in Natural
Language Processing (EMNLPL), 2082–2093.
Fonseca, Evandro, Renata Vieira & Aline Vanin.
2016b. Improving coreference resolution with Lee, Heeyoung, Angel Chang, Yves Peirsman,
semantic knowledge. Em 12th International Nathanael Chambers, Mihai Surdeanu & Dan
Conference on the Computational Processing Jurafsky. 2013. Deterministic coreference reso-
of Portuguese (PROPOR), 213–224. lution based on entity-centric, precision-ranked
rules. Computational Linguistics 39(4). 885–
Fonseca, Evandro Brasil. 2014. Resolução de 916.
correferências em lı́ngua portuguesa: pessoa,
local e organização: Pontifı́cia Universidade Luo, Xiaoqiang. 2005. On coreference resolution
Católica do Rio Grande do Sul. Tese de Mes- performance metrics. Em Conference on Empi-
trado. rical Methods in Natural Language Processing
(EMNLP), 25–32.
Freitas, Cláudia, Cristina Mota, Diana San-
tos, Hugo Gonçalo Oliveira & Paula Carva- Maia, Luiz Cláudio Gomes. 2008. Uso de sintag-
lho. 2010. Second HAREM: advancing the mas nominais na classificação automática de
state of the art of named entity recognition in documentos eletrônicos: Universidade Federal
Portuguese. Em International Conference on de Minas Gerais. Tese de Doutoramento.
Language Resources and Evaluation (LREC), Maziero, Erick, Maria Lucı́a Jorge & Thiago
3630–3637. Pardo. 2010. Identifying multidocument relati-
ons. Em 7th International Workshop on Natu-
Freitas, Cláudia, Diana Santos, Cristina Mota,
ral Language Processing and Cognitive Science,
Hugo Gonçalo Oliveira & Paula Carvalho.
60–69.
2009. Relation detection between named enti-
ties: report of a shared task. Em Workshop on Maziero, Erick G., Thiago Pardo, Ariani Di Fe-
Semantic Evaluations: Recent Achievements lippo & Bento C. Dias-da Silva. 2008. A base
and Future Directions, 129–137. de dados lexical e a interface web do TeP 2.0:
18– Linguamática Evandro Fonseca, Vinicius Sesti, André Antonitsch, Aline Vanin e Renata Vieira

thesaurus eletrônico para o Português do Bra- S. Botley & A. M. Mcenery (eds.), Corpus-
sil. Em XIV Brazilian Symposium on Multi- based and Computational Approaches to Dis-
media and the Web, 390–392. course Anaphora, 81–94. John Benjamins Pu-
blishing Company.
Miller, George A. 1995. WordNet: a lexical data-
base for english. Communications of the ACM Salomão, Maria Margarida Martins. 2009. Fra-
38(11). 39–41. meNet Brasil: um trabalho em progresso. Ca-
lidoscópio 7(3). 171–182.
Poesio, Massimo, Roland Stuckardt & Yannick
Versley. 2016. Anaphora resolution: Algo- Sarmento, Luı́s, Ana Sofia Pinto & Luı́s Ca-
rithms, resources, and applications. Springer. bral. 2006. REPENTINO - a wide-scope ga-
zetteer for entity recognition in Portuguese.
Ponzetto, Simone Paolo & Michael Strube. 2006. Em 7th International Conference on Computa-
Exploiting semantic role labeling, WordNet tional Processing of the Portuguese Language
and Wikipedia for coreference resolution. Em (PROPOR), 31–40.
Human Language Technology Conference, 192–
199. Silva, Jefferson Fontinele da. 2011. Resolução
de correferência em múltiplos documentos uti-
Pradhan, Sameer, Xiaoqiang Luo, Marta Reca- lizando aprendizado não supervisionado: Uni-
sens, Eduard H. Hovy, Vincent Ng & Michael versidade de São Paulo. Tese de Mestrado.
Strube. 2014. Scoring coreference partitions of
predicted mentions: A reference implementa- Silva, William Daniel Colen. 2013. Aprimorando
tion. Em 52nd Annual Meeting of the Associ- o corretor gramatical CoGrOO: Universidade
ation for Computational Linguistics, 30–35. de São Paulo. Tese de Mestrado.
Pradhan, Sameer, Alessandro Moschitti, Ni- Soon, Wee Meng, Hwee Tou Ng & Chung Yong
anwen Xue, Olga Uryupina & Yuchen Zhang. Lim. 2001. A machine learning approach to
2012. CoNLL-2012 shared task: Modeling coreference resolution of noun phrases. Com-
multilingual unrestricted coreference in Onto- putational Linguistics 27(4). 521–544.
Notes. Em Joint Conference on Empirical Suchanek, Fabian M., Gjergji Kasneci & Gerhard
Methods in Natural Language Processing and Weikum. 2007. Yago: a core of semantic kno-
Conference on Natural Language Learning - wledge. Em 16th International Conference on
Shared Task, 1–40. World Wide Web, 697–706.
Pradhan, Sameer, Lance Ramshaw, Mitchell Vieira, Renata, Susanne Salmon-Alt, Caro-
Marcus, Martha Palmer, Ralph Weischedel & line Gasperin, Emmanuel Schang & Gabriel
Nianwen Xue. 2011. CoNLL-2011 shared task: Othero. 2005. Coreference and anaphoric re-
Modeling unrestricted coreference in ontono- lations of demonstrative noun phrases in mul-
tes. Em Fifteenth Conference on Computatio- tilingual corpus. Em A. Branco, T. McE-
nal Natural Language Learning: Shared Task, nery & R. Mitkov (eds.), Anaphora Proces-
1–27. sing: linguistic, cognitive and computational
Rahman, Altaf & Vincent Ng. 2011. Coreference modeling, 385–403. John Benjamins Publishing
resolution with world knowledge. Em 49th An- Company.
nual Meeting of the Association for Computa- Vilain, Marc, John Burger, John Aberdeen,
tional Linguistics: Human Language Techno- Dennis Connolly & Lynette Hirschman. 1995.
logies, 814–824. A model-theoretic coreference scoring scheme.
Recasens, Marta & Eduard H. Hovy. 2011. Em 6th Conference on Message understanding,
BLANC: implementing the rand index for co- 45–52.
reference evaluation. Natural Language Engi-
neering 17(4). 485–510.
Recasens, Marta, Lluı́s Màrquez, Emili Sapena,
M Antònia Martı́, Mariona Taulé, Véronique
Hoste, Massimo Poesio & Yannick Versley.
2010. Semeval-2010 task 1: Coreference reso-
lution in multiple languages. Em 5th Interna-
tional Workshop on Semantic Evaluation, 1–8.
Rocha, Marco. 2000. A corpus-based study of
anaphora in English and Portuguese. Em
Proposta recebida em Março 2017 e aceite para publicação em Junho 2017.

LinguaKit: uma ferramenta multilingue para a análise linguı́stica e a


extração de informação
LinguaKit: a multilingual tool for linguistic analysis and information extraction

Pablo Gamallo
Centro Singular de Investigação de Tecnologias da Informação (CiTIUS)
Universidade de Santiago de Compostela
pablo.gamallo@usc.es
Marcos Garcia
Grupo LyS, Departamento de Letras
Faculdade de Filologia, Universidade da Corunha
marcos.garcia.gonzalez@udc.gal

Resumo 1 Introdução
Este artigo apresenta LinguaKit, uma suite multi- Neste artigo apresentamos LinguaKit, um pa-
lingue de ferramentas de análise, extração, anotação e cote de ferramentas multilingues para o Processa-
correção linguı́sticas. LinguaKit permite realizar ta- mento da Linguagem Natural (PLN), que contém
refas tão diversas como a lematização, a etiquetagem módulos de análise, extração, anotação e correção
morfossintática ou a análise sintática (entre outras), linguı́stica. Os diferentes módulos que compõem
incluindo também aplicações para a análise de senti- LinguaKit são interdependentes entre si, e estão
mentos (ou minaria de opiniões), a extração de termos organizados mediante uma arquitectura de pipe-
multipalavra, ou a anotação concetual e ligação a re- line. Permite realizar um vasto conjunto de ta-
cursos enciclopédicos tais como a DBpedia. A maior refas de PLN, entre as quais: (i) identificação de
parte dos módulos funcionam para quatro variedades orações e tokenização, (ii) lematização, (iii) eti-
linguı́sticas: português, espanhol, inglês e galego. A quetagem morfossintática, (iv) identificação e (v)
linguagem de programação de LinguaKit é Perl, e o reconhecimento de entidades mencionadas, (vi)
código está disponı́vel sob a licença livre GPLv3. análise sintática de dependências, (vii) resolução
Palavras chave de correferência a nı́vel de entidade, (viii) ex-
tração de termos e (ix) de relações semânticas,
extração de informação, tecnologia linguı́stica (x) análise de sentimentos (minaria de opiniões),
(xi) anotação conceitual com ligação a recursos
enciclopédicos, (xii) correção e avaliação de léxico
Abstract e sintaxe, (xiii) conjugação verbal automática,
(xiv) resumo automático (sumarização), (xv)
This paper presents LinguaKit, a multilingual identificação de lı́ngua, ou (xvi) visualização de
suite of tools for analysis, extraction, annotation and concordâncias (palavras chave em contexto).
linguistic correction. LinguaKit allows the user to
As ferramentas foram desenhadas e desenvol-
perform different tasks such as lemmatization, PoS-
vidas utilizando diferentes estratégias de PLN,
tagging or syntactic parsing (among others), inclu-
tanto de base simbólica como estatı́stica, com
ding applications for sentiment analysis (or opinion
aprendizagem supervisionada, não supervisio-
mining), extraction of multiword expressions or con-
nada e semi-supervisionada. A maior parte dos
ceptual annotation and entity linking to DBpedia.
módulos de LinguaKit funcionam em português,
Most part of the developed modules work in four lin-
galego,1 espanhol e inglês.2
guistic varieties: Portuguese, Spanish, English, and
Galician. The system is programmed in Perl, and it 1
Neste trabalho consideramos português a variedade es-
is freely available under a GPLv3 license. crita utilizando as diferentes ortografias da Academia Bra-
Keywords sileira de Letras e da Academia das Ciências de Lisboa,
e galego a que segue (com maior ou menor fidelidade) as
information extraction, linguistic technology normas publicadas em Real Academia Galega e Instituto
da Lingua Galega (2004).
2
Exceto o sistema de correção e avaliação linguı́stica —
DOI: 10.21814/lm.9.1.243
Linguamática — ISSN: 1647–0818
This work is Licensed under a
Creative Commons Attribution 4.0 License Vol. 9 Núm. 1 - Julho 2017 - Pág. 19–28
20– Linguamática Pablo Gamallo e Marcos Garcia

LinguaKit foi programado em Perl. Está dis- mas para a resolução da correferência, etc. Está
ponı́vel como um serviço web3 e é acessı́vel via escrito em Java e foi desenvolvido principalmente
RESTful API.4 O código fonte está publicado sob para o inglês, embora recentemente se tenham
uma licença GPL.5 publicado modelos para diversas lı́nguas como o
A tabela 1 mostra os módulos da suite chinês, o espanhol ou o árabe, entre outras.
organizados em quatro categorias: análise FreeLing (Padró, 2011) é uma outra suite de
básica, análise profunda, sistemas de extração, PLN (escrita em C++) que inclui uma lista se-
e aplicações linguı́sticas. melhante à de Stanford CoreNLP, mas dispõe de
Uma das principais contribuições desta nova ferramentas para outras tarefas como a trans-
suite em código aberto é a criação de um ecos- crição fonética ou a desambiguação semântica.
sistema de ferramentas com diferentes nı́veis de A maior parte dos módulos analisa os textos
complexidade. No primeiro nı́vel, situam-se os em catalão, espanhol, português, galego, inglês,
módulos básicos de análise, que são utilizados francês, e recentemente, alemão ou russo (entre
para construir aqueles com uma complexidade outras lı́nguas).
maior, nomeadamente módulos de análise pro- Um outro sistema de PLN escrito em Java é
funda e de extração. E estes, por sua vez, servem OpenNLP,6 que realiza tarefas de análise simila-
para desenvolver aplicações cada vez mais com- res aos que já foram referidos, mas que inclui,
plexas, como a ferramenta de correção/avaliação por exemplo, um módulo de categorização de
linguı́stica ou o anotador semântico. documentos. Existem modelos disponı́veis para
O objetivo do presente artigo é descrever a várias lı́nguas, nomeadamente inglês, espanhol e
arquitetura de LinguaKit, mencionando as me- alemão.
todologias utilizadas na implementação de cada Também programada em Java, IXA pi-
módulo, e apresentar aquelas ferramentas que pes (Agerri et al., 2014) é uma suite modular
ainda não tinham sido tratadas em trabalhos pre- que realiza as tarefas mais habituais de proces-
cedentes. samento linguı́stico: tokenização, etiquetagem
Para além desta introdução, o artigo está or- morfossintática, reconhecimento de entidades e
ganizado da seguinte maneira. Na secção 2 in- análise sintática. Este sistema permite proces-
cluı́mos uma breve revisão do trabalho relacio- sar as seguintes lı́nguas (com variações em função
nado, e a secção 3 mostra a arquitetura do sis- do módulo escolhido): espanhol, inglês, eusquera,
tema. A seguir, apresentamos diferentes ava- italiano e galego.
liações —já publicadas— dos diferentes módulos Com a popularização da iniciativa Universal
(secção 4), uma descrição pormenorizada dos ex- Dependencies,7 que promove a unificação das di-
tratores de termos (secção 5), e as conclusões do retrizes de anotação em diversas lı́nguas, têm
presente trabalho (secção 6). vindo a ser desenvolvidas algumas ferramentas
compatı́veis, como UDPipe (Straka et al., 2016).
UDPipe inclui módulos de aprendizagem au-
2 Trabalho relacionado tomática para tokenização, etiquetagem morfos-
sintática, lematização e análise sintática.
Dado que existem numerosas ferramentas de
Como foi referido, existem mais sistemas que
PLN para diversas lı́nguas e em várias lingua-
realizam tarefas de PLN —alguns com objeti-
gens de programação, nesta secção apresentamos
vos ligeiramente diferentes, ou escritos noutras
sucintamente algumas das mais conhecidas e uti-
linguagens de programação—, tais como NLTK:
lizadas suites de PLN em código aberto, tendo
Natural Language Toolkit (Bird et al., 2009), am-
em conta também as lı́nguas que cada uma delas
plamente utilizado no ensino de PLN, ou spaCy8
suporta.
(mais focado em uso industrial), ambos escritos
O software de PLN mais conhecido é provavel- em python.
mente Stanford CoreNLP (Manning et al., 2014),
Para além dos diferentes softwares apresenta-
que inclui módulos de análise tais como tokeniza-
dos, cabe mencionar também CitiusTools (Gar-
dores, etiquetadores morfossintáticos, reconhece-
cia & Gamallo, 2015), suite de PLN a partir da
dores de entidades, analisadores sintáticos, siste-
qual foram desenvolvidos alguns dos módulos de
desenvolvido principalmente para a análise do galego—, e LinguaKit. À diferença dos sistemas menciona-
o conjugador verbal — que não funciona para o inglês. dos, que oferecem fundamentalmente módulos de
3
https://www.linguakit.com análise, LinguaKit possui também um amplo le-
4
https://market.mashape.com/linguakit/
6
linguakit-natural-language-processing-in-the- http://opennlp.apache.org/
7
cloud http://universaldependencies.org/
5 8
https://github.com/citiususc/Linguakit https://spacy.io/
LinguaKit: uma ferramenta multilingue para análise linguı́stica e extração de informação Linguamática – 21

tipo de módulo módulos


conjugador verbal
análise básica
segmentador de orações
tokenizador e splitter
lematizador
análise profunda
PoS-tagger
identificador de entidades (NER)
classificador de entidades (NEC)
identificador de correferência
analisador sintático em dependências
palavras chave
extração
expressões multipalavra
análise de sentimento/opinião
relações semânticas (open IE)
sumarização
aplicações
anotação semântica (com EL)
concordâncias (palavras chave em contexto)
identificação de lı́nguas
correção/avaliação linguı́stica (léxica e gramatical)

Tabela 1: Módulos de LinguaKit organizados em quatro categorias.

que de ferramentas de extração, bem como de Com base nos módulos de análise básica, fo-
aplicações mais complexas baseadas nesses siste- ram implementadas duas aplicações diferentes:
mas de extração. um identificador de lı́ngua e um gerador de con-
cordâncias (palavras chave em contexto). O
identificador de lı́ngua é também utilizado inter-
3 Arquitetura namente pelo sistema para fazer a escolha au-
tomática dos módulos de uma ou outra lı́ngua,
A figura 1 mostra as dependências entre os dife- permitindo que o utilizador possa analisar um
rentes módulos apresentados na tabela 1, sendo texto sem ter de selecionar a lı́ngua desejada.
esta arquitetura comum às quatro lı́nguas proces- Os módulos de análise profunda tomam como
sadas pelo sistema. entrada a saı́da da análise básica. O primeiro
A análise básica consiste na segmentação de processo é a lematização, que atribui todos os le-
um texto em orações, que são a entrada do pro- mas e todas as etiquetas possı́veis a cada forma
cesso de tokenização. Por sua vez, o texto toke- (já tokenizada) do texto de entrada. O lema-
nizado é melhorado com regras básicas de split- tizador baseia-se num léxico computacional dis-
ting, que separam os elementos que compõem ponı́vel para cada lı́ngua. Antes do processo de
contrações (e.g., “do → de o”, em português e desambiguação realizado pelo etiquetador mor-
galego) ou sequências de verbo e pronome clı́tico fossintático (PoS-tagger, na tabela 1), é possı́vel
(e.g., “comelo → comer o”, em galego). Este identificar as entidades mencionadas ou nomes
último módulo é dependente da lı́ngua, enquanto próprios (NER). As entidades identificadas pelo
os processos anteriores são realizados com uma NER serão classificadas após a etiquetagem mor-
ferramenta única (utilizando listas de abrevia- fossintática mediante um sistema de classificação
turas também dependentes de cada variedade semântica: o classificador de entidades menciona-
linguı́stica). das (NEC). O último módulo de análise é o par-
O conjugador verbal é um módulo isolado que sing sintático em dependências, que toma como
toma como entrada um verbo em infinitivo tanto entrada o etiquetador morfossintático (com ou
em espanhol como em galego e português. Neste sem aplicação dos módulos de NER e NEC).
último caso, o sistema pode realizar até quatro Várias ferramentas utilizam a saı́da dos
modelos de conjugação verbal, em função quer da módulos de análise profunda para extrair in-
variedade (português de Portugal ou do Brasil), formação dos textos: extratores de opiniões
quer do sistema ortográfico utilizado (antes ou (também conhecidos como analisadores de sen-
depois do Acordo Ortográfico de 1990).9 timento), de palavras chave, de expressões multi-
palavra, e de relações semânticas. Todos estes ex-
9
https://pt.wikipedia.org/wiki/Acordo_ tratores tomam como entrada a saı́da do módulo
Ortografico_de_1990
22– Linguamática Pablo Gamallo e Marcos Garcia

Figura 1: Arquitetura de LinguaKit.

de etiquetagem morfossintática. Para além disso, Pré-processamento


foi desenvolvida uma aplicação de correção lexi-
cal e gramatical que utiliza a saı́da do analisador Como foi referido, os primeiros módulos reali-
sintático. zam um pré-processamento do texto que per-
Finalmente, duas aplicações foram criadas a mite aplicar com maior precisão as ferramen-
partir dos extratores de termos relevantes (isto tas subsequentes: estes módulos realizam iden-
é, palavras chave e expressões multipalavra): um tificação de fronteiras de oração (com base em
gerador automático de resumos e um anotador máquinas de estados finitas e em listas de abre-
semântico, que liga os termos extraı́dos a con- viaturas que terminam com pontuação), de to-
ceitos enciclopédicos armazenados em bases de kenização e splitting (processos pelos quais são
conhecimento externas (por exemplo, a DBpe- separados os diferentes tokens de cada oração),
dia).10 e de lematização (que atribui um —ou mais—
lemas possı́veis a cada um dos tokens). Des-
crições mais pormenorizadas destes módulos po-
dem encontrar-se em (Garcia & Gamallo, 2010)
ou em (Garcia & Gamallo, 2015).
4 Módulos

Os principais módulos de LinguaKit foram dese- Etiquetagem morfossintática


nhados e implementados nos últimos cinco anos,
sendo a maior parte deles descritos em diferentes Este módulo desambigua as etiquetas morfos-
publicações. Assim, esta secção tem como obje- sintáticas11 previamente atribuı́dos a cada to-
tivo pôr em conjunto as técnicas e metodologias ken mediante um classificador bayesiano baseado
empregadas em cada um dos principais módulos, em bigramas de tokens. Foi avaliado para três
bem como um breve resumo das avaliações reali- 11
E também alguns lemas cuja atribuição varia em
zadas. função da categoria morfossintática à que pertença o to-
ken. Por exemplo, as formas galegas/portuguesas cala ou
calas podem ter como lema calar —se forem verbos—, ou
10
http://wiki.dbpedia.org/ cala —se forem nomes.
LinguaKit: uma ferramenta multilingue para análise linguı́stica e extração de informação Linguamática – 23

lı́nguas: inglês, português e espanhol, com resul- versão simplificada do apresentado em (Garcia
tados próximos ao estado da arte: ≈ 96 para & Gamallo, 2014).
português e espanhol, e ligeiramente mais baixos Para além disso, este sistema inclui uma saı́da
(≈ 94%) para inglês (Gamallo et al., 2015b; Gar- alternativa que aproveita a resolução de corre-
cia & Gamallo, 2015). ferência para tentar corrigir erros prévios da clas-
sificação semântica. Assim, se a citada forma
“Lennon” tivesse sido anteriormente classificada
Identificação e classificação de entidades como local, mas identificada como menção da
mencionadas mesma entidade que “John Lennon”, a etiqueta
O primeiro destes módulos identifica expressões semântica da primeira seria corrigida para pes-
numex (de base numérica) e enamex (nomes soa (Garcia, 2016).
próprios) mediante máquinas de estados finitas,
que têm em conta tanto as formas ortográficas Analisador em dependências
(uso de maiúsculas) como palavras funcionais
que possam conter (Universidade de Santiago de O módulo de análise sintática, chamado DepPat-
Compostela). Uma vez identificadas as entida- tern, baseia-se em regras formais de dependências
des, o módulo de classificação aplica um método e num algoritmo de parsing com técnicas de es-
de supervisão distante que lhe permite classifi- tados finitos. Foi avaliado para português e espa-
car as entidades em quatro classes: pessoa, orga- nhol e comparado com MaltParser (Nivre et al.,
nização, local ou miscelânea. O sistema emprega 2007), um parser determinı́stico de transições ba-
listas de entidades já conhecidas (gazetteers) e seado em aprendizagem supervisionada. Os re-
um conjunto de regras que permitem desambi- sultados obtidos por DepPattern com corpora de
guar as entidades que aparecem em mais de uma teste construı́do a partir de textos de diferen-
lista (que podem ser, por exemplo, pessoa ou lo- tes domı́nios foram semelhantes aos obtidos por
cal ). Os gazetteers foram extraı́dos automatica- MaltParser: ≈ 82% de F-score (Gamallo, 2015).
mente de fontes externas com conhecimento en- Em Gamallo & González (2011) descrevem-
ciclopédico. se as caracterı́sticas principais da gramática for-
Este módulo foi avaliado para as quatro mal na qual se baseia o conhecimento linguı́stico
lı́nguas analisadas (inglês, português, espanhol e de DepPattern. Um compilador transforma as
galego), utilizando diversos corpora e sendo com- regras formais, escritas com os princı́pios da
parando com sistemas supervisionados (Gamallo gramática de dependências, em scripts Perl que
& Garcia, 2011; Garcia et al., 2012; Garcia & Ga- representam os parsers de estados finitos.
mallo, 2015). Os resultados obtidos —apesar de
que não são sempre diretamente comparáveis—
Análise de sentimentos
foram próximos aos atingidos por FreeLing e
Stanford CoreNLP, superando nitidamente os O sistema de análise de sentimentos (tarefa
modelos disponibilizados para OpenNLP. também conhecida como minaria de opiniões)
classifica uma oração como tendo uma opinião
positiva, negativa ou neutra. O núcleo deste
Resolução de correferência a nı́vel de enti-
módulo é um classificador bayesiano treinado
dade
com texto previamente anotado com as opiniões
Um outro módulo de análise linguı́stica incluı́do referidas, que também utiliza um léxico de po-
em LinguaKit é o de resolução de correferência laridade e regras sintáticas para a identificação
a nı́vel de entidade. Este módulo utiliza como de marcadores linguı́sticos que intensificam ou
entrada um texto com as entidades mencio- mudam a polaridade das palavras. Foi avaliado
nadas classificadas semanticamente, e aplica para inglês e espanhol, e participou em duas com-
uma estratégia determinı́stica baseada em petições focadas na análise de opiniões em re-
filtros mediante os quais atribui um identifi- des sociais: TASS 2013 (Gamallo et al., 2013a)
cador numérico a cada uma das ocorrências para espanhol, e SemEval-2014 (Gamallo & Gar-
(menções) das entidades previamente ana- cia, 2014) para inglês, mostrando um desempe-
lisadas. Idealmente, este identificador será nho competitivo em ambas as lı́nguas.
igual para cada uma das menções que re-
firam a mesma entidade do discurso (e.g., Extrator de relações
“António VariaçõesPessoa 1 ”, “JohnPessoa 2 ”,
“John LennonPessoa 2 ”, “AntónioPessoa 1 ”, Este módulo consiste num sistema de extração
“LennonPessoa 2 ”, . . . ). Este módulo é uma de informação não supervisionado cujo obje-
24– Linguamática Pablo Gamallo e Marcos Garcia

tivo é obter um conjunto aberto de relações desenvolvimento no que diz respeito a recursos
entre dous objetos. As relações (ou tripletas: linguı́sticos tais como listas de tipologias de er-
obj1,relação,obj2 ) selecionadas por um sistema ros, ou regras sintáticas para a identificação e
de extração de informação aberta (Open Infor- classificação de erros.
mation Extraction, OIE) representam as pro-
posições básicas do texto de entrada. O nosso
sistema, argOE (Gamallo & Garcia, 2015), está Outras ferramentas
baseado em regras e toma como entrada um texto Para além das ferramentas referidas (e das
analisado em dependências em formato CoNLL- aplicações de extração mostradas na secção 5),
X. Foi avaliado em inglês, português e espanhol, LinguaKit também inclui as seguintes aplicações:
e comparado com sistemas de OIE focados na (i) um gerador automático de resumos (suma-
extração numa única lı́ngua. O módulo incluı́do rizador), (ii) um visualizador de palavras chave
em LinguaKit melhora os resultados de muitos em contexto (concordâncias), e (iii) conjugadores
dos sistemas com os quais foi comparado, como verbais automáticos.
ReVerb (Etzioni et al., 2011), embora os resulta-
O sumarizador extrai as frases ou orações mais
dos sejam mais baixos do que um outro sistema
relevantes do texto de entrada. Utiliza a seg-
baseado em regras, ClausIE (Corro & Gemulla,
mentação de orações, a análise morfossintática,
2013).
e os extratores de palavras e multipalavras para
ponderar as orações em graus de relevância. A
Anotação e ligação semântica partir da lista ponderada de orações, o usuário
escolhe a percentagem de texto que quer extrair
Este módulo identifica os termos relevantes do para construir o resumo.
texto que podem ser ligados a conceitos presen-
O visualizador de concordâncias, também co-
tes em bases de dados externas, tais como a DB-
nhecido como key word in context, é uma ferra-
pedia. Esta tarefa, que consiste em relacionar os
menta útil para estudos em linguı́stica de cor-
termos mencionados no texto e os conceitos de
pus que procura no texto selecionado a pala-
uma base ontológica e enciclopédica, é normal-
vra escolhida pelo utilizador, obtendo o seu con-
mente conhecido como ligação de entidades (en-
texto anterior e posterior em cada uma das suas
tity linking, EL). O nosso sistema utiliza como
ocorrências.
recursos externos algumas relações da DBpedia
e uma nova base construı́da mediante similari- O módulo de conjugação verbal permite obter
dade distribucional a partir das entradas textuais de modo automático a conjugação completa de
da Wikipedia. Foram avaliadas as versões portu- um verbo a partir da sua forma em infinitivo. O
guesa e inglesa (Gamallo & Garcia, 2016), com sistema contém as regras de conjugação verbal do
resultados similares a outros sistemas EL de re- espanhol peninsular, do galego e de quatro nor-
ferência, como DBpedia Spotlight (Mendes et al., mas do português: duas variedades diatópicas:
2011). português europeu e brasileiro; e duas varian-
tes ortográficas para cada uma das anteriores:
antes e depois do Acordo Ortográfico de 1990.
Corretor linguı́stico Uma vez que o conjugador funciona aplicando
diferentes regras em função do paradigma ver-
O sistema de correção linguı́stica de LinguaKit
bal, este pode gerar as formas conjugadas de ver-
está, por enquanto, só disponı́vel como módulo
bos desconhecidos, tais como neologismos. Para
experimental na versão web.12
além disso, identifica se o verbo é conhecido,
Esta ferramenta foi desenvolvida principal- com base em listas de verbos obtidos de recursos
mente para galego, variedade na qual foi avaliada académicos para cada uma das lı́nguas (Gamallo
e comparada com revisões manuais de textos por et al., 2013b).
parte de docentes profissionais (Gamallo et al.,
2015a). O sistema contém diversos módulos que
identificam e classificam diferentes tipos de er- Usabilidade
ros habituais em aprendizes de galego, tanto
de tipo léxico (castelhanismos, hipercorreções, Para executar qualquer módulo em linha de co-
etc.), como gramatical (concordância de género mandos, disponibilizamos de um script, lingua-
e número, posição dos pronomes átonos, etc.). kit, que requer três argumentos: lı́ngua, nome
Existem, contudo, versões básicas para por- do módulo e ficheiro TXT a ser processado. Por
tuguês e espanhol, mas precisam de um maior exemplo, o comando que faz a chamada básica do
módulo de etiquetagem morfossintática em por-
12
https://linguakit.com/es/supercorrector tuguês é o seguinte:
LinguaKit: uma ferramenta multilingue para análise linguı́stica e extração de informação Linguamática – 25

./linguakit pt tagger input.txt selecionam-se como candidatos todas as unida-


des lexicais que foram etiquetadas como nomes
Com este comando, o utilizador não precisa (comuns e próprios), adjetivos e verbos.
de conhecer quais os módulos que dependem da Na segunda fase, os termos ordenam-se por re-
etiquetagem (segmentação, tokenização, etc). De levância e escolhem-se os N primeiros, sendo N
facto, o código executado por linguakit é um pi- um valor numérico parametrizável. Para calcu-
peline de scripts, cada um deles representando lar a relevância dos termos básicos recorremos à
um módulo da suite. No caso da etiquetagem
noção de termhood, é dizer, ao grau com que a
morfossintática para um texto em português, o
pipeline invocado é o seguinte: unidade linguı́stica está relacionada com concei-
tos especı́ficos do domı́nio do texto (Kageura &
cat input.txt Umino, 1996). Esta noção de termhood pode ver-
|./tagger/pt/sentences-pt_exe.perl se também como a probabilidade de um termo
|./tagger/pt/tokens-pt_exe.perl formar parte do domı́nio. O termhood não é, por-
|./tagger/pt/splitter-pt_exe.perl tanto, uma medida discreta, mas contı́nua. Em
|./tagger/pt/lemmas-pt_exe.perl consequência, medimos a relevância de um termo
|./tagger/pt/tagger-pt_exe.perl básico (termhood ) mediante um peso estatı́stico
que é calculado contrastando as frequências dos
Na próxima versão de LinguaKit, os módulos candidatos no texto de entrada (dados observa-
poderão ser invocados também mediante funções dos) com um corpus de referência (dados espe-
Perl. rados). Mais precisamente, o peso de um termo
é o valor qui-quadrado que mede a divergência
entre os dados observados e os esperados. Es-
5 Extratores de termos tes últimos são os dados obtidos a partir de um
corpus de referência com um tamanho médio de
Uma vez apresentados os módulos e aplicações
100M de tokens por lı́ngua, compilado pelo grupo
que já tinham sido avaliadas em diferentes pu-
ProLNat@GE, e que é composto por textos de
blicações, nesta secção mostramos duas ferra-
vários géneros e domı́nios: jornalı́stico, técnico,
mentas de extração, que têm como objetivo iden-
literário, de redes sociais, etc. Finalmente, os
tificar e selecionar os termos chave e relevantes
termos são organizados em função do seu peso,
de um texto. Consideram-se termos relevantes
de maior a menor, e o usuário escolhe os N mais
aquelas expressões mais importantes de um texto
relevantes em função do tamanho do texto e das
que são utilizadas como ı́ndices para —entre ou-
necessidades de análise.
tras aplicações— a deteção imediata do tema ou
tópico, para o etiquetado textual automático, ou
bem para a classificação de documentos. Es-
Termos multipalavra
tes dous módulos de extração diferenciam-se no
tipo de termos relevantes que extraem: (i) uni- Os termos multipalavra são expressões relevan-
dades monolexicais e nomes próprios (termos tes codificadas como unidades plurilexicais que
básicos), e (ii) unidades plurilexicais (termos instanciam padrões especı́ficos de etiquetas mor-
multipalavra). fossintáticas. Por exemplo, lı́ngua natural, pro-
cessamento da lı́ngua, tecnologias da lı́ngua ou
Termos básicos analisador sintático podem ser unidades multi-
palavra relevantes dentro de um texto de domı́nio
Chamamos termos básicos àquelas unidades le- cientı́fico focado em questões de PLN. Como no
xicais relevantes para um texto que se codificam caso dos termos básicos, o processo de extração
como nomes comuns, nomes próprios (simples ou de multipalavras divide-se em duas fases: seleção
compostos), adjetivos e verbos. Exceto os no- de candidatos e ordenação dos mesmos por re-
mes próprios, que podem ser expressões compos- levância. Porém, tanto a seleção de candida-
tas por várias palavras (por exemplo, “Nova Ior- tos como a ordenação realizam-se mediante es-
que”, “Universidade Nova de Lisboa”, etc), os tratégias diferentes às utilizadas para a extração
termos básicos são palavras simples monolexicais. dos termos básicos.
O método de extração leva-se a cabo em duas Para a primeira fase utilizamos um conjunto
fases: seleção de candidatos e ordenação por re- de padrões de etiquetas (tabela 2) para identi-
levância. ficar todas aquelas expressões plurilexicais que
Na primeira fase, o sistema identifica to- os instanciam (os artigos e determinantes das
dos os candidatos a serem termos básicos medi- expressões não se tomam em conta na instan-
ante o etiquetador morfossintático. Deste modo, ciação). O conjunto foi desenhado para a identi-
26– Linguamática Pablo Gamallo e Marcos Garcia

nome − adj adj − nome


nome − nome nome − prep − nome
nome − prep − adj − nome nome − prep − nome − adj
adj − nome − prep − nome nome − adj − prep − nome
adj − nome − prep − nome − adj nome−adj−prep−nome−adj
adj − nome − prep − adj − nome nome−adj−prep−adj−nome

Tabela 2: Conjunto de padrões de etiquetas utilizado para a identificação de candidatos a termos


multipalavra (adj é adjetivo e prep é preposição).

peso multipalavra padrão de etiquetas


9,95 dación en pago nome-prep-nome
7,94 viviendas vacı́as nome-adj
7,27 renta básica nome-adj
5,24 iniciativas legislativas nome-adj
2,99 reuniones de representantes nome-prep-nome

Tabela 3: As cinco multipalavras mais relevantes (unithood ) extraı́das do programa eleitoral do partido
polı́tico espanhol Podemos para as eleições do 20D/2015.

ficação de multipalavras nas quatro lı́nguas trata- se a partir das frequências dos constituintes por
das. Este método é semelhante ao descrito nou- separado.
tros trabalhos sobre extração terminológica (Vi- É importante sublinhar que estas estratégias
valdi & Rodrı́guez, 2001; Sánchez & Moreno, básicas de extração são de propósito geral pois
2006). Os padrões foram selecionados a partir não estão adaptadas a um domı́nio especı́fico.
da revisão manual de uma lista de n-gramas de São aplicáveis portanto a qualquer domı́nio. No
etiquetas ordenadas por frequência em corpora entanto, para serem mais eficientes, precisavam
de diferentes lı́nguas. de incluir novos sub-módulos que permitissem
Na segunda fase, a ordenação por relevância, uma fácil adaptação a domı́nios de especialidade.
utilizamos uma estratégia diferente à empregada Na atualidade, a extração só permite selecionar
na ordenação por termos básicos. Enquanto es- e identificar candidatos a termo em geral, e não
tes se ordenam em função da noção de termhood, unidades terminológicas de um domı́nio previa-
a relevância das expressões multipalavra define- mente identificado.
se mediante o conceito de unithood. Esta noção Como exemplo de utilização, as tabelas 3 e 4
faz referência à associação das sequências de pa- mostram as expressões multipalavra mais rele-
lavras com unidades lexicais estáveis. Mais con- vantes (usando qui-quadrado como peso para a
cretamente, unithood refere-se ao grau de força e ordenação) extraı́das de dous programas de par-
coesão entre as unidades lexicais que constituem tidos polı́ticos, Podemos e o Partido Popular,
os sintagmas e colocações (Kageura & Umino, para as eleições ao parlamento espanhol de 20
1996). A unithood só se aplica, portanto, a uni- de dezembro de 2015. Assim, este exemplo mos-
dades plurilexicais com alguma coesão interna e tra como o extrator permite identificar as priori-
não a unidades monolexicais. dades programáticas dos partidos polı́ticos com
O grau de coesão, ou unithood, pode calcular- uma simples vista de olhos sobre os termos mais
se com diferentes medidas de associação lexical. relevantes.
O módulo de LinguaKit permite escolher entre 5 Mesmo se a eficiência da extração de ter-
medidas para ordenar os candidatos a multipa- mos não foi avaliada quantitativamente, pode-
lavra: (a) qui-quadrado, (b) função de verosimi- mos encontrar alguns elementos que demonstram
lhança (loglikehood ), (c) informação mutua (mi ), a sua usabilidade desde um ponto de vista qua-
(d) probabilidade condicional simétrica (scp), e litativo. Por um lado, os dous extratores de
(e) simples co-ocorrência. As medidas de asso- termos (básicos e multipalavra) foram inseridos
ciação aplicam-se para verificar se os constituin- no módulo mais complexo de anotação e ligação
tes co-ocorrem num sintagma aleatoriamente ou semântica, o qual sim foi avaliado quantitati-
por atração. Assim, os valores observados equi- vamente e comparado com outros sistemas de
valem à frequência da expressão multipalavra no anotação. Por outro lado, estes módulos foram
texto de entrada, e os valores esperados calculam- utilizados por utentes muito variados com dife-
LinguaKit: uma ferramenta multilingue para análise linguı́stica e extração de informação Linguamática – 27

peso multipalavra padrão de etiquetas


20,37 inversores extranjeros nome-adj
11,44 creación de empleo nome-prep-nome
9,75 competitividad de economı́a nome-prep-nome
7,73 reducción de impuestos nome-prep-nome
2,93 ciudadanos españoles nome-adj

Tabela 4: As cinco multipalavras mais relevantes (unithood ) extraı́das do programa eleitoral do partido
polı́tico espanhol Partido Popular para as eleições do 20D/2015.

rentes aplicações e objetivos, tais como análises ED431G/08), do European Regional Develop-
dos programas de partidos polı́ticos feitas por jor- ment Fund (ERDF), e de um contrato Juan de
nalistas.13 la Cierva-formación, com referência FJCI-2014-
22853.
6 Conclusões e trabalho futuro
Referências
Este artigo apresentou LinguaKit, um pacote
linguı́stico que permite os utilizadores ter um Agerri, Rodrigo, Josu Bermudez & German Ri-
acesso fácil e unificado a módulos de análise gau. 2014. IXA pipeline: Efficient and ready to
linguı́stica muito diversos. use multilingual NLP tools. Em 9th Interna-
O conjunto de ferramentas disponı́vel, mesmo tional Conference on Language Resources and
se amplo e variado, fica ainda longe de cobrir Evaluation (LREC), 3823–3828.
todos as necessidades dos profissionais e utiliza-
dores da lı́ngua. A este respeito, como traba- Bird, Steven, Edward Loper & Ewan Klein.
lho futuro pretendemos, por um lado, continuar 2009. Natural language processing with Python.
a melhorar o desempenho de alguns dos módulos O’Reilly Media Inc.
de análise, e por outro lado ampliar o número de Corro, Luciano Del & Rainer Gemulla. 2013.
módulos com sistemas de transcrição fonética e ClausIE: Clause-based open information ex-
fonológica. Além disso, está prevista a adaptação traction. Em The World Wide Web Confe-
dos módulos de análise morfossintática e sintática rence, 355–366.
para a sua compatibilidade com as diretrizes de
anotação das dependências universais. Etzioni, Oren, Anthony Fader, Janara Chris-
Para além de novos módulos, o sistema pode tensen, Stephen Soderland & Mausam. 2011.
enriquecer-se com funcionalidades simples mas Open information extraction: the second ge-
úteis para linguistas e investigadores. Por exem- neration. Em International Joint Conference
plo, um buscador de contextos léxico-sintáticos on Artificial Intelligence (IJCAI), 3–10.
que utilize o analisador sintático para permitir Gamallo, Pablo. 2015. Dependency parsing with
procurar que nomes funcionam como sujeitos de compression rules. Em International Workshop
um verbo especı́fico, adjetivos que modifiquem on Parsing Technology (IWPT), 107–117.
um dado nome, etc. Em relação às novas funci-
onalidades, será preciso identificar os principais Gamallo, Pablo & Marcos Garcia. 2011. A
objetivos dos utilizadores para tentar que o sis- resource-based method for named entity ex-
tema cubra as suas necessidades. traction and classification. Em Portuguese
Conference on Artificial Intelligence (EPIA
2011), 610–623.
Agradecimentos
Gamallo, Pablo & Marcos Garcia. 2014. Citius:
Este trabalho foi realizado graças ao fi- a naive-bayes strategy for sentiment analy-
nanciamento da Ayuda da Fundación BBVA sis on English tweets. Em 8th International
para Investigadores y Creadores Culturales, do Workshop on Semantic Evaluation (SemEval),
projeto TELEPARES (MINECO, ref:FFI2014- 171–175.
51978-C2-1-R), da Consellerı́a de Cultura, Edu-
cación e Ordenación Universitaria (2016-2019, Gamallo, Pablo & Marcos Garcia. 2015. Mul-
tilingual open information extraction. Em
13
http://www.galiciaconfidencial.com/noticia/ 17th Portuguese Conference on Artificial In-
27170-son-galiza-galicia-marea telligence (EPIA), 711–722.
28– Linguamática Pablo Gamallo e Marcos Garcia

Gamallo, Pablo & Marcos Garcia. 2016. Entity Garcia, Marcos, Isaac González & Iria del Rı́o.
linking with distributional semantics. Em In- 2012. Identificação e classificação de enti-
ternational Conference on the Computational dades mencionadas em Galego. Estudos de
Processing of the Portuguese Language (PRO- Linguı́stica Galega 4. 13–25.
POR), 177–188.
Kageura, Kyo & Bin Umino. 1996. Methods of
Gamallo, Pablo, Marcos Garcia & Santiago automatic term recognition: A review. Termi-
Fernández-Lanza. 2013a. TASS: a naive-bayes nology 3(1). 259–289.
strategy for sentiment analysis on Spanish twe- Manning, Christopher D., Mihai Surdeanu, John
ets. Em Workshop on Sentiment Analysis Bauer, Jenny Finkel, Steven J. Bethard & Da-
(TASS@SEPLN), 126–132. vid McClosky. 2014. The Stanford CoreNLP
natural language processing toolkit. Em 52nd
Gamallo, Pablo, Marcos Garcia, Isaac González,
Annual Meeting of the Association for Compu-
Marta Mu noz & Iria del Rı́o. 2013b. Learning
tational Linguistics: System Demonstrations,
verb inflection using Cilenis conjugators. The
55–60.
Eurocall Review 21(1). 12–19.
Mendes, Pablo N., Max Jakob, Andrés Garcı́a-
Gamallo, Pablo, Marcos Garcia, Iria del Rı́o & Silva & Christian Bizer. 2011. DBpedia spo-
Isaac González López. 2015a. Avalingua: Na- tlight: Shedding light on the web of docu-
tural language processing for automatic er- ments. Em 7th International Conference on
ror detection. Em Learner Corpora in Lan- Semantic Systems, 1–8.
guage Testing and Assessment, vol. 70 Studies
in Corpus Linguistics, 35–58. John Benjamins Nivre, Joakim, Johan Hall, Jens Nilsson, Atanas
Publishing Company. Chanev, Gülsen Eryigit, Sandra Kübler, Sve-
toslav Marinov & Erwin Marsi. 2007. MaltPar-
Gamallo, Pablo & Isaac González. 2011. A gram- ser: A language-independent system for data-
matical formalism based on patterns of part-of- driven dependency parsing. Natural Language
speech tags. International Journal of Corpus Engineering 13(2). 115–135.
Linguistics 16(1). 45–71.
Padró, Lluı́s. 2011. Analizadores multilingües en
Gamallo, Pablo, Juan Carlos Pichel, Marcos Gar- FreeLing. Linguamática 3(2). 13–20.
cia, José Manuel Abuı́n & Tomás Fernández- Real Academia Galega e Instituto da Lingua Ga-
Pena. 2015b. Análisis morfosintáctico y clasifi- lega. 2004. Normas ortográficas e morfolóxicas
cación de entidades nombradas en un entorno do idioma galego. Editorial Galaxia.
big data. Procesamiento del Lenguaje Natural
53. 17–24. Sánchez, David & Antonio Moreno. 2006. A
methodology for knowledge acquisition from
Garcia, Marcos. 2016. Incorporating lexico- the web. Journal of Knowledge-Based and In-
semantic heuristics into coreference resolu- telligent Engineering Systems 10(6). 453–475.
tion sieves for named entity recognition at
document-level. Em 10th edition of the Lan- Straka, Milan, Jan Hajič & Jana Straková.
guage Resources and Evaluation Conference 2016. UDPipe: Trainable pipeline for proces-
(LREC), 3357–3361. sing CoNLL-U files performing tokenization,
morphological analysis, POS tagging and par-
Garcia, Marcos & Pablo Gamallo. 2010. Análise sing. Em 10th International Conference on
morfossintáctica para português europeu e ga- Language Resources and Evaluation (LREC),
lego: Problemas, soluções e avaliação. Lin- 4290–4297.
guamática 2(2). 59–67. Vivaldi, Jordi & Horacio Rodrı́guez. 2001. Im-
Garcia, Marcos & Pablo Gamallo. 2014. An proving term extraction by combining different
entity-centric coreference resolution system for techniques. Terminology 7(1). 31–47.
person entities with rich linguistic information.
Em 25th International Conference on Com-
putational Linguistics: Technical Papers (CO-
LING), 741–752.
Garcia, Marcos & Pablo Gamallo. 2015. Yet
another suite of multilingual NLP tools. Em
Symposium on Languages, Applications and
Technologies (SLATE), 65–75.
Projetos, Apresentam-se!
Proposta recebida em Março 2017 e aceite para publicação em Junho 2017.

Geração Automática de Sentenças em Lı́ngua Natural para


Sequências de Pictogramas como Apoio à Comunicação Alternativa e
Ampliada
Automatic generation of natural language sentences for pictogram sequences in support of
Augmentative and Alternative Communication

Rafael Pereira Hendrik Macedo Rosana Givigi


Universidade Federal de Sergipe Universidade Federal de Sergipe Universidade Federal de Sergipe
rafaelps@dcomp.ufs.br hendrik@dcomp.ufs.br rosanagivigi@uol.com.br
Marco Túlio Chella
Universidade Federal de Sergipe
marco@dcomp.ufs.br

Resumo ady acquired in pictorial communication by children


with disabilities to promote their literacy. Unfortuna-
A Comunicação Alternativa e Ampliada (CAA) é tely, the related literature does not seem to indicate
uma área de prática clı́nica educacional para fono- a practical solution to this question. In this paper,
audiólogos cujo objetivo é auxiliar indivı́duos que pos- we propose a method for automatic generation of na-
suam deficiência na oralidade. Os sı́mbolos de comu- tural sentences in the Brazilian Portuguese language
nicação pictórica constituem um dos sistemas da CAA in regards to a given sequence of pictorial symbols
que podem complementar ou mesmo substituir a lin- presented. This method has been implemented in a
guagem falada desses indivı́duos. É possı́vel utilizar a visual tool to support professional educators and is
habilidade já adquirida em comunicação pictórica por currently part of one of the AAC tools of the AAC
parte de crianças com deficiência para promover sua Laboratory at the Federal University of Sergipe, Bra-
alfabetização. Infelizmente, a literatura relacionada zil. A validation set provided by the Laboratory has
parece não indicar solução prática para tal questão. shown the correctness of the sentences generated by
Neste artigo, propomos um método para geração au- the tool.
tomática de sentenças naturais em lı́ngua portuguesa
do Brasil que corresponda a uma dada sequência de Keywords
sı́mbolos pictóricos apresentados. Este método foi im- Natural Language Generation, Augmented Alterna-
plementado em uma ferramenta visual de apoio ao tive Communication, Pictograph Symbols
profissional educador e atualmente faz parte de um
dos recursos de CAA do Laboratório de CAA da Uni-
versidade Federal de Sergipe. Um conjunto de va-
lidação fornecido pelo Laboratório mostrou a corre- 1 Introdução
tude das sentenças geradas pela ferramenta.
Tecnologia Assistiva é o termo empregado a todo
Palavras chave conjunto de dispositivos utilizados para auxiliar
Geração de Linguagem Natural, Comunicação Alter- indivı́duos com algum tipo de limitação intelec-
nativa e Ampliada, Sı́mbolos Pictóricos tual, motora, visual ou auditiva a realizar ativi-
dades a que normalmente não estariam comple-
tamente aptos (Bharucha et al., 2009; Brodwin,
2010).
Abstract
Um uso particular das tecnologias assistivas
The Augmentative and Alternative Communica- é feito pela chamada Comunicação Alternativa e
tion (AAC) is an area of clinical educational practice Ampliada (CAA) (Beukelman & Mirenda, 2005;
for speech therapists whose goal is to assist individu- Alant & Bornman, 1994; Light, 1989). A CAA é
als who are orally deficient. The pictorial communi- uma área de prática clı́nica de pesquisa e edu-
cation symbols are one of the AAC systems that can cacional para fonoaudiólogos que visa auxiliar
complement or even replace the spoken language of indivı́duos que demonstrem prejuı́zos nos mo-
these individuals. It is possible to use the ability alre- dos de comunicação gestual, oral e/ou escrita.
DOI: 10.21814/lm.9.1.242
Linguamática — ISSN: 1647–0818
This work is Licensed under a
Creative Commons Attribution 4.0 License Vol. 9 Núm. 1 - Julho 2017 - Pág. 31–39
32– Linguamática Rafael Pereira, Hendrik Macedo, Rosana Givigi e Marco Túlio Chella

Os sistemas de CAA dividem-se em picturais plate (template-based ) para representar a estru-


e linguı́sticos. Dentre os picturais destacam- tura de texto com método para representação de
se o Picture Communication Symbols (PCS), conhecimento. Um template é uma forma prede-
o Pictogram-Ideogram Communication (PIC), o finida contendo slots que são então preenchidos
Picsyms, o Rebus e o ARASAAC1 com informações especificadas por usuários. O
O sistema de sı́mbolos de comunicação texto gerado pelo YAG pode advir de diferentes
pictórica pode substituir ou complementar a lin- tipos de entradas, como uma sequência de pro-
guagem falada e, desta forma, contribuir para posições em linguagem lógica ou uma estrutura
o aumento da interação comunicativa dos in- de caractérisicas junto com o nome do template.
divı́duos com deficiência na oralidade, suprindo A aplicação desenvolvida por Ramos-Soto et al.
as necessidades de recepção, compreensão e ex- (2015) gera pequenos termos de previsões meteo-
pressão da linguagem. Quando se utiliza o rológicas a partir de desenhos relacionados, como
computador para CAA, o sistema de sı́mbolos chuva, sol, nuvens, representadas em forma de
pictóricos associado a um mecanismo de entrada dados numéricos. A solução consiste na com-
apresenta sı́mbolos representativos que são sele- binação de técnicas de percepção, computação
cionados pelo usuário, compondo uma mensagem com palavras (Zadeh, 2002, 1996) e estratégias
que pode ser estruturada em um texto com apre- para descrição linguistica de dados.
sentação na tela, sintetizado em voz ou a com- Neste artigo, propomos um método para
binação de ambos. solução do problema, que consiste fundamen-
Ainda são escassas as soluções de software e talmente em um modelo baseado em templates
hardware para CAA para uso em computado- para Geração de Linguagem Natural, similar ao
res convencionais. Grande parte das propostas proposto por McRoy et al. (2000, 2003). Este
estão relacionadas à confecção de hardware es- método foi implementado sob a forma de um soft-
pecı́ficos, tais como teclados e mouses especiais, ware de apoio ao profissional da área de fonoaudi-
que possuem alto custo, grandes dimensões e exi- ologia ou educação especializada no trabalho de
gem grande treinamento para que todo potencial alfabetização de crianças que se utilizam desses
seja usufruı́do (Stephanick et al., 2010; Salsman sı́mbolos pictóricos para comunicação.
et al., 2010). Estas caracterı́sticas dificultam so- O método para geração automática de sen-
bremaneira sua disseminação e uso por parte de tenças representativas das sequências de sı́mbolos
laboratórios de informática de escolas convencio- pictóricos é apresentado na seção 2 deste artigo.
nais. Uma iniciativa acadêmica recente alinha a A ferramenta desenvolvida a partir desta pro-
confecção de um dispositivo de entrada do tipo posta é apresentada na seção 3, onde fazemos pre-
mordedor com dois diferentes softwares: um para liminarmente a análise de corretude de sentenças
promover aceleração e corretude linguı́stica da geradas para um conjunto de validação fornecido.
redação através da previsão inteligente de pa- A seção 4 traz a conclusão do artigo.
lavras e orações futuras e outro para gerar a
sequência correspondente de sı́mbolos pictóricos
para uma dada sentença redigida em português 2 Método
do Brasil (Santos et al., 2015).
Ainda não existe, entretanto, solução para O método proposto segue um pipeline de ações
uma demanda essencial e que corresponde exa- para geração de texto em linguagem natural lin-
tamente ao oposto da citada: como gerar auto- guisticamente correto e que traduza fielmente a
maticamente uma sentença em linguagem natu- semântica da sequência de sı́mbolos pictóricos
ral a partir de uma dada sequência de sı́mbolos apresentada como entrada.
pictóricos? Solução apropriada para esta questão
seria uma importante ferramenta de apoio à al-
fabetização de crianças com paralisia cerebral.
Além disso, esta mesma solução poderia ser ins-
trumento de comunicação efetivo para crianças
já familiarizadas com a comunicação via simbo-
los pictóricos,
Dois trabalhos são parcialmente relacionados
à problemática. Em YAG (McRoy et al., 2000),
a solução combina a abordagem baseada em tem-
1
Clik Tecnologia Assistiva, disponı́vel em http://www.
clik.com.br/clik_01.html. Figura 1: Componentes do método.
Geração Automática de Sentenças em Lı́ngua Natural para Sequências de Pictogramas Linguamática – 33

Figura 2: Sequência de sı́mbolos pictóricos (ou mensagem M) de entrada do pipeline de geração.

A figura 2 ilustra um exemplo de sequência conjunto de PTs, e Realizar, cuja função é fazer
de sı́mbolos pictóricos para a qual o método deve a realização lı́nguistica de um template. Mais
produzir como saı́da de processamento a seguinte detalhes sobre esses módulos serão descritos nas
sentença, composta de duas orações: Eu quero próximas subseções.
beber água de coco, mas em casa nós queremos Na subseção 2.1, apresentamos o procedi-
brincar de bola com nossos amigos. mento para aquisição do conhecimento e sua re-
O método para solução deste problema é fun- presentação na base de templates. A subseção 2.2
damentado na fusão das ideias da gramática gera- descreve a técnica para detectar e separar as
tiva (GG) (Chomsky, 1965) e na representação de orações de uma sentença. A subseção 2.3 des-
conhecimento (RC) através de templates (McRoy creve o planejamento de documento e micropla-
et al., 2000, 2003; Reiter, 1995). Da GG, a re- nejamento. Por fim, a subseção 2.4 descreve
levância para este problema reside na base ca- como é feita a realização linguı́stica dos templa-
tegorial que faz parte do componente sintático, tes.
na qual uma oração é formada pelo SN + SV ,
onde SN é um sintagma nominal e SV um sin- Aquisição e Representação do Conheci-
tagma verbal (para este método o SV não inclui mento
o verbo). Da RC, utilizamos, em nı́vel de abs-
tração, o conceito dos sintagmas nominal e verbal A criação e validação do corpus linguı́stico, o
que foram representados na forma de Proposição qual foi utilizado para extrair o conhecimento ne-
de Templete (PT). Uma proposição é uma parte cessário para este método, foram realizadas com
de uma oração, podendo ser um sujeito ou pre- supervisão de pesquisadora-chefe e estudantes de
dicado da mesma. Dessa forma, uma PT é um fonoaudiologia do Departamento de Fonoaudio-
micro-template que pode representar o sintagma logia da Universidade Federal de Sergipe.
SN ou SV de uma oração. Com isso, qualquer que As orações e sentenças que fazem parte desse
seja o nı́vel de granularidade de um template, ele corpus, quando relacionadas com as sequências
deve possuir a estrutura sı́ntatica caracterı́stica de sı́mbolos que as representam, possuem os se-
da lı́ngua portuguesa do Brasil. guintes nı́veis cognitivos: iconicidade, sintaxe e
Para gerar orações ou sentenças por meio de memorização. A iconicidade consiste na com-
templates, o método deve realizar as seguintes ta- preensão e percepção, ao selecionar pictogramas
refas: (i) compor Template de Oração (T O ∼ que represente alguma oração ou sentença. A
SN + SV ) através de combinação de PTs com sintaxe consiste no uso de preposição, pronome,
alguma Att (que é o verbo da oração); (2) com- advérbio e pontuação. Quanto à oração que
por Template de Sentença (TS) através de com- se deseja gerar, ela pode ser simples ou com-
binação de TOs, caso a mensagem de entrada posta. Já a memorização está relacionada à
necessite; e (3) realizar linguisticamente TOs ou quantidade de sı́mbolos pictóricos que podem ser
TSs. Tanto TO quanto TS devem estar em con- representos por uma oração ou sentença. Além
formidade com a mensagem (M) que foi dada disso, os nı́veis cognitivos tercem o domı́nio deste
como entrada para o CTO. Todas essas tare- método, juntamente com a necessidade de produ-
fas são, respectivamente, atribuı́das aos módulos zir orações que expressem noção de ação ou es-
DO, CTO e Realizar, que são apresentados na tado. Estes nı́veis são também aplicados às sen-
figura 1. tenças apresentadas na tabela 2.
A figura 1 apresenta a ligação entre os Assim, a partir da análise desse corpus, foram
módulos que compõem este método. Os módulos confeccionadas 128 PTs que compoẽm a base de
são: Detector de Oração (DO), que por sua vez conhecimento para a solução do problema. Uma
contém um conjunto de caracterı́cas que identi- PT é então representada por slots (que são in-
ficam uma oração em uma sentença, Construtor dicados por <SLT>, <SLV> ou <ATPN>), palavras
de Template de Oração (CTO), que contém um da lı́ngua portuguesa e pela Att. A Att é in-
34– Linguamática Rafael Pereira, Hendrik Macedo, Rosana Givigi e Marco Túlio Chella

dicada pelo sı́mbolo <ATPN>, onde A significa a Algorı́tmo 1 Detector de oração.


atitude, T o tempo verbal, P a pessoa relacio- 1: procedure detectaOracao(m)
nada ao verbo (que é o sujeito da oração) e N o 2: m ← preProcessamento(m)
numeral (que pode ser singular ou plural) e está 3: sentencas ← detecteSentenca(m)
relacionado ao verbo. Dessa forma, cada PT deve 4: for all sentencas do
pertencer a um Conjunto de Proposição de Tem- 5: tagSentencas ← posTag(sentencas)
plate (CPT). Um CPT consiste no agrupamento 6: for all tagSentencas do
de PTs por sua chave, a qual referencia o mesmo. 7: oracoes ←
Isso só é possı́vel porque cada pictograma possui regras(sentencas, tagSentencas)
um ou mais nomes que o representam.
8: return oracoes
Segue alguns exemplos de PTs, CPTs, TO e
TS que foram montados a partir de PTs:
não componham uma palavra válida na lı́ngua
1. PTs: portuguesa (do Brasil). Então temos m igual a:
&a <SLT NN>; &ao <SLT NN>; &com &muita <SLV VB>
&de <SLT NN>; &neste <SLT NN> &de <SLT NN> eu querer beber água de coco,
2. CPTs: mas em casa nós querer brincar
de bola com nossos amigos.
(a) Chave = IN NN PRP
(i) em <SLT NN> <SLT PRP>; No passo 3, detecta-se as sentenças que foram
anzóis=[em] armazenadas em m. Em seguida, a função POS-
(b) Chave= VB IN NN IN PRP$ NN Tag (Jurafsky & Martin, 2000) é aplicada sobre
(i) <SLV VB> de <SLT NN> com nossas <SLT NN>; todas as sentenças (sentencas) nos passos 4 e 5.
anzóis=[de, com, nossas] Ambas funções utilizadas, nos passos 3 e 5 do al-
(ii) <SLV VB> de <SLT NN> com nossos <SLT NN>; goritmo 1, foram implementadas pela biblioteca
anzóis=[de, com, nossos] OpenNLP.2
Já nos passos 6 e 7, são extraidas as orações
3. TOs: atráves da aplicação das caracterı́sticas apresen-
<ATPN> &com &muita <SLV VB> &de <SLT NN>; tadas na tabela 1. Dentro da função REGRAS,
&a <SLT NN> <AP3S> &ao <SLT NN> cada vetor de tokens e vetor de morfemas de cada
4. TS: sentença são então varridos a fim de encontrar al-
<ATPN> &com &muita <SLV VB> &de <SLT NN>, mas guma caracterı́stica listada na tabela 1. Quando
&neste <SLT NN> &de <SLT NN> <AP1S> <SLV VB> isso acontece, uma oração é detectada e, então,
esta é atribuida à variável oracoes.
Note que nos templates que foram apresenta- Por fim, no passo 8, as orações que foram de-
dos, introduzimos o conceito de “anzóis”, indica- tectadas são retornadas. Sendo assim, obtemos
dos pelo sı́mbolo &, que são as palavras classifi- como resultado do Detector de Orações para a
cadas morfologicamente como artigos, pronomes mensagem m:
(exceto os pessoais), conjunções e preposições.
Foi dessa forma, que representamos todo o co- i) eu NNP querer VB beber VB água NN
nhecimento necessário para este método. de IN coco NN , SYM
ii) em IN casa NN nós PRP querer VB
Detecção de Oração (DO) brincar VB de IN bola NN com IN
Quando uma sequência de pictogramas repre- nossos PRP$ amigos NN
senta uma mensagem que é composta por mais
de uma oração, faz-se necessário identificar e ex- A Tabela 1 apresenta oito tipos de ca-
trair as orações. Isto acontece porque a estratégia racterı́sticas que podem ocorrer na estru-
é montar um determinado template para repre- tura sintática da lı́ngua portuguesa, conforme
sentar a estrutura de uma única oração ou sen- as sentenças apresentadas no corpus (veja a
tença. Para tal tarefa, o algoritmo 1 é aplicado subseção 2.1). Essas caracterı́sticas são notadas
sobre uma mensagem m: quando se varre um vetor de token que repre-
senta algum sentença (tokenizada por espaço em
Considere uma mensagem m, como a do exem-
branco e sinal de pontuação). Além do mais, para
plo da figura 2, para o algoritmo 1. No passo 2
que as caracterı́sticas sejam válidas, elas devem
deste algoritmo, um pré-processamento sobre os
atender à pré-condição de que ao menos um verbo
nomes dos sı́mbolos é realizado para que sejam
2
retiradas as extensões e quaisquer caracteres que Disponı́vel em http://opennlp.apache.org/.
Geração Automática de Sentenças em Lı́ngua Natural para Sequências de Pictogramas Linguamática – 35

Id Morfema do Token Corrente Morfema do Token Anterior Morfema do Token Posterior


1 Conjunção — —
2 Vı́rgula — —
3 Pronome demonstrativo Preposição —
4 Pronome pessoal — Verbo
5 Pronome pessoal Verbo Verbo
6 Verbo Vı́rgula Vı́rgula
7 Interrogação — —
8 Exclamação — —

Tabela 1: As caracterı́sticas que identificam uma oração para o nosso escopo.

deve existir antes da posição i − 1 do token cor- proposição M2=“beber água de coco”. Para
rente i, exeto a sexta caracterı́stica. isso, utiliza-se o possı́vel “anzol” de M2, &de,
de modo que o template escolhido do CPT da
O Construtor de Templates de Orações chave(M2) é o segundo elemento do conjunto. O
(CTO) template completo para a oração T Oi seria então:
<SLT PRP> <Att> <SLV VB> <SLT NN> de
O módulo CTO para esta ferramenta foi baseado <SLT NN>
nos módulos de planejamento definidos por Rei-
ter & Dale (2000). Ele tem a responsabilidade Seja a segunda saı́da (ii) do DO, em IN
de montar a estrutura sintática de uma oração casa NN nós PRP querer VB brincar VB de IN
ou sentença através do TO que pode ser conca- bola NN com IN nossos PRP$ amigos NN. As
tenado a fim de montar o template da sentença proposições neste caso são M1=“em casa nós”,
(TS) de acordo com a sequência de pictogramas. M2=“brincar de bola com nossos amigos” e
Com o resultado (i) do DO para sequência Att=“querer”. Assim, SN=“IN NN PRP”,
de pictogramas (ou mensagem M) ilustrado SV=“VB IN NN IN PRP$ NN”. As chaves que
na figura 2, temos que as proposições são mapeiam os CPTs, onde deve ser encontrada as
M1=“eu” e M2=“beber água de coco”, con- PTs M1 e M2, são chave (M1)=“IN NN PRP”
sequentemente, SN=“PRP”, Att=“querer” e e chave (M1)=“VB IN NN IN PRP$ NN”. Es-
SV=“VB NN IN NN” (para este módulo da fer- tas chaves mapeiam para os seguintes CPTs:
ramenta consideramos o SN e SV à nı́vel mor-
fológico, respectivamente, das proposições M1 1. Chave(M1) = IN NN PRP
e M2). Desta forma, as chaves que ma- (a) em <SLT NN> <SLT PRP>
peiam o conjunto onde devem ser encontradas anzóis=[em]
as PTs de M1 e M2 são chave(M1)=“PRP”
e chave(M2)=“VB NN IN NN”. Os resultados 2. Chave(M2)= VB IN NN IN PRP$ NN
dessas chaves foram obtidos via concatenação dos (a) <SLV VB> de <SLT NN> com nossas
valores armazenados no array de morfemas (visto <SLT NN>
na subseção 2.2). Então, para este exemplo, te- anzóis=[de, com, nossas]
mos que os CPTs são:
(b) <SLV VB> de <SLT NN> com nossos
1. Chave(M1)= PRP <SLT NN>
anzóis=[de, com, nossos]
(a) <SLT PRP> anzóis=[]
Do primeiro conjunto, é selecionado o único
2. Chave(M2) = VB NN IN NN
template que representa a proposição M1=“em
(a) <SLV VB> <SLT NN> com <SLT NN> casa nós”. A seguir, o segundo elemento do CPT
anzóis=[com] identificado pela chave(M2) é selecionado, já
que os possı́veis anzóis são &de, &com &nossos e
(b) <SLV VB> <SLT NN> de <SLT NN>
que o template escolhido está relacionado à pro-
anzóis=[de]
posição M2=“brincar de bola com nossos ami-
O primeiro template do CPT é selecionado, gos”. O template completo para a oração T Oii é:
identificando-se pela chave(M1), que representa em <SLT NN> <SLT PRP> <Att> <SLV VB> de
a proposição M1=“eu”. Este CPT contém ape- <SLT NN> com nossos <SLT NN>
nas PT formado por slot, ou seja, qualquer um
deles pode ser selecionado. A questão é como Caso a chave(M1) ou chave(M2) não referen-
selecionar o template que melhor representa a ciem nenhum CPT deste módulo, será necessário
36– Linguamática Rafael Pereira, Hendrik Macedo, Rosana Givigi e Marco Túlio Chella

inserir na base do sistema templates (PTs) que Para o T Oi do primeiro exemplo, <SLT PRP>
representem a oração desejada. Para que ainda <Att> <SLV VB> <SLT NN> de <SLT NN> , a re-
assim se tenha ao menos uma sentença como alização linguı́stica inicia com PT(M1)=<
saı́da, faz-se necessário um procedimento particu- SLT P RP > preenchendo-se o slot com o pro-
lar: outra chave dentre as existentes deve ser sele- nome “eu”; isto resulta em PT(M1)’=“eu”. A
cionada, desde que seja semelhante à chave(M1) seguir Att=“querer” deve concordar com o su-
ou chave (M2). Esta semelhança será compu- jeito da proposição M1 e deve ser conjugado no
tada através da similaridade do cosseno (inter- presente do indicativo (porque nenhum tempo
valo [0, 1]): verbal foi informado pelo usuário) de forma a
concordar com o pronome: Att’=“quero”. Por
~u.Pi fim, preenche-se os slots da PT(M2)=<SLV VB>
cos(zi ) = ,
k~uk kPi k <SLT NN> de <SLT NN> e, dessa forma, temos
que PT(M2)’=“beber água de coco”. Ao con-
tal que 0 ≤ i ≤ 9 e 0 ≤ zi ≤ π2 , onde a catenar PT(M1)’, Att’, PT(M2)’ e realizar a
chave de uma determinada proposição é o vetor pontução, temos a oração “eu quero beber água
p~ = (m1 , m2 , ..., m9 ) com m sendo o valor da enu- de coco,”.
meração morfológica (número de classes gramati- Para o T O(ii) do segundo exemplo, em
cais consideradas) e P = (~a, ~b, ..., ~n) é o conjunto <SLT NN> <SLT PRP> <Att> <SLV VB> de
de vetores pertencentes ao módulo CTO. O vetor <SLT NN> com nossos <SLT NN> , o primeiro
com maior valor de similaridade será selecionado. slot do template da PT(M1)=em <SLT NN>
Sendo assim, o TS da sentença ilustrada na fi- <SLT PRP> é relacionado com o nome do picto-
gura 2 é montado ao concatenar T Oi , a conjunção grama “casa” e o segundo slot com o pronome
“mas” e T O(ii) , então temos que TS é igual a: “nós”: PT(M1)’=“em casa nós”. Em seguida,
Att=“querer” deve concordar com o sujeito da
<SLT PRP> <Att> <SLV VB> <SLT NN> de proposição M1, que nesse caso é o pronome e
<SLT NN>, mas em <SLT NN> <SLT PRP> <Att> deve ser conjugado no presente do indicativo
<SLV VB> de <SLT NN> com nossos <SLT NN> (por default): Att’=“queremos”. Finalmente,
preenche-se os slots da PT(M2)=<SLV VB> de
<SLT NN> com nossos <SLT NN> com as des-
Realização Linguı́stica crições dos pictogramas, respectivamente, “brin-
car”, “bola” e “amigos”: PT(M2)’=“brincar
O propósito da realização linguı́stica é realizar os de bola com nossos amigos”. Ao concatenar
TOs ou TSs (veja a subseção 2.3), ou seja, pre- PT(M1)’, Att’ e PT(M2)’, a oração realizada
encher os slots com as palavras correspondentes, é “em casa nós queremos brincar de bola com
respeitando a concordância nominal, fazer a con- nossos amigos”.
cordância verbal correta com o sujeito da oração Com isso, temos que TS (= T Oi + T Oii ) rea-
e, finalmente, adicionar os sinais de pontuação. lidazado lingusticamente é igual a esta sentença
Dois dicionários de palavras foram cons- “eu quero beber água de coco, mas em casa nós
truı́dos, considerando apenas palavras relaciona- queremos brincar de bola com nossos amigos”.
das com os sı́mbolos pictóricos presentes na base.
O primeiro dicionário possui palavras que não são
verbos e está organizado da seguinte forma: (i) Discussão
a primeira palavra é a palavra-chave que identi-
fica as demais e não está flexionada em gênero Tendo em vista viabilizar uma comunicação sim-
ou número, (ii) as próximas palavras são flexio- ples e autônoma aos pacientes que ainda estam se
nadas por número e, depois, por gênero. O se- familiarizando com os sı́mbolos pictóricos, se faz
gundo dicionário possui apenas verbos. O pri- necessário passar como entrada para o método
meiro verbo está na forma infinitiva e funciona ao menos um sı́mbolo que represente um verbo
como a palavra-chave. Os verbos seguintes estão (atitude). Isso se dá porque é bastante comum o
flexionados nos tempos verbais Presente e Futuro uso de orações que expressem noção de ação ou
para cada pronome. Com este diciónario, pode-se estado neste tipo de comunicação.
realizar um template nesses dois tempos verbais. Pela mesma razão em que se exige uma ati-
Por padrão, o tempo e a pessoa verbal utilizado tude, o uso de vı́rgulas na entrada do DO (ver
para realização de template é o presente do in- seção 2.2) não é obrigatório. Se a vı́rgula fosse
dicativo e terceira pessoa do singular. Para as omitida no exemplo da subseção 2.2 depois da
demais palavras que não são verbos, o número é palavra “coco”, ainda assim seria possı́vel detec-
singular e o gênero, masculino por padrão. tar a oração, pois neste caso, a entrada casaria
Geração Automática de Sentenças em Lı́ngua Natural para Sequências de Pictogramas Linguamática – 37

Nı́vel Descrição das Sentenças


1 Vamos tomar sorvete comigo
1 A menina foi para o mercado, mas não tinha dinheiro
2 A cidade é muito fria, por isso, o homem precisou de dois casacos para não adoecer
2 A festa foi hoje, se não tivesse chovido, ganharia muitos presentes, pois convidei muitos amigos
3 O tempo está chuvoso, por isso, não esqueça de fechar as janelas da casa quando sair para não
molhar os móveis
3 Neste fim de semana, fui para fazenda de vovô. Calvaguei, me banhei de rio, comi manga,
bebi leite da vaca e brinquei com meus amigos que moram lá

Tabela 2: Exemplos de sentenças fornecidas pelo Departamento de Fonoaudiologia.

com a caractéristica 1 da tabela 1 e estaria em de CAA. Estes protocolos visam a seleção do sis-
conformidade com esta regra da gramatica: usa- tema de signos por meio da compreensão, da
se vı́rgula antes das conjuções “mas”, “porém”, percepção visual (escolha dos sı́mbolos, tama-
“pois”, “embora”, “contudo”, “todavia”, “por- nhos, etc), da mobilidade (acesso aos sistemas
tanto” e “logo”. de auxı́lio técnico: precisão, rapidez, agilidade,
De certo, na montagem de TO ou TS, existe força, etc), do nı́vel cognitivo (nı́vel de iconici-
a amarração de PTs aos anzóis quando os utili- dade, memória, léxico), de aspectos linguı́sticos,
zam para selecionar um PT de CPT (veja a sub- das posições posturais (ex: sentado, deitado,
seção 2.3), embora isso ocorra somente se for pas- etc). Por fim, os protocolos analisam as formas
sado algum sı́mbolo pictórico como entrada para de indicação dos sinais, sendo possı́vel: (i) in-
o método, que é interpretado como um anzol. dicação direta, (ii) direta com auxı́lio, (iii) codifi-
cada, (iv) varredura (ou exploração) dependente
ou (v) varredura independente. Um protocolo de
3 A Ferramenta CA2 JU ESCRITO acompanhamento vem sendo desenvolvido para
registro semanal dos dados que evidenciem como
O método de geração proposto para conversão estão sendo atingidos os objetivos comunicativos
de sequência de pictogramas em texto natural foi para a ferramenta.
aplicado no desenvolvimento de uma ferramenta A corretude dos textos produzidos pela ferra-
de apoio ao profissional que lida, em particular, menta foi avaliada comparando-se com um con-
com crianças que fazem uso da CAA para se co- junto de validação fornecido pelo Laboratório
municarem. (ver tabela 2). A distância de Levenshtein, utili-
A composição visual ordenada de sı́mbolos zada como métrica neste experimento preliminar,
pictóricos deve ser feita da seguinte forma: (1) apontou valor próximo de 0 (zero) para todo o
o profissional seleciona os pictogramas que estão conjunto. Isto significa que a similaridade léxico-
apresentados em um teclado virtual localizado sintática entre as sentenças geradas automatica-
na parte inferior da imagem (figura 3), (2) os mente pela ferramenta e as pertencentes ao con-
sı́mbolos selecionados são apresentados em ordem junto de validação foi muito alta.
da seleção no campo acima do teclado e (3) o
texto será gerado a partir de um click. 4 Conclusão
Os sı́mbolos utilizados na ferramenta perten-
cem ao sistema ARASAAC, que fora desenvol- Este artigo propôs um método para geração au-
vido pelo Portal Aragonês de CAA. Esta é uma tomática de sentenças em linguagem natural a
obra de Sergio Palao para CATEDU,3 que os pu- partir de sequência de sı́mbolos pictóricos, bas-
blica sob a licença Creative Commons. tante utilizados em suporte à Comunicação Al-
Esta ferramenta faz atualmente parte de um ternativa e Ampliada (CAA). O método proposto
conjunto de recursos de CAA do Laboratório de é baseado na confecção de templates que permi-
CAA da Universidade Federal de Sergipe para tem boa variabilidade linguı́stica das construções.
ensaios clı́nicos com pacientes. O método descrito foi utilizado para criação
A escolha de mensagens (em forma de de uma ferramenta de suporte ao profissional de
sequência de sı́mbolos pictóricos) que compõe a CAA que lida com crianças com paralisia cere-
base experimental para testes e validação com bral e com crianças com transtorno do espectro
crianças é baseada em protocolos de avaliação autı́stico. O propósito especı́fico da ferramenta é
bem definidos pelos profissionais do Laboratório propiciar um ambiente computacional para faci-
litar a alfabetização destas crianças. A literatura
3
http://catedu.es/arasaac/ relacionada não mostra quaisquer iniciativas com
38– Linguamática Rafael Pereira, Hendrik Macedo, Rosana Givigi e Marco Túlio Chella

Figura 3: Interface gráfica Ca2ju Escrito.

este propósito. A ferramenta possui interface vi- Scott Stevens & Howard Wactlar. 2009. Intel-
sual adequada para composição de sequência de ligent assistive technology, applications to de-
pictogramas por parte do profissional e posterior mentia care: Current capabilities, limitations,
geração do texto natural correspondente. and future challenges. The American Journal
Em experimentação preliminar com um con- of Geriatric Psychiatry 17.
junto de validação fornecido pelo Laboratório
Brodwin, Martin. 2010. Assistive technology.
de CAA da Universidade Federal de Sergipe foi
Em Irving B. Weiner & W. Edward Craighead
mostrado que a geração das sentenças por parte
(eds.), Corsini Encyclopedia of Psychology, 1–
da ferramenta condiz perfeitamente com as sen-
2. John Wiley and Sons.
tenças do conjunto de validação. A ferramenta
é atualmente integrante do conjunto de recursos Chomsky, Noam. 1965. Aspects of the theory of
de CAA do respectivo laboratório e faz parte dos syntax. MIT Press.
ensaios clı́nicos com grupos de controle e experi-
mental. Jurafsky, Daniel & James H. Martin. 2000. Spe-
Trabalhos em andamento consistem no au- ech and language processing: An introduction
mento do conjunto de validação e complexidade to natural language processing, computational
das sentenças-alvo, finalização do protocolo de linguistics and speech recognition Prentice Hall
acompanhamento e, principalmente, avaliação Series in Artificial Intelligence. Prentice Hall.
quantitativa da contribuição da ferramenta en- Light, Janice. 1989. Toward a definition of com-
quanto mecanismo da CAA para a alfabetização municative competence for individuals using
de crianças com deficiência a partir dos grupos ci- augmentative and alternative communication
tados anteriormente. Resultados destes estudos systems. Augmentative and Alternative Com-
são previstos até fim de 2017. munication 5(2). 137–144.
McRoy, Susan W., Songsak Channarukul &
Referências Syed S. Ali. 2000. YAG: a template-based ge-
nerator for real-time systems. Em 1st Interna-
Alant, Ema & Juan Bornman. 1994. Augmen- tional Conference on Natural Language Gene-
tative and alternative communication. South ration (INLG), vol. 14, 264–267.
African Family Practise 15(5).
McRoy, Susan Weber, Songsak Channarukul &
Beukelman, David & Pat Mirenda. 2005. Syed S. Ali. 2003. An augmented template-
Augmentative and alternative communication. based approach to text realization. Natural
Brookes Publishin. Language Engineering 9(4). 381–420.
Bharucha, Ashok J., Vivek Anand, Jodi For- Ramos-Soto, Alejandro, Alberto Jose Bugarı́n,
lizzi, Mary Amanda Dew, Charles F. Reynolds, Senén Barro & Juan Taboada. 2015. Linguistic
Geração Automática de Sentenças em Lı́ngua Natural para Sequências de Pictogramas Linguamática – 39

descriptions for automatic generation of tex-


tual short-term weather forecasts on real pre-
diction data. IEEE Transactions on Fuzzy Sys-
tems 23(1). 44–57.
Reiter, Ehud. 1995. NLG vs. templates. Em Eu-
ropean Workshop on Natural Language Gene-
ration, vol. 5, 95–106.
Reiter, Ehud & Robert Dale. 2000. Building
natural language generation systems Natural
Language Processing. Cambridge University
Press.
Salsman, Kenneth, John Sweetser & Anders
Grunnet-Jepsen. 2010. Electronic equipment
for handheld vision based absolute pointing
system. Patente 7796116. US Patent and Tra-
demark Office.
Santos, Flávio, Carlos Junior, Hendrik Macedo,
Marco Chela, Rosana Givigi & Luciano Bar-
bosa. 2015. CA2 JU: an assistive tool for chil-
dren with cerebral palsy. Studies in Health Te-
chnology and Informatics 216. 589–593.
Stephanick, James, Christina James, Ethan R.
Bradford & Michael R. Longé. 2010. Selective
input system based on tracking of motion pa-
rameters of an input device. Patente 7750891.
US Patent and Trademark Office.
Zadeh, Lofti A. 1996. Fuzzy logic = computing
with words. IEEE Transactions on Fuzzy Sys-
tems 4(2). 103–111.
Zadeh, Lofti A. 2002. From computing with num-
bers to computing with words – from manipu-
lation of measurements to manipulation. Inter-
national Journal of Applied Mathematics and
Computer Science 12(3). 307–324.
BrAgriNews: Um Corpus Temporal-Causal (Português-Brasileiro)
para a Agricultura
BrAgriNews: A Temporal-Causal Brazilian-Portuguese Corpus for Agriculture

Brett Drury
Faculty of I.T.,National University of Ireland Galway,Ireland
brett.drury@gmail.com
Robson Fernandes Alneu de Andrade Lopes
ICMC, University of Sao Paulo, Sao Carlos,Brazil ICMC, University of Sao Paulo, Sao Carlos,Brazil
robs.fernandes@outlook.com alneu@icmc.usp.br

Resumo possible that the failure of researchers to use text mi-


ning techniques to analyze Portuguese texts to resolve
Recentemente tem havido um aumento no inte- agricultural problems may be due to a lack of freely
resse, tanto no meio acadêmico quanto na indústria, available corpora. To correct the lack of a Portuguese
em aplicações de aprendizagem de máquina e técnicas language agriculture centric corpus we are releasing a
de inteligência artificial relacionadas com problemas Brazilian-Portuguese agricultural language resource,
agrı́colas. Mineração de texto e técnicas relacionadas which is described by this paper. The corpus is par-
com o processamento da lı́ngua natural, raramente fo- tially non-contiguous and spans a time period from
ram usadas para resolver problemas agrı́colas, e muito 1996 to 2016. It consists of news stories that have
menos para a lı́ngua portuguesa. É possı́vel que um been scraped from Brazilian News sites that have been
dos fatores que influenciam a escassez no uso técnicas annotated with the following information types: cau-
de mineração de texto, para analisar textos em por- sal, sentiment, named entities that include temporal
tuguês e resolver problemas agrı́colas, pode ser de- expressions. The corpus has additional resources such
vido à falta de um corpus anotado livremente dis- as a: treebank, lists of frequent: unigrams, bigrams
ponı́vel. Para colmatar a falta de um corpus agrı́cola and trigrams, as well words or phrases that have been
em lı́ngua portuguesa, estamos liberando um recurso identified by journalists as either: “important” or do-
em português-brasileiro voltado para agricultura, des- main specific. It is hoped that the release of this cor-
crito neste artigo. O corpus abrange um perı́odo pus will stimulate the adoption of text mining in agri-
parcialmente contı́nuo de tempo entre 1996 e 2016, culture in the Lusophonic research community.
consistindo de notı́cias em português-brasileiro que
foram anotadas com o seguinte tipo de informação: Keywords
causal, sentimento, entidades nomeadas que incluem Text Mining, Agriculture, Causal Relations
expressões temporais. O corpus tem recursos adicio-
nais como: treebank, listas de termos frequentes (sem
stop-words): unigramas, bigramas e trigramas, bem
como palavras ou frases que foram identificados por 1 Introdução
jornalistas como de domı́nio especı́fico. Espera-se que
a liberação do corpus estimule a adoção da mineração Este artigo descreve um corpus em português-
de texto na agricultura na comunidade de pesquisa
brasileiro, em que se pretende ser útil para in-
lusófona.
centivar a pesquisa em mineração de texto para
Keywords a agricultura.
Mineração de Texto, Agricultura, Relações causais O BrAgriNews é um corpus parcialmente não
contı́guo que abrange o perı́odo de 1997 a 2016.
O corpus anota as seguintes informações: sen-
timento, informações temporais, causais e enti-
Abstract
dades nomeadas em notı́cias agrı́colas. O cor-
There has been a recent sharp increase in inte- pus contém: Um “treebank” e documentos com
rest in academia and industry in applying machine parte de etiquetas de fala, bem como: modelos
learning and artificial intelligence to agricultural pro- de tópicos e representações vetoriais de termos.
blems. Text mining and related natural language pro- Também fornece recursos léxicos, tais como:
cessing techniques, have been rarely used to tackle
agricultural problems, and at the time of writing there 1. Palavras frequentes;
was a single project in the Portuguese language. It is
2. Bigramas frequentes;
DOI: 10.21814/lm.9.1.245
Linguamática — ISSN: 1647–0818
This work is Licensed under a
Creative Commons Attribution 4.0 License Vol. 9 Núm. 1 - Julho 2017 - Pág. 41–54
42– Linguamática Brett Drury and Robson Fernandes and Alneu de Andrade Lopes

3. Trigramas frequentes; NP CV NP,


4. Palavra/frases que são considerados “impor- no qual N P = Frases Nominais e CV =
tantes” pelos jornalistas com a adição de de- Verbo Causal (Shams-Eddien, 2002). O fluxo de
limitadores, como aspas. causalidade neste padrão é da esquerda para a
direita, onde o lado esquerdo (LHS) N P é o ob-
O restante do artigo está organizado da se- jeto de causa e o lado direito (RHS) é o ob-
guinte forma: Seção 2: Trabalhos Relaciona- jeto de efeito. Em português esta ordem pode
dos; Seção 3: Aquisição do Corpus e Visão ser alterada por uma preposição, por exemplo
Geral; Seção 4: Metodologia de Anotação; a expressão “por causa de” inverterá a ordem
Seção 5: Recursos Léxicos; Seção 6: Treebank; de causalidade em uma relação causal. A maior
Seção 7: Recursos de Relações entre Palavras; parte da pesquisa sobre a causalidade na lı́ngua
Seção 8: Informações de Nı́vel de Documento; foi realizada em inglês, por exemplo por Khoo
Seção 9: Licenciamento; Seção 10: Trabalhos Fu- et al. (2002); Altenberg (1984); Thomson (1987);
turos; Seção 11: Conclusão. Shams-Eddien (2002), sendo que poucos foram
os estudos conduzidos em Português (Drury &
2 Trabalhos Relacionados de Andrade Lopes, 2015).

Este corpus contém uma variedade de fenômenos Representação e Extração do Tempo


da linguagem, incluindo causalidade, expressões
temporais, bem como sentimento. O trabalho re- Uma caracterı́stica dos corpora disponı́veis são as
lacionado, portanto, concentra-se nas seguintes anotações temporais. Uma suposição deste artigo
áreas: é que a representação temporal no texto é uma
maneira de descrever expressões multi-palavras
1. Causalidade na linguagem. que representam:
2. Representação temporal no texto. 1. Duração;
3. Sentimento na linguagem. 2. Expressão do tempo.

Por exemplo: “21 de maio de 2001” é uma ex-


Causalidade pressão do tempo e “12/04/75 – 12/05/76”, é
Há uma série de definições de causalidade. Uma uma duração de tempo. O tempo pode cobrir:
definição bem conhecida foi preferida pelo filósofo segundos, minutos, horas, dias, décadas, anos e
escocês David Hume que afirmou que a causali- assim por diante.
dade tem três propriedades especı́ficas: “(i) con- Expressões de tempo podem ser feitas em lin-
tiguidade no tempo e no lugar; (ii) prioridade no guagem natural em uma série de maneiras dife-
tempo, e (iii) constante conjunção entre a causa rentes, consequentemente houve um padrão de-
e o efeito” (Khoo et al., 2002). A causalidade senvolvido que tenta ter uma maneira uniforme
na linguagem é expressa como “relações causais.” de expressar informação temporal e de evento.
As relações causais são relações dependentes en- Este padrão é o TimeML (Pustejovsky et al.,
tre eventos, fatos ou objetos (Vendler, 1967; Al- 2003a)1 . O TimeML é um dialeto XML, que per-
tenberg, 1984), onde um evento, fato ou objeto é mite a expressão padrão de:
a causa de outro evento, fato ou objeto (Alten-
berg, 1984). 1. Marcação de tempo de eventos;
As relações causais no texto como explicado 2. Ordem de eventos com relação a um outro;
anteriormente são relações dependentes entre 3. Raciocı́nio com expressões temporais con-
eventos, fatos ou objetos. Os objetos de causa textualmente sub-especificadas;
(eventos, fatos ou objetos) são ligados através de
uma ligação causal aos objetos de evento (even- 4. Raciocı́nio sobre a persistência de eventos.
tos, fatos ou objetos). Uma ligação causal é uma
Além da padronização das expressões tempo-
palavra ou frase que contém propriedade cau-
rais, o consórcio TimeML lançou uma série de
sal. Ligações causais são tipicamente verbos cau-
ferramentas que podem ser usadas para anotar
sais (Shams-Eddien, 2002), nos quais a causa ou
ou extrair expressões de tempo no texto. O site
objetos de evento podem ser expressos como fra-
documenta a Ferramenta de anotação (TANGO)
ses nominais. As relações causais podem, por-
e o Tarsqi Toolkit.
tanto, ser expressas como simples padrões de ex-
1
tração, como: http://www.timeml.org
BrAgriNews: Um Corpus Temporal-Causal (Português-Brasileiro) para a Agricultura Linguamática – 43

O Tarsqi Toolkit contém um conjunto de fer- timento, porém a abordagem dominante para o
ramentas que podem ser usadas para extrair ex- português descoberta nessa revisão é a baseada
pressões de tempo, bem como garantir a sua con- em dicionário. A análise do sentimento base-
sistência. ada em dicionário utiliza-se de recursos lexicais
A literatura de pesquisa contém uma série que possuem palavras ou frases com uma ori-
de estratégias para extrair expressões tempo- entação de sentimento pré-definida. Existem três
rais. Essas estratégias podem ser agrupa- dicionários principais: dois multilı́ngue: Senti-
das em duas categorias: 1. aprendizagem de Lex (Silva et al., 2012), Opinion Lexicon (Souza
máquina (Bethard, 2013; Kolya et al., 2013; et al., 2011) e LIWC (Balage Filho et al.,
Llorens et al., 2010; UzZaman & Allen, 2010) 2013), que é parte de uma aplicação de software.
e 2. hı́brida de aprendizagem de máquina e Avaliou-se os três dicionários e os principais pon-
linguı́stica (Laokulrat et al., 2013; Jung & Stent, tos constatados foram que o Sentilex foi superior
2013). para a classificação de sentimento de documentos
Uma abordagem comum de aprendizado e LIWC produziu os melhores resultados para a
de máquina na literatura de pesquisa é classificação de opinião de sentenças. A análise
a aprendizagem supervisionada com campos do sentimento baseado no dicionário para o por-
aleatórios condicionais (conditional random fi- tuguês foi aplicada a uma série de áreas que in-
els — CRF) (Kolya et al., 2013; Llorens et al., cluı́ram hotéis (Chaves et al., 2012), finanças (Al-
2010; UzZaman & Allen, 2010). As abordagens vim et al., 2010), crı́tica de cinema (Freitas &
hı́bridas usam caracterı́sticas linguı́sticas de da- Vieira, 2013) e polı́tica (Silva et al., 2009).
dos rotulados para gerar modelos em uma es- As estratégias supervisionadas de classificação
tratégia de aprendizagem supervisionada. As do sentimento de aprendizado de máquina exi-
duas principais caracterı́sticas linguı́sticas utili- gem dados de treinamento. Um possı́vel impe-
zadas nas técnicas hı́bridas são as estruturas de dimento para o uso dessas técnicas é a falta de
dependência (Laokulrat et al., 2013) e informação corpos anotados na lı́ngua portuguesa. Esta re-
semântica (Jung & Stent, 2013). visão da literatura descobriu um pequeno número
Existem vários corpora que podem ser usa- de recursos que continham relativamente poucos
dos para avaliar estratégias de extração tempo- recursos: Petronews (1500 documentos) (Alvim
ral. Os dois principais corpora para o Inglês et al., 2010), ReLi (2056 documentos) (Freitas
são: TimeBank (Pustejovsky et al., 2003b) e o et al., 2012) e o conjunto de dados de Drury &
AQUAINT Corpus2 . Esses corpora são relati- de Andrade Lopes (2014) (500 documentos).
vamente pequenos, com 183 e 73 notı́cias, res-
pectivamente. Existem corpora em lı́nguas não- 3 Aquisição do Corpus e Visão Geral
inglesas, tais como para o Francês (Bittar, 2010),
Italiano (Caselli et al., 2011), Romeno (Forascu & O corpus, como já comentado, contém notı́cias
Tufis, , 2012), Espanhol3 e Catalão.4 Para o Por- relacionadas à agricultura escritas em português-
tuguês temos o HAREM (Carvalho et al., 2008), brasileiro. O corpus foi construı́do a partir de
com 129 notı́cias. recursos inéditos pré-existentes e com notı́cias co-
letadas na Internet. As notı́cias foram coletadas
com um “scraper” de sites respeitáveis, como:
Análise de Sentimentos
1. Revista Canavieiros (Sugarcane Magazine).
A análise do sentimento, de acordo com Liu e
2. Jornal Cana (Sugarcane Newspaper).
Zhang, é o estudo computacional das opiniões,
avaliações, atitudes e emoções das pessoas em O “scraper” rodava às 8 horas da manhã, an-
relação a entidades, indivı́duos, questões, even- tes do inı́cio da bolsa de São Paulo. Esta de-
tos, tópicos e seus atributos (Liu & Zhang, 2012). cisão foi tomada para garantir que todas as ex-
O campo é vasto, consequentemente esta pes- periências de negociação que foram feitas com
quisa será limitada à análise de sentimentos da modelos derivados deste corpus seriam “justas”.
lı́ngua portuguesa. O “scraper” correu de 2014 a 2016. O corpus
Existêm vários métodos para a análise do sen- final contém 96.784 documentos.
2
https://tac.nist.gov//data/data_desc.html#
AQUAINT
Caracterı́sticas da Linguagem
3
Disponı́vel em https://catalog.ldc.upenn.edu/
docs/LDC2012T12/ Coleções de documentos ou corpus têm carac-
4
Disponı́vel em https://catalog.ldc.upenn.edu/ terı́sticas especı́ficas de linguagem que são de-
docs/LDC2012T10/ terminadas pelo assunto e estilo do autor. Uma
44– Linguamática Brett Drury and Robson Fernandes and Alneu de Andrade Lopes

maneira de comparar a linguagem é comparar a Uma técnica de análise de linguagem comple-


frequência de: mentar é listar as palavras mais frequentes no
corpus. As palavras frequentes no corpus são
1. Advérbios com adjetivos. boas indicadoras do assunto porque a frequência
2. Substantivos com verbos. da palavra segue uma distribuição zipf, como
demonstrado na Figura 3. A análise de pala-
Os rácios foram 0,52 e 2,24, respectivamente. vras frequentes removeu stop-words (um, isto,
Uma comparação com outros textos pode ser en- o, etc), uma vez que elas não têm um signifi-
contrada nas Figuras 1 e 25 . cado especı́fico de domı́nio, pois ocorrem com
frequência relativa similar na maioria dos cor-
pora ou coleções de textos. As palavras mais
LO comuns neste corpus foram: Brasil; Milhões; Go-
verno; Presidente; Mercado; Produção; Nacional;
FH Acordo; Estado e Safra.
Uma representação visual da frequência de pa-
lavras na coleção de corpus é representada no di-
SFB agrama de Nuvem de Palavra na Figura 4.

AF

Cor
0.5 0.51 0.51 0.52 0.52 0.53 0.53

Figura 1: Relação entre advérbios e adjetivos,


onde Cor = Corpus, AF = O Triunfo dos Por-
cos (Animal Farm), SFB = (Escândalo do Padre
Brown) Scandal Of Father Brown, FH = História
de Fanny Hill (Fanny Hill) e LO = Romance Lady
Oracle (Lady Oracle).

Con

Cor
Figura 3: Relação entre a frequência das palavras
TLI e o seu rank.

SHF

LOF
1.6 1.8 2 2.2 2.4 2.6 2.8 3

Figura 2: Relação entre Substantivo e Verbo,


onde LOF = Vida de Johnson (Life Of John-
son), SHF = Forma das Coisas Por Vir (Shape
Of Things To Come), TLI = O Instinto da Lin- Figura 4: Nuvem de Palavras de termos frequen-
guagem (The Language Instinct), Cor = Corpus tes no corpus BrAgriNews.
(Corpus) e Con = Constituição (Constitution).
5
A análise final considerou o tamanho do do-
Uma lista completa de rácios para textos alternativos
para: substantivo/verbo e adjetivos/advérbios podem ser
cumento (número de palavras), frequência média
encontrados em: 1. https://goo.gl/1OZpNH e 2. https: das palavras e número total de palavras. Os va-
//goo.gl/6hzYPd. lores foram: 1.127,14 palavras por documento,
BrAgriNews: Um Corpus Temporal-Causal (Português-Brasileiro) para a Agricultura Linguamática – 45

frequência média de 1.617,82 palavras ±3504.12 Etiqueta Explicação


e 12.305.150 de palavras no corpus BrAgriNews. Positive Uma palavra que foi determinada
As técnicas de análise simples acima referidas como tendo uma orientação positiva
forneceram uma visão geral das caracterı́sticas Negative Uma palavra que foi determinada
linguı́sticas do corpus. A razão entre frequencias como tendo uma orientação nega-
de substantivos e verbos indicam um corpus em tiva
liguagem objetiva, no qual a relação entre adjeti- Entity Uma palavra ou n-grama que foi de-
vos e advérbios é similar a da literatura clássica. terminado como uma entidade no-
A contagem de frequência indica que os assuntos meada
dominantes são: Estado; Comércio; e Agricul- CRelation Delimitação de uma relação causal
tura. E que o comprimento médio do documento Effect A parte de um efeito de uma relação
é relativamente pequeno. causal
Cause A parte de uma causa de uma
relação causal
Visão Geral do Corpus DOW Dia da Semana
O BrAgriNews está disponı́vel em https://goo. TOD Hora do Dia
gl/lc0PzS, e é distribuı́do como um arquivo Season Estação
compactado. A organização de pastas de nı́vel Week Expressão semanal
superior é apresentado na Figura 5. Date Expressão diária
Currency Expressão monetária
A pasta de nı́vel superior contém: notı́cias,
Quote Discurso direto
previsões meteorológicas e um treebank. As pas-
tas Weather Forecasts e Trees contêm previsões Tabela 1: Resumo da Etiqueta.
meteorológicas e representação de árvore de de-
pendência de sentenças aleatórias, respectiva-
mente. A pasta News Stories tem um segundo 1. Anotação manual.
nı́vel de pastas que é demonstrado na Figura 5. O 2. Anotação automatizada.
conteúdo das pastas será descrito posteriormente
neste artigo. A anotação manual é laboriosa e lenta, conse-
quentemente seria impraticável usar esta técnica
para este corpus e a anotação automatizada foi
Resumo da Etiqueta selecionada.
A principal contribuição deste corpus é a O resumo de etiqueta descrito na Tabela 1 re-
anotação de notı́cias. A anotação delimita in- vela que são 6 áreas de anotações principais:
formações que podem ser úteis para catego-
1. Entidades nomeadas.
rização supervisionada ou técnicas de extração de
relação. As notı́cias anotadas são armazenadas 2. Anotação de sentimento.
na pasta Annotated Texts. As anotações assu- 3. Expressões de tempo.
mem a forma de marcações do tipo XML (etique-
tas) que delimitam: uma única palavra ou uma 4. Relações causais.
sequência de palavras. As etiquetas anotam: 5. Discurso direto.
1. Sentimento. 6. Parte da fala.
2. Relações causais.
Entidades Nomeadas
3. Porções de causa e efeito de relações causais.
As entidades nomeadas são palavras únicas ou
4. Expressões de tempo.
expressões multi-palavras, que podem ser classifi-
5. Expressões de moeda. cadas em uma categoria pré-existente, tais como:
pessoa, empresa, organizações, e assim por di-
Um resumo das etiquetas é descrito na Tabela 1. ante. O suporte de entidade nomeada para o
português-brasileiro é limitado e no momento da
4 Metodologia de Anotação construção do corpus não havia nenhum classifi-
cador/extrator de entidade nomeada livremente
Esta seção discute as estratégias que foram usa- disponı́vel. Consequentemente, uma técnica ba-
das para anotar os documentos neste corpus. Ha- seada em regras foi desenvolvida para identificar
viam duas escolhas metodológicas possı́veis para candidatos de entidades nomeadas.
anotar este corpus: A técnica usou o seguinte procedimento:
46– Linguamática Brett Drury and Robson Fernandes and Alneu de Andrade Lopes

Root

News-Stories Trees Weather-Forecast

AT CP CL FW MWE POS Se To WV

Figura 5: Organização das pastas, onde AT = Textos Anotados, CP = Frases de Causa, CL =


Clusters, FW = Palavras Frequentes, MWE = Expressão Multi-Palavras, POS = Parte da Fala, Se
= Sentimento, To = Topic and WV = Vetor de Palavras.

1. Identificar palavras maiúsculas que não ini- Expressões temporais


ciam sentenças.
As expressões temporais para este corpus fo-
2. Juntar os candidatos da Regra 1 se for sepa- ram extraı́das usando uma abordagem padrão
rado por uma palavra de ligação. baseada em regras. A expressão diária foi ex-
3. Repetir a Regra 2 com entidades unidas ge- traı́da com expressões regulares que identificaram
radas a partir dessa mesma regra. sequências de números com separadores comuns.
As expressões tı́picas captadas por esta aborda-
O processo de união descrito nas Regras 2 e 3 gem foram “12/04/2016” e “12/04/16”.
pode ser ilustrada com o seguinte exemplo: uma As demais categorias de expressões de tempo
entidade denominada candidata gerada por esta foram capturadas usando listas codificadas de pa-
técnica é Procuradoria-Geral da República, que lavras. A lista de palavras foi compilada por um
contém duas entidades candidatas denominadas especialista em domı́nio.
Procuradoria-Geral e República, que é acompa- As técnicas de anotação de expressão tempo-
nhado por uma palavra de ligação da. ral baseadas na expressão regular, relataram exa-
Uma pequena avaliação manual feita por um tidão muito alta, por exemplo, Strötgen & Gertz
único especialista em domı́nios, onde 10 docu- (2010) relataram que sua técnica de expressão re-
mentos foram escolhidos aleatoriamente, consta- gular registrou uma precisão de 85.00%.
tou que a técnica tinha uma precisão de 73.25%.
A avaliação identificou manualmente as entidades
em um documento, e verificou que a técnica as
identificou corretamente. Correspondências par- Relações Causais
ciais, bem como a falha ao identificar as entidades
foram marcadas como incorretas. As anotações de causalidade seguem a noção de
que as relações causais entre os eventos, e que a
relação causal contém duas partes: (i) Evento de
Anotações de Sentimento
causa, e (ii) Evento de efeito.
A anotação de sentimento foi alcançada usando Consequentemente, as anotações causais têm
um dicionário pré-compilado de sentimento: Sen- três anotações: (i) Toda a relação causal; (ii)
tilex. O dicionário contém palavras que têm uma Evento de causa; e (iii) Evento de efeito.
orientação pré-determinada do sentimento. A es- A estratégia de anotação causal foi uma es-
tratégia divide as palavras em um documento e tratégia de aprendizagem supervisionada descrita
verifica a palavra contra a entrada no Sentilex. A por Drury & de Andrade Lopes (2015). A es-
estratégia aplica-se a uma das duas etiquetas: po- tratégia utilizou uma visão local e global da cau-
sitiva ou negativa, as palavras com orientação de salidade no corpus. Dois separadores são cria-
sentimento neutro são ignoradas. Por exemplo, dos a partir dessas duas visões. Os dois classi-
<negative> ruim </negative>, ruim tem uma ficadores rotulam as relações causais no corpus
conotação de sentimento negativo e consequente- e, quando os dois classificadores concordam com
mente é encapsulado com uma etiqueta negativa. uma relação causal, uma anotação causal é feita.
O dicionário Sentilex foi avaliado por Ba- Exemplos das relações causais são demonstrados
lage Filho et al. (2013), verificou-se que o Sentilex na Tabela 2.
tem uma precisão de 44.17% no nı́vel da sentença Esta técnica foi avaliada por Drury & de An-
e 53.35% no nı́vel do documento. Sentilex é um drade Lopes (2015), verificou-se que tem uma
dos melhores dicionários de sentimentos para a precisão de 67.00% na anotação do nı́vel da frase
lı́ngua portuguesa. e 81.00% na classificação da relação causal.
BrAgriNews: Um Corpus Temporal-Causal (Português-Brasileiro) para a Agricultura Linguamática – 47

Expressão Causal (Português) sentimentais, em particular: “sofra” e “stress”.


preços gasolina alta aumentando demanda Essas palavras têm conotação negativa e, con-
biocombustivel sequentemente, são encapsuladas por uma eti-
politicas diminuı́do industria biocombusti- queta “negativa”. A citação contém uma relação
vel causal: “o stress durante a pré-polinização pode
consumo problemas logisticos causa destaca resultar em produtividades menores.”. Esta
surgiram oportunidades curto prazo expor- relação causal contém um evento de causa: “o
tacoes brasileiras biocombustivel stress durante a pré-polinização” e um evento
de efeito: “produtividades menores”. A citação
Tabela 2: Relações Causais relacionado com Bi-
também contém informações sobre o tempo:
ocombustı́veis
“Maio” e informação da entidade tal como:
“Kansas” e “Iowa”.
Discurso Direto

Discurso direto para este artigo, é o discurso que Exemplo Anotado


foi citado diretamente no texto. Por exemplo,
“Eu não estou em seu comitê de estratégia” Wat- A agregação das anotações pode fornecer uma
son respondeu (https://goo.gl/VLeH18). O descrição detalhada dos dados. Um exemplo de
discurso é delimitado por marcas de fala, e se- anotações agregadas pode ser encontrado na Ta-
guido por uma entidade nomeada e um verbo. bela 3.
A estratégia para anotar a fala direta foi outra
Exemplo anotado
técnica baseada em regras que identificou delimi-
<Quote> "Minha preocupaç~ ao é de que algum
tadores de fala que foram as aspas, e as marcas milho <Negative> sofra </Negative> com
de fala. o <Negative> stress </Negative> hı́drico
As palavras entre esses delimitadores foram durante a polinizaç~ao, quando a planta
assumidas como sendo de fala direta se a frase ex- está definindo o tamanho da orelha. Uma
vez que este tamanho está definido, ele
traı́da tivesse uma contagem de palavras mı́nima ao pode ficar <Month> maio </Month>
n~
de 6. , assim sendo, <CRelation> <Cause> o
Uma pequena avaliação manual de 10 docu- <Negative> stress </Negative> durante
ao </Cause> pode resultar
a pré-polinizaç~
mentos que continham uma etiqueta de citação, <Effect> em produtividades menores </Effect>
realizadas por um único especialista de domı́nio, </CRelation> . Eu acredito que isso possa
descobriu que as seqüências de texto que foram já estar ocorrendo em alguns locais com
marcadas com aspas estavam corretas 86.66% do o leste do <Entity> Kansas, </Entity>
tempo. Uma citação correta foi assumida para norte do <Entity> Missouri, </Entity> sul
de <Entity> Iowa </Entity> e oeste de
ter um orador, como uma pessoa ou outra enti- <Entity> Illinois, Indiana, Ohio </Entity>
dade, como uma empresa ou organização, bem e <Entity> Michigan" </Quote> , </Entity>
como um elemento de fala. Marcação indevida diz o consultor.
ou obviamente incorreta foi marcada como um
erro pelo anotador. Tabela 3: Exemplo anotado

O exemplo de anotação demonstra claramente


Marcação de Parte da Fala o esquema de anotação e como ele é usado dentro
A Marcação do papel morfo-sintático (part-of- do corpus BrAgriNews, onde:
speech tagging) aplica uma categoria de pala-
vra como substantivo, adjetivo, advérbio, etc. a 1. Etiqueta ’Quote’ indica citação.
uma palavra. Para as marcações foi usado o nlp-
2. Etiqueta ’Negative’ indica palavras com co-
net (Fonseca & Rosa, 2013) que é um rotulador
notação negativa.
baseado em rede neural. O rotulador foi treinado
no corpus mac-morpho e tem: “97.33% a precisão 3. Etiqueta ’CRelation’ indica citações que
de um token, 93.66% exatidão do token fora do contém relação causal.
vocabulário”.
Um exemplo das anotações tipicamente encon- 4. Etiqueta ’Month’ indica citações que contém
tradas no corpus pode ser encontrado na Tabela informações sobre o tempo.
3. A anotação é uma citação direta por “um con-
sultor”. A citação é encapsulada pela etiqueta 5. Etiqueta ’Entity’ indica informações sobre a
“quote”. A citação contém uma série de palavras entidade.
48– Linguamática Brett Drury and Robson Fernandes and Alneu de Andrade Lopes

5 Recursos Léxicos computados pelo cálculo da média P M I Para


cada relação da sequência de 3 palavras. Esta
Há uma série de recursos léxicos que complemen- técnica produziu: 6141 trigramas e 6491 bigra-
tam o corpus principal. Os recursos léxicos estão mas. O bigrama e o trigrama estão localizados na
localizados nas pastas Multi-word Expressions e pasta Multi-Word Expressions e estão disponı́veis
Frequent Words. como: Arquivos de texto e formato de “pickle”
Os recursos léxicos são: Palavras frequentes em Python (Dicionários). Exemplos de MWEs
(não stop-words); Bigramas frequentes; e Trigra- extraı́dos com este método estão documentados
mas frequentes. na Tabela 4.
Bigramas
Palavras Frequentes aparelhos celulares, principal adversário,
laudo técnico, menor disponibilidade, tão
As palavras frequentes, como descrito anterior- difı́cil, investimento social, maior processa-
mente, são palavras frequentes que não são stop- dora, momento oportuno, agências interna-
words. A técnica para identificar palavras fre- cionais, jogadas ofensivas, clubes participan-
quentes eliminou qualquer palavra do corpus que tes, primeira greve
estivesse em listas de stop-words comuns6 . A
frequência para o restante das palavras foi cal- Trigramas
culada. As 7499 palavras mais frequentes são ar- contra a corrupção, dados foram divulga-
mazenadas em um arquivo de texto e em formato dos, postos de combustı́veis, investiga um
”pickle” em Python (dicionário) e localizado na esquema, abriu as portas, mês passado foi,
pasta Frequent Words. plantio de mudas, área de educação, reduziu
sua estimativa
Expressões Multi-palavras Tabela 4: Amostra de MWE Extraı́do com As-
sociação Estatı́stica.
Expressões multi-palavras são expressões que
contêm 2 palavras ou mais. Existem várias es-
tratégias para calcular expressões multi-palavras
Co-ocorrência de palavras
(MWE), e para os recursos MWE fornecidos com
este corpus foram utilizadas três estratégias: As- Co-ocorrência é outra técnica a partir da qual
sociação estatı́stica; Co-ocorrência de palavras; os MWEs podem ser detectados. As palavras
Delimitadores de frases. podem ser representadas como vetores, onde os
valores no vetor são pesos que representam co-
Associação estatı́stica ocorrência com outras palavras. Esta repre-
sentação combinada com skip-gramas pode ser
É uma estratégia que identifica relações es- usada para identificar frases (Mikolov et al.,
tatı́sticas entre palavras que aparecem em 2013) dentro de um fluxo de unigramas.
sequência (pares de palavras). Os pares de pala- Este corpus vem com dois modelos que per-
vras que têm uma relação estatı́stica significativa mitem a detecção de bigramas ou trigramas. Os
são susceptı́veis de ser uma expressão de multipa- modelos foram gerados a partir de Gensim7 . Os
lavras (multi-word expression)(MWE) ou parte modelos estão localizados na pasta Word Vec-
de um MWE. A técnica utilizada para calcular as tors e estão disponı́veis como um formato Python
MWEs foi Pointwise Mutual Information (PMI). “pickle”.
O cálculo do PMI pode ser representado
  Delimitadores de frases
P (a, b)
P M I = log
P (a)P (b) Delimitador de frase é a pontuação que deli-
mita palavras ou frases. Esta técnica identifica
onde “a” é a primeira palavra em uma sequência pares de marcas de citação ou sinais de pon-
de duas palavras, “b” é a segunda palavra em tuação que delimitam palavras, bigramas ou tri-
uma sequência de duas palavras e “prob” é a pro- gramas. Suponha-se que esses delimitadores fos-
babilidade de uma palavra no corpus. Pares de sem utilizados por jornalistas para indicar frases
palavras que tiveram um P M I > 0 foram con- especı́ficas de “domı́nio”. Esta técnica identificou
siderados como bigramas. Os trigramas foram 1026 palavras, bigramas ou trigramas.
6 7
Tais como https://snowballstem.org/algorithms/ http://radimrehurek.com/gensim/models/
portuguese/stop.txt phrases.html
BrAgriNews: Um Corpus Temporal-Causal (Português-Brasileiro) para a Agricultura Linguamática – 49

6 Treebank os vetores de palavras podem ser representadas


como um ângulo. Isso permite o uso de medidas
Uma árvore de dependência é uma forma de re- de similaridade como a similaridade de Cosseno
presentação de dependências léxicas entre pala- para calcular a semelhança semântica entre as
vras e/ou frases. Uma coleção de árvores de de- palavras.
pendência é conhecida como treebank. São relati- O corpus tem um modelo de vetor de pala-
vamente poucos os treebanks portugueses quando vras que foi treinado a partir da informação no
comparados com o inglês. A mais conhecida tre- corpus. Para ilustrar a capacidade do modelo de
ebank portuguesa é “Floresta” (Afonso et al., vetor de palavras para identificar palavras rela-
2002). cionadas, um simples experimento foi conduzido
Árvores de dependência têm sido usadas em para calcular o vizinho mais próximo com uma
tarefas comuns de processamento de lı́ngua na- pequena seleção de palavras. As pontuações de
tural (Qiu et al., 2009), tais como extração de similaridade foram computadas usando as cha-
relação causal (Khoo et al., 2000), área de pes- madas de função Gensim8 . A faixa de pontuação
quisa que a liberação deste corpus se destina a possı́vel foi 0.0 ≤ s ≤ 1.00, onde 1 com o maior
incentivar. ı́ndice de similaridade e 0 o menor. Os resul-
O treebank fornecido com este corpus consiste tados são apresentados na Tabela 5. Os resulta-
de 27931 sentenças que foram selecionadas ale- dos mostram claramente que os pares de palavras
atoriamente e analisadas com o analisador LX- com alta pontuação tinham similaridade, no en-
Dependency (Rodrigues et al., 2014) cuja saı́da tanto, os pares de palavras com as pontuações
está em conformidade com a do analisador de mais baixas não tinham relações óbvias. Os re-
Stanford (Stanford Parser). cursos de vetores de palavras estão localizados:
Em termos de avaliação do analisador LX- /Data/News Stories/Topic Resources/Word Vec-
Dependency, o mesmo possui o UAS (Unlabeled tors/.
Attachment Score) de 94,42 e a sua LAS (Label Palavra Palavras mais Palavras mais dis-
Attachment Score) é de 91,23 (Silva et al., 2010). próximas tantes
Etanol Biocombustı́vel Vice-liderança(-
Uma saı́da tı́pica do analisador é a seguinte: (0.85), Álcool hi- 0.47), Limão (-0.55),
dratado (0.84), Sábado (-0.48),
(ROOT (S (NP (N’ (N’ (N Produç~ ao) (A Combustı́vel (0.81), Rocher (-0.48)
global)) (PP (P de) (NP (N açúcar))))) Álcool (0.87),
(VP (V deve) (VP (V crescer) (PP (P Álcool anidro (0.81)
para) (NP (N’ (N 165,1) (N’ (N milh~ oes) Milho Trigo (0.83), Soja Jogador Real (-0.46),
(0.88), Grão de bico Atenção (-0.45), Bo-
(PP (P de) (NP (N toneladas))))))))))) (0.84), Algodão nito (-0.44), Frutal,
As dependências representadas por esta saı́da (0.84) MG (-0.46)
Gasolina Diesel (0.79), Com- Eroles (-0.46), PM
são apresentados na Figura 6. bustı́vel (0.81), (-0.42), Exultos (-
Álcool (0.80) 0.42), Titã (-0.42)
Chuva Tempestades (0.75), Discrepante (-0.39),
7 Recursos de Relações entre Palavras Sopros (0.78), Nu- Estradas (-0.39),
vens (0.74), Chuva T.M. (-0.36)
(0.73), Isolado
Este corpus contém modelos que podem ajudar (0.74)
na detecção de relações entre palavras ou frases.
Os recursos liberados são métodos estatı́sticos, Tabela 5: Palavras com vizinhos mais próximos
que são Vetores de palavras e Modelagem de e mais distantes.
tópicos; Estes modelos foram gerados com a bibli-
oteca Gensim Python. Os recursos estão locali- Os experimentos foram repetidos para verbos
zados nas pastas Word Vector e Topic Resources, causais. Os verbos causais são verbos que descre-
respectivamente. vem uma relação causal entre eventos de causa
e efeito. Os resultados para a experimento do
verbo causal são demonstrados na Tabela 6. Os
Vetores de Palavras resultados mostram claramente que os vizinhos
A representação de vetor de palavra é uma re- mais próximos têm propriedades causais. Isso
presentação que trata palavras como vetores. Os tem implicações para a extração de relação cau-
vetores representam a co-ocorrência de uma de- sal, já que no momento da escrita não havia uma
terminada palavra com outras palavras no voca- estratégia de extração de relação causal publi-
bulário. A frequência de co-ocorrência é repre- cada que usasse vetores de palavras.
sentada como um peso. Os vetores são sistemas 8
https://radimrehurek.com/gensim/models/
de coordenadas, portanto as semelhanças entre word2vec.html
50– Linguamática Brett Drury and Robson Fernandes and Alneu de Andrade Lopes

Figura 6: Dependências Léxicas

Verbo Palavras mais próximas O experimento do trigrama selecionou aleato-


causar provocar (0.83), causam (0.67), riamente trigramas e calculou seus vizinhos mais
sofrer (0.68), afetar (0.65), pro- próximos. A técnica utilizada foi idêntica à uti-
voca (0.63) lizada para o experimento com bigrama. Os tri-
afetar prejudicar (0.85), comprometer gramas para esta experimento foram: Ministério
(0.74), favorecer (0.73) da Cultura; Moagem de cana; Cultivares de soja.
provocar causar (0.82), gerar (0.71), sofrer Os resultados estão descritos na Tabela 8.
(0.74)
Trigramas Mais próximos
causam provoca (0.70), provocam (0.83)
Ministério da Cul- secretário-executivo do
provocam causam (0.84), provoca (0.73) tura Ministério , Secretaria da
Educação, ministro da
Tabela 6: Verbos causais e seus vizinhos mais Educação, Secretaria da
próximos. Fazenda
moagem de cana toneladas de cana-de-
açúcar volume de moagem,
Os vetores de palavras também podem ser safra de cana-de-açúcar,
usados para identificar frases semelhantes a uma oferta de cana-de-açúcar,
frase de origem. A biblioteca Gensim fornece produção de cana-de-
uma função de similaridade para n-gramas, que açúcar, capacidade de
foi utilizada nos experimentos de bigramas e tri- moagem
gramas conduzidos neste artigo. cultivares de soja plantio de milho lavouras
Os experimentos de bigramas usaram os se- de milho lavouras de café
guintes bigramas de fonte selecionados aleatoria- Tabela 8: Trigramas frequentes e seus vizinhos
mente: Aparelhos celulares; Maior processadora; mais próximos.
Dilma Rousseff; Receita bruta. A partir da qual
foram calculados os bigramas mais próximos. Os
Os experimentos com múltiplas palavras mos-
resultados estão documentados na Tabela 7.
tram que, embora os n-gramas mais próximos
Bigramas Mais próximos fossem compostos de sinônimos semelhantes
aparelhos celulares telefones móveis, canais semânticos, embora houvesse alguns erros óbvios.
eletrônicos, aparelhos Exemplos de erros:
eletrônicos, paredes
celulares, equipamen- 1. Aparelhos celulares e paredes celulares.
tos eletrônicos, caixas
eletrônicos 2. Aparelhos celulares e caixas eletrônicos.
maior processadora maior importadora , maior
produtora, maior produção, Apesar dos erros, é claro que os experimentos re-
maior trading , maior ex- tornam informações semânticas semelhantes nos
portadora, maior comercia- n-gramas.
lizadora, produção maior
Dilma Rousseff Michel Temer, possı́vel im-
peachment, eventual afas- Modelagem de Tópicos
tamento, recém-eleito presi-
dente A modelagem de tópicos é um método não-
receita bruta captação lı́quida, dı́vida supervisionado para agrupar palavras que co-
lı́quida, renda lı́quida, mar- ocorrem no mesmo tópico. A modelagem de
gem lı́quida tópicos pode ser usada para calcular semelhanças
entre: frases e documentos.
Tabela 7: Bigramas frequentes e seus vizinhos Este corpus contém um número de mode-
mais próximos. los pré-treinados, bem como a distribuição de
BrAgriNews: Um Corpus Temporal-Causal (Português-Brasileiro) para a Agricultura Linguamática – 51

tópicos pré-computados para cada documento no vras com uma orientação positiva, Wn são pala-
corpus. Os modelos pré-treinados têm uma série vras com orientação negativa e S é a orientação
de variações de hiper parâmetros. As duas prin- do sentimento. Documentos com uma pontuação
cipais variáveis são: técnica de amostragem es- de: 1. S < 0 recebem uma orientação negativa,
tatı́stica Latent Dirichlet Allocation (LDA) ou 2. S > 0 recebem uma orientação positiva e 3.
Latent Semantic Indexing (LSI) (Blei et al., S = 0 recebem uma orientação neutra. O recurso
2003) e 2. número de tópicos. Existem 5 modelos é um arquivo de dicionário “pickled”. O arquivo
que usam LDA. Os modelos usam uma variedade contém: a localização relativa de um documento,
de tópicos na faixa 500 ≤ s ≤ 2500. O número de nome do arquivo e orientação de sentimento. Os
tópicos é incrementado em 500 para cada incre- valores das chaves são o local do arquivo e os va-
mento do modelo. O modelo LSI tem um número lores são a orientação do sentimento.
de tópicos de 2000, o número de tópicos foi deter-
minado pelo trabalho realizado por (Drury et al.,
Agrupamento
2015).
Documentos relacionados podem ser detectados
8 Informações de Nı́vel de Documento por um processo de agrupamento. O processo
de agrupamento para este corpus foi conseguido
Informações de nı́vel de documento no con- usando K-means, e a distribuição tópica acima
texto deste artigo são aquelas que descrevem mencionada. K foi ajustado para 200 usando Da-
informações contidas em um documento indivi- vies Bouldin Index (DBI) para calcular a “qua-
dual. Existem 4 tipos de informações do do- lidade” de várias configurações de agrupamento.
cumento: Distribuição do tópico; Orientação do A medida de distância que foi usada para compu-
sentimento; Número do grupo; e Frases de causa. tar os agrupamentos foi a distribuição de tópicos
Os recursos estão localizados respectivamente de cada documento.
nas pastas Topic Resources, Sentiment, Clusters Os clusters e seus documentos componentes
e Cause Phrases. são fornecidos em um formato de dicionário ”pic-
kled”. A chave é um número de cluster nomi-
nal e o valor são os documentos. Para ilustrar
Distribuição do Tópico a semelhança de documentos que fazem parte do
As informações do documento de distribuição de mesmo cluster são apresentados na Tabela 9.Os
tópicos estão contidas em um arquivo de texto. documentos contêm o mesmo tema da predição
Cada linha dentro do arquivo de texto repre- de colheita. O uso de tópicos em vez de seme-
senta um único documento. Cada linha contém o lhança de palavras produziu clusters que contêm
nome do documento e uma coleção de números de o mesmo tema, ao invés da mesma palavra.
tópicos com uma probabilidade. O separador en- Documento 1 Documento 2
tre o número do tópico e sua probabilidade é um As usinas e destilarias A Organização Interna-
espaço, e o separador entre o número de tópicos do Centro-Sul do Brasil cional do Café (OIC),
e os pares de probabilidade é uma tabulação. A dão inı́cio nesta sexta, em sua primeira esti-
dia 1o de abril, a mais mava para a produção
distribuição de probabilidade foi calculada com
uma safra de cana-de- mundial no ano-safra
LDA e 2000 tópicos. Estes valores foram deriva- açúcar, com perspecti- 2015/2016, prevê co-
dos do trabalho realizado por Drury et al. (2015). vas favoráveis. A prin- lheita de 143,4 milhões
cipal região produtora de sacas de 60 kg,
do paı́s irá processar indicando um aumento
Orientação do Sentimento em 2016/2017 619,37 modesto de 1,4% em
milhões de toneladas de relação ao ano-safra
A orientação do sentimento para um documento cana (+2,3%). ........ de 2014/2015 (141,4
foi alcançada contando o número de palavras com milhões)......
uma orientação sentimental. As palavras com
uma orientação do sentimento neste caso são pa-
Tabela 9: Fragmentos de texto dos documentos
lavras com uma orientação positiva ou negativa
no mesmo grupo (cluster ).
do sentimento. As palavras com uma orientação
neutra são ignoradas porque dominariam o docu-
mento. O cálculo pode ser representado:
Relações Causais
S = f req(Wp ) − f req(Wn ),
Os documentos anotados fornecem uma relação
onde f req é a frequência de palavras com uma de- de causa anotada, mas para extrair todas as
terminada orientação de sentimento,Wp são pala- relações de causa pode ser uma tarefa onerosa. O
52– Linguamática Brett Drury and Robson Fernandes and Alneu de Andrade Lopes

corpus fornece uma lista de relações de causa pré- como por exemplo o UDPortugueseBR10
extraı́das. A relação de causa é um arquivo de-
limitado por tabulação que representa a relação
de causa como um triplo: 11 Conclusão

Este artigo descreve um corpus português-


1. Evento de causa.
brasileiro que contém notı́cias relacionadas a
2. Ligação causal. agricultura. Essas notı́cias têm anotações causais
e sentimentais relacionadas a informações tem-
3. Evento de efeito. porais, bem como anotações de entidades nome-
adas. O corpus contém recursos de linguagem,
Cada triplo tem um nome de documento que tais como: árvores de dependência, modelos de
é o documento onde reside a relação causal. As tópicos e modelos de vetor de palavras, bem como
palavras de parada (stop-words) foram removidas meta-informações, como distribuição de tópicos.
das relações causais. Uma amostra de relações Além disso, contém informações sobre o nı́vel do
causais pode ser encontrada na Tabela 10. documento, como distribuição de tópicos e in-
formações sobre o sentimento.
Relações Causais
Este recurso que acreditamos ser único e subs-
governo aumente etanol anidro gasolina
tancial, foi liberado para incentivar pesquisas de
clima seco produzidas milhoes toneladas
mineração de texto no campo da agricultura,
acucar
bem como pesquisas em áreas relacionadas, como
taxa declinio diminuı́do levantando expec- relação de causalidade e extração de conheci-
tativas setor mento.
chuvas últimos causa máquinas conse-
guem entrar lavoura
Agradecimentos
Tabela 10: Amostra de Relações Causais
Esta pesquisa teve apoio financeiro das agências
brasileiras: FAPESP (processos 15/14228-9 e
9 Licenciamento 11/20451-1) e CNPq (processo 302645/2015-2).
Somos gratos aos árbitros pelos comentários e su-
Este corpus é lançado sob a Crea- gestões no desenvolvimento deste trabalho.
tive Commons License (4.0) (https:
//wiki.creativecommons.org/wiki/Text). Referências
É intenção dos autores que este corpus seja
utilizado em sua amplitude, consequentemente Afonso, Susana, Eckhard Bick, Renato Haber &
esta licença foi escolhida porque permite o uso Diana Santos. 2002. Floresta sintá (c) tica:
comercial e de redistribuição. A treebank for portuguese. Em International
Este corpus se qualifica para a liberação de Conference on Language Resources and Evalu-
acordo com a legislação de uso justo9 porque: é ation (LREC), 1698–1703.
transformador, e nenhum ganho monetário será
exigido para sua liberação. Altenberg, Bengt. 1984. Causal linking in spoken
and written English. Studia Linguistica 38(1).
20–69.
10 Trabalhos Futuros Alvim, Leandro, Paula Vilela, Eduardo Motta &
Ruy Luiz Milidiú. 2010. Sentiment of financial
Pretende-se em trabalhos futuros considerar a
news: a natural language processing approach.
avaliação de outras ferramentas que realizam de-
Em 1st Workshop on Natural Language Pro-
tecção de entidades nomeadas, assim como outras
cessing Tools Applied to Discourse Analysis in
formas de detecção de expressão multi-palavras,
Psychology, edição online.
considerando o uso de opções como: OpenNLP,
FreeLing, PALAVRAS e etc. Aplicar anotações Balage Filho, Pedro P., Thiago A. S. Pardo &
baseadas em XML em relações causais que apre- Sandra M. Aluısio. 2013. An evaluation of the
sentam estruturas fracas. Além disso, vamos con- Brazilian Portuguese LIWC dictionary for sen-
siderar alternativas abertas ao LX-Dependency, timent analysis. Em 9th Brazilian Symposium
9 10
https://www.copyright.gov/fair-use/more- https://github.com/UniversalDependencies/UD_
info.html Portuguese-BR
BrAgriNews: Um Corpus Temporal-Causal (Português-Brasileiro) para a Agricultura Linguamática – 53

in Information and Human Language Techno- Forascu, Corina & Dan Tufis, . 2012. Romanian
logy (STIL), 215–219. TimeBank: An annotated parallel corpus for
Bethard, Steven. 2013. ClearTK-TimeML: A mi- temporal information. Em Eight International
nimalist approach to TempEval 2013. Em Se- Conference on Language Resources and Evalu-
cond Joint Conference on Lexical and Compu- ation (LREC), 3762–3766.
tational Semantics (SEM), 10–14. Freitas, Cláudia, Eduardo Motta, R. Milidiú &
Bittar, André. 2010. Building a TimeBank for Juliana César. 2012. Vampiro que brilha. . . rá!
French: a reference corpus annotated accor- desafios na anotaçao de opinião em um cor-
ding to the ISO-TimeML standard : Paris 7. pus de resenhas de livros. Em XI Encontro de
Tese de Doutoramento. Linguı́stica de Corpus, s/p.
Blei, David M., Andrew Y. Ng & Michael I. Jor- Freitas, Larissa A. & Renata Vieira. 2013. Onto-
dan. 2003. Latent dirichlet allocation. Journal logy based feature level opinion mining for Por-
of machine Learning research 3. 993–1022. tuguese reviews. Em 22nd International Con-
Carvalho, Paula, Hugo Gonçalo Oliveira, Diana ference on World Wide Web (WWW), 367–
Santos, Cláudia Freitas & Cristina Mota. 2008. 370.
Segundo HAREM: Modelo geral, novidades e Jung, Hyuckchul & Amanda Stent. 2013. ATT1:
avaliação. Em Desafios na avaliação conjunta Temporal annotation using big windows and
do reconhecimento de entidades mencionadas: rich syntactic and semantic features. Em Se-
O Segundo HAREM, 11–31. Linguateca. cond Joint Conference on Lexical and Compu-
Caselli, Tommaso, Valentina Bartalesi Lenzi, Ra- tational Semantics (SEM), 20–24.
chele Sprugnoli, Emanuele Pianta & Irina Pro- Khoo, Christopher, Syin Chan & Yun Niu.
danof. 2011. Annotating events, temporal 2002. The many facets of the cause-effect rela-
expressions and relations in Italian: the It- tion. Em Rebecca Green, Carol A. Bean &
TimeML experience for the Ita-TimeBank. Em SungHyon Myaeng (eds.), The Semantics of
5th Linguistic Annotation Workshop, 143–151. Relationships, vol. 3 Information Science and
Chaves, Marcı́rio Silveira, Larissa A. de Freitas, Knowledge Management, 51–70. Springer.
Marlo Souza & Renata Vieira. 2012. Pirpo: Khoo, Christopher S. G., Syin Chan & Yun Niu.
An algorithm to deal with polarity in portu- 2000. Extracting causal knowledge from a me-
guese online reviews from the accommodation dical database using graphical patterns. Em
sector. Em International Conference on Ap- 38th Annual Meeting on Association for Com-
plication of Natural Language to Information putational Linguistics, 336–343.
Systems, 296–301.
Kolya, Anup Kumar, Amitava Kundu, Rajdeep
Drury, Brett & Alneu de Andrade Lopes. 2014.
Gupta, Asif Ekbal & Sivaji Bandyopadhyay.
A comparison of the effect of feature selection
2013. JU CSE: A CRF based approach to
and balancing strategies upon the sentiment
annotation of temporal expression, event and
classification of Portuguese news stories. Em
temporal relations. Em Second Joint Confe-
Encontro Nacional de Inteligência Artificial e
rence on Lexical and Computational Semantics
Computacional (ENIAC), 413–417.
(SEM), 64–72.
Drury, Brett & Alneu de Andrade Lopes. 2015.
The identification of indicators of sentiment Laokulrat, Natsuda, Makoto Miwa, Yoshimasa
using a multi-view self-training algorithm. Tsuruoka & Takashi Chikayama. 2013. Ut-
Oslo Studies in Language 7. time: Temporal relation classification using
deep syntactic features. Em Second Joint Con-
Drury, Brett, Jorge Carlos Valverde-Rebaza & ference on Lexical and Computational Seman-
Alneu de Andrade Lopes. 2015. Causation ge- tics (SEM), 88–92.
neralization through the identification of equi-
valent nodes in causal sparse graphs construc- Liu, Bing & Lei Zhang. 2012. A survey of opinion
ted from text using node similarity strategies. mining and sentiment analysis. Em Charu C.
Em International Symposium on Information Aggarwal (ed.), Mining text data, 415–463.
Management and Big Data, 58–65. Springer.
Fonseca, Erick R. & João Luı́s G. Rosa. 2013. A Llorens, Hector, Estela Saquete & Borja Navarro.
two-step convolutional neural network appro- 2010. TIPSem (English and Spanish): Evalua-
ach for semantic role labeling. Em Interna- ting CRFs and semantic roles in TempEval-2.
tional Joint Conference on Neural Networks, Em 5th International Workshop on Semantic
2955–2961. Evaluation (SemEval), 284–291.
54– Linguamática Brett Drury and Robson Fernandes and Alneu de Andrade Lopes

Mikolov, Tomas, Ilya Sutskever, Kai Chen, Strötgen, Jannik & Michael Gertz. 2010. Heidel-
Greg S Corrado & Jeff Dean. 2013. Distribu- time: High quality rule-based extraction and
ted representations of words and phrases and normalization of temporal expressions. Em 5th
their compositionality. Em Advances in neural International Workshop on Semantic Evalua-
information processing systems, 3111–3119. tion, 321–324.
Pustejovsky, James, José M. Castaño, Robert In- Thomson, Judith Jarvis. 1987. Verbs of action.
gria, Roser Saurı́, Robert J. Gaizauskas, An- Synthese 72(1). 103–122.
drea Setzer & Graham Katz. 2003a. TimeML: UzZaman, Naushad & James F. Allen. 2010.
robust specification of event and temporal ex- TRIPS and TRIOS system for TempEval-2:
pressions in text. Em Mark T. Maybury (ed.), Extracting temporal information from text.
New directions in question answering, 28–34. Em 5th International Workshop on Semantic
AAAI Press. Evaluation (SemEval), 276–283.
Pustejovsky, James, Patrick Hanks, Roser Saurı́, Vendler, Zeno. 1967. Causal relations. The Jour-
Andrew See, Robert Gaizauskas, Andrea Set- nal of Philosophy 64(21). 704–713.
zer, Dragomir Radev, Beth Sundheim, David
Day, Lisa Ferro & Marcia Lazo. 2003b. The
TIMEBANK corpus. Em Corpus linguistics,
647–656.
Qiu, Guang, Bing Liu, Jiajun Bu & Chun Chen.
2009. Expanding domain sentiment lexicon th-
rough double propagation. Em International
Joing Conference on Artificial Intelligence (IJ-
CAI), vol. 9, 1199–1204.
Rodrigues, João, Francisco Costa, João Silva &
António Branco. 2014. Automatic syllabifica-
tion of portuguese. Encontro Anual da Asso-
ciação Portuguesa de Linguı́stica 715–720.
Shams-Eddien, Katrin. 2002. Beth Levin’s En-
glish verbs classes and alternations. Free Uni-
versity of Berlin.
Silva, Joao, António Branco, Sérgio Castro &
Ruben Reis. 2010. Out-of-the-box robust par-
sing of Portuguese. Em International Confe-
rence on Computational Processing of the Por-
tuguese Language (PROPOR), 75–85.
Silva, Mário J., Paula Carvalho & Luı́s Sarmento.
2012. Building a sentiment lexicon for social
judgment mining. Em International Confe-
rence on Computational Processing of the Por-
tuguese Language (PROPOR), 218–228.
Silva, Mário J., Paula Carvalho, Luı́s Sarmento,
Pedro Magalhães & Eugénio Oliveira. 2009.
The design of OPTIMISM, an opinion mining
system for Portuguese politics. Em New trends
in artificial intelligence: Proceedings of EPIA,
12–15.
Souza, Marlo, Renata Vieira, Débora Busetti,
Rove Chishman & Isa Mara Alves. 2011. Cons-
truction of a Portuguese opinion lexicon from
multiple resources. Em 8th Brazilian Sympo-
sium in Information and Human Language Te-
chnology, 59–66.
http://www.linguamatica.com/

Artigos de Investigação
Abordagem com Regras e Conhecimento Semântico para
a Resolução de Correferências
Evandro Fonseca, Vinicius Sesti, André Antonitsch, Aline Vanin e
Renata Vieira
LinguaKit: uma ferramenta multilingue para análise
linguı́stica e extração de informação
Pablo Gamallo e Marcos Garcia

Projetos, Apresentam-se!
Geração Automática de Sentenças em Lı́ngua Natural
lingua

para Sequências de Pictogramas


Rafael Pereira, Hendrik Macedo, Rosana Givigi e Marco Túlio
Chella
BrAgriNews: Um Corpus Temporal-Causal
(Português-Brasileiro) para a Agricultura
Brett Drury and Robson Fernandes and Alneu de Andrade Lopes

Você também pode gostar