Linguamatica v9n1

lingua Volume 9, Número 1- Julho 2017
ISSN: 1647-0818
Volume 9, Número 1 – Julho 2017
Linguamática ISSN: 1647–0818
Editores
Alberto Simões
José João Almeida
Xavier Gómez Guinovart
Conteúdo
Artigos de Investigação
CORP: Uma Abordagem Baseada em Regras e Conhecimento Semân-

tico para a Resolução de Correferências
Evandro Fonseca, Vinicius Sesti, André Antonitsch, Aline Vanin e Renata Vieira 3
LinguaKit: uma ferramenta multilingue para a análise linguı́stica e a

extração de informação
Pablo Gamallo e Marcos Garcia . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Projetos, Apresentam-se!
Geração Automática de Sentenças em Lı́ngua Natural para Sequências

de Pictogramas como Apoio à Comunicação Alternativa e Ampliada
Rafael Pereira, Hendrik Macedo, Rosana Givigi e Marco Túlio Chella . . . . . . 31
BrAgriNews: Um Corpus Temporal-Causal (Português-Brasileiro) para

a Agricultura
Brett Drury and Robson Fernandes and Alneu de Andrade Lopes . . . . . . . . . 41
Editorial
Este é o nono ano em que a Linguamática é editada. Todos os anos temos tido
novidades, o que tem levado a nossa/vossa revista cada vez mais longe. Desde a
publicação regular, até à indexação nos mais relevantes ı́ndices de indexação cientı́fica,
a Linguamática tem-se superado. E isto só é possı́vel graças aos nossos autores, que
continuam a apostar na publicação nas lı́nguas ibéricas, e aos nossos revisores, que
avaliam os artigos mas também dão sugestões construtivas no sentido de melhorar
todos os trabalhos publicados.
O nosso trabalho, como editores, tem sido a preparação das edições, mas também
a contı́nua vontade de recompensar os nossos autores e revisores.
Nesse sentido, nos últimos meses todas as revisões que foram feitas sobre artigos
publicados, foram registadas na plataforma Publons. O objetivo desta plataforma é
registar oficialmente todo o trabalho de revisão que habitualmente é feito pro bono.
Durante as próximas edições esse registo continuará a ser realizado, facilitando aos
revisores o processo de registo desta tarefa tão valiosa.
Finalmente, mas não menos importante, a Linguamática tem, a partir de agora,

através da Universidade do Minho, a possibilidade de atribuir aos artigos publicados
um Document Object Identifier (DOI). Assim, nesta edição, na folha de rosto de
cada artigo, estará presente o número de DOI, bem como um QR-Code que permite
aceder diretamente ao objeto respetivo. Durante os próximos meses serão adicionados
registos para todos os trabalhos publicados na Linguamática, desde a sua primeira
edição, a 5 de junho de 2009.
A todos, o nosso obrigado!
Xavier Gómez Guinovart

José João Almeida
Alberto Simões
vii
Comissão Científica
Alberto Álvarez Lugrı́s, Iñaki Alegria,
Universidade de Vigo Euskal Herriko Unibertsitatea
Alberto Simões, Irene Castellón Masalles,

Universidade do Minho Universitat de Barcelona
Aline Villavicencio, Joaquim Llisterri,

Universidade Federal do Rio Grande do Sul Universitat Autònoma de Barcelona
Álvaro Iriarte Sanroman, José João Almeida,

Universidade do Minho Universidade do Minho
Ana Frankenberg-Garcia, José Paulo Leal,

University of Surrey Universidade do Porto
Anselmo Peñas, Joseba Abaitua,

Univers. Nac. de Educación a Distancia Universidad de Deusto
Antón Santamarina, Juan-Manuel Torres-Moreno,

Universidade de Santiago de Compostela Lab. Informatique d’Avignon - UAPV
Antoni Oliver González, Kepa Sarasola,

Universitat Oberta de Catalunya, Euskal Herriko Unibertsitatea
Antonio Moreno Sandoval, Laura Plaza,

Universidad Autónoma de Madrid Complutense University of Madrid
António Teixeira, Lluı́s Padró,

Universidade de Aveiro Universitat Politècnica de Catalunya
Arantza Dı́az de Ilarraza, Marcos Garcia,

Euskal Herriko Unibertsitatea Universidade de Santiago de Compostela
Arkaitz Zubiaga, Marı́a Inés Torres,

Dublin Institute of Technology Euskal Herriko Unibertsitatea
Belinda Maia, Maria das Graças Volpe Nunes,

Universidade do Porto Universidade de São Paulo
Carmen Garcı́a Mateo, Mercè Lorente Casafont,

Universidade de Vigo Universitat Pompeu Fabra
Diana Santos, Mikel Forcada,

Linguateca/Universidade de Oslo Universitat d’Alacant
Ferran Pla, Pablo Gamallo Otero,

Universitat Politècnica de València Universidade de Santiago de Compostela
Gael Harry Dias, Patrı́cia Cunha França,

Université de Caen Basse-Normandie Universidade do Minho
Gerardo Sierra, Rui Pedro Marques,

Univers. Nacional Autónoma de México Universidade de Lisboa
German Rigau, Salvador Climent Roca,

Euskal Herriko Unibertsitatea Universitat Oberta de Catalunya
Helena de Medeiros Caseli, Susana Afonso Cavadas,

Universidade Federal de São Carlos University of Sheffield
Horacio Saggion, Tony Berber Sardinha,

University of Sheffield Pontifı́cia Univ. Católica de São Paulo
Hugo Gonçalo Oliveira, Xavier Gómez Guinovart,

Universidade de Coimbra Universidade de Vigo
ix
Artigos de Investigação
Proposta recebida em Agosto 2016 e aceite para publicação em Junho 2017.
CORP: Uma Abordagem Baseada em Regras e Conhecimento

Semântico para a Resolução de Correferências
CORP: A Rule Based Approach with Semantic Knowledge for Coreference Resolution
Evandro Fonseca Vinicius Sesti

PUCRS PUCRS
evandro.fonseca@acad.pucrs.br vinicius.sesti@acad.pucrs.br
André Antonitsch Aline Vanin Renata Vieira
PUCRS UFCSPA PUCRS
andre.antonitsch@acad.pucrs.br aline.vanin@ymail.com renata.vieira@pucrs.br
Resumo anáforas (Vieira et al., 2005; Bick, 2010; Rocha,

2000; Ferradeira, 1993; Basso, 2009) e o estudo da
Neste trabalho propomos o uso de conhecimento correferência nominal (Freitas et al., 2009; Fon-
lexical, sintático e semântico na tarefa de resolução de seca, 2014; Fonseca et al., 2014, 2016a,b). Este
correferência. Para isso, realizamos experimentos en- último é o foco deste trabalho.
volvendo diferentes combinações de heurı́sticas. Como
De forma geral, para este tipo de problema,
fruto deste estudo, geramos um sistema prático que
muitos trabalhos adotam técnicas de aprendizado
resolve correferência em textos da lı́ngua portuguesa.
de máquina. Soon et al. (2001) são dos pioneiros
Além disso, por meio do conhecimento semântico, in-
nesse tipo de abordagem. Para o aprendizado,
troduzido pelo Onto.PT, foi possı́vel obtermos um au-
a obtenção de bons resultados depende da qua-
mento significativo nos nı́veis de abrangência do nosso
lidade dos recursos utilizados. A lı́ngua portu-
modelo.
guesa ainda possui uma carência por corpora com
Palavras chave anotações de correferência suficientes para trei-
nar modelos mais robustos. E, quando envolve-
Resolução de Correferência, Conhecimento Semântico
mos o uso da semântica, a carência é ainda maior,
dado que a quantidade de amostras é significati-
vamente menor. Se compararmos os dois princi-
Abstract pais corpora para o Inglês e para o Português, te-
mos, respectivamente, 34290 cadeias para o cor-
In this paper we propose the use of lexical, syntac-
pus Ontonotes (Pradhan et al., 2011) e 560 ca-
tic and semantic knowledge for coreference resolution.
deias para o corpus Summ-it (Collovini et al.,
We conducted several experiments involving different
2007). Dessa forma, em idiomas com carência de
heuristics. As a result of this study, we generated
tais bases anotadas, uma abordagem baseada em
a practical system that solves coreference in Portu-
regras linguı́sticas pode prover resultados mais
guese texts. In addition, it was possible to increase
significativos. Por outro lado, tem crescido a dis-
our recall through semantic knowledge provided by
ponibilidade de recursos semânticos para o Por-
Onto.PT.
tuguês que podem ser utilizados para auxiliar em
Keywords problemas relacionados a essa tarefa. Portanto,
apresentamos neste artigo um sistema baseado
Coreference Resolution, Semantic Knowledge
em regras e conhecimento semântico para a re-
solução de correferências.
As principais contribuições deste trabalho são:
1 Introdução
• a análise individual e conjunta das regras
A Resolução de correferências é um processo que empregadas na solução do problema;
consiste em identificar as diversas menções feitas • um modelo para a resolução de corre-
a uma mesma entidade em um texto. ferências em Português, que faz uso de co-
Encontramos diversas iniciativas para a lı́ngua nhecimento semântico e, com isso, amplia a
portuguesa na literatura que abordam esse pro- abrangência nos resultados.
blema, geralmente separados entre a resolução de
DOI: 10.21814/lm.9.1.241
Linguamática — ISSN: 1647–0818
This work is Licensed under a
Creative Commons Attribution 4.0 License Vol. 9 Núm. 1 - Julho 2017 - Pág. 3–18
4– Linguamática Evandro Fonseca, Vinicius Sesti, André Antonitsch, Aline Vanin e Renata Vieira
Este artigo está estruturado da seguinte Nos exemplos em 1 temos núcleos idênticos,
forma: na Seção 2 é dada uma contextualização mas os complementos indicam que os referentes
referente à tarefa de resolução de correferências são diferenciados. Em 2 temos o termo “Bra-
e seus desafios, bem como é explorado o papel sil” em ambos os sintagmas; no entanto, o pri-
da semântica nesse processo; na Seção 3 são des- meiro refere-se ao paı́s “Brasil” e o segundo a
critos os principais trabalhos relacionados, bem “a região sul do Brasil”. Em 3, temos uma si-
como os nı́veis de semântica e recursos utiliza- tuação um pouco mais complexa, pois ambas as
dos por cada um; na Seção 4 são abordados os expressões possuem o termo “Portugal”. Nesse
principais recursos utilizados na concepção de caso, a palavra pode referir-se a uma entidade do
nosso modelo, que é descrito na Seção 5; na tipo “Pessoa” ou “Local”. Há casos, também, em
Seção 6 descrevemos os experimentos conduzidos, que dois sintagmas podem discordar em gênero e
as métricas utilizadas na avaliação do modelo e a (ou) número, mas ainda assim serem correferen-
análise dos resultados; na Seção 7 é dada uma tes, como em 4. Em casos como esse, precisamos
breve descrição do CORP, a ferramenta cons- recorrer à semântica. Por meio dela, é possı́vel
truı́da com base no modelo; na Seção 8 efetua- identificar relações que vão além do reconheci-
mos uma análise de erros; e, por fim, na Seção 9 mento de caracterı́sticas lexicais.
temos as conclusões e trabalhos futuros. Não é novidade que a semântica pode pro-
ver ganhos à resolução de correferência (Coreixas,
2 Semântica aplicada à Resolução de 2010; Rahman & Ng, 2011; Ponzetto & Strube,
Correferência 2006; Haghighi & Klein, 2009; Durrett & Klein,
2014; Fonseca et al., 2016b). Nesta Seção, cita-
A Resolução de correferências é um processo mos os principais recursos semânticos, utilizados
que consiste em identificar as diversas formas na resolução de correferência, disponı́veis para o
em que uma mesma entidade é evocada em um Inglês e para o Português: para o Inglês, temos
determinado texto. Em outras palavras, esse recursos bem conhecidos e consolidados, como
processo consiste em identificar as menções (ex- a WordNet (Miller, 1995), um banco de dados
pressões textuais) associadas a entidades ou even- lexical que possui informações sobre substanti-
tos do mundo real. Em um discurso, menções vos, verbos, adjetivos e advérbios. Todas essas
que referem a uma mesma entidade são cha- classes de palavras são agrupadas em conjuntos
madas menções correferentes e formam um con- de sinônimos, denominados synsets. Cada syn-
junto de menções, definido como cadeia de cor- set expressa um conceito distinto, que está in-
referência (Poesio et al., 2016). Na sentença “A terligado por meio de relações semânticas e lexi-
opinião é de Miguel Guerra, da Universidade de cais. Temos também o FrameNet (Baker et al.,
Santa Catarina (UFSC). Guerra participou. . . ”, 1998), contendo a similaridade semântica entre
podemos dizer que [Guerra] é uma correferência os verbos (caminhar, andar), e Yago (Suchanek
de [Miguel Guerra]. et al., 2007), uma ontologia que contém relações
semânticas como Means (significa) e Type (tipo
Existem casos em que estabelecer uma relação
de), análogas a, respectivamente, sinonı́mia e hi-
de correferência pode parecer uma tarefa sim-
ponı́mia.
ples, como em [Miguel Guerra] e [Guerra], dado
que ambos os sintagmas compartilham o termo Para o Português, temos algumas alterna-
“Guerra”. No entanto, ainda que estejamos li- tivas, como WordNet.PT. WordNet.BR, Mul-
dando com a tarefa em nı́vel lexical, existem si- tiWordNet.PT (Gonçalo Oliveira et al., 2015);
tuações mais complexas, que necessitam de trata- FrameNetBR (Salomão, 2009), contendo relações
mento distinto. Considere os seguinte exemplos: semânticas entre verbos, com foco no domı́nio
“Futebol”. TEP2.0 (Maziero et al., 2008), um
thesaurus contendo relações de sinonı́mia e an-
(1) a. [o sul do Brasil], [o sul da África] tonı́mia; e, mais recentemente, foi criada a
b. [Universidade do Paraná], Onto.PT (Gonçalo Oliveira, 2012), uma ontolo-
[Universidade de São Paulo] gia semântica para o Português, sobre a qual são
dados mais detalhes na Seção 4. Na Seção 3
(2) [O Brasil], [a região sul do Brasil] detalham-se as caracterı́sticas de cada recurso
semântico que foram utilizadas na concepção de
(3) [Adalberto Portugal], [Portugal] modelos de correferência.
(4) a. [a abelha], [o inseto]
b. [os ossos], [o fóssil]
Abordagem com Regras e Conhecimento Semântico para a Resolução de Correferências Linguamática – 5
3 Trabalhos Relacionados ver pequenos ganhos para a tarefa de resolução

de correferências e, mesmo que pequenos, se acu-
Na literatura, encontramos muitos trabalhos vol- mulados, podem tornar-se algo substancial.
tados à resolução de correferências. Em sua Hou et al. (2014) propôs um modelo baseado
grande maioria, esses trabalhos fazem um uso em regras, para a resolução de anáforas diretas
mais restrito da semântica, focando em catego- e indiretas (bridging). A resolução de anáforas
rias de entidades nomeadas e deixando de lado indiretas, consiste em reconhecer e criar um elo
relações importantes, que poderiam trazer ga- entre duas menções por meio de uma relação
nhos à tarefa. Nesta Seção, relatamos os prin- de “não identidade”. Um bom exemplo de tal
cipais trabalhos voltados à resolução de corre- relação é a meronı́mia (parte de), como em:
ferências para os idiomas Português e Inglês. Ve- “a casa” e “a chaminé”. Para identificar tais
remos que os nı́veis de semântica utilizados va- relações, os autores utilizaram o WordNet (Mil-
riam de acordo com o escopo e idioma de cada ler, 1995).
trabalho. Para a lı́ngua portuguesa, Silva (2011) propôs
O trabalho de Lee et al. (2013), para a lı́ngua um modelo para a resolução de correferências uti-
inglesa, faz uso de semântica para identificar lizando o conjunto de etiquetas semânticas provi-
menções que remetem a entidades do tipo “Pes- das pelo corpus do HAREM (Freitas et al., 2010).
soa”, objetivando resolver correferências prono- Para detectar tais categorias, Silva utilizou o par-
minais. Isto é, os autores utilizam semântica ser PALAVRAS (Bick, 2000) e o reconhecedor de
de forma mais simples, fazendo uso de apenas entidades nomeadas Rembrandt (Cardoso, 2012).
uma categoria de entidade, sem explorar quais- Como base de conhecimento semântico, o au-
quer outras possı́veis relações semânticas. Exis- tor utilizou o TEP2.0 (Maziero et al., 2008), um
tem trabalhos que fazem um uso mais elaborado thesaurus contendo relações de sinonı́mia e an-
da semântica, como o de Rahman & Ng (2011), tonı́mia para a lı́ngua portuguesa.
em que avaliaram a utilidade do conhecimento Ainda considerando o Português, Coreixas
de mundo usando duas bases de conhecimento: (2010) propôs a resolução de correferências,
Yago (Suchanek et al., 2007) e FrameNet (Ba- focando-se nas categorias “Pessoa”, “Local”,
ker et al., 1998). Utilizando os recursos cita- “Organização”, “Acontecimento”, “Obra”,
dos, os autores fazem a identificação de relações “Coisa” e “Outro”. Como recursos, foram uti-
semânticas como: “Means” (significa) e “Type” lizados o corpus do HAREM, o parser Palavras
(tipo de). Cada relação semântica é representada e o corpus Summ-it. De forma a demonstrar
por uma tripla (AlbertEinsten, Type, physicist). que o uso de categorias semânticas pode auxiliar
Essa instância denota o fato de que Albert Eins- na tarefa de resolução de correferências, o autor
tein é um fı́sico. A relação “Means”, análoga à compara duas versões de seu sistema: a primeira,
sinonı́mia, provê as diferentes formas de expressem fazer o uso de categorias semânticas; e a
sar uma entidade. Portanto, permite tratar casos segunda, fazendo uso dessas categorias. Como
ambı́guos, como: (Einstein, Means, AlbertEins- resultado, Coreixas (2010) mostrou que o uso de
tein) e (Einstein, Means, AlfredEinstein), pois categorias pode prover melhorias significativas,
denotam o fato de que “Einstein” pode referir-se dado que o uso de categorias pode auxiliar a
ao fı́sico Albert Einstein e ao músico Alfred Eins- determinar se dado par de menções é correferente
tein. Do FrameNet foram utilizados os papéis ou não. O autor também mostrou a importância
semânticos dos verbos, como por exemplo: do conhecimento de mundo para esta linha de
pesquisa.
Peter Anthony condena o programa de Garcia & Gamallo (2014a), propõem um mo-
negociação, limitando o jogo para al- delo baseado em regras (semelhante ao de Lee
guns, mas ele não tem certeza se quer et al. (2013), mas para múltiplos idiomas (Por-
denunciá-lo, porque. . . tuguês, Espanhol e Galego). Em seu trabalho,
os autores focam apenas na categoria semântica
Note que o papel semântico pode ajudar a “Pessoa”.
estabelecer um link de correferência entre “pro-
Em trabalhos anteriores (Fonseca et al., 2014)
grama negociação” e o pronome pessoal oblı́quo
propusemos uma abordagem baseada em apren-
“lo”, uma vez que com o FrameNet é possı́vel
dizado de máquina, com foco em nomes próprios
recuperar a relação entre “condena” e “denun-
e nas categorias de entidades “Pessoa”, “Local” e
cia”, pelo fato dessas duas palavras aparecerem
“Organização”. Para detectar as entidades, uti-
no mesmo frame e os dois sintagmas possuı́rem
lizamos o Repentino (Sarmento et al., 2006) e
o mesmo papel semântico. Como resultado, os
NERP-CRF (do Amaral, 2013). Adicionalmente,
autores constataram que a semântica pode pro-
para casos mais genéricos de entidades, utiliza- 1995), o Onto.PT possui uma estrutura baseada
mos listas, contendo substantivos comuns, que re- em synsets 1 e relações semânticas conectando
metem a determinadas entidades, tais como: [ad- esses synsets, como: hiperonı́mia, hiponı́mia,
vogado, agrônomo, juiz] para a categoria “Pes- sinonı́mia, meronı́mia, entre outras. Na Ta-
soa”, e [avenida, rua, praça, cidade] para “Lo- bela 1, podemos visualizar os tipos de relações
cal”. semânticas consideradas por nosso modelo e suas
Como podemos ver, existem muitos trabalhos quantidades, presentes na ontologia.
propondo o uso de semântica, no entanto os nı́veis Para extrair as relações semânticas do
dessas regras variam de acordo com o escopo e Onto.PT, utilizamos uma API2 que, para um
quantidade de recursos disponı́veis. Nosso mo- dado par de palavras, retorna suas relações
delo atual teve como objetivo avançar no estado semânticas, conforme podemos visualizar na Ta-
da arte no que diz respeito à tarefa de resolução bela 2.
de correferências para o Português, utilizando re-
cursos semânticos mais recentes, disponı́veis para Relação Tipo Quantidade
o português. substantivo 84.015
verbo 37.068
Sinônimo De
adjetivo 45.149
4 Recursos advérbio 2.626
Hipônimo De substantivo 91.466
Nesta Seção, apresentamos quatro recursos fun-
damentais para a concepção de nosso trabalho: Total — 260.324
o CoGrOO (Silva, 2013), um corretor gramatical
com diversas funcionalidades para o português; o Tabela 1: Quantidade de relações no Onto.PT.
Onto.PT (Gonçalo Oliveira, 2012), ontologia uti-
lizada para obtenção de relações semânticas (hi- Par Relação
ponı́mia e sinonı́mia); e CoNLL Scorer (Pradhan estudo, pesquisa sinonimoDe
et al., 2014) e Summ-it++ (Antonitsch et al., abelha, inseto hiponimoDe
2016), utilizados na avaliação de nosso modelo. animal, cachorro hiperonimoDe
Tabela 2: Onto.PT: Exemplos de relações

CoGrOO
semânticas para um dado par de palavras.
CoGrOO é um corretor gramatical de código
aberto, capaz de prover anotação sintática.
Tendo como principal funcionalidade a correção Summ-it++
gramatical, o CoGrOO é capaz de identifi-
car erros como: colocação pronominal, con- Concebido a partir do corpus Summ-it, o Summ-
cordância nominal, concordância sujeito-verbo, it++ consiste em uma nova versão do Summ-it
uso da crase, concordância nominal e verbal e portada para o formato SemEval (Recasens et al.,
outros erros comuns de escrita em português do 2010) e enriquecida com duas novas camadas
Brasil. Para tal, o CoGrOO realiza uma análise de anotação semântica: Relação entre entidades
hı́brida: inicialmente, o texto é anotado usando nomeadas (Collovini et al., 2014); e Categorias
técnicas estatı́sticas de Processamento de Lingua- de Entidades Nomeadas (do Amaral, 2013). O
gens Naturais e, em seguida, um sistema base- Summ-it++, assim como o Summ-it, possui 5033
ado em regras é responsável por identificar os menções, 3022 links, 560 cadeias de correferência.
possı́veis erros gramaticais. Além das funcionali- Adicionalmente, possui 1086 entidades nomeadas
dades já descritas, o CoGrOO possui, da mesma classificadas e 37 descritores de relação entre es-
forma que o OGMA (Maia, 2008) e o PALA- sas entidades. Para nossa avaliação, o corpus
VRAS, a anotação de sintagmas nominais. Além Summ-it++ mostrou-se o mais indicado, dado
disso, conta também com análise morfológica e que possui anotação de correferência em nı́vel de
com lematização. sintagmas nominais. Outros corpora para o Por-
tuguês, como o HAREM ou o de Garcia & Ga-
mallo (2014b) possuem anotação de correferência
Onto.PT apenas para categorias de entidades nomeadas.
Construı́do de forma automática por meio de di- Na Tabela 3, podemos visualizar como são dis-
cionários e de thesaurus da lı́ngua portuguesa, 1
Grupos de palavras que possuem um mesmo signifi-
o Onto.PT é considerado uma ontologia de base cado ex: [moço, menino, filho, garoto, rapaz].
2
para o português. Similar ao Wordnet (Miller, http://github.com/rikarudo/OntPORT
postas as informações do corpus. Essas são im- Além disso, o recurso fornece também os resul-
portantes, dado que para efetuar nossa avaliação, tados de todas as métricas conhecidas (MUC,
a saı́da de nosso modelo também teve de ser con- B 3 , Ceaf e BLANC) (Vilain et al., 1995; Bagga
vertida para este formato. Na Tabela 3, cada & Baldwin, 1998; Luo, 2005; Recasens & Hovy,
coluna representa respectivamente: 2011).
ID: identificador de cada palavra na ordem em

que elas aparecem na sentença; 5 Descrição do Modelo
Token: palavra ou multi-palavra; Nosso modelo segue o padrão de uma arquitetura
Lemma: lema; multi-passos, baseada em regras linguı́sticas, as-
sim como o modelo de Lee et al. (2013). Em uma
POS: análise morfológica (part-of-speech) de arquitetura multi-passos, cada etapa consiste em
cada palavra; aplicar determinada regra, objetivando agrupar
duas menções mx e my , caso suas restrições se-
Feat: gênero e número (features) de cada pala-
jam satisfeitas. Diferente de Lee et al. (2013),
vra;
nosso modelo é aplicado para o Português, e in-
Head: denota se a palavra é um núcleo (head ) de troduz o uso de conhecimento semântico provido
sintagma nominal (caso sim, o campo recebe pelo Onto.PT.
o valor ‘0’); Nossas regras formam um conjunto facil-
NE: representa a categoria semântica das enti- mente encontrado em trabalhos realizados para
dades nomeadas; o Inglês (Lee et al., 2013; Rahman & Ng, 2011;
Soon et al., 2001). Contudo, nosso trabalho tem
Rel: representa o descritor que expressa a como diferencial o idioma para o qual é voltado e
relação entre um par de entidades nomea- sua combinação especı́fica de regras. Além disso,
das. Quando essa relação existe, ambas as poucos trabalhos, mesmo para o Inglês, abordam
entidades nomeadas envolvidas recebem o o uso de regras semânticas, como Hiponı́mia e Si-
ID das palavras que compõem o descritor de nonı́mia, para a resolução de correferências. Mui-
relação. tas de nossas regras foram adaptadas da litera-
tura, considerando o padrão linguı́stico do Por-
Corref: contém o identificador da cadeia, sendo
tuguês e as limitações dos recursos disponı́veis
que o inı́cio de um sintagma é marcado por
para o nosso idioma.
“(”, e o seu final, por “)”. Basicamente,
menções correferentes recebem o mesmo ID. Inicialmente, realizamos a detecção de
menções, por meio do parser CoGrOO (Silva,
2013); seguido de um pré-processamento, o
qual removemos menções que: iniciem com
CoNLL Scorer
entidades numéricas como percentual, dinheiro,
Desenvolvido com o intuito de atender as neces- cardinais e quantificadores (9%, $10,000, Dez,
sidades da CoNLL shared task (Pradhan et al., Mil, 100 metros). Apesar de existir correferência
2011, 2012), o CoNLL Scorer (Pradhan et al., numérica, esta é responsável pela maioria das
2014) consiste em uma API cujo objetivo é ava- ligações incorretas. Portanto, optamos por
liar modelos de resolução de correferência. Seu não tratá-los. Após as etapas de detecção de
objetivo principal é prover uma forma automati- menções e pré-processamento são aplicadas 13
zada e justa de avaliar tais modelos. Isso porque, regras (11 lexicais e 2 semânticas).
como descrito por Pradhan et al. (2014), cada
métrica favorece uma caracterı́stica especı́fica en- Regras Básicas
tre os links de menções. Dados os fatos, o recurso
utiliza a média entre as três principais métricas, Casamento de Padrões Exato (Regra 1)
para determinar uma pontuação única. Considera como correferentes duas menções, cu-
Basicamente, tendo como entrada dois arqui- jos sintagmas nominais sejam exatamente iguais,
vos (ambos necessitam estar no formato SemE- incluindo seus modificadores e determinantes.
val (Recasens et al., 2010), um formato muito co-
nhecido e utilizado pela maioria dos corpora): o (5) a. [o Brasil], [o Brasil]
primeiro, contendo as anotações que são o padrão b. [a Amazônia], [a Amazônia]
de referência, e o segundo contendo as anotações,
providas automaticamente pelo modelo a ser ava- Esta regra não agrupa pronomes e, para realizar o
liado, o CoNLL Scorer calcula uma pontuação. agrupamento, os sintagmas não podem pertencer
ID Token Lemma PoS Feat Head NE Rel Corref

1 A o art F=S
2 opinião opinião n F=S 0
3 é ser v-fin PR=3S=IND
4 de de prp
5 o o art M=S (2
6 agrônomo agrônomo n M=S 0
7 Miguel Guerra prop M=S 0 PES (9)
8
9 de de prp
10 a o art F=S
11 UFSC prop F=S 0 ORG (9) (3)
12 ( ( (
Universidade de
13 prop F=S 0 ORG (3) | 2)
Santa Catarina
14 ) ) )
15 . . .
1 Guerra prop M=S 0 PES (2)

2 participou participar v-fin PS=3S=IND
...
Tabela 3: Esquema de anotação Summ-it++.
a uma construção de aposto especificativo (regra Assim como na regra Casamento de Padrões
4); caso eles pertençam, seus sintagmas ligeira- Exatos, pronomes e menções que estejam em
mente anteriores devem ser iguais. Com essa res- uma construção de Aposto Especificativo não são
trição evitamos links como: agrupados por esta regra.
(6) [[o telescópio] [Gemini]],

Aposto Explicativo (Regra 3)
[[o projeto] [Gemini]]
Agrupa duas menções caso essas estejam em uma
Note que os sintagmas “Gemini” são exatamente construção de aposto (Cadore & Ledur, 2013;
iguais, no entanto são sub-sintagmas (adjuntos) Bechara, 1972). Essa regra consiste em buscar
de “o telescópio” e “o projeto”. Em poucas pala- por marcações padrões que ajudam a identifi-
vras, após o processo de chunking3 , temos os se- car o aposto, como parênteses e menções entre
guintes sintagmas nominais: [o telescópio], [Ge- vı́rgulas.
mini],[o projeto] e [Gemini]. Logo, mesmo es-
(8) a. [A Embrapa] ([Empresa Brasileira de
ses sintagmas nominais possuindo um casamento
Pesquisa Agropecuária])
exato não necessariamente significa que existe
uma uma relação de correferência, dado que estes b. [A ministra da justiça do paı́s], [Elisabete
são adjuntos adnominais. Guigou], . . .
Casamento Parcial pelo Núcleo (Regra 2) Aposto Especificativo (Regra 4)

Considera como correferentes duas menções, cujo Consiste em verificar se duas menções vizinhas,
casamento obtido por meio do truncamento de mi e mi+1 , estão em uma construção de aposto
seus sintagmas seja igual num mesmo contexto. especificativo4 (Cadore & Ledur, 2013; Bechara,
O truncamento das menções é realizado levando 1972). Basicamente, se satisfazem as seguintes
em consideração seus núcleos, como nos exemplos restrições:
abaixo:
• menção mi+1 é um nome próprio;
(7) a. [o piloto americano], [o piloto]
• menção mi é um substantivo comum;
b. [o ministro da justiça], [o ministro]
• menção mi deve possuir um artigo definido;
3
Nem sempre o CoGrOO efetua a separação dos ad-
4
juntos adnominais. No entanto, para ambos os casos esta Diferente de Lee et al. (2013), aplicamos esta regra
restrição é válida e previne links incorretos, aumentando a todos os sintagmas nominais, não apenas a categoria
a precisão do modelo pessoa.
• menção mi+1 não pode possuir um determi- Pronome Relativo (Regra 7)

nante; Busca por menções que possuam/sejam prono-
mes relativos. Identificado um pronome relativo
• menções mi e mi+1 devem estar na mesma mi+1 , este é agrupado com a menção anterior ad-
sentença e serem adjacentes no texto (não jacente mi :
pode haver outras palavras entre elas).
(12) [Wilkinson Microwave Anisotropy Probe],
• caso o determinante de mi esteja no plural,
agrupa todas as menções subsequentes que: [cujos] primeiros dados.
– sejam nomes próprios; Casamento Restrito pelo Núcleo (Regras 8 e 9)

– estejam na mesma sentença; Consiste em agrupar (por meio de um casamento
ingênuo) duas menções, caso seus núcleos sejam
– estejam separados por vı́rgula (ou “e” iguais. Esse casamento, ao considerar apenas o
após as vı́rgulas). núcleo dos sintagmas, muitas vezes pode causar
um agrupamento incorreto, já que não considera
(9) a. [o arqueólogo português], [Francisco Al- que possam existir modificadores incompatı́veis,
ves] como, por exemplo: Universidade de São Paulo
e Universidade de Brası́lia. Note que os núcleos
b. [o galeão], [Nossa Senhora dos Mártires] desses sintagmas são iguais, no entanto referem-
se a entidades distintas. Para evitar esse tipo de
c. [os brasileiros], [Gilson Rambelli, Paulo
agrupamento incorreto, esta regra implementa al-
Bava de Camargo e Flávio Rizzi].
gumas cláusulas restritivas, que devem ser com-
binadas de modo a produzirem um link.
Acrônimo (Regra 5)
Agrupa duas menções se uma menção mi é sigla • Casamento entre Núcleos: O núcleo da
de mj . menção atual mj precisa ser o mesmo do an-
tecedente mi .
(10) [Organização das Nações Unidas], [a ONU] (13) [Universidade Federal de São Paulo]
. . . [a Universidade] . . .
Predicado Nominativo (Regra 6) • Palavra Modificadora: Todas as pala-
Tem como objetivo identificar predicados nomi- vras de dada menção mj , não considera-
nativos e agrupá-los com suas respectivas re- das como stopwords (substantivos comuns,
ferências. Para isso, buscamos por uma sequência próprios, verbos, adjetivos e advérbios) são
que possua um verbo de ligação seguido de incluı́das em uma lista e comparadas com
um determinante/artigo, como, por exemplo, (é a menção antecedente mi . Dessa forma, é
um, é uma, foi o, foram os. . . ); encontrada a possı́vel verificar se existe alguma palavra
sequência (verbo de ligação + determinante), que modifica o núcleo do antecedente. Essa
agrupamos as menções adjacentes, como em: cláusula explora a propriedade de discurso
que nos diz que é incomum introduzirmos
(11) [A França] é [o único paı́s que se recusa a novas informações em novas menções a uma
aceitar a determinação europeia] mesma entidade. Basicamente, menções
subsequentes a uma mesma entidade pos-
Nessa regra, consideramos apenas o verbo “ser”,
suem a tendência de serem menos explica-
conjugado no passado, presente e futuro do sin-
tivas.
gular e do plural. Outros verbos de ligação não
foram considerados, pois geralmente associam-se (14) [A menina que caiu e se machucou],
a adjetivos, e não a substantivos, como por exem-
[A menina que está feliz]
plo:
Note que as palavras “está” e “feliz”, exis-
• Cláudia anda nervosa. tentes na menção atual, não são stopwords,
então verificamos se essas duas palavras mo-
• Diana continua feliz.
dificam o antecedente. Como o antecedente
• Nicole ficou triste. não possui as palavras “está e feliz”, elas na-
turalmente o modificarão. Portanto, o agru-
• João está feliz. pamento das menções não é realizado.
(15) [A estrada de Minas Gerais que ficará duas etapas. A primeira (8) realiza o agru-
pronta], [A estrada que talvez esteja pamento das menções levando em consi-
pronta] deração (Casamento entre Núcleos ∧ Pa-
lavra Modificadora ∧ Encapsulamento de
As menções contidas no exemplo acima Menções). A segunda (9) busca menções
também não seriam agrupadas, dado que o em que (Casamento entre Núcleos ∧ Mo-
advérbio “talvez” e o verbo “esteja” (conti- dificadores Compatı́veis ∧ Encapsulamento
dos em “A estrada que talvez esteja pronta”) de Menções) sejam satisfeitas. Essas duas
modificariam o antecedente. variações foram propostas por Lee et al.
(2013) e mostraram uma melhoria de 0.9%
• Modificadores Compatı́veis: Os modifi-
na medida-f, quando utilizadas linearmente.
cadores de uma menção mj atual são todos
incluı́dos na lista de modificadores do can-
didato antecedente mi . Essa cláusula é se- Casamento entre Nomes Próprios (Regra 10)
melhante à “Palavra Modificadora”, com o Agrupa duas menções caso as seguintes condições
diferencial de que considera apenas modifi- sejam satisfeitas:
cadores que são substantivos e adjetivos. Em
outras palavras, essa regra verifica se os mo- • ambas as menções devem conter nomes
dificadores do tipo adjetivos e substantivos, próprios;
quando existem na menção, são iguais aos da • os nomes próprios precisam ser iguais lexi-
menção anterior. Note que essa heurı́stica calmente;
realizaria o mesmo agrupamento que a re-
gra “Palavra Modificadora” para o exem- • as duas menções não devem estar encapsula-
plo 14, porém teria um resultado diferente das, ou seja, devem respeitar a cláusula “En-
para o exemplo 15. Ou seja, o fato de haver capsulamento de Menções”.
um modificador — advérbio (talvez) e um
verbo (esteja), por exemplo — não afeta o (17) [Califórnia],[a região sul da Califórnia].
fato de serem correferentes, altera apenas o
sentido do enunciado. Logo, a clásula “Mo- No exemplo acima, temos a violação da terceira
dificadores Compatı́veis” agruparia as duas condição. Note que ambos os sintagmas nomi-
menções do exemplo 15, pois as palavras da nais possuem o mesmo nome próprio, mas vio-
menção atual, mj , (A estrada que talvez lam a cláusula “Encapsulamento de Menções”,
esteja pronta), consideradas não stopwords de modo semelhante ao exemplo 16. Neste caso,
são: “Estrada” e “pronta”, palavras que não [Califórnia] e [da Califórnia] não podem ser cor-
modificariam o antecedente. referentes pelo fato de a segunda menção estar
ligada a uma preposição, tornando-a adjunto ad-
• Encapsulamento de Menções Esta
verbial de lugar. Portanto, há uma especificação,
cláusula nos diz que duas menções, para
em que não se está referindo a toda a Califórnia,
serem correferentes, uma menção não pode
mas somente à região sul desse estado.
ser parte constituinte da outra. De forma
a reconhecer este tipo de dependência,
utilizamos o reconhecimento de preposições, Casamento Parcial entre Nomes Próprios
como: “de” (e suas variações “do”, “da”, (Regra 11)
“dos”, “das”) e “em” (e suas variações Semelhante à regra “Casamento entre Nomes
“no”, “na”, “nos” e “nas”). No exemplo 16, Próprios”, mas permite que o núcleo da menção
[o menino] não pode fazer referência a [o atual mj combine com qualquer palavra existente
pijama listrado] justamente porque a regra na menção anterior mi . Como em: [o agrônomo
faz com que a preposição torne-se parte in- da UFSC, Miguel Guerra] e [Guerra]. Para reali-
dispensável para haver correferência. Desse zar o agrupamento, algumas cláusulas devem ser
modo, a preposição “de” torna o sintagma respeitadas:
[o pijama listrado] expressão adjunta de [o
menino]. • ambas as menções devem conter nomes
próprios;
(16) [O menino de pijama listrado],
• pelo menos uma palavra de mj deve ser igual
[o pijama listrado]. à mi ;
É importante mencionar que a Regra “Ca- • o agrupamento deve respeitar a cláusula
samento Restrito pelo Núcleo” consiste de “Palavra Modificadora”
Regras Semânticas Sinonı́mia (Regra 13)

Semelhante à regra Hiponı́mia, a regra Sinonı́mia
Hiponı́mia (Regra 12) agrupa duas menções quando há uma relação de
Agrupa duas menções (mi e mj ) se os le- sinonı́mia entre elas, respeitando as seguintes res-
mas, provenientes dos núcleos de mi e mj , são trições:
hipônimos. Para encontrar tais relações, utiliza-
mos o Onto.PT (Gonçalo Oliveira, 2012). Esta • o lema do núcleo das menções mi e mj ne-
regra ajuda a agrupar menções como as do exem- cessitam possuir uma relação de sinonı́mia;
plo abaixo:
• não podem haver palavras que modifiquem
(18) Já se perguntou como as abelhas fabricam as menções;
mel? Os insetos saem em busca de. . .
• cada nova menção a ser agrupada a dada ca-
Para evitar o agrupamento incorreto de menções deia de correferência, por esta regra, neces-
(exemplo 18), foram combinadas técnicas de pré sita possuir uma relação de sinonı́mia com
e pós modificadores. Nesse exemplo, se ex- todas as menções desta cadeia. Respeitando
trairmos o lema do núcleo das menções e efe- esta restrição, evitamos agrupar menções
tuarmos uma busca pela existência de relações como em:
semânticas entre “quebra-cabeça” e “problema”,
veremos que “quebra-cabeça” possui uma relação
de hiponı́mia com “problema”, mas note que as (20) A Terra é um astro do sistema solar.
menções “o quebra-cabeça genético” e “problema Esse planeta orbita a uma distância de
ambiental” não são correferentes. Para evitar tal 149.600.000 km do Sol.
agrupamento, adicionamos a cláusula “Palavra
Modificadora5 ”. Dessa forma, o termo “ambien-
6 Experimentos
tal” torna-se um modificador e o agrupamento
das menções não é realizado.
De forma a avaliar nosso modelo, usamos seis
(19) Foi o tempo em que decifrar o genoma métricas amplamente utilizadas pela literatura
. . . o quebra-cabeça genético. . . (descritas em 6.1). Cada uma delas objetiva ava-
Isso é um problema ambiental. . . liar um aspecto especı́fico no modelo e calcular
seu desempenho. Em nossos experimentos, efe-
Nesse sentido, para ocorrer o agrupamento de tuamos dois tipos de avaliação: na primeira (Ta-
duas menções, duas condições precisam ser sa- bela 4), avaliamos os ganhos que cada regra pode
tisfeitas: prover ao modelo, de forma independente; na se-
• o lema do núcleo das menções mi e mj ne- gunda (Tabela 5), avaliamos os ganhos que cada
cessita possuir uma relação de hiponı́mia; regra agrega ao modelo, de forma cumulativa.
Note que no corpus Summ-it++, o aposto
• não podem haver palavras que modifiquem e sua menção referente formam apenas uma
as menções (cláusula Palavra Modificadora). menção. Dessa forma, sintagmas que aparecem
Nós consideramos apenas a relação de hi- na forma de aposto são considerados como uma
ponı́mia entre um referente e seu antecedente única menção, como em: “o Instituto Nacional
(não utilizamos hiperonı́mia), dado que no Por- de Pesquisas Espaciais (INPE). . . ”. No corpus
tuguês é mais comum introduzirmos uma en- de referência temos apenas um sintagma [o Ins-
tidade de forma mais especı́fica e, em suas tituto Nacional de Pesquisas Espaciais (INPE)].
próximas menções, utilizarmos termos mais ge- Já nosso modelo identifica como duas menções
rais para referir à mesma entidade, conforme o e as agrupa, formando uma cadeia: [o Instituto
exemplo 19. Além disso, testes realizados com a Nacional de Pesquisas Espaciais], [Inpe]. Dessa
regra Hiperonı́mia foram realizados, no entanto, forma, na nossa avaliação, consideramos como
a regra acabou gerando muitos links incorretos acerto a criação de um link nesses casos.
entre as menções. Contudo, não descartamos
totalmente o uso de hiperônimos, estamos bus-
Métricas de Avaliação
cando apoio em Aprendizado de Máquina, obje-
tivando descobrir a eficácia da regra Hiperonı́mia • MUC (Vilain et al., 1995): baseada em
quando combinada com outras restrições e regras cadeias, mede quantos agrupamentos de
(Fonseca et al., 2016b). menções são necessários para cobrir as ca-
5
Nas regras de Hiponı́mia e Sinonı́mia os núcleos não deias padrão. O cálculo da métrica MUC é
são considerados palavras modificadoras. dado por meio das seguintes fórmulas:
• BLANC (BiLateral Assessment of NounPh-

rase Coreference) (Recasens & Hovy, 2011):
Nk
P
(kKi k − kp(Ki )k) avalia tanto os links de correferência quanto
i=1 os não correferentes. Temos, então, CK e
Abrangência = Nk
P CR respectivamente como: links de corre-
(kKi k − 1) ferência padrão e preditos automaticamente
i=1
e; NK e NR como grupo dos links de não
correferência padrão e preditos automati-
P
Nr
camente; AbrangênciaC e PrecisãoC reme-
(kRi k − kp0 (Ri )k)
i=1 tem ao cálculo de abrangência e precisão
Precisão =
P
Nr dos links de correferencia, e AbrangênciaN
(kRi k − 1) e PrecisãoN , aos links de não correferência.
i=1
Onde: Ki é i-ésima key entity (padrão) e kCk ∩ Cr k

p(Ki ) é o grupo de partições criado por meio AbrangênciaC =
Ck
da intersecção de Ki e os links preditos pelo
modelo; Ri é a i-ésima Response entity (enti- kCk ∩ Cr k
dade predita pelo modelo) e p0 (Ri ) é o con- PrecisãoC =
Cr
junto de partições criadas por meio da in-
tersecção de Ri e Ki . Nk e Nr representam kNk ∩ Nr k
AbrangênciaN =
a quantidade de menções padrão e resposta, Nk
respectivamente.
kNk ∩ Nr k
• B3 (Bagga & Baldwin, 1998): baseada em PrecisãoN =
menções, gera resultados tendo como foco as Nr
menções de cada entidade. Sua abrangência • CoNLL (Pradhan et al., 2014): amplamente
e precisão são obtidas por: utilizada para avaliar modelos de resolução
de correferência, a métrica CoNLL calcula
Nk P
P Nk kK ∩ R k2 um score único, baseando-se no cálculo da
i j
i=1 j=1 Ki medida-f das métricas MUC, B 3 e CEAFe :
Abrangência = Nk
P
Ki
i=1 (F (MUC) + F (B 3 ) + F (CEAFe ))
CoNLL =
Nk PNk kK ∩ R k2 3
P i j
i=1 j=1 Rj
Precisão = Nk
P Análise dos Resultados
Rj
i=1
Analisando a Tabela6 4, podemos notar que as
Onde K representa o conjunto das key en- regras que lidam com o casamento de padrões en-
tities (menções padrão) e R o conjunto de tre palavras obtiveram precisões acima de 60%,
menções preditas pelo modelo. tendo como destaque as regras 8 e 9 (Casamento
• CEAF (Luo, 2005): baseada no alinhamento Restrito pelo Núcleo), cujos resultados ultrapas-
de menções e entidades, possui duas va- saram 46% de score para a métrica CoNLL. Po-
riações: CEAFm (Φ3 ) e CEAFe (Φ4 ). demos notar também que a regra 3 (Aposto Ex-
plicativo) possui uma alta precisão, no entanto
ocorre com pouca frequência no corpus utilizado
Φ3 (K, R) = kK ∩ Rk
para teste. Referente às regras semânticas Hi-
ponı́mia e Sinonı́mia (12 e 13), notamos que si-
2kK ∩ Rk nonı́mia apresenta melhores resultados do que hi-
Φ4 (K, R) =
kKk + kRk ponı́mia. Apesar de individualmente não apre-
sentarem os melhores resultados, quando utiliza-
Φx das em conjunto com outras regras, podemos ver
Abrangência = P
kKi k ganhos na abrangência.
i=1
Φx
Precisão = P 6
Nas Tabelas 4, 5 e 6 “P”,“A” e “F” representam res-
kRi k pectivamente: Precisão, Abrangência e Medida-F.
i=1
MUC B3 CEAFm CEAFe BLANC CoNLL

P A F P A F P A F P A F P A F F
Regra 1 66.4 22.8 34.0 68.0 19.1 29.8 64.5 26.5 37.6 50.5 28.1 36.1 83.2 64.5 68.4 33.3
Regra 2 61.9 30.7 41.1 63.3 25.8 36.7 58.9 34.6 43.6 47.3 37.0 41.5 80.6 59.9 62.1 39.8
Regra 3 74.8 5.9 10.9 78.7 6.9 12.6 80.4 8.6 15.5 70.2 11.8 20.2 92.4 92.4 92.4 14.6
Regra 4 11.1 0.4 0.7 22.3 0.7 1.4 32.6 1.4 2.8 26.9 1.8 3.5 57.5 57.3 57.3 1.9
Regra 5 58.8 0.7 1.4 65.5 0.7 1.5 75.9 1.1 2.2 66.7 1.2 2.5 65.1 63.9 63.6 1.8
Regra 6 18.2 0.1 0.3 34.1 0.1 0.3 50.0 0.5 1.1 26.5 0.4 0.9 47.7 48.2 44.4 0.5
Regra 7 0.0 0.0 0.0 11.8 0.1 0.3 21.0 0.4 0.8 17.7 0.5 1.0 47.2 46.9 46.4 0.4
Regra 8 61.2 39.4 48.0 60.6 34.2 43.7 61.1 43.4 50.7 52.3 44.5 48.1 76.8 59.7 61.9 46.6
Regra 9 61.1 39.8 48.2 60.5 34.6 44.0 61.3 43.8 51.1 52.4 44.9 48.4 76.7 59.7 61.9 46.9
Regra 10 70.2 7.8 14.0 73.0 6.7 12.3 78.6 10.1 17.9 62.4 10.4 17.8 85.9 85.9 85.9 14.7
Regra 11 66.7 8.1 14.4 69.7 7.3 13.3 77.4 10.6 18.7 64.3 11.0 18.8 81.7 85.2 83.3 15.5
Regra 12 6.0 1.2 2.1 15.9 3.1 5.2 23.5 5.5 8.9 21.0 6.1 9.4 52.5 51.4 45.0 5.6
Regra 13 28.5 13.7 18.5 24.3 12.8 16.8 34.1 16.1 21.9 28.5 12.9 17.8 57.5 53.6 50.0 17.7
Tabela 4: Regras individuais.

MUC B3 CEAFm CEAFe BLANC CoNLL
P A F P A F P A F P A F P A F F
Regra 1 66.4 22.8 34.0 68.0 19.1 29.8 64.5 26.5 37.6 50.5 28.1 36.1 83.2 64.5 68.4 33.3
+Regra 2 61.8 30.8 41.1 63.1 25.9 36.7 58.8 34.7 43.6 47.2 37.1 41.5 80.2 59.8 62.0 39.8
+Regra 3 63.3 36.4 46.3 64.8 32.8 43.6 61.2 41.5 49.5 51.7 46.5 49.0 81.5 60.4 63.2 46.3
+Regra 4 60.6 36.8 45.8 61.9 33.3 43.3 58.9 42.0 49.0 49.6 46.6 48.1 80.2 59.4 61.7 45.7
+Regra 5 60.4 37.0 45.9 61.7 33.5 43.4 58.7 42.2 49.1 49.6 46.8 48.1 79.9 59.3 61.6 45.8
+Regra 6 59.9 37.2 45.9 61.1 33.6 43.4 58.2 42.4 49.1 49.1 46.9 48.0 79.6 59.0 61.1 45.7
+Regra 7 58.3 36.9 45.2 59.7 33.5 42.9 56.8 42.2 48.4 47.7 46.5 47.1 78.9 58.4 59.9 45.1
+Regra 8 57.4 48.3 52.5 56.2 44.6 49.7 57.8 53.2 55.4 51.5 55.9 53.6 75.0 57.7 59.0 51.9
+Regra 9 57.4 48.6 52.6 56.2 44.8 49.8 57.9 53.4 55.6 51.6 56.2 53.8 75.0 57.7 59.0 52.1
+Regra 10 57.4 48.9 52.8 56.2 45.1 50.0 57.9 53.8 55.8 51.8 56.5 54.0 75.0 57.7 58.9 52.3
+Regra 11 57.0 48.7 52.5 55.4 45.1 49.7 57.9 53.5 55.6 52.0 55.7 53.8 74.1 57.8 59.1 52.0
+Regra 12 47.1 49.8 48.4 44.6 46.9 45.7 49.9 53.3 51.6 48.9 53.4 51.1 65.2 55.7 55.5 48.4
+Regra 13 42.3 53.6 47.3 38.7 50.8 43.9 45.2 55.6 49.9 45.6 52.8 48.9 62.9 54.6 53.3 46.7
Tabela 5: Regras cumulativas.
Por meio de nossas regras semânticas, foi 7 CORP

possı́vel identificar links como:
Como resultado da implementação do modelo
• [fungos], [pequenos cogumelos]; de regras, o CORP (Coreference Resolution for
Portuguese) é um sistema de resolução de corre-
• [cientistas], [pesquisadores]; ferências para o Português, disponı́vel em duas
versões: Desktop7 e Web8 .
• [universo], [o cosmo]. Ambas as versões produzem dois tipos de
saı́da: a primeira, em HTML, objetiva facilitar
a visualização da informação; e a segunda, em
Na Tabela 5, podemos inferir que a cada nova
XML, que garante facilidade de processamento e
regra adicionada o modelo perde precisão, mas
reutilização da informação anotada.
ganha em abrangência, aumentando, na maio-
ria dos casos, sua medida-f. Adicionalmente, Na Seção 8 são exibidas amostras de saı́das
quando acrescentamos semântica ao modelo, há em HTML, geradas pelo CORP. Menções cor-
uma redução na medida-f. Contudo, há um au- referentes entre si possuem o mesmo id e co-
mento significativo em sua abrangência. loração. Contudo, existem casos em que algumas
menções são parte constituinte de outras, como
Na Tabela 6, temos os resultados dos princi-
em: “[Claiton Campanhola, diretor de [a Em-
pais trabalhos encontrados na literatura, avalia-
brapa[46]][35]]” (Figura 1). Em casos como esse,
dos utilizando as métricas da conferência CoNLL.
suas “sub-menções” recebem a mesma coloração
Infelizmente, não é possı́vel compararmos o nosso
da menção principal. Seus delimitadores e id re-
e os demais modelos, dado que cada modelo pos-
cebem a cor correspondente à sua cadeia.
sui idioma e/ou escopos distintos. O trabalho
de Garcia & Gamallo (2014a), por exemplo, re- 7
http://www.inf.pucrs.br/linatural/wordpress/
solve correferências para o Português, mas possui index.php/recursos-e-ferramentas/corp-
escopo limitado à categoria de entidade nomeada coreference-resolution-for-portuguese/
8
“Pessoa”. http://ontolp.inf.pucrs.br/corref/
MUC B3 Ceafe CoNLL

Modelo Idioma P A F P A F P A F F
Martschat et al., 2015 IN 76.8 68.1 72.2 66.1 54.2 59.6 59.5 52.3 55.7 62.5
IN 75.9 65.8 70.5 77.7 65.8 71.2 43.2 55.0 48.4 63.4
Fernandes et al., 2014 CH 71.5 59.2 64.8 80.5 67.2 73.2 45.2 57.5 50.6 62.9
AR 49.7 43.6 46.5 72.2 62.7 67.1 46.1 52.5 49.1 54.2
Lee et al., 2013 IN 60.9 59.6 60.3 73.3 68.6 70.9 46.2 47.5 46.9 59.4
ES 94.1 84.1 88.8 84.8 62.9 72.2 71.0 83.4 76.7 79.2
Garcia et al., 2014 GL 94.6 89.0 91.7 88.4 72.9 79.9 76.6 87.6 81.7 84.4
PT 92.7 82.7 87.4 84.5 65.8 74.0 67.9 84.4 75.2 78.9
Nosso PT 42.3 53.6 47.3 38.7 50.8 43.9 45.6 52.8 48.9 46.7
Tabela 6: Resultados não comparativos dos principais modelos da literatura.
8 Análise de Erros 40. [a técnica], [A técnica];
Nesta Seção, apresentamos uma análise deta- 46. [a Embrapa], [a Embrapa],[Empresa Brasi-
lhada de erros do modelo. Para efetuar a análise, leira de Pesquisa Agropecuária];
selecionamos três textos, pertencentes a dois cor- 66. [Roberto Rodrigues], [Agricultura], [Rodri-
pora (Summ-it++ e CST-News (Maziero et al., gues], [Rodrigues]
2010)). Podemos notar que os tipos mais comuns
de erros ocorrem por meio do casamento parcial 73. [o nascimento da bezerra Vitoriosa], [Vitori-
entre menções, agrupamento de duas ou mais ca- osa], [Vitoriosa , que] , [o nascimento];
deias de correferência, regra de aposto e regras
78. [O animal], [um clone], [o primeiro clone bo-
semânticas.
vino da América Latina , nascida], [O clone
do clone], [um clone];
Texto 1
82. [vaca], [Vitória], [a vaca], [Vitória], [Vitória];
Análise:
Na cadeia 22, podemos notar que o modelo agru-
pou incorretamente “a cria” e “animais”. Note
que “a cria” refere-se aos sintagmas “bezerra Vi-
toriosa, o animal e o clone”. No entanto, como
utilizamos o lema dos núcleos para as consultas
semânticas, para a menção “animais”, buscou-
se por uma relação entre os sintagmas: “a cria”
e “animal”, a qual retornou uma relação de Hi-
ponı́mia, que remete para o sintagma “animais”.
podemos notar o agrupamento de menções incor-
reto. Na primeira, trata-se da reprodução de ani-
mais ameaçados de extinção; a segunda, remete à
reprodução da qualidade genética do animal ge-
rado a partir da técnica.
Em 66, podemos ver que o sintagma “Agricul-
tura” foi unido à cadeia “[Roberto Rodrigues],
Figura 1: Texto 1. [Rodrigues], [Rodrigues]”. Isso ocorre pelo fato
do sintagma “Agricultura” estar entre parênteses
após o nome “Roberto Rodrigues”. Em 73 pode-
Cadeias Extraı́das: mos notar a união de duas cadeias: “ [Vitoriosa],
[Vitoriosa , que]” e “[o nascimento da bezerra
22. [a cria], [animais]; Vitoriosa], [o nascimento]”. Este agrupamento
33. [a reprodução], [a reprodução da qualidade]; incorreto deu-se por meio do casamento parcial
entre os sintagmas “o nascimento da bezerra Vi-
34. [elevado valor genético], [boa qualidade toriosa” e “Vitoriosa”.
genética], [a qualidade];
Podemos notar, também, que a cadeia 78’fi-
35. [Clayton Campanhola , diretor-presidente da cou separada do sintagma “Vitoriosa”. Isso por-
Embrapa], [Campanhola]; que dentro das regras implementadas não foi
possı́vel criar um link entre as menções “Vito- Análise:

riosa” e “ O animal”. Além disso, podemos no-
tar que a última menção do sintagma [um clone] Analisando cadeias do texto 2, podemos no-
(. . . a terceira tentativa de criar um clone. . . ) tar que alguns dos erros encontrados foram de-
não faz referência a [o primeiro clone bovino da correntes das regras semânticas Hiponı́mia e Si-
América Latina], haja vista que o artigo indefi- nonı́mia: na cadeia 39 alguns dos termos agru-
nido gera uma expressão genérica, em que se pode pados pelo sistema não são correferentes (‘inı́cio’
fazer referência a qualquer clone no mundo real. e ‘diretiva’) mas apresentam relações semânticas
no Onto.PT (‘inı́cio’ SinonimoDe ‘princı́pio’ e ‘di-
retiva’ HipônimoDe ‘norma’). Um problema se-
Texto 2
melhante ocorre na cadeia 64, dado que os ter-
mos ‘justiça’ e ‘direito’ apresentam relação de si-
nonı́mia, mas referem-se a menções distintas.
Texto 3
Figura 2: Texto 2.
Figura 3: Texto 3.
Cadeias Extraı́das:
Cadeias Extraı́das:
18. [o genoma], [o genoma];
1. [o Aeroporto Internacional de São Paulo],
22. [ patenteamento de genes], [ o patentea- [Cumbica];
mento], [ O patenteamento];
16. [a Empresa Brasileira de Infra-Estrutura Ae-
26. [ o sequenciamento], [genes], [genes], [um roportuária], [Infraero];
gene], [um gene], [o gene], [um gene], [o se-
quenciamento de genes )]; 24. [informações], [informações];
34. [a França], [único paı́s da União Européia a], 40. [A pista principal do Aeroporto Internaci-
[A França], [o único paı́s], [o paı́s]; onal de São Paulo], [a pista], [a pista], [a
pista];
39. [diretiva favorável], [o princı́pio de que], [a
42. [a reforma emergencial], [a reforma], [a re-
determinação européia], [a norma], [o inı́cio];
forma], [a reforma], [a reforma];
50. [A ministra da Justiça do paı́s], [Elisabeth 43. [a segunda parte], [a terceira parte], [parte];
Guigou], [a ministra];
52. [ a sequência de um gene ], [a sequência]; Análise:
Na cadeia 43 podemos notar que o modelo agru-
64. [a Justiça], [o direito]; pou os sintagmas [a segunda parte], [a terceira
69. [o CCNE (], [Comitê Consultivo Nacional de parte] e [parte]. Note que a regra Palavra Mo-
Ética], [o CCNE]; dificadora serve justamente para evitar este tipo
de agrupamento. No entanto, os sintagmas “[ter-
72. [a União Européia], [A UE], [a UE]; ceira parte]” e “[segunda parte]”, foram ligados
por meio do sintagma “[parte]”. Note que os sin- Referências

tagmas “[a segunda parte] e [a terceira parte]”
remetem às etapas da reforma na pista do ae- do Amaral, Daniela Oliveira Ferreira. 2013. O re-
roporto. Embora o sintagma “[parte]” remete ao conhecimento de entidades nomeadas por meio
sintagma “[parte dos voos de Cumbica]”, isso não de conditional random fields para a lı́ngua por-
foi identificado no pré-processamento. tuguesa: Pontifı́cia Universidade Católica do
Rio Grande do Sul. Tese de Mestrado.
9 Conclusão Antonitsch, André, Anny Figueira, Daniela Ama-
ral, Evandro Fonseca, Renata Vieira & Sandra
Neste artigo, foi proposto um modelo baseado Collovini. 2016. Summ-it++: an enriched ver-
em regras linguı́sticas para a resolução de cor- sion of the Summ-it corpus. Em 10th edition of
referências em Português que emprega conheci- the Language Resources and Evaluation Con-
mento semântico. Avaliamos os impactos de cada ference (LREC), 2047–2051.
regra de forma individual e cumulativa. Mostra-
mos também que modelos baseados em regras po- Bagga, Amit & Breck Baldwin. 1998. Algorithms
dem ser uma boa alternativa, quando há carência for scoring coreference chains. Em 1st Interna-
de corpora ricos em anotação, necessários para tional Conference on Language Resources and
treinar modelos eficientes. Notamos que nossas Evaluation Workshop on Linguistics Corefe-
regras semânticas obtiveram um impacto positivo rence, 563–566.
na abrangência, com pequena queda na precisão. Baker, Collin F., Charles J. Fillmore & John B.
Contudo, mesmo com uma medida-F final um Lowe. 1998. The Berkeley framenet project.
pouco menor, consideramos que o aumento sig- Em 17th International Conference on Compu-
nificativo na abrangência é importante para esse tational Linguistics, 86–90.
tipo de tarefa. Em outras palavras, por meio da
aplicação de regras semânticas foi possı́vel iden- Basso, Renato Miguel. 2009. A semântica das
tificar relações que vão além da análise de simi- relações anafóricas entre eventos: Universi-
laridade lexical e de justaposição, como no caso dade Estadual de Campinas, SP. Tese de Dou-
da relação entre o par [as abelhas], [os insetos]. toramento.
Como trabalho futuro, pretendemos buscar Bechara, Evanildo. 1972. Lições de português,
novas alternativas semânticas e estudar novas pela análise sintática. Editora Fundo de Cul-
cláusulas restritivas, de forma a fazer com que tura.
nossas regras consigam atingir uma precisão mais
Bick, Eckhard. 2000. The parsing system
elevada sem abrir mão da abrangência. Outro ob-
PALAVRAS: Automatic grammatical analysis
jetivo futuro será testar nosso modelo utilizando
of Portuguese in a constraint grammar fra-
outros corpora, como o de Garcia & Gamallo
mework : Aarhus University Press. Tese de
(2014b), de forma a efetuar uma comparação en-
Doutoramento.
tre diferentes modelos.
Como resultado deste trabalho desenvolvemos Bick, Eckhard. 2010. A dependency-based appro-
e disponibilizamos o CORP, uma ferramenta para ach to anaphora annotation. Em 9th Internati-
a resolução de correferências em lı́ngua portu- onal Conference on Computational Processing
guesa que pode auxiliar em diversas tarefas de of the Portuguese Language (PROPOR), pu-
PLN. blicado online.
Cadore, Luiz Agostinho & Paulo Flávio Ledur.
Agradecimentos 2013. Análise sintática aplicada: fundamentos
de concordância, regência, crase, colocação,
Os autores agradecem o suporte financeiro do pontuação e significado. Editora AGE 4th edn.
CNPq (Conselho Nacional de Desenvolvimento
Cardoso, Nuno. 2012. Rembrandt: a named-
Cientı́fico e Tecnológico) e da CAPES (Coor-
entity recognition framework. Em Eighth In-
denação de Aperfeiçoamento de Pessoal de Nı́vel
ternational Conference on Language Resources
Superior).
and Evaluation (LREC), 1240–1243.
Collovini, Sandra, Thiago I. Carbonel, Juli-
ana Thiesen Fuchs, Jorge César Coelho, Lúcia
Rino & Renata Vieira. 2007. Summ-it: Um
corpus anotado com informações discursivas
visando a sumarização automática. Em V
Workshop em Tecnologia da Informação e da Garcia, Marcos & Pablo Gamallo. 2014a. An

Linguagem Humana, 1605–1614. entity-centric coreference resolution system for
person entities with rich linguistic information.
Collovini, Sandra, Lucas Pugens, Aline A. Va- Em 25th International Conference on Compu-
nin & Renata Vieira. 2014. Extraction of rela- tational Linguistics, 741–752.
tion descriptors for Portuguese using conditi-
onal random fields. Em 14th Ibero-American Garcia, Marcos & Pablo Gamallo. 2014b. Mul-
Conference on Advances in Artificial Intelli- tilingual corpora with coreferential annotation
gence, 108–119. of person entities. Em 9th edition of the Lan-
guage Resources and Evaluation Conference
Coreixas, Tatiane. 2010. Resolução de cor- (LREC), 3229–3233.
referência e categorias de entidades nomea-
das: Pontifı́cia Universidade Católica do Rio Gonçalo Oliveira, Hugo. 2012. Onto.PT: Towards
Grande do Sul. Tese de Mestrado. the automatic construction of a lexical onto-
logy for Portuguese: Universidade de Coimbra.
Durrett, Greg & Dan Klein. 2014. A joint model Tese de Doutoramento.
for entity analysis: Coreference, typing, and
linking. Transactions of the Association for Gonçalo Oliveira, Hugo, Valeria de Paiva,
Computational Linguistics 2. 477–490. Cláudia Freitas, Alexandre Rademaker, Livy
Real & Alberto Simões. 2015. As wordnets
Ferradeira, José Eduardo de Sousa. 1993. Re- do Português. Oslo Studies in Language 7(1).
solução de anáfora pronominal : Universidade 397–424.
Nova de Lisboa. Tese de Mestrado.
Haghighi, Aria & Dan Klein. 2009. Simple core-
Fonseca, Evandro, Renata Vieira & Aline Vanin. ference resolution with rich syntactic and se-
2014. Coreference resolution in Portuguese: mantic features. Em Conference on Empiri-
Detecting person, location and organization. cal Methods in Natural Language Processing
Learning and NonLinear Models 12(2). 86–97. (EMNLP), 1152–1161.
Fonseca, Evandro, Renata Vieira & Aline Va- Hou, Yufang, Katja Markert & Michael Strube.
nin. 2016a. Adapting an entity centric mo- 2014. A rule-based system for unrestric-
del for Portuguese coreference resolution. Em ted bridging resolution: Recognizing bridging
10th Annual Conference on Language Resour- anaphora and finding links to antecedents. Em
ces and Evaluation (LREC), 150–154. Conference on Empirical Methods in Natural
Language Processing (EMNLPL), 2082–2093.
Fonseca, Evandro, Renata Vieira & Aline Vanin.
2016b. Improving coreference resolution with Lee, Heeyoung, Angel Chang, Yves Peirsman,
semantic knowledge. Em 12th International Nathanael Chambers, Mihai Surdeanu & Dan
Conference on the Computational Processing Jurafsky. 2013. Deterministic coreference reso-
of Portuguese (PROPOR), 213–224. lution based on entity-centric, precision-ranked
rules. Computational Linguistics 39(4). 885–
Fonseca, Evandro Brasil. 2014. Resolução de 916.
correferências em lı́ngua portuguesa: pessoa,
local e organização: Pontifı́cia Universidade Luo, Xiaoqiang. 2005. On coreference resolution
Católica do Rio Grande do Sul. Tese de Mes- performance metrics. Em Conference on Empi-
trado. rical Methods in Natural Language Processing
(EMNLP), 25–32.
Freitas, Cláudia, Cristina Mota, Diana San-
tos, Hugo Gonçalo Oliveira & Paula Carva- Maia, Luiz Cláudio Gomes. 2008. Uso de sintag-
lho. 2010. Second HAREM: advancing the mas nominais na classificação automática de
state of the art of named entity recognition in documentos eletrônicos: Universidade Federal
Portuguese. Em International Conference on de Minas Gerais. Tese de Doutoramento.
Language Resources and Evaluation (LREC), Maziero, Erick, Maria Lucı́a Jorge & Thiago
3630–3637. Pardo. 2010. Identifying multidocument relati-
ons. Em 7th International Workshop on Natu-
Freitas, Cláudia, Diana Santos, Cristina Mota,
ral Language Processing and Cognitive Science,
Hugo Gonçalo Oliveira & Paula Carvalho.
60–69.
2009. Relation detection between named enti-
ties: report of a shared task. Em Workshop on Maziero, Erick G., Thiago Pardo, Ariani Di Fe-
Semantic Evaluations: Recent Achievements lippo & Bento C. Dias-da Silva. 2008. A base
and Future Directions, 129–137. de dados lexical e a interface web do TeP 2.0:
thesaurus eletrônico para o Português do Bra- S. Botley & A. M. Mcenery (eds.), Corpus-
sil. Em XIV Brazilian Symposium on Multi- based and Computational Approaches to Dis-
media and the Web, 390–392. course Anaphora, 81–94. John Benjamins Pu-
blishing Company.
Miller, George A. 1995. WordNet: a lexical data-
base for english. Communications of the ACM Salomão, Maria Margarida Martins. 2009. Fra-
38(11). 39–41. meNet Brasil: um trabalho em progresso. Ca-
lidoscópio 7(3). 171–182.
Poesio, Massimo, Roland Stuckardt & Yannick
Versley. 2016. Anaphora resolution: Algo- Sarmento, Luı́s, Ana Sofia Pinto & Luı́s Ca-
rithms, resources, and applications. Springer. bral. 2006. REPENTINO - a wide-scope ga-
zetteer for entity recognition in Portuguese.
Ponzetto, Simone Paolo & Michael Strube. 2006. Em 7th International Conference on Computa-
Exploiting semantic role labeling, WordNet tional Processing of the Portuguese Language
and Wikipedia for coreference resolution. Em (PROPOR), 31–40.
Human Language Technology Conference, 192–
199. Silva, Jefferson Fontinele da. 2011. Resolução
de correferência em múltiplos documentos uti-
Pradhan, Sameer, Xiaoqiang Luo, Marta Reca- lizando aprendizado não supervisionado: Uni-
sens, Eduard H. Hovy, Vincent Ng & Michael versidade de São Paulo. Tese de Mestrado.
Strube. 2014. Scoring coreference partitions of
predicted mentions: A reference implementa- Silva, William Daniel Colen. 2013. Aprimorando
tion. Em 52nd Annual Meeting of the Associ- o corretor gramatical CoGrOO: Universidade
ation for Computational Linguistics, 30–35. de São Paulo. Tese de Mestrado.
Pradhan, Sameer, Alessandro Moschitti, Ni- Soon, Wee Meng, Hwee Tou Ng & Chung Yong
anwen Xue, Olga Uryupina & Yuchen Zhang. Lim. 2001. A machine learning approach to
2012. CoNLL-2012 shared task: Modeling coreference resolution of noun phrases. Com-
multilingual unrestricted coreference in Onto- putational Linguistics 27(4). 521–544.
Notes. Em Joint Conference on Empirical Suchanek, Fabian M., Gjergji Kasneci & Gerhard
Methods in Natural Language Processing and Weikum. 2007. Yago: a core of semantic kno-
Conference on Natural Language Learning - wledge. Em 16th International Conference on
Shared Task, 1–40. World Wide Web, 697–706.
Pradhan, Sameer, Lance Ramshaw, Mitchell Vieira, Renata, Susanne Salmon-Alt, Caro-
Marcus, Martha Palmer, Ralph Weischedel & line Gasperin, Emmanuel Schang & Gabriel
Nianwen Xue. 2011. CoNLL-2011 shared task: Othero. 2005. Coreference and anaphoric re-
Modeling unrestricted coreference in ontono- lations of demonstrative noun phrases in mul-
tes. Em Fifteenth Conference on Computatio- tilingual corpus. Em A. Branco, T. McE-
nal Natural Language Learning: Shared Task, nery & R. Mitkov (eds.), Anaphora Proces-
1–27. sing: linguistic, cognitive and computational
Rahman, Altaf & Vincent Ng. 2011. Coreference modeling, 385–403. John Benjamins Publishing
resolution with world knowledge. Em 49th An- Company.
nual Meeting of the Association for Computa- Vilain, Marc, John Burger, John Aberdeen,
tional Linguistics: Human Language Techno- Dennis Connolly & Lynette Hirschman. 1995.
logies, 814–824. A model-theoretic coreference scoring scheme.
Recasens, Marta & Eduard H. Hovy. 2011. Em 6th Conference on Message understanding,
BLANC: implementing the rand index for co- 45–52.
reference evaluation. Natural Language Engi-
neering 17(4). 485–510.
Recasens, Marta, Lluı́s Màrquez, Emili Sapena,
M Antònia Martı́, Mariona Taulé, Véronique
Hoste, Massimo Poesio & Yannick Versley.
2010. Semeval-2010 task 1: Coreference reso-
lution in multiple languages. Em 5th Interna-
tional Workshop on Semantic Evaluation, 1–8.
Rocha, Marco. 2000. A corpus-based study of
anaphora in English and Portuguese. Em
Proposta recebida em Março 2017 e aceite para publicação em Junho 2017.
LinguaKit: uma ferramenta multilingue para a análise linguı́stica e a

extração de informação
LinguaKit: a multilingual tool for linguistic analysis and information extraction
Pablo Gamallo
Centro Singular de Investigação de Tecnologias da Informação (CiTIUS)
Universidade de Santiago de Compostela
pablo.gamallo@usc.es
Marcos Garcia
Grupo LyS, Departamento de Letras
Faculdade de Filologia, Universidade da Corunha
marcos.garcia.gonzalez@udc.gal
Resumo 1 Introdução
Este artigo apresenta LinguaKit, uma suite multi- Neste artigo apresentamos LinguaKit, um pa-
lingue de ferramentas de análise, extração, anotação e cote de ferramentas multilingues para o Processa-
correção linguı́sticas. LinguaKit permite realizar tamento da Linguagem Natural (PLN), que contém
refas tão diversas como a lematização, a etiquetagem módulos de análise, extração, anotação e correção
morfossintática ou a análise sintática (entre outras), linguı́stica. Os diferentes módulos que compõem
incluindo também aplicações para a análise de senti- LinguaKit são interdependentes entre si, e estão
mentos (ou minaria de opiniões), a extração de termos organizados mediante uma arquitectura de pipe-
multipalavra, ou a anotação concetual e ligação a re- line. Permite realizar um vasto conjunto de ta-
cursos enciclopédicos tais como a DBpedia. A maior refas de PLN, entre as quais: (i) identificação de
parte dos módulos funcionam para quatro variedades orações e tokenização, (ii) lematização, (iii) eti-
linguı́sticas: português, espanhol, inglês e galego. A quetagem morfossintática, (iv) identificação e (v)
linguagem de programação de LinguaKit é Perl, e o reconhecimento de entidades mencionadas, (vi)
código está disponı́vel sob a licença livre GPLv3. análise sintática de dependências, (vii) resolução
Palavras chave de correferência a nı́vel de entidade, (viii) ex-
tração de termos e (ix) de relações semânticas,
extração de informação, tecnologia linguı́stica (x) análise de sentimentos (minaria de opiniões),
(xi) anotação conceitual com ligação a recursos
enciclopédicos, (xii) correção e avaliação de léxico
Abstract e sintaxe, (xiii) conjugação verbal automática,
(xiv) resumo automático (sumarização), (xv)
This paper presents LinguaKit, a multilingual identificação de lı́ngua, ou (xvi) visualização de
suite of tools for analysis, extraction, annotation and concordâncias (palavras chave em contexto).
linguistic correction. LinguaKit allows the user to
As ferramentas foram desenhadas e desenvol-
perform different tasks such as lemmatization, PoS-
vidas utilizando diferentes estratégias de PLN,
tagging or syntactic parsing (among others), inclu-
tanto de base simbólica como estatı́stica, com
ding applications for sentiment analysis (or opinion
aprendizagem supervisionada, não supervisio-
mining), extraction of multiword expressions or con-
nada e semi-supervisionada. A maior parte dos
ceptual annotation and entity linking to DBpedia.
módulos de LinguaKit funcionam em português,
Most part of the developed modules work in four lin-
galego,1 espanhol e inglês.2
guistic varieties: Portuguese, Spanish, English, and
Galician. The system is programmed in Perl, and it 1
Neste trabalho consideramos português a variedade es-
is freely available under a GPLv3 license. crita utilizando as diferentes ortografias da Academia Bra-
Keywords sileira de Letras e da Academia das Ciências de Lisboa,
e galego a que segue (com maior ou menor fidelidade) as
information extraction, linguistic technology normas publicadas em Real Academia Galega e Instituto
da Lingua Galega (2004).
2
Exceto o sistema de correção e avaliação linguı́stica —
DOI: 10.21814/lm.9.1.243
20– Linguamática Pablo Gamallo e Marcos Garcia
LinguaKit foi programado em Perl. Está dis- mas para a resolução da correferência, etc. Está
ponı́vel como um serviço web3 e é acessı́vel via escrito em Java e foi desenvolvido principalmente
RESTful API.4 O código fonte está publicado sob para o inglês, embora recentemente se tenham
uma licença GPL.5 publicado modelos para diversas lı́nguas como o
A tabela 1 mostra os módulos da suite chinês, o espanhol ou o árabe, entre outras.
organizados em quatro categorias: análise FreeLing (Padró, 2011) é uma outra suite de
básica, análise profunda, sistemas de extração, PLN (escrita em C++) que inclui uma lista se-
e aplicações linguı́sticas. melhante à de Stanford CoreNLP, mas dispõe de
Uma das principais contribuições desta nova ferramentas para outras tarefas como a trans-
suite em código aberto é a criação de um ecos- crição fonética ou a desambiguação semântica.
sistema de ferramentas com diferentes nı́veis de A maior parte dos módulos analisa os textos
complexidade. No primeiro nı́vel, situam-se os em catalão, espanhol, português, galego, inglês,
módulos básicos de análise, que são utilizados francês, e recentemente, alemão ou russo (entre
para construir aqueles com uma complexidade outras lı́nguas).
maior, nomeadamente módulos de análise pro- Um outro sistema de PLN escrito em Java é
funda e de extração. E estes, por sua vez, servem OpenNLP,6 que realiza tarefas de análise simila-
para desenvolver aplicações cada vez mais com- res aos que já foram referidos, mas que inclui,
plexas, como a ferramenta de correção/avaliação por exemplo, um módulo de categorização de
linguı́stica ou o anotador semântico. documentos. Existem modelos disponı́veis para
O objetivo do presente artigo é descrever a várias lı́nguas, nomeadamente inglês, espanhol e
arquitetura de LinguaKit, mencionando as me- alemão.
todologias utilizadas na implementação de cada Também programada em Java, IXA pi-
módulo, e apresentar aquelas ferramentas que pes (Agerri et al., 2014) é uma suite modular
ainda não tinham sido tratadas em trabalhos pre- que realiza as tarefas mais habituais de proces-
cedentes. samento linguı́stico: tokenização, etiquetagem
Para além desta introdução, o artigo está or- morfossintática, reconhecimento de entidades e
ganizado da seguinte maneira. Na secção 2 in- análise sintática. Este sistema permite proces-
cluı́mos uma breve revisão do trabalho relacio- sar as seguintes lı́nguas (com variações em função
nado, e a secção 3 mostra a arquitetura do sis- do módulo escolhido): espanhol, inglês, eusquera,
tema. A seguir, apresentamos diferentes ava- italiano e galego.
liações —já publicadas— dos diferentes módulos Com a popularização da iniciativa Universal
(secção 4), uma descrição pormenorizada dos ex- Dependencies,7 que promove a unificação das di-
tratores de termos (secção 5), e as conclusões do retrizes de anotação em diversas lı́nguas, têm
presente trabalho (secção 6). vindo a ser desenvolvidas algumas ferramentas
compatı́veis, como UDPipe (Straka et al., 2016).
UDPipe inclui módulos de aprendizagem au-
2 Trabalho relacionado tomática para tokenização, etiquetagem morfos-
sintática, lematização e análise sintática.
Dado que existem numerosas ferramentas de
Como foi referido, existem mais sistemas que
PLN para diversas lı́nguas e em várias lingua-
realizam tarefas de PLN —alguns com objeti-
gens de programação, nesta secção apresentamos
vos ligeiramente diferentes, ou escritos noutras
sucintamente algumas das mais conhecidas e uti-
linguagens de programação—, tais como NLTK:
lizadas suites de PLN em código aberto, tendo
Natural Language Toolkit (Bird et al., 2009), am-
em conta também as lı́nguas que cada uma delas
plamente utilizado no ensino de PLN, ou spaCy8
suporta.
(mais focado em uso industrial), ambos escritos
O software de PLN mais conhecido é provavel- em python.
mente Stanford CoreNLP (Manning et al., 2014),
Para além dos diferentes softwares apresenta-
que inclui módulos de análise tais como tokeniza-
dos, cabe mencionar também CitiusTools (Gar-
dores, etiquetadores morfossintáticos, reconhece-
cia & Gamallo, 2015), suite de PLN a partir da
dores de entidades, analisadores sintáticos, siste-
qual foram desenvolvidos alguns dos módulos de
desenvolvido principalmente para a análise do galego—, e LinguaKit. À diferença dos sistemas menciona-
o conjugador verbal — que não funciona para o inglês. dos, que oferecem fundamentalmente módulos de
3
https://www.linguakit.com análise, LinguaKit possui também um amplo le-
4
https://market.mashape.com/linguakit/
6
linguakit-natural-language-processing-in-the- http://opennlp.apache.org/
7
cloud http://universaldependencies.org/
5 8
https://github.com/citiususc/Linguakit https://spacy.io/
LinguaKit: uma ferramenta multilingue para análise linguı́stica e extração de informação Linguamática – 21
tipo de módulo módulos

conjugador verbal
análise básica
segmentador de orações
tokenizador e splitter
lematizador
análise profunda
PoS-tagger
identificador de entidades (NER)
classificador de entidades (NEC)
identificador de correferência
analisador sintático em dependências
palavras chave
extração
expressões multipalavra
análise de sentimento/opinião
relações semânticas (open IE)
sumarização
aplicações
anotação semântica (com EL)
concordâncias (palavras chave em contexto)
identificação de lı́nguas
correção/avaliação linguı́stica (léxica e gramatical)
Tabela 1: Módulos de LinguaKit organizados em quatro categorias.
que de ferramentas de extração, bem como de Com base nos módulos de análise básica, fo-
aplicações mais complexas baseadas nesses siste- ram implementadas duas aplicações diferentes:
mas de extração. um identificador de lı́ngua e um gerador de con-
cordâncias (palavras chave em contexto). O
identificador de lı́ngua é também utilizado inter-
3 Arquitetura namente pelo sistema para fazer a escolha au-
tomática dos módulos de uma ou outra lı́ngua,
A figura 1 mostra as dependências entre os dife- permitindo que o utilizador possa analisar um
rentes módulos apresentados na tabela 1, sendo texto sem ter de selecionar a lı́ngua desejada.
esta arquitetura comum às quatro lı́nguas proces- Os módulos de análise profunda tomam como
sadas pelo sistema. entrada a saı́da da análise básica. O primeiro
A análise básica consiste na segmentação de processo é a lematização, que atribui todos os le-
um texto em orações, que são a entrada do pro- mas e todas as etiquetas possı́veis a cada forma
cesso de tokenização. Por sua vez, o texto toke- (já tokenizada) do texto de entrada. O lema-
nizado é melhorado com regras básicas de split- tizador baseia-se num léxico computacional dis-
ting, que separam os elementos que compõem ponı́vel para cada lı́ngua. Antes do processo de
contrações (e.g., “do → de o”, em português e desambiguação realizado pelo etiquetador mor-
galego) ou sequências de verbo e pronome clı́tico fossintático (PoS-tagger, na tabela 1), é possı́vel
(e.g., “comelo → comer o”, em galego). Este identificar as entidades mencionadas ou nomes
último módulo é dependente da lı́ngua, enquanto próprios (NER). As entidades identificadas pelo
os processos anteriores são realizados com uma NER serão classificadas após a etiquetagem mor-
ferramenta única (utilizando listas de abrevia- fossintática mediante um sistema de classificação
turas também dependentes de cada variedade semântica: o classificador de entidades menciona-
linguı́stica). das (NEC). O último módulo de análise é o par-
O conjugador verbal é um módulo isolado que sing sintático em dependências, que toma como
toma como entrada um verbo em infinitivo tanto entrada o etiquetador morfossintático (com ou
em espanhol como em galego e português. Neste sem aplicação dos módulos de NER e NEC).
último caso, o sistema pode realizar até quatro Várias ferramentas utilizam a saı́da dos
modelos de conjugação verbal, em função quer da módulos de análise profunda para extrair in-
variedade (português de Portugal ou do Brasil), formação dos textos: extratores de opiniões
quer do sistema ortográfico utilizado (antes ou (também conhecidos como analisadores de sen-
depois do Acordo Ortográfico de 1990).9 timento), de palavras chave, de expressões multi-
palavra, e de relações semânticas. Todos estes ex-
9
https://pt.wikipedia.org/wiki/Acordo_ tratores tomam como entrada a saı́da do módulo
Ortografico_de_1990
Figura 1: Arquitetura de LinguaKit.
de etiquetagem morfossintática. Para além disso, Pré-processamento

foi desenvolvida uma aplicação de correção lexi-
cal e gramatical que utiliza a saı́da do analisador Como foi referido, os primeiros módulos reali-
sintático. zam um pré-processamento do texto que per-
Finalmente, duas aplicações foram criadas a mite aplicar com maior precisão as ferramen-
partir dos extratores de termos relevantes (isto tas subsequentes: estes módulos realizam iden-
é, palavras chave e expressões multipalavra): um tificação de fronteiras de oração (com base em
gerador automático de resumos e um anotador máquinas de estados finitas e em listas de abre-
semântico, que liga os termos extraı́dos a con- viaturas que terminam com pontuação), de to-
ceitos enciclopédicos armazenados em bases de kenização e splitting (processos pelos quais são
conhecimento externas (por exemplo, a DBpe- separados os diferentes tokens de cada oração),
dia).10 e de lematização (que atribui um —ou mais—
lemas possı́veis a cada um dos tokens). Des-
crições mais pormenorizadas destes módulos po-
dem encontrar-se em (Garcia & Gamallo, 2010)
ou em (Garcia & Gamallo, 2015).
4 Módulos
Os principais módulos de LinguaKit foram dese- Etiquetagem morfossintática

nhados e implementados nos últimos cinco anos,
sendo a maior parte deles descritos em diferentes Este módulo desambigua as etiquetas morfos-
publicações. Assim, esta secção tem como obje- sintáticas11 previamente atribuı́dos a cada to-
tivo pôr em conjunto as técnicas e metodologias ken mediante um classificador bayesiano baseado
empregadas em cada um dos principais módulos, em bigramas de tokens. Foi avaliado para três
bem como um breve resumo das avaliações reali- 11
E também alguns lemas cuja atribuição varia em
zadas. função da categoria morfossintática à que pertença o to-
ken. Por exemplo, as formas galegas/portuguesas cala ou
calas podem ter como lema calar —se forem verbos—, ou
10
http://wiki.dbpedia.org/ cala —se forem nomes.
lı́nguas: inglês, português e espanhol, com resul- versão simplificada do apresentado em (Garcia
tados próximos ao estado da arte: ≈ 96 para & Gamallo, 2014).
português e espanhol, e ligeiramente mais baixos Para além disso, este sistema inclui uma saı́da
(≈ 94%) para inglês (Gamallo et al., 2015b; Gar- alternativa que aproveita a resolução de corre-
cia & Gamallo, 2015). ferência para tentar corrigir erros prévios da clas-
sificação semântica. Assim, se a citada forma
“Lennon” tivesse sido anteriormente classificada
Identificação e classificação de entidades como local, mas identificada como menção da
mencionadas mesma entidade que “John Lennon”, a etiqueta
O primeiro destes módulos identifica expressões semântica da primeira seria corrigida para pes-
numex (de base numérica) e enamex (nomes soa (Garcia, 2016).
próprios) mediante máquinas de estados finitas,
que têm em conta tanto as formas ortográficas Analisador em dependências
(uso de maiúsculas) como palavras funcionais
que possam conter (Universidade de Santiago de O módulo de análise sintática, chamado DepPat-
Compostela). Uma vez identificadas as entida- tern, baseia-se em regras formais de dependências
des, o módulo de classificação aplica um método e num algoritmo de parsing com técnicas de es-
de supervisão distante que lhe permite classifi- tados finitos. Foi avaliado para português e espa-
car as entidades em quatro classes: pessoa, orga- nhol e comparado com MaltParser (Nivre et al.,
nização, local ou miscelânea. O sistema emprega 2007), um parser determinı́stico de transições ba-
listas de entidades já conhecidas (gazetteers) e seado em aprendizagem supervisionada. Os re-
um conjunto de regras que permitem desambi- sultados obtidos por DepPattern com corpora de
guar as entidades que aparecem em mais de uma teste construı́do a partir de textos de diferen-
lista (que podem ser, por exemplo, pessoa ou lo- tes domı́nios foram semelhantes aos obtidos por
cal ). Os gazetteers foram extraı́dos automatica- MaltParser: ≈ 82% de F-score (Gamallo, 2015).
mente de fontes externas com conhecimento en- Em Gamallo & González (2011) descrevem-
ciclopédico. se as caracterı́sticas principais da gramática for-
Este módulo foi avaliado para as quatro mal na qual se baseia o conhecimento linguı́stico
lı́nguas analisadas (inglês, português, espanhol e de DepPattern. Um compilador transforma as
galego), utilizando diversos corpora e sendo com- regras formais, escritas com os princı́pios da
parando com sistemas supervisionados (Gamallo gramática de dependências, em scripts Perl que
& Garcia, 2011; Garcia et al., 2012; Garcia & Ga- representam os parsers de estados finitos.
mallo, 2015). Os resultados obtidos —apesar de
que não são sempre diretamente comparáveis—
Análise de sentimentos
foram próximos aos atingidos por FreeLing e
Stanford CoreNLP, superando nitidamente os O sistema de análise de sentimentos (tarefa
modelos disponibilizados para OpenNLP. também conhecida como minaria de opiniões)
classifica uma oração como tendo uma opinião
positiva, negativa ou neutra. O núcleo deste
Resolução de correferência a nı́vel de enti-
módulo é um classificador bayesiano treinado
dade
com texto previamente anotado com as opiniões
Um outro módulo de análise linguı́stica incluı́do referidas, que também utiliza um léxico de po-
em LinguaKit é o de resolução de correferência laridade e regras sintáticas para a identificação
a nı́vel de entidade. Este módulo utiliza como de marcadores linguı́sticos que intensificam ou
entrada um texto com as entidades mencio- mudam a polaridade das palavras. Foi avaliado
nadas classificadas semanticamente, e aplica para inglês e espanhol, e participou em duas com-
uma estratégia determinı́stica baseada em petições focadas na análise de opiniões em re-
filtros mediante os quais atribui um identifi- des sociais: TASS 2013 (Gamallo et al., 2013a)
cador numérico a cada uma das ocorrências para espanhol, e SemEval-2014 (Gamallo & Gar-
(menções) das entidades previamente ana- cia, 2014) para inglês, mostrando um desempe-
lisadas. Idealmente, este identificador será nho competitivo em ambas as lı́nguas.
igual para cada uma das menções que re-
firam a mesma entidade do discurso (e.g., Extrator de relações
“António VariaçõesPessoa 1 ”, “JohnPessoa 2 ”,
“John LennonPessoa 2 ”, “AntónioPessoa 1 ”, Este módulo consiste num sistema de extração
“LennonPessoa 2 ”, . . . ). Este módulo é uma de informação não supervisionado cujo obje-
tivo é obter um conjunto aberto de relações desenvolvimento no que diz respeito a recursos
entre dous objetos. As relações (ou tripletas: linguı́sticos tais como listas de tipologias de er-
obj1,relação,obj2 ) selecionadas por um sistema ros, ou regras sintáticas para a identificação e
de extração de informação aberta (Open Infor- classificação de erros.
mation Extraction, OIE) representam as pro-
posições básicas do texto de entrada. O nosso
sistema, argOE (Gamallo & Garcia, 2015), está Outras ferramentas
baseado em regras e toma como entrada um texto Para além das ferramentas referidas (e das
analisado em dependências em formato CoNLL- aplicações de extração mostradas na secção 5),
X. Foi avaliado em inglês, português e espanhol, LinguaKit também inclui as seguintes aplicações:
e comparado com sistemas de OIE focados na (i) um gerador automático de resumos (suma-
extração numa única lı́ngua. O módulo incluı́do rizador), (ii) um visualizador de palavras chave
em LinguaKit melhora os resultados de muitos em contexto (concordâncias), e (iii) conjugadores
dos sistemas com os quais foi comparado, como verbais automáticos.
ReVerb (Etzioni et al., 2011), embora os resulta-
O sumarizador extrai as frases ou orações mais
dos sejam mais baixos do que um outro sistema
relevantes do texto de entrada. Utiliza a seg-
baseado em regras, ClausIE (Corro & Gemulla,
mentação de orações, a análise morfossintática,
2013).
e os extratores de palavras e multipalavras para
ponderar as orações em graus de relevância. A
Anotação e ligação semântica partir da lista ponderada de orações, o usuário
escolhe a percentagem de texto que quer extrair
Este módulo identifica os termos relevantes do para construir o resumo.
texto que podem ser ligados a conceitos presen-
O visualizador de concordâncias, também co-
tes em bases de dados externas, tais como a DB-
nhecido como key word in context, é uma ferra-
pedia. Esta tarefa, que consiste em relacionar os
menta útil para estudos em linguı́stica de cor-
termos mencionados no texto e os conceitos de
pus que procura no texto selecionado a pala-
uma base ontológica e enciclopédica, é normal-
vra escolhida pelo utilizador, obtendo o seu con-
mente conhecido como ligação de entidades (en-
texto anterior e posterior em cada uma das suas
tity linking, EL). O nosso sistema utiliza como
ocorrências.
recursos externos algumas relações da DBpedia
e uma nova base construı́da mediante similari- O módulo de conjugação verbal permite obter
dade distribucional a partir das entradas textuais de modo automático a conjugação completa de
da Wikipedia. Foram avaliadas as versões portu- um verbo a partir da sua forma em infinitivo. O
guesa e inglesa (Gamallo & Garcia, 2016), com sistema contém as regras de conjugação verbal do
resultados similares a outros sistemas EL de re- espanhol peninsular, do galego e de quatro nor-
ferência, como DBpedia Spotlight (Mendes et al., mas do português: duas variedades diatópicas:
2011). português europeu e brasileiro; e duas varian-
tes ortográficas para cada uma das anteriores:
antes e depois do Acordo Ortográfico de 1990.
Corretor linguı́stico Uma vez que o conjugador funciona aplicando
diferentes regras em função do paradigma ver-
O sistema de correção linguı́stica de LinguaKit
bal, este pode gerar as formas conjugadas de ver-
está, por enquanto, só disponı́vel como módulo
bos desconhecidos, tais como neologismos. Para
experimental na versão web.12
além disso, identifica se o verbo é conhecido,
Esta ferramenta foi desenvolvida principal- com base em listas de verbos obtidos de recursos
mente para galego, variedade na qual foi avaliada académicos para cada uma das lı́nguas (Gamallo
e comparada com revisões manuais de textos por et al., 2013b).
parte de docentes profissionais (Gamallo et al.,
2015a). O sistema contém diversos módulos que
identificam e classificam diferentes tipos de er- Usabilidade
ros habituais em aprendizes de galego, tanto
de tipo léxico (castelhanismos, hipercorreções, Para executar qualquer módulo em linha de co-
etc.), como gramatical (concordância de género mandos, disponibilizamos de um script, lingua-
e número, posição dos pronomes átonos, etc.). kit, que requer três argumentos: lı́ngua, nome
Existem, contudo, versões básicas para por- do módulo e ficheiro TXT a ser processado. Por
tuguês e espanhol, mas precisam de um maior exemplo, o comando que faz a chamada básica do
módulo de etiquetagem morfossintática em por-
12
https://linguakit.com/es/supercorrector tuguês é o seguinte:
./linguakit pt tagger input.txt selecionam-se como candidatos todas as unida-

des lexicais que foram etiquetadas como nomes
Com este comando, o utilizador não precisa (comuns e próprios), adjetivos e verbos.
de conhecer quais os módulos que dependem da Na segunda fase, os termos ordenam-se por re-
etiquetagem (segmentação, tokenização, etc). De levância e escolhem-se os N primeiros, sendo N
facto, o código executado por linguakit é um pi- um valor numérico parametrizável. Para calcu-
peline de scripts, cada um deles representando lar a relevância dos termos básicos recorremos à
um módulo da suite. No caso da etiquetagem
noção de termhood, é dizer, ao grau com que a
morfossintática para um texto em português, o
pipeline invocado é o seguinte: unidade linguı́stica está relacionada com concei-
tos especı́ficos do domı́nio do texto (Kageura &
cat input.txt Umino, 1996). Esta noção de termhood pode ver-
|./tagger/pt/sentences-pt_exe.perl se também como a probabilidade de um termo
|./tagger/pt/tokens-pt_exe.perl formar parte do domı́nio. O termhood não é, por-
|./tagger/pt/splitter-pt_exe.perl tanto, uma medida discreta, mas contı́nua. Em
|./tagger/pt/lemmas-pt_exe.perl consequência, medimos a relevância de um termo
|./tagger/pt/tagger-pt_exe.perl básico (termhood ) mediante um peso estatı́stico
que é calculado contrastando as frequências dos
Na próxima versão de LinguaKit, os módulos candidatos no texto de entrada (dados observa-
poderão ser invocados também mediante funções dos) com um corpus de referência (dados espe-
Perl. rados). Mais precisamente, o peso de um termo
é o valor qui-quadrado que mede a divergência
entre os dados observados e os esperados. Es-
5 Extratores de termos tes últimos são os dados obtidos a partir de um
corpus de referência com um tamanho médio de
Uma vez apresentados os módulos e aplicações
100M de tokens por lı́ngua, compilado pelo grupo
que já tinham sido avaliadas em diferentes pu-
ProLNat@GE, e que é composto por textos de
blicações, nesta secção mostramos duas ferra-
vários géneros e domı́nios: jornalı́stico, técnico,
mentas de extração, que têm como objetivo iden-
literário, de redes sociais, etc. Finalmente, os
tificar e selecionar os termos chave e relevantes
termos são organizados em função do seu peso,
de um texto. Consideram-se termos relevantes
de maior a menor, e o usuário escolhe os N mais
aquelas expressões mais importantes de um texto
relevantes em função do tamanho do texto e das
que são utilizadas como ı́ndices para —entre ou-
necessidades de análise.
tras aplicações— a deteção imediata do tema ou
tópico, para o etiquetado textual automático, ou
bem para a classificação de documentos. Es-
Termos multipalavra
tes dous módulos de extração diferenciam-se no
tipo de termos relevantes que extraem: (i) uni- Os termos multipalavra são expressões relevan-
dades monolexicais e nomes próprios (termos tes codificadas como unidades plurilexicais que
básicos), e (ii) unidades plurilexicais (termos instanciam padrões especı́ficos de etiquetas mor-
multipalavra). fossintáticas. Por exemplo, lı́ngua natural, pro-
cessamento da lı́ngua, tecnologias da lı́ngua ou
Termos básicos analisador sintático podem ser unidades multi-
palavra relevantes dentro de um texto de domı́nio
Chamamos termos básicos àquelas unidades le- cientı́fico focado em questões de PLN. Como no
xicais relevantes para um texto que se codificam caso dos termos básicos, o processo de extração
como nomes comuns, nomes próprios (simples ou de multipalavras divide-se em duas fases: seleção
compostos), adjetivos e verbos. Exceto os node candidatos e ordenação dos mesmos por re-
mes próprios, que podem ser expressões compos- levância. Porém, tanto a seleção de candida-
tas por várias palavras (por exemplo, “Nova Ior- tos como a ordenação realizam-se mediante es-
que”, “Universidade Nova de Lisboa”, etc), os tratégias diferentes às utilizadas para a extração
termos básicos são palavras simples monolexicais. dos termos básicos.
O método de extração leva-se a cabo em duas Para a primeira fase utilizamos um conjunto
fases: seleção de candidatos e ordenação por rede padrões de etiquetas (tabela 2) para identi-
levância. ficar todas aquelas expressões plurilexicais que
Na primeira fase, o sistema identifica to- os instanciam (os artigos e determinantes das
dos os candidatos a serem termos básicos medi- expressões não se tomam em conta na instan-
ante o etiquetador morfossintático. Deste modo, ciação). O conjunto foi desenhado para a identi-
nome − adj adj − nome

nome − nome nome − prep − nome
nome − prep − adj − nome nome − prep − nome − adj
adj − nome − prep − nome nome − adj − prep − nome
adj − nome − prep − nome − adj nome−adj−prep−nome−adj
adj − nome − prep − adj − nome nome−adj−prep−adj−nome
Tabela 2: Conjunto de padrões de etiquetas utilizado para a identificação de candidatos a termos

multipalavra (adj é adjetivo e prep é preposição).
peso multipalavra padrão de etiquetas

9,95 dación en pago nome-prep-nome
7,94 viviendas vacı́as nome-adj
7,27 renta básica nome-adj
5,24 iniciativas legislativas nome-adj
2,99 reuniones de representantes nome-prep-nome
Tabela 3: As cinco multipalavras mais relevantes (unithood ) extraı́das do programa eleitoral do partido
polı́tico espanhol Podemos para as eleições do 20D/2015.
ficação de multipalavras nas quatro lı́nguas trata- se a partir das frequências dos constituintes por
das. Este método é semelhante ao descrito nou- separado.
tros trabalhos sobre extração terminológica (Vi- É importante sublinhar que estas estratégias
valdi & Rodrı́guez, 2001; Sánchez & Moreno, básicas de extração são de propósito geral pois
2006). Os padrões foram selecionados a partir não estão adaptadas a um domı́nio especı́fico.
da revisão manual de uma lista de n-gramas de São aplicáveis portanto a qualquer domı́nio. No
etiquetas ordenadas por frequência em corpora entanto, para serem mais eficientes, precisavam
de diferentes lı́nguas. de incluir novos sub-módulos que permitissem
Na segunda fase, a ordenação por relevância, uma fácil adaptação a domı́nios de especialidade.
utilizamos uma estratégia diferente à empregada Na atualidade, a extração só permite selecionar
na ordenação por termos básicos. Enquanto es- e identificar candidatos a termo em geral, e não
tes se ordenam em função da noção de termhood, unidades terminológicas de um domı́nio previa-
a relevância das expressões multipalavra define- mente identificado.
se mediante o conceito de unithood. Esta noção Como exemplo de utilização, as tabelas 3 e 4
faz referência à associação das sequências de pa- mostram as expressões multipalavra mais rele-
lavras com unidades lexicais estáveis. Mais con- vantes (usando qui-quadrado como peso para a
cretamente, unithood refere-se ao grau de força e ordenação) extraı́das de dous programas de par-
coesão entre as unidades lexicais que constituem tidos polı́ticos, Podemos e o Partido Popular,
os sintagmas e colocações (Kageura & Umino, para as eleições ao parlamento espanhol de 20
1996). A unithood só se aplica, portanto, a uni- de dezembro de 2015. Assim, este exemplo mos-
dades plurilexicais com alguma coesão interna e tra como o extrator permite identificar as priori-
não a unidades monolexicais. dades programáticas dos partidos polı́ticos com
O grau de coesão, ou unithood, pode calcular- uma simples vista de olhos sobre os termos mais
se com diferentes medidas de associação lexical. relevantes.
O módulo de LinguaKit permite escolher entre 5 Mesmo se a eficiência da extração de ter-
medidas para ordenar os candidatos a multipa- mos não foi avaliada quantitativamente, pode-
lavra: (a) qui-quadrado, (b) função de verosimi- mos encontrar alguns elementos que demonstram
lhança (loglikehood ), (c) informação mutua (mi ), a sua usabilidade desde um ponto de vista qua-
(d) probabilidade condicional simétrica (scp), e litativo. Por um lado, os dous extratores de
(e) simples co-ocorrência. As medidas de asso- termos (básicos e multipalavra) foram inseridos
ciação aplicam-se para verificar se os constituin- no módulo mais complexo de anotação e ligação
tes co-ocorrem num sintagma aleatoriamente ou semântica, o qual sim foi avaliado quantitati-
por atração. Assim, os valores observados equi- vamente e comparado com outros sistemas de
valem à frequência da expressão multipalavra no anotação. Por outro lado, estes módulos foram
texto de entrada, e os valores esperados calculam- utilizados por utentes muito variados com dife-
peso multipalavra padrão de etiquetas

20,37 inversores extranjeros nome-adj
11,44 creación de empleo nome-prep-nome
9,75 competitividad de economı́a nome-prep-nome
7,73 reducción de impuestos nome-prep-nome
2,93 ciudadanos españoles nome-adj
Tabela 4: As cinco multipalavras mais relevantes (unithood ) extraı́das do programa eleitoral do partido
polı́tico espanhol Partido Popular para as eleições do 20D/2015.
rentes aplicações e objetivos, tais como análises ED431G/08), do European Regional Develop-
dos programas de partidos polı́ticos feitas por jor- ment Fund (ERDF), e de um contrato Juan de
nalistas.13 la Cierva-formación, com referência FJCI-2014-
22853.
6 Conclusões e trabalho futuro
Referências
Este artigo apresentou LinguaKit, um pacote
linguı́stico que permite os utilizadores ter um Agerri, Rodrigo, Josu Bermudez & German Ri-
acesso fácil e unificado a módulos de análise gau. 2014. IXA pipeline: Efficient and ready to
linguı́stica muito diversos. use multilingual NLP tools. Em 9th Interna-
O conjunto de ferramentas disponı́vel, mesmo tional Conference on Language Resources and
se amplo e variado, fica ainda longe de cobrir Evaluation (LREC), 3823–3828.
todos as necessidades dos profissionais e utiliza-
dores da lı́ngua. A este respeito, como traba- Bird, Steven, Edward Loper & Ewan Klein.
lho futuro pretendemos, por um lado, continuar 2009. Natural language processing with Python.
a melhorar o desempenho de alguns dos módulos O’Reilly Media Inc.
de análise, e por outro lado ampliar o número de Corro, Luciano Del & Rainer Gemulla. 2013.
módulos com sistemas de transcrição fonética e ClausIE: Clause-based open information ex-
fonológica. Além disso, está prevista a adaptação traction. Em The World Wide Web Confe-
dos módulos de análise morfossintática e sintática rence, 355–366.
para a sua compatibilidade com as diretrizes de
anotação das dependências universais. Etzioni, Oren, Anthony Fader, Janara Chris-
Para além de novos módulos, o sistema pode tensen, Stephen Soderland & Mausam. 2011.
enriquecer-se com funcionalidades simples mas Open information extraction: the second ge-
úteis para linguistas e investigadores. Por exem- neration. Em International Joint Conference
plo, um buscador de contextos léxico-sintáticos on Artificial Intelligence (IJCAI), 3–10.
que utilize o analisador sintático para permitir Gamallo, Pablo. 2015. Dependency parsing with
procurar que nomes funcionam como sujeitos de compression rules. Em International Workshop
um verbo especı́fico, adjetivos que modifiquem on Parsing Technology (IWPT), 107–117.
um dado nome, etc. Em relação às novas funci-
onalidades, será preciso identificar os principais Gamallo, Pablo & Marcos Garcia. 2011. A
objetivos dos utilizadores para tentar que o sis- resource-based method for named entity ex-
tema cubra as suas necessidades. traction and classification. Em Portuguese
Conference on Artificial Intelligence (EPIA
2011), 610–623.
Agradecimentos
Gamallo, Pablo & Marcos Garcia. 2014. Citius:
Este trabalho foi realizado graças ao fi- a naive-bayes strategy for sentiment analy-
nanciamento da Ayuda da Fundación BBVA sis on English tweets. Em 8th International
para Investigadores y Creadores Culturales, do Workshop on Semantic Evaluation (SemEval),
projeto TELEPARES (MINECO, ref:FFI2014- 171–175.
51978-C2-1-R), da Consellerı́a de Cultura, Edu-
cación e Ordenación Universitaria (2016-2019, Gamallo, Pablo & Marcos Garcia. 2015. Mul-
tilingual open information extraction. Em
13
http://www.galiciaconfidencial.com/noticia/ 17th Portuguese Conference on Artificial In-
27170-son-galiza-galicia-marea telligence (EPIA), 711–722.
Gamallo, Pablo & Marcos Garcia. 2016. Entity Garcia, Marcos, Isaac González & Iria del Rı́o.
linking with distributional semantics. Em In- 2012. Identificação e classificação de enti-
ternational Conference on the Computational dades mencionadas em Galego. Estudos de
Processing of the Portuguese Language (PRO- Linguı́stica Galega 4. 13–25.
POR), 177–188.
Kageura, Kyo & Bin Umino. 1996. Methods of
Gamallo, Pablo, Marcos Garcia & Santiago automatic term recognition: A review. Termi-
Fernández-Lanza. 2013a. TASS: a naive-bayes nology 3(1). 259–289.
strategy for sentiment analysis on Spanish twe- Manning, Christopher D., Mihai Surdeanu, John
ets. Em Workshop on Sentiment Analysis Bauer, Jenny Finkel, Steven J. Bethard & Da-
(TASS@SEPLN), 126–132. vid McClosky. 2014. The Stanford CoreNLP
natural language processing toolkit. Em 52nd
Gamallo, Pablo, Marcos Garcia, Isaac González,
Annual Meeting of the Association for Compu-
Marta Mu noz & Iria del Rı́o. 2013b. Learning
tational Linguistics: System Demonstrations,
verb inflection using Cilenis conjugators. The
55–60.
Eurocall Review 21(1). 12–19.
Mendes, Pablo N., Max Jakob, Andrés Garcı́a-
Gamallo, Pablo, Marcos Garcia, Iria del Rı́o & Silva & Christian Bizer. 2011. DBpedia spo-
Isaac González López. 2015a. Avalingua: Na- tlight: Shedding light on the web of docu-
tural language processing for automatic er- ments. Em 7th International Conference on
ror detection. Em Learner Corpora in Lan- Semantic Systems, 1–8.
guage Testing and Assessment, vol. 70 Studies
in Corpus Linguistics, 35–58. John Benjamins Nivre, Joakim, Johan Hall, Jens Nilsson, Atanas
Publishing Company. Chanev, Gülsen Eryigit, Sandra Kübler, Sve-
toslav Marinov & Erwin Marsi. 2007. MaltPar-
Gamallo, Pablo & Isaac González. 2011. A gram- ser: A language-independent system for data-
matical formalism based on patterns of part-of- driven dependency parsing. Natural Language
speech tags. International Journal of Corpus Engineering 13(2). 115–135.
Linguistics 16(1). 45–71.
Padró, Lluı́s. 2011. Analizadores multilingües en
Gamallo, Pablo, Juan Carlos Pichel, Marcos Gar- FreeLing. Linguamática 3(2). 13–20.
cia, José Manuel Abuı́n & Tomás Fernández- Real Academia Galega e Instituto da Lingua Ga-
Pena. 2015b. Análisis morfosintáctico y clasifi- lega. 2004. Normas ortográficas e morfolóxicas
cación de entidades nombradas en un entorno do idioma galego. Editorial Galaxia.
big data. Procesamiento del Lenguaje Natural
53. 17–24. Sánchez, David & Antonio Moreno. 2006. A
methodology for knowledge acquisition from
Garcia, Marcos. 2016. Incorporating lexico- the web. Journal of Knowledge-Based and In-
semantic heuristics into coreference resolu- telligent Engineering Systems 10(6). 453–475.
tion sieves for named entity recognition at
document-level. Em 10th edition of the Lan- Straka, Milan, Jan Hajič & Jana Straková.
guage Resources and Evaluation Conference 2016. UDPipe: Trainable pipeline for proces-
(LREC), 3357–3361. sing CoNLL-U files performing tokenization,
morphological analysis, POS tagging and par-
Garcia, Marcos & Pablo Gamallo. 2010. Análise sing. Em 10th International Conference on
morfossintáctica para português europeu e ga- Language Resources and Evaluation (LREC),
lego: Problemas, soluções e avaliação. Lin- 4290–4297.
guamática 2(2). 59–67. Vivaldi, Jordi & Horacio Rodrı́guez. 2001. Im-
Garcia, Marcos & Pablo Gamallo. 2014. An proving term extraction by combining different
entity-centric coreference resolution system for techniques. Terminology 7(1). 31–47.
person entities with rich linguistic information.
Em 25th International Conference on Com-
putational Linguistics: Technical Papers (CO-
LING), 741–752.
Garcia, Marcos & Pablo Gamallo. 2015. Yet
another suite of multilingual NLP tools. Em
Symposium on Languages, Applications and
Technologies (SLATE), 65–75.
Proposta recebida em Março 2017 e aceite para publicação em Junho 2017.
Geração Automática de Sentenças em Lı́ngua Natural para

Sequências de Pictogramas como Apoio à Comunicação Alternativa e
Ampliada
Automatic generation of natural language sentences for pictogram sequences in support of
Augmentative and Alternative Communication
Rafael Pereira Hendrik Macedo Rosana Givigi

Universidade Federal de Sergipe Universidade Federal de Sergipe Universidade Federal de Sergipe
rafaelps@dcomp.ufs.br hendrik@dcomp.ufs.br rosanagivigi@uol.com.br
Marco Túlio Chella
Universidade Federal de Sergipe
marco@dcomp.ufs.br
Resumo ady acquired in pictorial communication by children

with disabilities to promote their literacy. Unfortuna-
A Comunicação Alternativa e Ampliada (CAA) é tely, the related literature does not seem to indicate
uma área de prática clı́nica educacional para fono- a practical solution to this question. In this paper,
audiólogos cujo objetivo é auxiliar indivı́duos que pos- we propose a method for automatic generation of na-
suam deficiência na oralidade. Os sı́mbolos de comu- tural sentences in the Brazilian Portuguese language
nicação pictórica constituem um dos sistemas da CAA in regards to a given sequence of pictorial symbols
que podem complementar ou mesmo substituir a lin- presented. This method has been implemented in a
guagem falada desses indivı́duos. É possı́vel utilizar a visual tool to support professional educators and is
habilidade já adquirida em comunicação pictórica por currently part of one of the AAC tools of the AAC
parte de crianças com deficiência para promover sua Laboratory at the Federal University of Sergipe, Bra-
alfabetização. Infelizmente, a literatura relacionada zil. A validation set provided by the Laboratory has
parece não indicar solução prática para tal questão. shown the correctness of the sentences generated by
Neste artigo, propomos um método para geração au- the tool.
tomática de sentenças naturais em lı́ngua portuguesa
do Brasil que corresponda a uma dada sequência de Keywords
sı́mbolos pictóricos apresentados. Este método foi im- Natural Language Generation, Augmented Alterna-
plementado em uma ferramenta visual de apoio ao tive Communication, Pictograph Symbols
profissional educador e atualmente faz parte de um
dos recursos de CAA do Laboratório de CAA da Uni-
versidade Federal de Sergipe. Um conjunto de va-
lidação fornecido pelo Laboratório mostrou a corre- 1 Introdução
tude das sentenças geradas pela ferramenta.
Tecnologia Assistiva é o termo empregado a todo
Palavras chave conjunto de dispositivos utilizados para auxiliar
Geração de Linguagem Natural, Comunicação Alter- indivı́duos com algum tipo de limitação intelec-
nativa e Ampliada, Sı́mbolos Pictóricos tual, motora, visual ou auditiva a realizar ativi-
dades a que normalmente não estariam comple-
tamente aptos (Bharucha et al., 2009; Brodwin,
2010).
Abstract
Um uso particular das tecnologias assistivas
The Augmentative and Alternative Communica- é feito pela chamada Comunicação Alternativa e
tion (AAC) is an area of clinical educational practice Ampliada (CAA) (Beukelman & Mirenda, 2005;
for speech therapists whose goal is to assist individu- Alant & Bornman, 1994; Light, 1989). A CAA é
als who are orally deficient. The pictorial communi- uma área de prática clı́nica de pesquisa e edu-
cation symbols are one of the AAC systems that can cacional para fonoaudiólogos que visa auxiliar
complement or even replace the spoken language of indivı́duos que demonstrem prejuı́zos nos mo-
these individuals. It is possible to use the ability alre- dos de comunicação gestual, oral e/ou escrita.
DOI: 10.21814/lm.9.1.242
32– Linguamática Rafael Pereira, Hendrik Macedo, Rosana Givigi e Marco Túlio Chella
Os sistemas de CAA dividem-se em picturais plate (template-based ) para representar a estru-

e linguı́sticos. Dentre os picturais destacam- tura de texto com método para representação de
se o Picture Communication Symbols (PCS), conhecimento. Um template é uma forma prede-
o Pictogram-Ideogram Communication (PIC), o finida contendo slots que são então preenchidos
Picsyms, o Rebus e o ARASAAC1 com informações especificadas por usuários. O
O sistema de sı́mbolos de comunicação texto gerado pelo YAG pode advir de diferentes
pictórica pode substituir ou complementar a lin- tipos de entradas, como uma sequência de pro-
guagem falada e, desta forma, contribuir para posições em linguagem lógica ou uma estrutura
o aumento da interação comunicativa dos in- de caractérisicas junto com o nome do template.
divı́duos com deficiência na oralidade, suprindo A aplicação desenvolvida por Ramos-Soto et al.
as necessidades de recepção, compreensão e ex- (2015) gera pequenos termos de previsões meteo-
pressão da linguagem. Quando se utiliza o rológicas a partir de desenhos relacionados, como
computador para CAA, o sistema de sı́mbolos chuva, sol, nuvens, representadas em forma de
pictóricos associado a um mecanismo de entrada dados numéricos. A solução consiste na com-
apresenta sı́mbolos representativos que são sele- binação de técnicas de percepção, computação
cionados pelo usuário, compondo uma mensagem com palavras (Zadeh, 2002, 1996) e estratégias
que pode ser estruturada em um texto com apre- para descrição linguistica de dados.
sentação na tela, sintetizado em voz ou a com- Neste artigo, propomos um método para
binação de ambos. solução do problema, que consiste fundamen-
Ainda são escassas as soluções de software e talmente em um modelo baseado em templates
hardware para CAA para uso em computado- para Geração de Linguagem Natural, similar ao
res convencionais. Grande parte das propostas proposto por McRoy et al. (2000, 2003). Este
estão relacionadas à confecção de hardware es- método foi implementado sob a forma de um soft-
pecı́ficos, tais como teclados e mouses especiais, ware de apoio ao profissional da área de fonoaudi-
que possuem alto custo, grandes dimensões e exi- ologia ou educação especializada no trabalho de
gem grande treinamento para que todo potencial alfabetização de crianças que se utilizam desses
seja usufruı́do (Stephanick et al., 2010; Salsman sı́mbolos pictóricos para comunicação.
et al., 2010). Estas caracterı́sticas dificultam so- O método para geração automática de sen-
bremaneira sua disseminação e uso por parte de tenças representativas das sequências de sı́mbolos
laboratórios de informática de escolas convencio- pictóricos é apresentado na seção 2 deste artigo.
nais. Uma iniciativa acadêmica recente alinha a A ferramenta desenvolvida a partir desta pro-
confecção de um dispositivo de entrada do tipo posta é apresentada na seção 3, onde fazemos pre-
mordedor com dois diferentes softwares: um para liminarmente a análise de corretude de sentenças
promover aceleração e corretude linguı́stica da geradas para um conjunto de validação fornecido.
redação através da previsão inteligente de pa- A seção 4 traz a conclusão do artigo.
lavras e orações futuras e outro para gerar a
sequência correspondente de sı́mbolos pictóricos
para uma dada sentença redigida em português 2 Método
do Brasil (Santos et al., 2015).
Ainda não existe, entretanto, solução para O método proposto segue um pipeline de ações
uma demanda essencial e que corresponde exa- para geração de texto em linguagem natural lin-
tamente ao oposto da citada: como gerar auto- guisticamente correto e que traduza fielmente a
maticamente uma sentença em linguagem natu- semântica da sequência de sı́mbolos pictóricos
ral a partir de uma dada sequência de sı́mbolos apresentada como entrada.
pictóricos? Solução apropriada para esta questão
seria uma importante ferramenta de apoio à al-
fabetização de crianças com paralisia cerebral.
Além disso, esta mesma solução poderia ser ins-
trumento de comunicação efetivo para crianças
já familiarizadas com a comunicação via simbo-
los pictóricos,
Dois trabalhos são parcialmente relacionados
à problemática. Em YAG (McRoy et al., 2000),
a solução combina a abordagem baseada em tem-
1
Clik Tecnologia Assistiva, disponı́vel em http://www.
clik.com.br/clik_01.html. Figura 1: Componentes do método.
Geração Automática de Sentenças em Lı́ngua Natural para Sequências de Pictogramas Linguamática – 33
Figura 2: Sequência de sı́mbolos pictóricos (ou mensagem M) de entrada do pipeline de geração.
A figura 2 ilustra um exemplo de sequência conjunto de PTs, e Realizar, cuja função é fazer
de sı́mbolos pictóricos para a qual o método deve a realização lı́nguistica de um template. Mais
produzir como saı́da de processamento a seguinte detalhes sobre esses módulos serão descritos nas
sentença, composta de duas orações: Eu quero próximas subseções.
beber água de coco, mas em casa nós queremos Na subseção 2.1, apresentamos o procedi-
brincar de bola com nossos amigos. mento para aquisição do conhecimento e sua re-
O método para solução deste problema é fun- presentação na base de templates. A subseção 2.2
damentado na fusão das ideias da gramática gera- descreve a técnica para detectar e separar as
tiva (GG) (Chomsky, 1965) e na representação de orações de uma sentença. A subseção 2.3 des-
conhecimento (RC) através de templates (McRoy creve o planejamento de documento e micropla-
et al., 2000, 2003; Reiter, 1995). Da GG, a re- nejamento. Por fim, a subseção 2.4 descreve
levância para este problema reside na base ca- como é feita a realização linguı́stica dos templa-
tegorial que faz parte do componente sintático, tes.
na qual uma oração é formada pelo SN + SV ,
onde SN é um sintagma nominal e SV um sin- Aquisição e Representação do Conheci-
tagma verbal (para este método o SV não inclui mento
o verbo). Da RC, utilizamos, em nı́vel de abs-
tração, o conceito dos sintagmas nominal e verbal A criação e validação do corpus linguı́stico, o
que foram representados na forma de Proposição qual foi utilizado para extrair o conhecimento ne-
de Templete (PT). Uma proposição é uma parte cessário para este método, foram realizadas com
de uma oração, podendo ser um sujeito ou pre- supervisão de pesquisadora-chefe e estudantes de
dicado da mesma. Dessa forma, uma PT é um fonoaudiologia do Departamento de Fonoaudio-
micro-template que pode representar o sintagma logia da Universidade Federal de Sergipe.
SN ou SV de uma oração. Com isso, qualquer que As orações e sentenças que fazem parte desse
seja o nı́vel de granularidade de um template, ele corpus, quando relacionadas com as sequências
deve possuir a estrutura sı́ntatica caracterı́stica de sı́mbolos que as representam, possuem os se-
da lı́ngua portuguesa do Brasil. guintes nı́veis cognitivos: iconicidade, sintaxe e
Para gerar orações ou sentenças por meio de memorização. A iconicidade consiste na com-
templates, o método deve realizar as seguintes ta- preensão e percepção, ao selecionar pictogramas
refas: (i) compor Template de Oração (T O ∼ que represente alguma oração ou sentença. A
SN + SV ) através de combinação de PTs com sintaxe consiste no uso de preposição, pronome,
alguma Att (que é o verbo da oração); (2) com- advérbio e pontuação. Quanto à oração que
por Template de Sentença (TS) através de com- se deseja gerar, ela pode ser simples ou com-
binação de TOs, caso a mensagem de entrada posta. Já a memorização está relacionada à
necessite; e (3) realizar linguisticamente TOs ou quantidade de sı́mbolos pictóricos que podem ser
TSs. Tanto TO quanto TS devem estar em con- representos por uma oração ou sentença. Além
formidade com a mensagem (M) que foi dada disso, os nı́veis cognitivos tercem o domı́nio deste
como entrada para o CTO. Todas essas tare- método, juntamente com a necessidade de produ-
fas são, respectivamente, atribuı́das aos módulos zir orações que expressem noção de ação ou es-
DO, CTO e Realizar, que são apresentados na tado. Estes nı́veis são também aplicados às sen-
figura 1. tenças apresentadas na tabela 2.
A figura 1 apresenta a ligação entre os Assim, a partir da análise desse corpus, foram
módulos que compõem este método. Os módulos confeccionadas 128 PTs que compoẽm a base de
são: Detector de Oração (DO), que por sua vez conhecimento para a solução do problema. Uma
contém um conjunto de caracterı́cas que identi- PT é então representada por slots (que são in-
ficam uma oração em uma sentença, Construtor dicados por <SLT>, <SLV> ou <ATPN>), palavras
de Template de Oração (CTO), que contém um da lı́ngua portuguesa e pela Att. A Att é in-
dicada pelo sı́mbolo <ATPN>, onde A significa a Algorı́tmo 1 Detector de oração.

atitude, T o tempo verbal, P a pessoa relacio- 1: procedure detectaOracao(m)
nada ao verbo (que é o sujeito da oração) e N o 2: m ← preProcessamento(m)
numeral (que pode ser singular ou plural) e está 3: sentencas ← detecteSentenca(m)
relacionado ao verbo. Dessa forma, cada PT deve 4: for all sentencas do
pertencer a um Conjunto de Proposição de Tem- 5: tagSentencas ← posTag(sentencas)
plate (CPT). Um CPT consiste no agrupamento 6: for all tagSentencas do
de PTs por sua chave, a qual referencia o mesmo. 7: oracoes ←
Isso só é possı́vel porque cada pictograma possui regras(sentencas, tagSentencas)
um ou mais nomes que o representam.
8: return oracoes
Segue alguns exemplos de PTs, CPTs, TO e
TS que foram montados a partir de PTs:
não componham uma palavra válida na lı́ngua
1. PTs: portuguesa (do Brasil). Então temos m igual a:
&a <SLT NN>; &ao <SLT NN>; &com &muita <SLV VB>
&de <SLT NN>; &neste <SLT NN> &de <SLT NN> eu querer beber água de coco,
2. CPTs: mas em casa nós querer brincar
de bola com nossos amigos.
(a) Chave = IN NN PRP
(i) em <SLT NN> <SLT PRP>; No passo 3, detecta-se as sentenças que foram
anzóis=[em] armazenadas em m. Em seguida, a função POS-
(b) Chave= VB IN NN IN PRP$ NN Tag (Jurafsky & Martin, 2000) é aplicada sobre
(i) <SLV VB> de <SLT NN> com nossas <SLT NN>; todas as sentenças (sentencas) nos passos 4 e 5.
anzóis=[de, com, nossas] Ambas funções utilizadas, nos passos 3 e 5 do al-
(ii) <SLV VB> de <SLT NN> com nossos <SLT NN>; goritmo 1, foram implementadas pela biblioteca
anzóis=[de, com, nossos] OpenNLP.2
Já nos passos 6 e 7, são extraidas as orações
3. TOs: atráves da aplicação das caracterı́sticas apresen-
<ATPN> &com &muita <SLV VB> &de <SLT NN>; tadas na tabela 1. Dentro da função REGRAS,
&a <SLT NN> <AP3S> &ao <SLT NN> cada vetor de tokens e vetor de morfemas de cada
4. TS: sentença são então varridos a fim de encontrar al-
<ATPN> &com &muita <SLV VB> &de <SLT NN>, mas guma caracterı́stica listada na tabela 1. Quando
&neste <SLT NN> &de <SLT NN> <AP1S> <SLV VB> isso acontece, uma oração é detectada e, então,
esta é atribuida à variável oracoes.
Note que nos templates que foram apresenta- Por fim, no passo 8, as orações que foram de-
dos, introduzimos o conceito de “anzóis”, indica- tectadas são retornadas. Sendo assim, obtemos
dos pelo sı́mbolo &, que são as palavras classifi- como resultado do Detector de Orações para a
cadas morfologicamente como artigos, pronomes mensagem m:
(exceto os pessoais), conjunções e preposições.
Foi dessa forma, que representamos todo o co- i) eu NNP querer VB beber VB água NN
nhecimento necessário para este método. de IN coco NN , SYM
ii) em IN casa NN nós PRP querer VB
Detecção de Oração (DO) brincar VB de IN bola NN com IN
Quando uma sequência de pictogramas repre- nossos PRP$ amigos NN
senta uma mensagem que é composta por mais
de uma oração, faz-se necessário identificar e ex- A Tabela 1 apresenta oito tipos de ca-
trair as orações. Isto acontece porque a estratégia racterı́sticas que podem ocorrer na estru-
é montar um determinado template para repre- tura sintática da lı́ngua portuguesa, conforme
sentar a estrutura de uma única oração ou sen- as sentenças apresentadas no corpus (veja a
tença. Para tal tarefa, o algoritmo 1 é aplicado subseção 2.1). Essas caracterı́sticas são notadas
sobre uma mensagem m: quando se varre um vetor de token que repre-
senta algum sentença (tokenizada por espaço em
Considere uma mensagem m, como a do exem-
branco e sinal de pontuação). Além do mais, para
plo da figura 2, para o algoritmo 1. No passo 2
que as caracterı́sticas sejam válidas, elas devem
deste algoritmo, um pré-processamento sobre os
atender à pré-condição de que ao menos um verbo
nomes dos sı́mbolos é realizado para que sejam
2
retiradas as extensões e quaisquer caracteres que Disponı́vel em http://opennlp.apache.org/.
Id Morfema do Token Corrente Morfema do Token Anterior Morfema do Token Posterior

1 Conjunção — —
2 Vı́rgula — —
3 Pronome demonstrativo Preposição —
4 Pronome pessoal — Verbo
5 Pronome pessoal Verbo Verbo
6 Verbo Vı́rgula Vı́rgula
7 Interrogação — —
8 Exclamação — —
Tabela 1: As caracterı́sticas que identificam uma oração para o nosso escopo.
deve existir antes da posição i − 1 do token cor- proposição M2=“beber água de coco”. Para
rente i, exeto a sexta caracterı́stica. isso, utiliza-se o possı́vel “anzol” de M2, &de,
de modo que o template escolhido do CPT da
O Construtor de Templates de Orações chave(M2) é o segundo elemento do conjunto. O
(CTO) template completo para a oração T Oi seria então:
<SLT PRP> <Att> <SLV VB> <SLT NN> de
O módulo CTO para esta ferramenta foi baseado <SLT NN>
nos módulos de planejamento definidos por Rei-
ter & Dale (2000). Ele tem a responsabilidade Seja a segunda saı́da (ii) do DO, em IN
de montar a estrutura sintática de uma oração casa NN nós PRP querer VB brincar VB de IN
ou sentença através do TO que pode ser conca- bola NN com IN nossos PRP$ amigos NN. As
tenado a fim de montar o template da sentença proposições neste caso são M1=“em casa nós”,
(TS) de acordo com a sequência de pictogramas. M2=“brincar de bola com nossos amigos” e
Com o resultado (i) do DO para sequência Att=“querer”. Assim, SN=“IN NN PRP”,
de pictogramas (ou mensagem M) ilustrado SV=“VB IN NN IN PRP$ NN”. As chaves que
na figura 2, temos que as proposições são mapeiam os CPTs, onde deve ser encontrada as
M1=“eu” e M2=“beber água de coco”, con- PTs M1 e M2, são chave (M1)=“IN NN PRP”
sequentemente, SN=“PRP”, Att=“querer” e e chave (M1)=“VB IN NN IN PRP$ NN”. Es-
SV=“VB NN IN NN” (para este módulo da fer- tas chaves mapeiam para os seguintes CPTs:
ramenta consideramos o SN e SV à nı́vel mor-
fológico, respectivamente, das proposições M1 1. Chave(M1) = IN NN PRP
e M2). Desta forma, as chaves que ma- (a) em <SLT NN> <SLT PRP>
peiam o conjunto onde devem ser encontradas anzóis=[em]
as PTs de M1 e M2 são chave(M1)=“PRP”
e chave(M2)=“VB NN IN NN”. Os resultados 2. Chave(M2)= VB IN NN IN PRP$ NN
dessas chaves foram obtidos via concatenação dos (a) <SLV VB> de <SLT NN> com nossas
valores armazenados no array de morfemas (visto <SLT NN>
na subseção 2.2). Então, para este exemplo, te- anzóis=[de, com, nossas]
mos que os CPTs são:
(b) <SLV VB> de <SLT NN> com nossos
1. Chave(M1)= PRP <SLT NN>
anzóis=[de, com, nossos]
(a) <SLT PRP> anzóis=[]
Do primeiro conjunto, é selecionado o único
2. Chave(M2) = VB NN IN NN
template que representa a proposição M1=“em
(a) <SLV VB> <SLT NN> com <SLT NN> casa nós”. A seguir, o segundo elemento do CPT
anzóis=[com] identificado pela chave(M2) é selecionado, já
que os possı́veis anzóis são &de, &com &nossos e
(b) <SLV VB> <SLT NN> de <SLT NN>
que o template escolhido está relacionado à pro-
anzóis=[de]
posição M2=“brincar de bola com nossos ami-
O primeiro template do CPT é selecionado, gos”. O template completo para a oração T Oii é:
identificando-se pela chave(M1), que representa em <SLT NN> <SLT PRP> <Att> <SLV VB> de
a proposição M1=“eu”. Este CPT contém ape- <SLT NN> com nossos <SLT NN>
nas PT formado por slot, ou seja, qualquer um
deles pode ser selecionado. A questão é como Caso a chave(M1) ou chave(M2) não referen-
selecionar o template que melhor representa a ciem nenhum CPT deste módulo, será necessário
inserir na base do sistema templates (PTs) que Para o T Oi do primeiro exemplo, <SLT PRP>
representem a oração desejada. Para que ainda <Att> <SLV VB> <SLT NN> de <SLT NN> , a re-
assim se tenha ao menos uma sentença como alização linguı́stica inicia com PT(M1)=<
saı́da, faz-se necessário um procedimento particu- SLT P RP > preenchendo-se o slot com o pro-
lar: outra chave dentre as existentes deve ser sele- nome “eu”; isto resulta em PT(M1)’=“eu”. A
cionada, desde que seja semelhante à chave(M1) seguir Att=“querer” deve concordar com o su-
ou chave (M2). Esta semelhança será compu- jeito da proposição M1 e deve ser conjugado no
tada através da similaridade do cosseno (inter- presente do indicativo (porque nenhum tempo
valo [0, 1]): verbal foi informado pelo usuário) de forma a
concordar com o pronome: Att’=“quero”. Por
~u.Pi fim, preenche-se os slots da PT(M2)=<SLV VB>
cos(zi ) = ,
k~uk kPi k <SLT NN> de <SLT NN> e, dessa forma, temos
que PT(M2)’=“beber água de coco”. Ao con-
tal que 0 ≤ i ≤ 9 e 0 ≤ zi ≤ π2 , onde a catenar PT(M1)’, Att’, PT(M2)’ e realizar a
chave de uma determinada proposição é o vetor pontução, temos a oração “eu quero beber água
p~ = (m1 , m2 , ..., m9 ) com m sendo o valor da enu- de coco,”.
meração morfológica (número de classes gramati- Para o T O(ii) do segundo exemplo, em
cais consideradas) e P = (~a, ~b, ..., ~n) é o conjunto <SLT NN> <SLT PRP> <Att> <SLV VB> de
de vetores pertencentes ao módulo CTO. O vetor <SLT NN> com nossos <SLT NN> , o primeiro
com maior valor de similaridade será selecionado. slot do template da PT(M1)=em <SLT NN>
Sendo assim, o TS da sentença ilustrada na fi- <SLT PRP> é relacionado com o nome do picto-
gura 2 é montado ao concatenar T Oi , a conjunção grama “casa” e o segundo slot com o pronome
“mas” e T O(ii) , então temos que TS é igual a: “nós”: PT(M1)’=“em casa nós”. Em seguida,
Att=“querer” deve concordar com o sujeito da
<SLT PRP> <Att> <SLV VB> <SLT NN> de proposição M1, que nesse caso é o pronome e
<SLT NN>, mas em <SLT NN> <SLT PRP> <Att> deve ser conjugado no presente do indicativo
<SLV VB> de <SLT NN> com nossos <SLT NN> (por default): Att’=“queremos”. Finalmente,
preenche-se os slots da PT(M2)=<SLV VB> de
<SLT NN> com nossos <SLT NN> com as des-
Realização Linguı́stica crições dos pictogramas, respectivamente, “brin-
car”, “bola” e “amigos”: PT(M2)’=“brincar
O propósito da realização linguı́stica é realizar os de bola com nossos amigos”. Ao concatenar
TOs ou TSs (veja a subseção 2.3), ou seja, pre- PT(M1)’, Att’ e PT(M2)’, a oração realizada
encher os slots com as palavras correspondentes, é “em casa nós queremos brincar de bola com
respeitando a concordância nominal, fazer a con- nossos amigos”.
cordância verbal correta com o sujeito da oração Com isso, temos que TS (= T Oi + T Oii ) rea-
e, finalmente, adicionar os sinais de pontuação. lidazado lingusticamente é igual a esta sentença
Dois dicionários de palavras foram cons- “eu quero beber água de coco, mas em casa nós
truı́dos, considerando apenas palavras relaciona- queremos brincar de bola com nossos amigos”.
das com os sı́mbolos pictóricos presentes na base.
O primeiro dicionário possui palavras que não são
verbos e está organizado da seguinte forma: (i) Discussão
a primeira palavra é a palavra-chave que identi-
fica as demais e não está flexionada em gênero Tendo em vista viabilizar uma comunicação sim-
ou número, (ii) as próximas palavras são flexio- ples e autônoma aos pacientes que ainda estam se
nadas por número e, depois, por gênero. O se- familiarizando com os sı́mbolos pictóricos, se faz
gundo dicionário possui apenas verbos. O pri- necessário passar como entrada para o método
meiro verbo está na forma infinitiva e funciona ao menos um sı́mbolo que represente um verbo
como a palavra-chave. Os verbos seguintes estão (atitude). Isso se dá porque é bastante comum o
flexionados nos tempos verbais Presente e Futuro uso de orações que expressem noção de ação ou
para cada pronome. Com este diciónario, pode-se estado neste tipo de comunicação.
realizar um template nesses dois tempos verbais. Pela mesma razão em que se exige uma ati-
Por padrão, o tempo e a pessoa verbal utilizado tude, o uso de vı́rgulas na entrada do DO (ver
para realização de template é o presente do in- seção 2.2) não é obrigatório. Se a vı́rgula fosse
dicativo e terceira pessoa do singular. Para as omitida no exemplo da subseção 2.2 depois da
demais palavras que não são verbos, o número é palavra “coco”, ainda assim seria possı́vel detec-
singular e o gênero, masculino por padrão. tar a oração, pois neste caso, a entrada casaria
Nı́vel Descrição das Sentenças

1 Vamos tomar sorvete comigo
1 A menina foi para o mercado, mas não tinha dinheiro
2 A cidade é muito fria, por isso, o homem precisou de dois casacos para não adoecer
2 A festa foi hoje, se não tivesse chovido, ganharia muitos presentes, pois convidei muitos amigos
3 O tempo está chuvoso, por isso, não esqueça de fechar as janelas da casa quando sair para não
molhar os móveis
3 Neste fim de semana, fui para fazenda de vovô. Calvaguei, me banhei de rio, comi manga,
bebi leite da vaca e brinquei com meus amigos que moram lá
Tabela 2: Exemplos de sentenças fornecidas pelo Departamento de Fonoaudiologia.
com a caractéristica 1 da tabela 1 e estaria em de CAA. Estes protocolos visam a seleção do sis-
conformidade com esta regra da gramatica: usa- tema de signos por meio da compreensão, da
se vı́rgula antes das conjuções “mas”, “porém”, percepção visual (escolha dos sı́mbolos, tama-
“pois”, “embora”, “contudo”, “todavia”, “por- nhos, etc), da mobilidade (acesso aos sistemas
tanto” e “logo”. de auxı́lio técnico: precisão, rapidez, agilidade,
De certo, na montagem de TO ou TS, existe força, etc), do nı́vel cognitivo (nı́vel de iconici-
a amarração de PTs aos anzóis quando os utilidade, memória, léxico), de aspectos linguı́sticos,
zam para selecionar um PT de CPT (veja a sub- das posições posturais (ex: sentado, deitado,
seção 2.3), embora isso ocorra somente se for pas- etc). Por fim, os protocolos analisam as formas
sado algum sı́mbolo pictórico como entrada para de indicação dos sinais, sendo possı́vel: (i) in-
o método, que é interpretado como um anzol. dicação direta, (ii) direta com auxı́lio, (iii) codifi-
cada, (iv) varredura (ou exploração) dependente
ou (v) varredura independente. Um protocolo de
3 A Ferramenta CA2 JU ESCRITO acompanhamento vem sendo desenvolvido para
registro semanal dos dados que evidenciem como
O método de geração proposto para conversão estão sendo atingidos os objetivos comunicativos
de sequência de pictogramas em texto natural foi para a ferramenta.
aplicado no desenvolvimento de uma ferramenta A corretude dos textos produzidos pela ferra-
de apoio ao profissional que lida, em particular, menta foi avaliada comparando-se com um con-
com crianças que fazem uso da CAA para se co- junto de validação fornecido pelo Laboratório
municarem. (ver tabela 2). A distância de Levenshtein, utili-
A composição visual ordenada de sı́mbolos zada como métrica neste experimento preliminar,
pictóricos deve ser feita da seguinte forma: (1) apontou valor próximo de 0 (zero) para todo o
o profissional seleciona os pictogramas que estão conjunto. Isto significa que a similaridade léxico-
apresentados em um teclado virtual localizado sintática entre as sentenças geradas automatica-
na parte inferior da imagem (figura 3), (2) os mente pela ferramenta e as pertencentes ao con-
sı́mbolos selecionados são apresentados em ordem junto de validação foi muito alta.
da seleção no campo acima do teclado e (3) o
texto será gerado a partir de um click. 4 Conclusão
Os sı́mbolos utilizados na ferramenta perten-
cem ao sistema ARASAAC, que fora desenvol- Este artigo propôs um método para geração au-
vido pelo Portal Aragonês de CAA. Esta é uma tomática de sentenças em linguagem natural a
obra de Sergio Palao para CATEDU,3 que os pu- partir de sequência de sı́mbolos pictóricos, bas-
blica sob a licença Creative Commons. tante utilizados em suporte à Comunicação Al-
Esta ferramenta faz atualmente parte de um ternativa e Ampliada (CAA). O método proposto
conjunto de recursos de CAA do Laboratório de é baseado na confecção de templates que permi-
CAA da Universidade Federal de Sergipe para tem boa variabilidade linguı́stica das construções.
ensaios clı́nicos com pacientes. O método descrito foi utilizado para criação
A escolha de mensagens (em forma de de uma ferramenta de suporte ao profissional de
sequência de sı́mbolos pictóricos) que compõe a CAA que lida com crianças com paralisia cere-
base experimental para testes e validação com bral e com crianças com transtorno do espectro
crianças é baseada em protocolos de avaliação autı́stico. O propósito especı́fico da ferramenta é
bem definidos pelos profissionais do Laboratório propiciar um ambiente computacional para faci-
litar a alfabetização destas crianças. A literatura
3
http://catedu.es/arasaac/ relacionada não mostra quaisquer iniciativas com
Figura 3: Interface gráfica Ca2ju Escrito.
este propósito. A ferramenta possui interface vi- Scott Stevens & Howard Wactlar. 2009. Intel-
sual adequada para composição de sequência de ligent assistive technology, applications to de-
pictogramas por parte do profissional e posterior mentia care: Current capabilities, limitations,
geração do texto natural correspondente. and future challenges. The American Journal
Em experimentação preliminar com um con- of Geriatric Psychiatry 17.
junto de validação fornecido pelo Laboratório
Brodwin, Martin. 2010. Assistive technology.
de CAA da Universidade Federal de Sergipe foi
Em Irving B. Weiner & W. Edward Craighead
mostrado que a geração das sentenças por parte
(eds.), Corsini Encyclopedia of Psychology, 1–
da ferramenta condiz perfeitamente com as sen-
2. John Wiley and Sons.
tenças do conjunto de validação. A ferramenta
é atualmente integrante do conjunto de recursos Chomsky, Noam. 1965. Aspects of the theory of
de CAA do respectivo laboratório e faz parte dos syntax. MIT Press.
ensaios clı́nicos com grupos de controle e experi-
mental. Jurafsky, Daniel & James H. Martin. 2000. Spe-
Trabalhos em andamento consistem no au- ech and language processing: An introduction
mento do conjunto de validação e complexidade to natural language processing, computational
das sentenças-alvo, finalização do protocolo de linguistics and speech recognition Prentice Hall
acompanhamento e, principalmente, avaliação Series in Artificial Intelligence. Prentice Hall.
quantitativa da contribuição da ferramenta en- Light, Janice. 1989. Toward a definition of com-
quanto mecanismo da CAA para a alfabetização municative competence for individuals using
de crianças com deficiência a partir dos grupos ci- augmentative and alternative communication
tados anteriormente. Resultados destes estudos systems. Augmentative and Alternative Com-
são previstos até fim de 2017. munication 5(2). 137–144.
McRoy, Susan W., Songsak Channarukul &
Referências Syed S. Ali. 2000. YAG: a template-based ge-
nerator for real-time systems. Em 1st Interna-
Alant, Ema & Juan Bornman. 1994. Augmen- tional Conference on Natural Language Gene-
tative and alternative communication. South ration (INLG), vol. 14, 264–267.
African Family Practise 15(5).
McRoy, Susan Weber, Songsak Channarukul &
Beukelman, David & Pat Mirenda. 2005. Syed S. Ali. 2003. An augmented template-
Augmentative and alternative communication. based approach to text realization. Natural
Brookes Publishin. Language Engineering 9(4). 381–420.
Bharucha, Ashok J., Vivek Anand, Jodi For- Ramos-Soto, Alejandro, Alberto Jose Bugarı́n,
lizzi, Mary Amanda Dew, Charles F. Reynolds, Senén Barro & Juan Taboada. 2015. Linguistic
descriptions for automatic generation of tex-

tual short-term weather forecasts on real pre-
diction data. IEEE Transactions on Fuzzy Sys-
tems 23(1). 44–57.
Reiter, Ehud. 1995. NLG vs. templates. Em Eu-
ropean Workshop on Natural Language Gene-
ration, vol. 5, 95–106.
Reiter, Ehud & Robert Dale. 2000. Building
natural language generation systems Natural
Language Processing. Cambridge University
Press.
Salsman, Kenneth, John Sweetser & Anders
Grunnet-Jepsen. 2010. Electronic equipment
for handheld vision based absolute pointing
system. Patente 7796116. US Patent and Tra-
demark Office.
Santos, Flávio, Carlos Junior, Hendrik Macedo,
Marco Chela, Rosana Givigi & Luciano Bar-
bosa. 2015. CA2 JU: an assistive tool for chil-
dren with cerebral palsy. Studies in Health Te-
chnology and Informatics 216. 589–593.
Stephanick, James, Christina James, Ethan R.
Bradford & Michael R. Longé. 2010. Selective
input system based on tracking of motion pa-
rameters of an input device. Patente 7750891.
US Patent and Trademark Office.
Zadeh, Lofti A. 1996. Fuzzy logic = computing
with words. IEEE Transactions on Fuzzy Sys-
tems 4(2). 103–111.
Zadeh, Lofti A. 2002. From computing with num-
bers to computing with words – from manipu-
lation of measurements to manipulation. Inter-
national Journal of Applied Mathematics and
Computer Science 12(3). 307–324.
BrAgriNews: Um Corpus Temporal-Causal (Português-Brasileiro)
para a Agricultura
BrAgriNews: A Temporal-Causal Brazilian-Portuguese Corpus for Agriculture
Brett Drury
Faculty of I.T.,National University of Ireland Galway,Ireland
brett.drury@gmail.com
Robson Fernandes Alneu de Andrade Lopes
ICMC, University of Sao Paulo, Sao Carlos,Brazil ICMC, University of Sao Paulo, Sao Carlos,Brazil
robs.fernandes@outlook.com alneu@icmc.usp.br
Resumo possible that the failure of researchers to use text mi-

ning techniques to analyze Portuguese texts to resolve
Recentemente tem havido um aumento no inte- agricultural problems may be due to a lack of freely
resse, tanto no meio acadêmico quanto na indústria, available corpora. To correct the lack of a Portuguese
em aplicações de aprendizagem de máquina e técnicas language agriculture centric corpus we are releasing a
de inteligência artificial relacionadas com problemas Brazilian-Portuguese agricultural language resource,
agrı́colas. Mineração de texto e técnicas relacionadas which is described by this paper. The corpus is par-
com o processamento da lı́ngua natural, raramente fo- tially non-contiguous and spans a time period from
ram usadas para resolver problemas agrı́colas, e muito 1996 to 2016. It consists of news stories that have
menos para a lı́ngua portuguesa. É possı́vel que um been scraped from Brazilian News sites that have been
dos fatores que influenciam a escassez no uso técnicas annotated with the following information types: cau-
de mineração de texto, para analisar textos em por- sal, sentiment, named entities that include temporal
tuguês e resolver problemas agrı́colas, pode ser de- expressions. The corpus has additional resources such
vido à falta de um corpus anotado livremente dis- as a: treebank, lists of frequent: unigrams, bigrams
ponı́vel. Para colmatar a falta de um corpus agrı́cola and trigrams, as well words or phrases that have been
em lı́ngua portuguesa, estamos liberando um recurso identified by journalists as either: “important” or do-
em português-brasileiro voltado para agricultura, des- main specific. It is hoped that the release of this cor-
crito neste artigo. O corpus abrange um perı́odo pus will stimulate the adoption of text mining in agri-
parcialmente contı́nuo de tempo entre 1996 e 2016, culture in the Lusophonic research community.
consistindo de notı́cias em português-brasileiro que
foram anotadas com o seguinte tipo de informação: Keywords
causal, sentimento, entidades nomeadas que incluem Text Mining, Agriculture, Causal Relations
expressões temporais. O corpus tem recursos adicio-
nais como: treebank, listas de termos frequentes (sem
stop-words): unigramas, bigramas e trigramas, bem
como palavras ou frases que foram identificados por 1 Introdução
jornalistas como de domı́nio especı́fico. Espera-se que
a liberação do corpus estimule a adoção da mineração Este artigo descreve um corpus em português-
de texto na agricultura na comunidade de pesquisa
brasileiro, em que se pretende ser útil para in-
lusófona.
centivar a pesquisa em mineração de texto para
Keywords a agricultura.
Mineração de Texto, Agricultura, Relações causais O BrAgriNews é um corpus parcialmente não
contı́guo que abrange o perı́odo de 1997 a 2016.
O corpus anota as seguintes informações: sen-
timento, informações temporais, causais e enti-
Abstract
dades nomeadas em notı́cias agrı́colas. O cor-
There has been a recent sharp increase in inte- pus contém: Um “treebank” e documentos com
rest in academia and industry in applying machine parte de etiquetas de fala, bem como: modelos
learning and artificial intelligence to agricultural pro- de tópicos e representações vetoriais de termos.
blems. Text mining and related natural language pro- Também fornece recursos léxicos, tais como:
cessing techniques, have been rarely used to tackle
agricultural problems, and at the time of writing there 1. Palavras frequentes;
was a single project in the Portuguese language. It is
2. Bigramas frequentes;
DOI: 10.21814/lm.9.1.245
42– Linguamática Brett Drury and Robson Fernandes and Alneu de Andrade Lopes
3. Trigramas frequentes; NP CV NP,

4. Palavra/frases que são considerados “impor- no qual N P = Frases Nominais e CV =
tantes” pelos jornalistas com a adição de de- Verbo Causal (Shams-Eddien, 2002). O fluxo de
limitadores, como aspas. causalidade neste padrão é da esquerda para a
direita, onde o lado esquerdo (LHS) N P é o ob-
O restante do artigo está organizado da se- jeto de causa e o lado direito (RHS) é o ob-
guinte forma: Seção 2: Trabalhos Relaciona- jeto de efeito. Em português esta ordem pode
dos; Seção 3: Aquisição do Corpus e Visão ser alterada por uma preposição, por exemplo
Geral; Seção 4: Metodologia de Anotação; a expressão “por causa de” inverterá a ordem
Seção 5: Recursos Léxicos; Seção 6: Treebank; de causalidade em uma relação causal. A maior
Seção 7: Recursos de Relações entre Palavras; parte da pesquisa sobre a causalidade na lı́ngua
Seção 8: Informações de Nı́vel de Documento; foi realizada em inglês, por exemplo por Khoo
Seção 9: Licenciamento; Seção 10: Trabalhos Fu- et al. (2002); Altenberg (1984); Thomson (1987);
turos; Seção 11: Conclusão. Shams-Eddien (2002), sendo que poucos foram
os estudos conduzidos em Português (Drury &
2 Trabalhos Relacionados de Andrade Lopes, 2015).
Este corpus contém uma variedade de fenômenos Representação e Extração do Tempo

da linguagem, incluindo causalidade, expressões
temporais, bem como sentimento. O trabalho re- Uma caracterı́stica dos corpora disponı́veis são as
lacionado, portanto, concentra-se nas seguintes anotações temporais. Uma suposição deste artigo
áreas: é que a representação temporal no texto é uma
maneira de descrever expressões multi-palavras
1. Causalidade na linguagem. que representam:
2. Representação temporal no texto. 1. Duração;
3. Sentimento na linguagem. 2. Expressão do tempo.
Por exemplo: “21 de maio de 2001” é uma ex-

Causalidade pressão do tempo e “12/04/75 – 12/05/76”, é
Há uma série de definições de causalidade. Uma uma duração de tempo. O tempo pode cobrir:
definição bem conhecida foi preferida pelo filósofo segundos, minutos, horas, dias, décadas, anos e
escocês David Hume que afirmou que a causali- assim por diante.
dade tem três propriedades especı́ficas: “(i) con- Expressões de tempo podem ser feitas em lin-
tiguidade no tempo e no lugar; (ii) prioridade no guagem natural em uma série de maneiras dife-
tempo, e (iii) constante conjunção entre a causa rentes, consequentemente houve um padrão de-
e o efeito” (Khoo et al., 2002). A causalidade senvolvido que tenta ter uma maneira uniforme
na linguagem é expressa como “relações causais.” de expressar informação temporal e de evento.
As relações causais são relações dependentes en- Este padrão é o TimeML (Pustejovsky et al.,
tre eventos, fatos ou objetos (Vendler, 1967; Al- 2003a)1 . O TimeML é um dialeto XML, que per-
tenberg, 1984), onde um evento, fato ou objeto é mite a expressão padrão de:
a causa de outro evento, fato ou objeto (Alten-
berg, 1984). 1. Marcação de tempo de eventos;
As relações causais no texto como explicado 2. Ordem de eventos com relação a um outro;
anteriormente são relações dependentes entre 3. Raciocı́nio com expressões temporais con-
eventos, fatos ou objetos. Os objetos de causa textualmente sub-especificadas;
(eventos, fatos ou objetos) são ligados através de
uma ligação causal aos objetos de evento (even- 4. Raciocı́nio sobre a persistência de eventos.
tos, fatos ou objetos). Uma ligação causal é uma
Além da padronização das expressões tempo-
palavra ou frase que contém propriedade cau-
rais, o consórcio TimeML lançou uma série de
sal. Ligações causais são tipicamente verbos cau-
ferramentas que podem ser usadas para anotar
sais (Shams-Eddien, 2002), nos quais a causa ou
ou extrair expressões de tempo no texto. O site
objetos de evento podem ser expressos como fra-
documenta a Ferramenta de anotação (TANGO)
ses nominais. As relações causais podem, por-
e o Tarsqi Toolkit.
tanto, ser expressas como simples padrões de ex-
1
tração, como: http://www.timeml.org
BrAgriNews: Um Corpus Temporal-Causal (Português-Brasileiro) para a Agricultura Linguamática – 43
O Tarsqi Toolkit contém um conjunto de fer- timento, porém a abordagem dominante para o
ramentas que podem ser usadas para extrair ex- português descoberta nessa revisão é a baseada
pressões de tempo, bem como garantir a sua con- em dicionário. A análise do sentimento base-
sistência. ada em dicionário utiliza-se de recursos lexicais
A literatura de pesquisa contém uma série que possuem palavras ou frases com uma ori-
de estratégias para extrair expressões tempo- entação de sentimento pré-definida. Existem três
rais. Essas estratégias podem ser agrupa- dicionários principais: dois multilı́ngue: Senti-
das em duas categorias: 1. aprendizagem de Lex (Silva et al., 2012), Opinion Lexicon (Souza
máquina (Bethard, 2013; Kolya et al., 2013; et al., 2011) e LIWC (Balage Filho et al.,
Llorens et al., 2010; UzZaman & Allen, 2010) 2013), que é parte de uma aplicação de software.
e 2. hı́brida de aprendizagem de máquina e Avaliou-se os três dicionários e os principais pon-
linguı́stica (Laokulrat et al., 2013; Jung & Stent, tos constatados foram que o Sentilex foi superior
2013). para a classificação de sentimento de documentos
Uma abordagem comum de aprendizado e LIWC produziu os melhores resultados para a
de máquina na literatura de pesquisa é classificação de opinião de sentenças. A análise
a aprendizagem supervisionada com campos do sentimento baseado no dicionário para o por-
aleatórios condicionais (conditional random fi- tuguês foi aplicada a uma série de áreas que in-
els — CRF) (Kolya et al., 2013; Llorens et al., cluı́ram hotéis (Chaves et al., 2012), finanças (Al-
2010; UzZaman & Allen, 2010). As abordagens vim et al., 2010), crı́tica de cinema (Freitas &
hı́bridas usam caracterı́sticas linguı́sticas de da- Vieira, 2013) e polı́tica (Silva et al., 2009).
dos rotulados para gerar modelos em uma es- As estratégias supervisionadas de classificação
tratégia de aprendizagem supervisionada. As do sentimento de aprendizado de máquina exi-
duas principais caracterı́sticas linguı́sticas utili- gem dados de treinamento. Um possı́vel impe-
zadas nas técnicas hı́bridas são as estruturas de dimento para o uso dessas técnicas é a falta de
dependência (Laokulrat et al., 2013) e informação corpos anotados na lı́ngua portuguesa. Esta re-
semântica (Jung & Stent, 2013). visão da literatura descobriu um pequeno número
Existem vários corpora que podem ser usa- de recursos que continham relativamente poucos
dos para avaliar estratégias de extração tempo- recursos: Petronews (1500 documentos) (Alvim
ral. Os dois principais corpora para o Inglês et al., 2010), ReLi (2056 documentos) (Freitas
são: TimeBank (Pustejovsky et al., 2003b) e o et al., 2012) e o conjunto de dados de Drury &
AQUAINT Corpus2 . Esses corpora são relati- de Andrade Lopes (2014) (500 documentos).
vamente pequenos, com 183 e 73 notı́cias, res-
pectivamente. Existem corpora em lı́nguas não- 3 Aquisição do Corpus e Visão Geral
inglesas, tais como para o Francês (Bittar, 2010),
Italiano (Caselli et al., 2011), Romeno (Forascu & O corpus, como já comentado, contém notı́cias
Tufis, , 2012), Espanhol3 e Catalão.4 Para o Por- relacionadas à agricultura escritas em português-
tuguês temos o HAREM (Carvalho et al., 2008), brasileiro. O corpus foi construı́do a partir de
com 129 notı́cias. recursos inéditos pré-existentes e com notı́cias co-
letadas na Internet. As notı́cias foram coletadas
com um “scraper” de sites respeitáveis, como:
Análise de Sentimentos
1. Revista Canavieiros (Sugarcane Magazine).
A análise do sentimento, de acordo com Liu e
2. Jornal Cana (Sugarcane Newspaper).
Zhang, é o estudo computacional das opiniões,
avaliações, atitudes e emoções das pessoas em O “scraper” rodava às 8 horas da manhã, an-
relação a entidades, indivı́duos, questões, even- tes do inı́cio da bolsa de São Paulo. Esta de-
tos, tópicos e seus atributos (Liu & Zhang, 2012). cisão foi tomada para garantir que todas as ex-
O campo é vasto, consequentemente esta pes- periências de negociação que foram feitas com
quisa será limitada à análise de sentimentos da modelos derivados deste corpus seriam “justas”.
lı́ngua portuguesa. O “scraper” correu de 2014 a 2016. O corpus
Existêm vários métodos para a análise do sen- final contém 96.784 documentos.
2
https://tac.nist.gov//data/data_desc.html#
AQUAINT
Caracterı́sticas da Linguagem
3
Disponı́vel em https://catalog.ldc.upenn.edu/
docs/LDC2012T12/ Coleções de documentos ou corpus têm carac-
4
Disponı́vel em https://catalog.ldc.upenn.edu/ terı́sticas especı́ficas de linguagem que são de-
docs/LDC2012T10/ terminadas pelo assunto e estilo do autor. Uma
maneira de comparar a linguagem é comparar a Uma técnica de análise de linguagem comple-

frequência de: mentar é listar as palavras mais frequentes no
corpus. As palavras frequentes no corpus são
1. Advérbios com adjetivos. boas indicadoras do assunto porque a frequência
2. Substantivos com verbos. da palavra segue uma distribuição zipf, como
demonstrado na Figura 3. A análise de pala-
Os rácios foram 0,52 e 2,24, respectivamente. vras frequentes removeu stop-words (um, isto,
Uma comparação com outros textos pode ser en- o, etc), uma vez que elas não têm um signifi-
contrada nas Figuras 1 e 25 . cado especı́fico de domı́nio, pois ocorrem com
frequência relativa similar na maioria dos cor-
pora ou coleções de textos. As palavras mais
LO comuns neste corpus foram: Brasil; Milhões; Go-
verno; Presidente; Mercado; Produção; Nacional;
FH Acordo; Estado e Safra.
Uma representação visual da frequência de pa-
lavras na coleção de corpus é representada no di-
SFB agrama de Nuvem de Palavra na Figura 4.
AF
Cor
0.5 0.51 0.51 0.52 0.52 0.53 0.53
Figura 1: Relação entre advérbios e adjetivos,

onde Cor = Corpus, AF = O Triunfo dos Por-
cos (Animal Farm), SFB = (Escândalo do Padre
Brown) Scandal Of Father Brown, FH = História
de Fanny Hill (Fanny Hill) e LO = Romance Lady
Oracle (Lady Oracle).
Con
Cor
Figura 3: Relação entre a frequência das palavras
TLI e o seu rank.
SHF
LOF
1.6 1.8 2 2.2 2.4 2.6 2.8 3
Figura 2: Relação entre Substantivo e Verbo,

onde LOF = Vida de Johnson (Life Of John-
son), SHF = Forma das Coisas Por Vir (Shape
Of Things To Come), TLI = O Instinto da Lin- Figura 4: Nuvem de Palavras de termos frequen-
guagem (The Language Instinct), Cor = Corpus tes no corpus BrAgriNews.
(Corpus) e Con = Constituição (Constitution).
5
A análise final considerou o tamanho do do-
Uma lista completa de rácios para textos alternativos
para: substantivo/verbo e adjetivos/advérbios podem ser
cumento (número de palavras), frequência média
encontrados em: 1. https://goo.gl/1OZpNH e 2. https: das palavras e número total de palavras. Os va-
//goo.gl/6hzYPd. lores foram: 1.127,14 palavras por documento,
frequência média de 1.617,82 palavras ±3504.12 Etiqueta Explicação

e 12.305.150 de palavras no corpus BrAgriNews. Positive Uma palavra que foi determinada
As técnicas de análise simples acima referidas como tendo uma orientação positiva
forneceram uma visão geral das caracterı́sticas Negative Uma palavra que foi determinada
linguı́sticas do corpus. A razão entre frequencias como tendo uma orientação nega-
de substantivos e verbos indicam um corpus em tiva
liguagem objetiva, no qual a relação entre adjeti- Entity Uma palavra ou n-grama que foi de-
vos e advérbios é similar a da literatura clássica. terminado como uma entidade no-
A contagem de frequência indica que os assuntos meada
dominantes são: Estado; Comércio; e Agricul- CRelation Delimitação de uma relação causal
tura. E que o comprimento médio do documento Effect A parte de um efeito de uma relação
é relativamente pequeno. causal
Cause A parte de uma causa de uma
relação causal
Visão Geral do Corpus DOW Dia da Semana
O BrAgriNews está disponı́vel em https://goo. TOD Hora do Dia
gl/lc0PzS, e é distribuı́do como um arquivo Season Estação
compactado. A organização de pastas de nı́vel Week Expressão semanal
superior é apresentado na Figura 5. Date Expressão diária
Currency Expressão monetária
A pasta de nı́vel superior contém: notı́cias,
Quote Discurso direto
previsões meteorológicas e um treebank. As pas-
tas Weather Forecasts e Trees contêm previsões Tabela 1: Resumo da Etiqueta.
meteorológicas e representação de árvore de de-
pendência de sentenças aleatórias, respectiva-
mente. A pasta News Stories tem um segundo 1. Anotação manual.
nı́vel de pastas que é demonstrado na Figura 5. O 2. Anotação automatizada.
conteúdo das pastas será descrito posteriormente
neste artigo. A anotação manual é laboriosa e lenta, conse-
quentemente seria impraticável usar esta técnica
para este corpus e a anotação automatizada foi
Resumo da Etiqueta selecionada.
A principal contribuição deste corpus é a O resumo de etiqueta descrito na Tabela 1 re-
anotação de notı́cias. A anotação delimita in- vela que são 6 áreas de anotações principais:
formações que podem ser úteis para catego-
1. Entidades nomeadas.
rização supervisionada ou técnicas de extração de
relação. As notı́cias anotadas são armazenadas 2. Anotação de sentimento.
na pasta Annotated Texts. As anotações assu- 3. Expressões de tempo.
mem a forma de marcações do tipo XML (etique-
tas) que delimitam: uma única palavra ou uma 4. Relações causais.
sequência de palavras. As etiquetas anotam: 5. Discurso direto.
1. Sentimento. 6. Parte da fala.
2. Relações causais.
Entidades Nomeadas
3. Porções de causa e efeito de relações causais.
As entidades nomeadas são palavras únicas ou
4. Expressões de tempo.
expressões multi-palavras, que podem ser classifi-
5. Expressões de moeda. cadas em uma categoria pré-existente, tais como:
pessoa, empresa, organizações, e assim por di-
Um resumo das etiquetas é descrito na Tabela 1. ante. O suporte de entidade nomeada para o
português-brasileiro é limitado e no momento da
4 Metodologia de Anotação construção do corpus não havia nenhum classifi-
cador/extrator de entidade nomeada livremente
Esta seção discute as estratégias que foram usa- disponı́vel. Consequentemente, uma técnica ba-
das para anotar os documentos neste corpus. Ha- seada em regras foi desenvolvida para identificar
viam duas escolhas metodológicas possı́veis para candidatos de entidades nomeadas.
anotar este corpus: A técnica usou o seguinte procedimento:
Root
News-Stories Trees Weather-Forecast
AT CP CL FW MWE POS Se To WV
Figura 5: Organização das pastas, onde AT = Textos Anotados, CP = Frases de Causa, CL =

Clusters, FW = Palavras Frequentes, MWE = Expressão Multi-Palavras, POS = Parte da Fala, Se
= Sentimento, To = Topic and WV = Vetor de Palavras.
1. Identificar palavras maiúsculas que não ini- Expressões temporais

ciam sentenças.
As expressões temporais para este corpus fo-
2. Juntar os candidatos da Regra 1 se for separam extraı́das usando uma abordagem padrão
rado por uma palavra de ligação. baseada em regras. A expressão diária foi ex-
3. Repetir a Regra 2 com entidades unidas ge- traı́da com expressões regulares que identificaram
radas a partir dessa mesma regra. sequências de números com separadores comuns.
As expressões tı́picas captadas por esta aborda-
O processo de união descrito nas Regras 2 e 3 gem foram “12/04/2016” e “12/04/16”.
pode ser ilustrada com o seguinte exemplo: uma As demais categorias de expressões de tempo
entidade denominada candidata gerada por esta foram capturadas usando listas codificadas de pa-
técnica é Procuradoria-Geral da República, que lavras. A lista de palavras foi compilada por um
contém duas entidades candidatas denominadas especialista em domı́nio.
Procuradoria-Geral e República, que é acompa- As técnicas de anotação de expressão tempo-
nhado por uma palavra de ligação da. ral baseadas na expressão regular, relataram exa-
Uma pequena avaliação manual feita por um tidão muito alta, por exemplo, Strötgen & Gertz
único especialista em domı́nios, onde 10 docu- (2010) relataram que sua técnica de expressão re-
mentos foram escolhidos aleatoriamente, consta- gular registrou uma precisão de 85.00%.
tou que a técnica tinha uma precisão de 73.25%.
A avaliação identificou manualmente as entidades
em um documento, e verificou que a técnica as
identificou corretamente. Correspondências par- Relações Causais
ciais, bem como a falha ao identificar as entidades
foram marcadas como incorretas. As anotações de causalidade seguem a noção de
que as relações causais entre os eventos, e que a
relação causal contém duas partes: (i) Evento de
Anotações de Sentimento
causa, e (ii) Evento de efeito.
A anotação de sentimento foi alcançada usando Consequentemente, as anotações causais têm
um dicionário pré-compilado de sentimento: Sen- três anotações: (i) Toda a relação causal; (ii)
tilex. O dicionário contém palavras que têm uma Evento de causa; e (iii) Evento de efeito.
orientação pré-determinada do sentimento. A es- A estratégia de anotação causal foi uma es-
tratégia divide as palavras em um documento e tratégia de aprendizagem supervisionada descrita
verifica a palavra contra a entrada no Sentilex. A por Drury & de Andrade Lopes (2015). A es-
estratégia aplica-se a uma das duas etiquetas: po- tratégia utilizou uma visão local e global da cau-
sitiva ou negativa, as palavras com orientação de salidade no corpus. Dois separadores são cria-
sentimento neutro são ignoradas. Por exemplo, dos a partir dessas duas visões. Os dois classi-
<negative> ruim </negative>, ruim tem uma ficadores rotulam as relações causais no corpus
conotação de sentimento negativo e consequente- e, quando os dois classificadores concordam com
mente é encapsulado com uma etiqueta negativa. uma relação causal, uma anotação causal é feita.
O dicionário Sentilex foi avaliado por Ba- Exemplos das relações causais são demonstrados
lage Filho et al. (2013), verificou-se que o Sentilex na Tabela 2.
tem uma precisão de 44.17% no nı́vel da sentença Esta técnica foi avaliada por Drury & de An-
e 53.35% no nı́vel do documento. Sentilex é um drade Lopes (2015), verificou-se que tem uma
dos melhores dicionários de sentimentos para a precisão de 67.00% na anotação do nı́vel da frase
lı́ngua portuguesa. e 81.00% na classificação da relação causal.
Expressão Causal (Português) sentimentais, em particular: “sofra” e “stress”.

preços gasolina alta aumentando demanda Essas palavras têm conotação negativa e, con-
biocombustivel sequentemente, são encapsuladas por uma eti-
politicas diminuı́do industria biocombusti- queta “negativa”. A citação contém uma relação
vel causal: “o stress durante a pré-polinização pode
consumo problemas logisticos causa destaca resultar em produtividades menores.”. Esta
surgiram oportunidades curto prazo expor- relação causal contém um evento de causa: “o
tacoes brasileiras biocombustivel stress durante a pré-polinização” e um evento
de efeito: “produtividades menores”. A citação
Tabela 2: Relações Causais relacionado com Bi-
também contém informações sobre o tempo:
ocombustı́veis
“Maio” e informação da entidade tal como:
“Kansas” e “Iowa”.
Discurso Direto
Discurso direto para este artigo, é o discurso que Exemplo Anotado

foi citado diretamente no texto. Por exemplo,
“Eu não estou em seu comitê de estratégia” Wat- A agregação das anotações pode fornecer uma
son respondeu (https://goo.gl/VLeH18). O descrição detalhada dos dados. Um exemplo de
discurso é delimitado por marcas de fala, e se- anotações agregadas pode ser encontrado na Ta-
guido por uma entidade nomeada e um verbo. bela 3.
A estratégia para anotar a fala direta foi outra
Exemplo anotado
técnica baseada em regras que identificou delimi-
<Quote> "Minha preocupaç~ ao é de que algum
tadores de fala que foram as aspas, e as marcas milho <Negative> sofra </Negative> com
de fala. o <Negative> stress </Negative> hı́drico
As palavras entre esses delimitadores foram durante a polinizaç~ao, quando a planta
assumidas como sendo de fala direta se a frase ex- está definindo o tamanho da orelha. Uma
vez que este tamanho está definido, ele
traı́da tivesse uma contagem de palavras mı́nima ao pode ficar <Month> maio </Month>
n~
de 6. , assim sendo, <CRelation> <Cause> o
Uma pequena avaliação manual de 10 docu- <Negative> stress </Negative> durante
ao </Cause> pode resultar
a pré-polinizaç~
mentos que continham uma etiqueta de citação, <Effect> em produtividades menores </Effect>
realizadas por um único especialista de domı́nio, </CRelation> . Eu acredito que isso possa
descobriu que as seqüências de texto que foram já estar ocorrendo em alguns locais com
marcadas com aspas estavam corretas 86.66% do o leste do <Entity> Kansas, </Entity>
tempo. Uma citação correta foi assumida para norte do <Entity> Missouri, </Entity> sul
de <Entity> Iowa </Entity> e oeste de
ter um orador, como uma pessoa ou outra enti- <Entity> Illinois, Indiana, Ohio </Entity>
dade, como uma empresa ou organização, bem e <Entity> Michigan" </Quote> , </Entity>
como um elemento de fala. Marcação indevida diz o consultor.
ou obviamente incorreta foi marcada como um
erro pelo anotador. Tabela 3: Exemplo anotado
O exemplo de anotação demonstra claramente

Marcação de Parte da Fala o esquema de anotação e como ele é usado dentro
A Marcação do papel morfo-sintático (part-of- do corpus BrAgriNews, onde:
speech tagging) aplica uma categoria de pala-
vra como substantivo, adjetivo, advérbio, etc. a 1. Etiqueta ’Quote’ indica citação.
uma palavra. Para as marcações foi usado o nlp-
2. Etiqueta ’Negative’ indica palavras com co-
net (Fonseca & Rosa, 2013) que é um rotulador
notação negativa.
baseado em rede neural. O rotulador foi treinado
no corpus mac-morpho e tem: “97.33% a precisão 3. Etiqueta ’CRelation’ indica citações que
de um token, 93.66% exatidão do token fora do contém relação causal.
vocabulário”.
Um exemplo das anotações tipicamente encon- 4. Etiqueta ’Month’ indica citações que contém
tradas no corpus pode ser encontrado na Tabela informações sobre o tempo.
3. A anotação é uma citação direta por “um con-
sultor”. A citação é encapsulada pela etiqueta 5. Etiqueta ’Entity’ indica informações sobre a
“quote”. A citação contém uma série de palavras entidade.
5 Recursos Léxicos computados pelo cálculo da média P M I Para

cada relação da sequência de 3 palavras. Esta
Há uma série de recursos léxicos que complemen- técnica produziu: 6141 trigramas e 6491 bigra-
tam o corpus principal. Os recursos léxicos estão mas. O bigrama e o trigrama estão localizados na
localizados nas pastas Multi-word Expressions e pasta Multi-Word Expressions e estão disponı́veis
Frequent Words. como: Arquivos de texto e formato de “pickle”
Os recursos léxicos são: Palavras frequentes em Python (Dicionários). Exemplos de MWEs
(não stop-words); Bigramas frequentes; e Trigra- extraı́dos com este método estão documentados
mas frequentes. na Tabela 4.
Bigramas
Palavras Frequentes aparelhos celulares, principal adversário,
laudo técnico, menor disponibilidade, tão
As palavras frequentes, como descrito anterior- difı́cil, investimento social, maior processa-
mente, são palavras frequentes que não são stop- dora, momento oportuno, agências interna-
words. A técnica para identificar palavras fre- cionais, jogadas ofensivas, clubes participan-
quentes eliminou qualquer palavra do corpus que tes, primeira greve
estivesse em listas de stop-words comuns6 . A
frequência para o restante das palavras foi cal- Trigramas
culada. As 7499 palavras mais frequentes são ar- contra a corrupção, dados foram divulga-
mazenadas em um arquivo de texto e em formato dos, postos de combustı́veis, investiga um
”pickle” em Python (dicionário) e localizado na esquema, abriu as portas, mês passado foi,
pasta Frequent Words. plantio de mudas, área de educação, reduziu
sua estimativa
Expressões Multi-palavras Tabela 4: Amostra de MWE Extraı́do com As-
sociação Estatı́stica.
Expressões multi-palavras são expressões que
contêm 2 palavras ou mais. Existem várias es-
tratégias para calcular expressões multi-palavras
Co-ocorrência de palavras
(MWE), e para os recursos MWE fornecidos com
este corpus foram utilizadas três estratégias: As- Co-ocorrência é outra técnica a partir da qual
sociação estatı́stica; Co-ocorrência de palavras; os MWEs podem ser detectados. As palavras
Delimitadores de frases. podem ser representadas como vetores, onde os
valores no vetor são pesos que representam co-
Associação estatı́stica ocorrência com outras palavras. Esta repre-
sentação combinada com skip-gramas pode ser
É uma estratégia que identifica relações es- usada para identificar frases (Mikolov et al.,
tatı́sticas entre palavras que aparecem em 2013) dentro de um fluxo de unigramas.
sequência (pares de palavras). Os pares de pala- Este corpus vem com dois modelos que per-
vras que têm uma relação estatı́stica significativa mitem a detecção de bigramas ou trigramas. Os
são susceptı́veis de ser uma expressão de multipa- modelos foram gerados a partir de Gensim7 . Os
lavras (multi-word expression)(MWE) ou parte modelos estão localizados na pasta Word Vec-
de um MWE. A técnica utilizada para calcular as tors e estão disponı́veis como um formato Python
MWEs foi Pointwise Mutual Information (PMI). “pickle”.
O cálculo do PMI pode ser representado
Delimitadores de frases
P (a, b)
P M I = log
P (a)P (b) Delimitador de frase é a pontuação que deli-
mita palavras ou frases. Esta técnica identifica
onde “a” é a primeira palavra em uma sequência pares de marcas de citação ou sinais de pon-
de duas palavras, “b” é a segunda palavra em tuação que delimitam palavras, bigramas ou tri-
uma sequência de duas palavras e “prob” é a programas. Suponha-se que esses delimitadores fos-
babilidade de uma palavra no corpus. Pares de sem utilizados por jornalistas para indicar frases
palavras que tiveram um P M I > 0 foram con- especı́ficas de “domı́nio”. Esta técnica identificou
siderados como bigramas. Os trigramas foram 1026 palavras, bigramas ou trigramas.
6 7
Tais como https://snowballstem.org/algorithms/ http://radimrehurek.com/gensim/models/
portuguese/stop.txt phrases.html
6 Treebank os vetores de palavras podem ser representadas

como um ângulo. Isso permite o uso de medidas
Uma árvore de dependência é uma forma de rede similaridade como a similaridade de Cosseno
presentação de dependências léxicas entre pala- para calcular a semelhança semântica entre as
vras e/ou frases. Uma coleção de árvores de de- palavras.
pendência é conhecida como treebank. São relati- O corpus tem um modelo de vetor de pala-
vamente poucos os treebanks portugueses quando vras que foi treinado a partir da informação no
comparados com o inglês. A mais conhecida tre- corpus. Para ilustrar a capacidade do modelo de
ebank portuguesa é “Floresta” (Afonso et al., vetor de palavras para identificar palavras rela-
2002). cionadas, um simples experimento foi conduzido
Árvores de dependência têm sido usadas em para calcular o vizinho mais próximo com uma
tarefas comuns de processamento de lı́ngua na- pequena seleção de palavras. As pontuações de
tural (Qiu et al., 2009), tais como extração de similaridade foram computadas usando as cha-
relação causal (Khoo et al., 2000), área de pes- madas de função Gensim8 . A faixa de pontuação
quisa que a liberação deste corpus se destina a possı́vel foi 0.0 ≤ s ≤ 1.00, onde 1 com o maior
incentivar. ı́ndice de similaridade e 0 o menor. Os resul-
O treebank fornecido com este corpus consiste tados são apresentados na Tabela 5. Os resulta-
de 27931 sentenças que foram selecionadas ale- dos mostram claramente que os pares de palavras
atoriamente e analisadas com o analisador LX- com alta pontuação tinham similaridade, no en-
Dependency (Rodrigues et al., 2014) cuja saı́da tanto, os pares de palavras com as pontuações
está em conformidade com a do analisador de mais baixas não tinham relações óbvias. Os re-
Stanford (Stanford Parser). cursos de vetores de palavras estão localizados:
Em termos de avaliação do analisador LX- /Data/News Stories/Topic Resources/Word Vec-
Dependency, o mesmo possui o UAS (Unlabeled tors/.
Attachment Score) de 94,42 e a sua LAS (Label Palavra Palavras mais Palavras mais dis-
Attachment Score) é de 91,23 (Silva et al., 2010). próximas tantes
Etanol Biocombustı́vel Vice-liderança(-
Uma saı́da tı́pica do analisador é a seguinte: (0.85), Álcool hi- 0.47), Limão (-0.55),
dratado (0.84), Sábado (-0.48),
(ROOT (S (NP (N’ (N’ (N Produç~ ao) (A Combustı́vel (0.81), Rocher (-0.48)
global)) (PP (P de) (NP (N açúcar))))) Álcool (0.87),
(VP (V deve) (VP (V crescer) (PP (P Álcool anidro (0.81)
para) (NP (N’ (N 165,1) (N’ (N milh~ oes) Milho Trigo (0.83), Soja Jogador Real (-0.46),
(0.88), Grão de bico Atenção (-0.45), Bo-
(PP (P de) (NP (N toneladas))))))))))) (0.84), Algodão nito (-0.44), Frutal,
As dependências representadas por esta saı́da (0.84) MG (-0.46)
Gasolina Diesel (0.79), Com- Eroles (-0.46), PM
são apresentados na Figura 6. bustı́vel (0.81), (-0.42), Exultos (-
Álcool (0.80) 0.42), Titã (-0.42)
Chuva Tempestades (0.75), Discrepante (-0.39),
7 Recursos de Relações entre Palavras Sopros (0.78), Nu- Estradas (-0.39),
vens (0.74), Chuva T.M. (-0.36)
(0.73), Isolado
Este corpus contém modelos que podem ajudar (0.74)
na detecção de relações entre palavras ou frases.
Os recursos liberados são métodos estatı́sticos, Tabela 5: Palavras com vizinhos mais próximos
que são Vetores de palavras e Modelagem de e mais distantes.
tópicos; Estes modelos foram gerados com a bibli-
oteca Gensim Python. Os recursos estão locali- Os experimentos foram repetidos para verbos
zados nas pastas Word Vector e Topic Resources, causais. Os verbos causais são verbos que descre-
respectivamente. vem uma relação causal entre eventos de causa
e efeito. Os resultados para a experimento do
verbo causal são demonstrados na Tabela 6. Os
Vetores de Palavras resultados mostram claramente que os vizinhos
A representação de vetor de palavra é uma re- mais próximos têm propriedades causais. Isso
presentação que trata palavras como vetores. Os tem implicações para a extração de relação cau-
vetores representam a co-ocorrência de uma de- sal, já que no momento da escrita não havia uma
terminada palavra com outras palavras no voca- estratégia de extração de relação causal publi-
bulário. A frequência de co-ocorrência é repre- cada que usasse vetores de palavras.
sentada como um peso. Os vetores são sistemas 8
https://radimrehurek.com/gensim/models/
de coordenadas, portanto as semelhanças entre word2vec.html
Figura 6: Dependências Léxicas
Verbo Palavras mais próximas O experimento do trigrama selecionou aleato-

causar provocar (0.83), causam (0.67), riamente trigramas e calculou seus vizinhos mais
sofrer (0.68), afetar (0.65), pro- próximos. A técnica utilizada foi idêntica à uti-
voca (0.63) lizada para o experimento com bigrama. Os tri-
afetar prejudicar (0.85), comprometer gramas para esta experimento foram: Ministério
(0.74), favorecer (0.73) da Cultura; Moagem de cana; Cultivares de soja.
provocar causar (0.82), gerar (0.71), sofrer Os resultados estão descritos na Tabela 8.
(0.74)
Trigramas Mais próximos
causam provoca (0.70), provocam (0.83)
Ministério da Cul- secretário-executivo do
provocam causam (0.84), provoca (0.73) tura Ministério , Secretaria da
Educação, ministro da
Tabela 6: Verbos causais e seus vizinhos mais Educação, Secretaria da
próximos. Fazenda
moagem de cana toneladas de cana-de-
açúcar volume de moagem,
Os vetores de palavras também podem ser safra de cana-de-açúcar,
usados para identificar frases semelhantes a uma oferta de cana-de-açúcar,
frase de origem. A biblioteca Gensim fornece produção de cana-de-
uma função de similaridade para n-gramas, que açúcar, capacidade de
foi utilizada nos experimentos de bigramas e tri- moagem
gramas conduzidos neste artigo. cultivares de soja plantio de milho lavouras
Os experimentos de bigramas usaram os se- de milho lavouras de café
guintes bigramas de fonte selecionados aleatoria- Tabela 8: Trigramas frequentes e seus vizinhos
mente: Aparelhos celulares; Maior processadora; mais próximos.
Dilma Rousseff; Receita bruta. A partir da qual
foram calculados os bigramas mais próximos. Os
Os experimentos com múltiplas palavras mos-
resultados estão documentados na Tabela 7.
tram que, embora os n-gramas mais próximos
Bigramas Mais próximos fossem compostos de sinônimos semelhantes
aparelhos celulares telefones móveis, canais semânticos, embora houvesse alguns erros óbvios.
eletrônicos, aparelhos Exemplos de erros:
eletrônicos, paredes
celulares, equipamen- 1. Aparelhos celulares e paredes celulares.
tos eletrônicos, caixas
eletrônicos 2. Aparelhos celulares e caixas eletrônicos.
maior processadora maior importadora , maior
produtora, maior produção, Apesar dos erros, é claro que os experimentos re-
maior trading , maior ex- tornam informações semânticas semelhantes nos
portadora, maior comercia- n-gramas.
lizadora, produção maior
Dilma Rousseff Michel Temer, possı́vel im-
peachment, eventual afas- Modelagem de Tópicos
tamento, recém-eleito presi-
dente A modelagem de tópicos é um método não-
receita bruta captação lı́quida, dı́vida supervisionado para agrupar palavras que co-
lı́quida, renda lı́quida, mar- ocorrem no mesmo tópico. A modelagem de
gem lı́quida tópicos pode ser usada para calcular semelhanças
entre: frases e documentos.
Tabela 7: Bigramas frequentes e seus vizinhos Este corpus contém um número de mode-
mais próximos. los pré-treinados, bem como a distribuição de
tópicos pré-computados para cada documento no vras com uma orientação positiva, Wn são pala-
corpus. Os modelos pré-treinados têm uma série vras com orientação negativa e S é a orientação
de variações de hiper parâmetros. As duas prin- do sentimento. Documentos com uma pontuação
cipais variáveis são: técnica de amostragem es- de: 1. S < 0 recebem uma orientação negativa,
tatı́stica Latent Dirichlet Allocation (LDA) ou 2. S > 0 recebem uma orientação positiva e 3.
Latent Semantic Indexing (LSI) (Blei et al., S = 0 recebem uma orientação neutra. O recurso
2003) e 2. número de tópicos. Existem 5 modelos é um arquivo de dicionário “pickled”. O arquivo
que usam LDA. Os modelos usam uma variedade contém: a localização relativa de um documento,
de tópicos na faixa 500 ≤ s ≤ 2500. O número de nome do arquivo e orientação de sentimento. Os
tópicos é incrementado em 500 para cada incre- valores das chaves são o local do arquivo e os va-
mento do modelo. O modelo LSI tem um número lores são a orientação do sentimento.
de tópicos de 2000, o número de tópicos foi deter-
minado pelo trabalho realizado por (Drury et al.,
Agrupamento
2015).
Documentos relacionados podem ser detectados
8 Informações de Nı́vel de Documento por um processo de agrupamento. O processo
de agrupamento para este corpus foi conseguido
Informações de nı́vel de documento no con- usando K-means, e a distribuição tópica acima
texto deste artigo são aquelas que descrevem mencionada. K foi ajustado para 200 usando Da-
informações contidas em um documento indivi- vies Bouldin Index (DBI) para calcular a “qua-
dual. Existem 4 tipos de informações do do- lidade” de várias configurações de agrupamento.
cumento: Distribuição do tópico; Orientação do A medida de distância que foi usada para compu-
sentimento; Número do grupo; e Frases de causa. tar os agrupamentos foi a distribuição de tópicos
Os recursos estão localizados respectivamente de cada documento.
nas pastas Topic Resources, Sentiment, Clusters Os clusters e seus documentos componentes
e Cause Phrases. são fornecidos em um formato de dicionário ”pic-
kled”. A chave é um número de cluster nomi-
nal e o valor são os documentos. Para ilustrar
Distribuição do Tópico a semelhança de documentos que fazem parte do
As informações do documento de distribuição de mesmo cluster são apresentados na Tabela 9.Os
tópicos estão contidas em um arquivo de texto. documentos contêm o mesmo tema da predição
Cada linha dentro do arquivo de texto repre- de colheita. O uso de tópicos em vez de seme-
senta um único documento. Cada linha contém o lhança de palavras produziu clusters que contêm
nome do documento e uma coleção de números de o mesmo tema, ao invés da mesma palavra.
tópicos com uma probabilidade. O separador en- Documento 1 Documento 2
tre o número do tópico e sua probabilidade é um As usinas e destilarias A Organização Interna-
espaço, e o separador entre o número de tópicos do Centro-Sul do Brasil cional do Café (OIC),
e os pares de probabilidade é uma tabulação. A dão inı́cio nesta sexta, em sua primeira esti-
dia 1o de abril, a mais mava para a produção
distribuição de probabilidade foi calculada com
uma safra de cana-de- mundial no ano-safra
LDA e 2000 tópicos. Estes valores foram deriva- açúcar, com perspecti- 2015/2016, prevê co-
dos do trabalho realizado por Drury et al. (2015). vas favoráveis. A prin- lheita de 143,4 milhões
cipal região produtora de sacas de 60 kg,
do paı́s irá processar indicando um aumento
Orientação do Sentimento em 2016/2017 619,37 modesto de 1,4% em
milhões de toneladas de relação ao ano-safra
A orientação do sentimento para um documento cana (+2,3%). ........ de 2014/2015 (141,4
foi alcançada contando o número de palavras com milhões)......
uma orientação sentimental. As palavras com
uma orientação do sentimento neste caso são pa-
Tabela 9: Fragmentos de texto dos documentos
lavras com uma orientação positiva ou negativa
no mesmo grupo (cluster ).
do sentimento. As palavras com uma orientação
neutra são ignoradas porque dominariam o docu-
mento. O cálculo pode ser representado:
Relações Causais
S = f req(Wp ) − f req(Wn ),
Os documentos anotados fornecem uma relação
onde f req é a frequência de palavras com uma de- de causa anotada, mas para extrair todas as
terminada orientação de sentimento,Wp são pala- relações de causa pode ser uma tarefa onerosa. O
corpus fornece uma lista de relações de causa pré- como por exemplo o UDPortugueseBR10
extraı́das. A relação de causa é um arquivo de-
limitado por tabulação que representa a relação
de causa como um triplo: 11 Conclusão
Este artigo descreve um corpus português-

1. Evento de causa.
brasileiro que contém notı́cias relacionadas a
2. Ligação causal. agricultura. Essas notı́cias têm anotações causais
e sentimentais relacionadas a informações tem-
3. Evento de efeito. porais, bem como anotações de entidades nome-
adas. O corpus contém recursos de linguagem,
Cada triplo tem um nome de documento que tais como: árvores de dependência, modelos de
é o documento onde reside a relação causal. As tópicos e modelos de vetor de palavras, bem como
palavras de parada (stop-words) foram removidas meta-informações, como distribuição de tópicos.
das relações causais. Uma amostra de relações Além disso, contém informações sobre o nı́vel do
causais pode ser encontrada na Tabela 10. documento, como distribuição de tópicos e in-
formações sobre o sentimento.
Relações Causais
Este recurso que acreditamos ser único e subs-
governo aumente etanol anidro gasolina
tancial, foi liberado para incentivar pesquisas de
clima seco produzidas milhoes toneladas
mineração de texto no campo da agricultura,
acucar
bem como pesquisas em áreas relacionadas, como
taxa declinio diminuı́do levantando expec- relação de causalidade e extração de conheci-
tativas setor mento.
chuvas últimos causa máquinas conse-
guem entrar lavoura
Agradecimentos
Tabela 10: Amostra de Relações Causais
Esta pesquisa teve apoio financeiro das agências
brasileiras: FAPESP (processos 15/14228-9 e
9 Licenciamento 11/20451-1) e CNPq (processo 302645/2015-2).
Somos gratos aos árbitros pelos comentários e su-
Este corpus é lançado sob a Crea- gestões no desenvolvimento deste trabalho.
tive Commons License (4.0) (https:
//wiki.creativecommons.org/wiki/Text). Referências
É intenção dos autores que este corpus seja
utilizado em sua amplitude, consequentemente Afonso, Susana, Eckhard Bick, Renato Haber &
esta licença foi escolhida porque permite o uso Diana Santos. 2002. Floresta sintá (c) tica:
comercial e de redistribuição. A treebank for portuguese. Em International
Este corpus se qualifica para a liberação de Conference on Language Resources and Evalu-
acordo com a legislação de uso justo9 porque: é ation (LREC), 1698–1703.
transformador, e nenhum ganho monetário será
exigido para sua liberação. Altenberg, Bengt. 1984. Causal linking in spoken
and written English. Studia Linguistica 38(1).
20–69.
10 Trabalhos Futuros Alvim, Leandro, Paula Vilela, Eduardo Motta &
Ruy Luiz Milidiú. 2010. Sentiment of financial
Pretende-se em trabalhos futuros considerar a
news: a natural language processing approach.
avaliação de outras ferramentas que realizam de-
Em 1st Workshop on Natural Language Pro-
tecção de entidades nomeadas, assim como outras
cessing Tools Applied to Discourse Analysis in
formas de detecção de expressão multi-palavras,
Psychology, edição online.
considerando o uso de opções como: OpenNLP,
FreeLing, PALAVRAS e etc. Aplicar anotações Balage Filho, Pedro P., Thiago A. S. Pardo &
baseadas em XML em relações causais que apre- Sandra M. Aluısio. 2013. An evaluation of the
sentam estruturas fracas. Além disso, vamos con- Brazilian Portuguese LIWC dictionary for sen-
siderar alternativas abertas ao LX-Dependency, timent analysis. Em 9th Brazilian Symposium
9 10
https://www.copyright.gov/fair-use/more- https://github.com/UniversalDependencies/UD_
info.html Portuguese-BR
in Information and Human Language Techno- Forascu, Corina & Dan Tufis, . 2012. Romanian
logy (STIL), 215–219. TimeBank: An annotated parallel corpus for
Bethard, Steven. 2013. ClearTK-TimeML: A mi- temporal information. Em Eight International
nimalist approach to TempEval 2013. Em Se- Conference on Language Resources and Evalu-
cond Joint Conference on Lexical and Compu- ation (LREC), 3762–3766.
tational Semantics (SEM), 10–14. Freitas, Cláudia, Eduardo Motta, R. Milidiú &
Bittar, André. 2010. Building a TimeBank for Juliana César. 2012. Vampiro que brilha. . . rá!
French: a reference corpus annotated accor- desafios na anotaçao de opinião em um cor-
ding to the ISO-TimeML standard : Paris 7. pus de resenhas de livros. Em XI Encontro de
Tese de Doutoramento. Linguı́stica de Corpus, s/p.
Blei, David M., Andrew Y. Ng & Michael I. Jor- Freitas, Larissa A. & Renata Vieira. 2013. Onto-
dan. 2003. Latent dirichlet allocation. Journal logy based feature level opinion mining for Por-
of machine Learning research 3. 993–1022. tuguese reviews. Em 22nd International Con-
Carvalho, Paula, Hugo Gonçalo Oliveira, Diana ference on World Wide Web (WWW), 367–
Santos, Cláudia Freitas & Cristina Mota. 2008. 370.
Segundo HAREM: Modelo geral, novidades e Jung, Hyuckchul & Amanda Stent. 2013. ATT1:
avaliação. Em Desafios na avaliação conjunta Temporal annotation using big windows and
do reconhecimento de entidades mencionadas: rich syntactic and semantic features. Em Se-
O Segundo HAREM, 11–31. Linguateca. cond Joint Conference on Lexical and Compu-
Caselli, Tommaso, Valentina Bartalesi Lenzi, Ra- tational Semantics (SEM), 20–24.
chele Sprugnoli, Emanuele Pianta & Irina Pro- Khoo, Christopher, Syin Chan & Yun Niu.
danof. 2011. Annotating events, temporal 2002. The many facets of the cause-effect rela-
expressions and relations in Italian: the It- tion. Em Rebecca Green, Carol A. Bean &
TimeML experience for the Ita-TimeBank. Em SungHyon Myaeng (eds.), The Semantics of
5th Linguistic Annotation Workshop, 143–151. Relationships, vol. 3 Information Science and
Chaves, Marcı́rio Silveira, Larissa A. de Freitas, Knowledge Management, 51–70. Springer.
Marlo Souza & Renata Vieira. 2012. Pirpo: Khoo, Christopher S. G., Syin Chan & Yun Niu.
An algorithm to deal with polarity in portu- 2000. Extracting causal knowledge from a me-
guese online reviews from the accommodation dical database using graphical patterns. Em
sector. Em International Conference on Ap- 38th Annual Meeting on Association for Com-
plication of Natural Language to Information putational Linguistics, 336–343.
Systems, 296–301.
Kolya, Anup Kumar, Amitava Kundu, Rajdeep
Drury, Brett & Alneu de Andrade Lopes. 2014.
Gupta, Asif Ekbal & Sivaji Bandyopadhyay.
A comparison of the effect of feature selection
2013. JU CSE: A CRF based approach to
and balancing strategies upon the sentiment
annotation of temporal expression, event and
classification of Portuguese news stories. Em
temporal relations. Em Second Joint Confe-
Encontro Nacional de Inteligência Artificial e
rence on Lexical and Computational Semantics
Computacional (ENIAC), 413–417.
(SEM), 64–72.
Drury, Brett & Alneu de Andrade Lopes. 2015.
The identification of indicators of sentiment Laokulrat, Natsuda, Makoto Miwa, Yoshimasa
using a multi-view self-training algorithm. Tsuruoka & Takashi Chikayama. 2013. Ut-
Oslo Studies in Language 7. time: Temporal relation classification using
deep syntactic features. Em Second Joint Con-
Drury, Brett, Jorge Carlos Valverde-Rebaza & ference on Lexical and Computational Seman-
Alneu de Andrade Lopes. 2015. Causation ge- tics (SEM), 88–92.
neralization through the identification of equi-
valent nodes in causal sparse graphs construc- Liu, Bing & Lei Zhang. 2012. A survey of opinion
ted from text using node similarity strategies. mining and sentiment analysis. Em Charu C.
Em International Symposium on Information Aggarwal (ed.), Mining text data, 415–463.
Management and Big Data, 58–65. Springer.
Fonseca, Erick R. & João Luı́s G. Rosa. 2013. A Llorens, Hector, Estela Saquete & Borja Navarro.
two-step convolutional neural network appro- 2010. TIPSem (English and Spanish): Evalua-
ach for semantic role labeling. Em Interna- ting CRFs and semantic roles in TempEval-2.
tional Joint Conference on Neural Networks, Em 5th International Workshop on Semantic
2955–2961. Evaluation (SemEval), 284–291.
Mikolov, Tomas, Ilya Sutskever, Kai Chen, Strötgen, Jannik & Michael Gertz. 2010. Heidel-
Greg S Corrado & Jeff Dean. 2013. Distribu- time: High quality rule-based extraction and
ted representations of words and phrases and normalization of temporal expressions. Em 5th
their compositionality. Em Advances in neural International Workshop on Semantic Evalua-
information processing systems, 3111–3119. tion, 321–324.
Pustejovsky, James, José M. Castaño, Robert In- Thomson, Judith Jarvis. 1987. Verbs of action.
gria, Roser Saurı́, Robert J. Gaizauskas, An- Synthese 72(1). 103–122.
drea Setzer & Graham Katz. 2003a. TimeML: UzZaman, Naushad & James F. Allen. 2010.
robust specification of event and temporal ex- TRIPS and TRIOS system for TempEval-2:
pressions in text. Em Mark T. Maybury (ed.), Extracting temporal information from text.
New directions in question answering, 28–34. Em 5th International Workshop on Semantic
AAAI Press. Evaluation (SemEval), 276–283.
Pustejovsky, James, Patrick Hanks, Roser Saurı́, Vendler, Zeno. 1967. Causal relations. The Jour-
Andrew See, Robert Gaizauskas, Andrea Set- nal of Philosophy 64(21). 704–713.
zer, Dragomir Radev, Beth Sundheim, David
Day, Lisa Ferro & Marcia Lazo. 2003b. The
TIMEBANK corpus. Em Corpus linguistics,
647–656.
Qiu, Guang, Bing Liu, Jiajun Bu & Chun Chen.
2009. Expanding domain sentiment lexicon th-
rough double propagation. Em International
Joing Conference on Artificial Intelligence (IJ-
CAI), vol. 9, 1199–1204.
Rodrigues, João, Francisco Costa, João Silva &
António Branco. 2014. Automatic syllabifica-
tion of portuguese. Encontro Anual da Asso-
ciação Portuguesa de Linguı́stica 715–720.
Shams-Eddien, Katrin. 2002. Beth Levin’s En-
glish verbs classes and alternations. Free Uni-
versity of Berlin.
Silva, Joao, António Branco, Sérgio Castro &
Ruben Reis. 2010. Out-of-the-box robust par-
sing of Portuguese. Em International Confe-
rence on Computational Processing of the Por-
tuguese Language (PROPOR), 75–85.
Silva, Mário J., Paula Carvalho & Luı́s Sarmento.
2012. Building a sentiment lexicon for social
judgment mining. Em International Confe-
rence on Computational Processing of the Por-
tuguese Language (PROPOR), 218–228.
Silva, Mário J., Paula Carvalho, Luı́s Sarmento,
Pedro Magalhães & Eugénio Oliveira. 2009.
The design of OPTIMISM, an opinion mining
system for Portuguese politics. Em New trends
in artificial intelligence: Proceedings of EPIA,
12–15.
Souza, Marlo, Renata Vieira, Débora Busetti,
Rove Chishman & Isa Mara Alves. 2011. Cons-
truction of a Portuguese opinion lexicon from
multiple resources. Em 8th Brazilian Sympo-
sium in Information and Human Language Te-
chnology, 59–66.
http://www.linguamatica.com/
Artigos de Investigação
Abordagem com Regras e Conhecimento Semântico para
a Resolução de Correferências
Evandro Fonseca, Vinicius Sesti, André Antonitsch, Aline Vanin e
Renata Vieira
LinguaKit: uma ferramenta multilingue para análise
linguı́stica e extração de informação
Pablo Gamallo e Marcos Garcia
Geração Automática de Sentenças em Lı́ngua Natural
lingua
para Sequências de Pictogramas

Rafael Pereira, Hendrik Macedo, Rosana Givigi e Marco Túlio
Chella
BrAgriNews: Um Corpus Temporal-Causal
(Português-Brasileiro) para a Agricultura
Brett Drury and Robson Fernandes and Alneu de Andrade Lopes

Linguamatica v9n1

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Linguamatica v9n1

Enviado por

Direitos autorais:

Formatos disponíveis

lingua Volume 9, Número 1- Julho 2017

Linguamática ISSN: 1647–0818

CORP: Uma Abordagem Baseada em Regras e Conhecimento Semân-

LinguaKit: uma ferramenta multilingue para a análise linguı́stica e a

Geração Automática de Sentenças em Lı́ngua Natural para Sequências

BrAgriNews: Um Corpus Temporal-Causal (Português-Brasileiro) para

Finalmente, mas não menos importante, a Linguamática tem, a partir de agora,

A todos, o nosso obrigado!

Xavier Gómez Guinovart

Alberto Simões, Irene Castellón Masalles,

Aline Villavicencio, Joaquim Llisterri,

Álvaro Iriarte Sanroman, José João Almeida,

Ana Frankenberg-Garcia, José Paulo Leal,

Anselmo Peñas, Joseba Abaitua,

Antón Santamarina, Juan-Manuel Torres-Moreno,

Antoni Oliver González, Kepa Sarasola,

Antonio Moreno Sandoval, Laura Plaza,

António Teixeira, Lluı́s Padró,

Arantza Dı́az de Ilarraza, Marcos Garcia,

Arkaitz Zubiaga, Marı́a Inés Torres,

Belinda Maia, Maria das Graças Volpe Nunes,

Carmen Garcı́a Mateo, Mercè Lorente Casafont,

Diana Santos, Mikel Forcada,

Ferran Pla, Pablo Gamallo Otero,

Gael Harry Dias, Patrı́cia Cunha França,

Gerardo Sierra, Rui Pedro Marques,

German Rigau, Salvador Climent Roca,

Helena de Medeiros Caseli, Susana Afonso Cavadas,

Horacio Saggion, Tony Berber Sardinha,

Hugo Gonçalo Oliveira, Xavier Gómez Guinovart,

CORP: Uma Abordagem Baseada em Regras e Conhecimento

Evandro Fonseca Vinicius Sesti

Resumo anáforas (Vieira et al., 2005; Bick, 2010; Rocha,

3 Trabalhos Relacionados ver pequenos ganhos para a tarefa de resolução

Tabela 2: Onto.PT: Exemplos de relações

ID: identificador de cada palavra na ordem em

ID Token Lemma PoS Feat Head NE Rel Corref

1 Guerra prop M=S 0 PES (2)

Tabela 3: Esquema de anotação Summ-it++.

(6) [[o telescópio] [Gemini]],

Casamento Parcial pelo Núcleo (Regra 2) Aposto Especificativo (Regra 4)

• menção mi+1 não pode possuir um determi- Pronome Relativo (Regra 7)

– sejam nomes próprios; Casamento Restrito pelo Núcleo (Regras 8 e 9)

Regras Semânticas Sinonı́mia (Regra 13)

• BLANC (BiLateral Assessment of NounPh-

Onde: Ki é i-ésima key entity (padrão) e kCk ∩ Cr k

MUC B3 CEAFm CEAFe BLANC CoNLL

Tabela 4: Regras individuais.

Tabela 5: Regras cumulativas.

Por meio de nossas regras semânticas, foi 7 CORP

MUC B3 Ceafe CoNLL

Tabela 6: Resultados não comparativos dos principais modelos da literatura.

8 Análise de Erros 40. [a técnica], [A técnica];

possı́vel criar um link entre as menções “Vito- Análise:

por meio do sintagma “[parte]”. Note que os sin- Referências

Workshop em Tecnologia da Informação e da Garcia, Marcos & Pablo Gamallo. 2014a. An

LinguaKit: uma ferramenta multilingue para a análise linguı́stica e a

tipo de módulo módulos

Tabela 1: Módulos de LinguaKit organizados em quatro categorias.

Figura 1: Arquitetura de LinguaKit.

de etiquetagem morfossintática. Para além disso, Pré-processamento

Os principais módulos de LinguaKit foram dese- Etiquetagem morfossintática

./linguakit pt tagger input.txt selecionam-se como candidatos todas as unida-