Escolar Documentos
Profissional Documentos
Cultura Documentos
ISSN: 1647-0818
Volume 9, Número 1 – Julho 2017
Editores
Alberto Simões
José João Almeida
Xavier Gómez Guinovart
Conteúdo
Artigos de Investigação
Projetos, Apresentam-se!
Este é o nono ano em que a Linguamática é editada. Todos os anos temos tido
novidades, o que tem levado a nossa/vossa revista cada vez mais longe. Desde a
publicação regular, até à indexação nos mais relevantes ı́ndices de indexação cientı́fica,
a Linguamática tem-se superado. E isto só é possı́vel graças aos nossos autores, que
continuam a apostar na publicação nas lı́nguas ibéricas, e aos nossos revisores, que
avaliam os artigos mas também dão sugestões construtivas no sentido de melhorar
todos os trabalhos publicados.
O nosso trabalho, como editores, tem sido a preparação das edições, mas também
a contı́nua vontade de recompensar os nossos autores e revisores.
Nesse sentido, nos últimos meses todas as revisões que foram feitas sobre artigos
publicados, foram registadas na plataforma Publons. O objetivo desta plataforma é
registar oficialmente todo o trabalho de revisão que habitualmente é feito pro bono.
Durante as próximas edições esse registo continuará a ser realizado, facilitando aos
revisores o processo de registo desta tarefa tão valiosa.
vii
Comissão Científica
Alberto Álvarez Lugrı́s, Iñaki Alegria,
Universidade de Vigo Euskal Herriko Unibertsitatea
ix
Artigos de Investigação
Proposta recebida em Agosto 2016 e aceite para publicação em Junho 2017.
Este artigo está estruturado da seguinte Nos exemplos em 1 temos núcleos idênticos,
forma: na Seção 2 é dada uma contextualização mas os complementos indicam que os referentes
referente à tarefa de resolução de correferências são diferenciados. Em 2 temos o termo “Bra-
e seus desafios, bem como é explorado o papel sil” em ambos os sintagmas; no entanto, o pri-
da semântica nesse processo; na Seção 3 são des- meiro refere-se ao paı́s “Brasil” e o segundo a
critos os principais trabalhos relacionados, bem “a região sul do Brasil”. Em 3, temos uma si-
como os nı́veis de semântica e recursos utiliza- tuação um pouco mais complexa, pois ambas as
dos por cada um; na Seção 4 são abordados os expressões possuem o termo “Portugal”. Nesse
principais recursos utilizados na concepção de caso, a palavra pode referir-se a uma entidade do
nosso modelo, que é descrito na Seção 5; na tipo “Pessoa” ou “Local”. Há casos, também, em
Seção 6 descrevemos os experimentos conduzidos, que dois sintagmas podem discordar em gênero e
as métricas utilizadas na avaliação do modelo e a (ou) número, mas ainda assim serem correferen-
análise dos resultados; na Seção 7 é dada uma tes, como em 4. Em casos como esse, precisamos
breve descrição do CORP, a ferramenta cons- recorrer à semântica. Por meio dela, é possı́vel
truı́da com base no modelo; na Seção 8 efetua- identificar relações que vão além do reconheci-
mos uma análise de erros; e, por fim, na Seção 9 mento de caracterı́sticas lexicais.
temos as conclusões e trabalhos futuros. Não é novidade que a semântica pode pro-
ver ganhos à resolução de correferência (Coreixas,
2 Semântica aplicada à Resolução de 2010; Rahman & Ng, 2011; Ponzetto & Strube,
Correferência 2006; Haghighi & Klein, 2009; Durrett & Klein,
2014; Fonseca et al., 2016b). Nesta Seção, cita-
A Resolução de correferências é um processo mos os principais recursos semânticos, utilizados
que consiste em identificar as diversas formas na resolução de correferência, disponı́veis para o
em que uma mesma entidade é evocada em um Inglês e para o Português: para o Inglês, temos
determinado texto. Em outras palavras, esse recursos bem conhecidos e consolidados, como
processo consiste em identificar as menções (ex- a WordNet (Miller, 1995), um banco de dados
pressões textuais) associadas a entidades ou even- lexical que possui informações sobre substanti-
tos do mundo real. Em um discurso, menções vos, verbos, adjetivos e advérbios. Todas essas
que referem a uma mesma entidade são cha- classes de palavras são agrupadas em conjuntos
madas menções correferentes e formam um con- de sinônimos, denominados synsets. Cada syn-
junto de menções, definido como cadeia de cor- set expressa um conceito distinto, que está in-
referência (Poesio et al., 2016). Na sentença “A terligado por meio de relações semânticas e lexi-
opinião é de Miguel Guerra, da Universidade de cais. Temos também o FrameNet (Baker et al.,
Santa Catarina (UFSC). Guerra participou. . . ”, 1998), contendo a similaridade semântica entre
podemos dizer que [Guerra] é uma correferência os verbos (caminhar, andar), e Yago (Suchanek
de [Miguel Guerra]. et al., 2007), uma ontologia que contém relações
semânticas como Means (significa) e Type (tipo
Existem casos em que estabelecer uma relação
de), análogas a, respectivamente, sinonı́mia e hi-
de correferência pode parecer uma tarefa sim-
ponı́mia.
ples, como em [Miguel Guerra] e [Guerra], dado
que ambos os sintagmas compartilham o termo Para o Português, temos algumas alterna-
“Guerra”. No entanto, ainda que estejamos li- tivas, como WordNet.PT. WordNet.BR, Mul-
dando com a tarefa em nı́vel lexical, existem si- tiWordNet.PT (Gonçalo Oliveira et al., 2015);
tuações mais complexas, que necessitam de trata- FrameNetBR (Salomão, 2009), contendo relações
mento distinto. Considere os seguinte exemplos: semânticas entre verbos, com foco no domı́nio
“Futebol”. TEP2.0 (Maziero et al., 2008), um
thesaurus contendo relações de sinonı́mia e an-
(1) a. [o sul do Brasil], [o sul da África] tonı́mia; e, mais recentemente, foi criada a
b. [Universidade do Paraná], Onto.PT (Gonçalo Oliveira, 2012), uma ontolo-
[Universidade de São Paulo] gia semântica para o Português, sobre a qual são
dados mais detalhes na Seção 4. Na Seção 3
(2) [O Brasil], [a região sul do Brasil] detalham-se as caracterı́sticas de cada recurso
semântico que foram utilizadas na concepção de
(3) [Adalberto Portugal], [Portugal] modelos de correferência.
(4) a. [a abelha], [o inseto]
b. [os ossos], [o fóssil]
Abordagem com Regras e Conhecimento Semântico para a Resolução de Correferências Linguamática – 5
para casos mais genéricos de entidades, utiliza- 1995), o Onto.PT possui uma estrutura baseada
mos listas, contendo substantivos comuns, que re- em synsets 1 e relações semânticas conectando
metem a determinadas entidades, tais como: [ad- esses synsets, como: hiperonı́mia, hiponı́mia,
vogado, agrônomo, juiz] para a categoria “Pes- sinonı́mia, meronı́mia, entre outras. Na Ta-
soa”, e [avenida, rua, praça, cidade] para “Lo- bela 1, podemos visualizar os tipos de relações
cal”. semânticas consideradas por nosso modelo e suas
Como podemos ver, existem muitos trabalhos quantidades, presentes na ontologia.
propondo o uso de semântica, no entanto os nı́veis Para extrair as relações semânticas do
dessas regras variam de acordo com o escopo e Onto.PT, utilizamos uma API2 que, para um
quantidade de recursos disponı́veis. Nosso mo- dado par de palavras, retorna suas relações
delo atual teve como objetivo avançar no estado semânticas, conforme podemos visualizar na Ta-
da arte no que diz respeito à tarefa de resolução bela 2.
de correferências para o Português, utilizando re-
cursos semânticos mais recentes, disponı́veis para Relação Tipo Quantidade
o português. substantivo 84.015
verbo 37.068
Sinônimo De
adjetivo 45.149
4 Recursos advérbio 2.626
Hipônimo De substantivo 91.466
Nesta Seção, apresentamos quatro recursos fun-
damentais para a concepção de nosso trabalho: Total — 260.324
o CoGrOO (Silva, 2013), um corretor gramatical
com diversas funcionalidades para o português; o Tabela 1: Quantidade de relações no Onto.PT.
Onto.PT (Gonçalo Oliveira, 2012), ontologia uti-
lizada para obtenção de relações semânticas (hi- Par Relação
ponı́mia e sinonı́mia); e CoNLL Scorer (Pradhan estudo, pesquisa sinonimoDe
et al., 2014) e Summ-it++ (Antonitsch et al., abelha, inseto hiponimoDe
2016), utilizados na avaliação de nosso modelo. animal, cachorro hiperonimoDe
postas as informações do corpus. Essas são im- Além disso, o recurso fornece também os resul-
portantes, dado que para efetuar nossa avaliação, tados de todas as métricas conhecidas (MUC,
a saı́da de nosso modelo também teve de ser con- B 3 , Ceaf e BLANC) (Vilain et al., 1995; Bagga
vertida para este formato. Na Tabela 3, cada & Baldwin, 1998; Luo, 2005; Recasens & Hovy,
coluna representa respectivamente: 2011).
a uma construção de aposto especificativo (regra Assim como na regra Casamento de Padrões
4); caso eles pertençam, seus sintagmas ligeira- Exatos, pronomes e menções que estejam em
mente anteriores devem ser iguais. Com essa res- uma construção de Aposto Especificativo não são
trição evitamos links como: agrupados por esta regra.
(15) [A estrada de Minas Gerais que ficará duas etapas. A primeira (8) realiza o agru-
pronta], [A estrada que talvez esteja pamento das menções levando em consi-
pronta] deração (Casamento entre Núcleos ∧ Pa-
lavra Modificadora ∧ Encapsulamento de
As menções contidas no exemplo acima Menções). A segunda (9) busca menções
também não seriam agrupadas, dado que o em que (Casamento entre Núcleos ∧ Mo-
advérbio “talvez” e o verbo “esteja” (conti- dificadores Compatı́veis ∧ Encapsulamento
dos em “A estrada que talvez esteja pronta”) de Menções) sejam satisfeitas. Essas duas
modificariam o antecedente. variações foram propostas por Lee et al.
(2013) e mostraram uma melhoria de 0.9%
• Modificadores Compatı́veis: Os modifi-
na medida-f, quando utilizadas linearmente.
cadores de uma menção mj atual são todos
incluı́dos na lista de modificadores do can-
didato antecedente mi . Essa cláusula é se- Casamento entre Nomes Próprios (Regra 10)
melhante à “Palavra Modificadora”, com o Agrupa duas menções caso as seguintes condições
diferencial de que considera apenas modifi- sejam satisfeitas:
cadores que são substantivos e adjetivos. Em
outras palavras, essa regra verifica se os mo- • ambas as menções devem conter nomes
dificadores do tipo adjetivos e substantivos, próprios;
quando existem na menção, são iguais aos da • os nomes próprios precisam ser iguais lexi-
menção anterior. Note que essa heurı́stica calmente;
realizaria o mesmo agrupamento que a re-
gra “Palavra Modificadora” para o exem- • as duas menções não devem estar encapsula-
plo 14, porém teria um resultado diferente das, ou seja, devem respeitar a cláusula “En-
para o exemplo 15. Ou seja, o fato de haver capsulamento de Menções”.
um modificador — advérbio (talvez) e um
verbo (esteja), por exemplo — não afeta o (17) [Califórnia],[a região sul da Califórnia].
fato de serem correferentes, altera apenas o
sentido do enunciado. Logo, a clásula “Mo- No exemplo acima, temos a violação da terceira
dificadores Compatı́veis” agruparia as duas condição. Note que ambos os sintagmas nomi-
menções do exemplo 15, pois as palavras da nais possuem o mesmo nome próprio, mas vio-
menção atual, mj , (A estrada que talvez lam a cláusula “Encapsulamento de Menções”,
esteja pronta), consideradas não stopwords de modo semelhante ao exemplo 16. Neste caso,
são: “Estrada” e “pronta”, palavras que não [Califórnia] e [da Califórnia] não podem ser cor-
modificariam o antecedente. referentes pelo fato de a segunda menção estar
ligada a uma preposição, tornando-a adjunto ad-
• Encapsulamento de Menções Esta
verbial de lugar. Portanto, há uma especificação,
cláusula nos diz que duas menções, para
em que não se está referindo a toda a Califórnia,
serem correferentes, uma menção não pode
mas somente à região sul desse estado.
ser parte constituinte da outra. De forma
a reconhecer este tipo de dependência,
utilizamos o reconhecimento de preposições, Casamento Parcial entre Nomes Próprios
como: “de” (e suas variações “do”, “da”, (Regra 11)
“dos”, “das”) e “em” (e suas variações Semelhante à regra “Casamento entre Nomes
“no”, “na”, “nos” e “nas”). No exemplo 16, Próprios”, mas permite que o núcleo da menção
[o menino] não pode fazer referência a [o atual mj combine com qualquer palavra existente
pijama listrado] justamente porque a regra na menção anterior mi . Como em: [o agrônomo
faz com que a preposição torne-se parte in- da UFSC, Miguel Guerra] e [Guerra]. Para reali-
dispensável para haver correferência. Desse zar o agrupamento, algumas cláusulas devem ser
modo, a preposição “de” torna o sintagma respeitadas:
[o pijama listrado] expressão adjunta de [o
menino]. • ambas as menções devem conter nomes
próprios;
(16) [O menino de pijama listrado],
• pelo menos uma palavra de mj deve ser igual
[o pijama listrado]. à mi ;
É importante mencionar que a Regra “Ca- • o agrupamento deve respeitar a cláusula
samento Restrito pelo Núcleo” consiste de “Palavra Modificadora”
Abordagem com Regras e Conhecimento Semântico para a Resolução de Correferências Linguamática – 11
Φx
Precisão = P 6
Nas Tabelas 4, 5 e 6 “P”,“A” e “F” representam res-
kRi k pectivamente: Precisão, Abrangência e Medida-F.
i=1
Abordagem com Regras e Conhecimento Semântico para a Resolução de Correferências Linguamática – 13
Nesta Seção, apresentamos uma análise deta- 46. [a Embrapa], [a Embrapa],[Empresa Brasi-
lhada de erros do modelo. Para efetuar a análise, leira de Pesquisa Agropecuária];
selecionamos três textos, pertencentes a dois cor- 66. [Roberto Rodrigues], [Agricultura], [Rodri-
pora (Summ-it++ e CST-News (Maziero et al., gues], [Rodrigues]
2010)). Podemos notar que os tipos mais comuns
de erros ocorrem por meio do casamento parcial 73. [o nascimento da bezerra Vitoriosa], [Vitori-
entre menções, agrupamento de duas ou mais ca- osa], [Vitoriosa , que] , [o nascimento];
deias de correferência, regra de aposto e regras
78. [O animal], [um clone], [o primeiro clone bo-
semânticas.
vino da América Latina , nascida], [O clone
do clone], [um clone];
Texto 1
82. [vaca], [Vitória], [a vaca], [Vitória], [Vitória];
Análise:
Na cadeia 22, podemos notar que o modelo agru-
pou incorretamente “a cria” e “animais”. Note
que “a cria” refere-se aos sintagmas “bezerra Vi-
toriosa, o animal e o clone”. No entanto, como
utilizamos o lema dos núcleos para as consultas
semânticas, para a menção “animais”, buscou-
se por uma relação entre os sintagmas: “a cria”
e “animal”, a qual retornou uma relação de Hi-
ponı́mia, que remete para o sintagma “animais”.
podemos notar o agrupamento de menções incor-
reto. Na primeira, trata-se da reprodução de ani-
mais ameaçados de extinção; a segunda, remete à
reprodução da qualidade genética do animal ge-
rado a partir da técnica.
Em 66, podemos ver que o sintagma “Agricul-
tura” foi unido à cadeia “[Roberto Rodrigues],
Figura 1: Texto 1. [Rodrigues], [Rodrigues]”. Isso ocorre pelo fato
do sintagma “Agricultura” estar entre parênteses
após o nome “Roberto Rodrigues”. Em 73 pode-
Cadeias Extraı́das: mos notar a união de duas cadeias: “ [Vitoriosa],
[Vitoriosa , que]” e “[o nascimento da bezerra
22. [a cria], [animais]; Vitoriosa], [o nascimento]”. Este agrupamento
33. [a reprodução], [a reprodução da qualidade]; incorreto deu-se por meio do casamento parcial
entre os sintagmas “o nascimento da bezerra Vi-
34. [elevado valor genético], [boa qualidade toriosa” e “Vitoriosa”.
genética], [a qualidade];
Podemos notar, também, que a cadeia 78’fi-
35. [Clayton Campanhola , diretor-presidente da cou separada do sintagma “Vitoriosa”. Isso por-
Embrapa], [Campanhola]; que dentro das regras implementadas não foi
Abordagem com Regras e Conhecimento Semântico para a Resolução de Correferências Linguamática – 15
Texto 3
Figura 2: Texto 2.
Figura 3: Texto 3.
Cadeias Extraı́das:
Cadeias Extraı́das:
18. [o genoma], [o genoma];
1. [o Aeroporto Internacional de São Paulo],
22. [ patenteamento de genes], [ o patentea- [Cumbica];
mento], [ O patenteamento];
16. [a Empresa Brasileira de Infra-Estrutura Ae-
26. [ o sequenciamento], [genes], [genes], [um roportuária], [Infraero];
gene], [um gene], [o gene], [um gene], [o se-
quenciamento de genes )]; 24. [informações], [informações];
34. [a França], [único paı́s da União Européia a], 40. [A pista principal do Aeroporto Internaci-
[A França], [o único paı́s], [o paı́s]; onal de São Paulo], [a pista], [a pista], [a
pista];
39. [diretiva favorável], [o princı́pio de que], [a
42. [a reforma emergencial], [a reforma], [a re-
determinação européia], [a norma], [o inı́cio];
forma], [a reforma], [a reforma];
50. [A ministra da Justiça do paı́s], [Elisabeth 43. [a segunda parte], [a terceira parte], [parte];
Guigou], [a ministra];
52. [ a sequência de um gene ], [a sequência]; Análise:
Na cadeia 43 podemos notar que o modelo agru-
64. [a Justiça], [o direito]; pou os sintagmas [a segunda parte], [a terceira
69. [o CCNE (], [Comitê Consultivo Nacional de parte] e [parte]. Note que a regra Palavra Mo-
Ética], [o CCNE]; dificadora serve justamente para evitar este tipo
de agrupamento. No entanto, os sintagmas “[ter-
72. [a União Européia], [A UE], [a UE]; ceira parte]” e “[segunda parte]”, foram ligados
16– Linguamática Evandro Fonseca, Vinicius Sesti, André Antonitsch, Aline Vanin e Renata Vieira
thesaurus eletrônico para o Português do Bra- S. Botley & A. M. Mcenery (eds.), Corpus-
sil. Em XIV Brazilian Symposium on Multi- based and Computational Approaches to Dis-
media and the Web, 390–392. course Anaphora, 81–94. John Benjamins Pu-
blishing Company.
Miller, George A. 1995. WordNet: a lexical data-
base for english. Communications of the ACM Salomão, Maria Margarida Martins. 2009. Fra-
38(11). 39–41. meNet Brasil: um trabalho em progresso. Ca-
lidoscópio 7(3). 171–182.
Poesio, Massimo, Roland Stuckardt & Yannick
Versley. 2016. Anaphora resolution: Algo- Sarmento, Luı́s, Ana Sofia Pinto & Luı́s Ca-
rithms, resources, and applications. Springer. bral. 2006. REPENTINO - a wide-scope ga-
zetteer for entity recognition in Portuguese.
Ponzetto, Simone Paolo & Michael Strube. 2006. Em 7th International Conference on Computa-
Exploiting semantic role labeling, WordNet tional Processing of the Portuguese Language
and Wikipedia for coreference resolution. Em (PROPOR), 31–40.
Human Language Technology Conference, 192–
199. Silva, Jefferson Fontinele da. 2011. Resolução
de correferência em múltiplos documentos uti-
Pradhan, Sameer, Xiaoqiang Luo, Marta Reca- lizando aprendizado não supervisionado: Uni-
sens, Eduard H. Hovy, Vincent Ng & Michael versidade de São Paulo. Tese de Mestrado.
Strube. 2014. Scoring coreference partitions of
predicted mentions: A reference implementa- Silva, William Daniel Colen. 2013. Aprimorando
tion. Em 52nd Annual Meeting of the Associ- o corretor gramatical CoGrOO: Universidade
ation for Computational Linguistics, 30–35. de São Paulo. Tese de Mestrado.
Pradhan, Sameer, Alessandro Moschitti, Ni- Soon, Wee Meng, Hwee Tou Ng & Chung Yong
anwen Xue, Olga Uryupina & Yuchen Zhang. Lim. 2001. A machine learning approach to
2012. CoNLL-2012 shared task: Modeling coreference resolution of noun phrases. Com-
multilingual unrestricted coreference in Onto- putational Linguistics 27(4). 521–544.
Notes. Em Joint Conference on Empirical Suchanek, Fabian M., Gjergji Kasneci & Gerhard
Methods in Natural Language Processing and Weikum. 2007. Yago: a core of semantic kno-
Conference on Natural Language Learning - wledge. Em 16th International Conference on
Shared Task, 1–40. World Wide Web, 697–706.
Pradhan, Sameer, Lance Ramshaw, Mitchell Vieira, Renata, Susanne Salmon-Alt, Caro-
Marcus, Martha Palmer, Ralph Weischedel & line Gasperin, Emmanuel Schang & Gabriel
Nianwen Xue. 2011. CoNLL-2011 shared task: Othero. 2005. Coreference and anaphoric re-
Modeling unrestricted coreference in ontono- lations of demonstrative noun phrases in mul-
tes. Em Fifteenth Conference on Computatio- tilingual corpus. Em A. Branco, T. McE-
nal Natural Language Learning: Shared Task, nery & R. Mitkov (eds.), Anaphora Proces-
1–27. sing: linguistic, cognitive and computational
Rahman, Altaf & Vincent Ng. 2011. Coreference modeling, 385–403. John Benjamins Publishing
resolution with world knowledge. Em 49th An- Company.
nual Meeting of the Association for Computa- Vilain, Marc, John Burger, John Aberdeen,
tional Linguistics: Human Language Techno- Dennis Connolly & Lynette Hirschman. 1995.
logies, 814–824. A model-theoretic coreference scoring scheme.
Recasens, Marta & Eduard H. Hovy. 2011. Em 6th Conference on Message understanding,
BLANC: implementing the rand index for co- 45–52.
reference evaluation. Natural Language Engi-
neering 17(4). 485–510.
Recasens, Marta, Lluı́s Màrquez, Emili Sapena,
M Antònia Martı́, Mariona Taulé, Véronique
Hoste, Massimo Poesio & Yannick Versley.
2010. Semeval-2010 task 1: Coreference reso-
lution in multiple languages. Em 5th Interna-
tional Workshop on Semantic Evaluation, 1–8.
Rocha, Marco. 2000. A corpus-based study of
anaphora in English and Portuguese. Em
Proposta recebida em Março 2017 e aceite para publicação em Junho 2017.
Pablo Gamallo
Centro Singular de Investigação de Tecnologias da Informação (CiTIUS)
Universidade de Santiago de Compostela
pablo.gamallo@usc.es
Marcos Garcia
Grupo LyS, Departamento de Letras
Faculdade de Filologia, Universidade da Corunha
marcos.garcia.gonzalez@udc.gal
Resumo 1 Introdução
Este artigo apresenta LinguaKit, uma suite multi- Neste artigo apresentamos LinguaKit, um pa-
lingue de ferramentas de análise, extração, anotação e cote de ferramentas multilingues para o Processa-
correção linguı́sticas. LinguaKit permite realizar ta- mento da Linguagem Natural (PLN), que contém
refas tão diversas como a lematização, a etiquetagem módulos de análise, extração, anotação e correção
morfossintática ou a análise sintática (entre outras), linguı́stica. Os diferentes módulos que compõem
incluindo também aplicações para a análise de senti- LinguaKit são interdependentes entre si, e estão
mentos (ou minaria de opiniões), a extração de termos organizados mediante uma arquitectura de pipe-
multipalavra, ou a anotação concetual e ligação a re- line. Permite realizar um vasto conjunto de ta-
cursos enciclopédicos tais como a DBpedia. A maior refas de PLN, entre as quais: (i) identificação de
parte dos módulos funcionam para quatro variedades orações e tokenização, (ii) lematização, (iii) eti-
linguı́sticas: português, espanhol, inglês e galego. A quetagem morfossintática, (iv) identificação e (v)
linguagem de programação de LinguaKit é Perl, e o reconhecimento de entidades mencionadas, (vi)
código está disponı́vel sob a licença livre GPLv3. análise sintática de dependências, (vii) resolução
Palavras chave de correferência a nı́vel de entidade, (viii) ex-
tração de termos e (ix) de relações semânticas,
extração de informação, tecnologia linguı́stica (x) análise de sentimentos (minaria de opiniões),
(xi) anotação conceitual com ligação a recursos
enciclopédicos, (xii) correção e avaliação de léxico
Abstract e sintaxe, (xiii) conjugação verbal automática,
(xiv) resumo automático (sumarização), (xv)
This paper presents LinguaKit, a multilingual identificação de lı́ngua, ou (xvi) visualização de
suite of tools for analysis, extraction, annotation and concordâncias (palavras chave em contexto).
linguistic correction. LinguaKit allows the user to
As ferramentas foram desenhadas e desenvol-
perform different tasks such as lemmatization, PoS-
vidas utilizando diferentes estratégias de PLN,
tagging or syntactic parsing (among others), inclu-
tanto de base simbólica como estatı́stica, com
ding applications for sentiment analysis (or opinion
aprendizagem supervisionada, não supervisio-
mining), extraction of multiword expressions or con-
nada e semi-supervisionada. A maior parte dos
ceptual annotation and entity linking to DBpedia.
módulos de LinguaKit funcionam em português,
Most part of the developed modules work in four lin-
galego,1 espanhol e inglês.2
guistic varieties: Portuguese, Spanish, English, and
Galician. The system is programmed in Perl, and it 1
Neste trabalho consideramos português a variedade es-
is freely available under a GPLv3 license. crita utilizando as diferentes ortografias da Academia Bra-
Keywords sileira de Letras e da Academia das Ciências de Lisboa,
e galego a que segue (com maior ou menor fidelidade) as
information extraction, linguistic technology normas publicadas em Real Academia Galega e Instituto
da Lingua Galega (2004).
2
Exceto o sistema de correção e avaliação linguı́stica —
DOI: 10.21814/lm.9.1.243
Linguamática — ISSN: 1647–0818
This work is Licensed under a
Creative Commons Attribution 4.0 License Vol. 9 Núm. 1 - Julho 2017 - Pág. 19–28
20– Linguamática Pablo Gamallo e Marcos Garcia
LinguaKit foi programado em Perl. Está dis- mas para a resolução da correferência, etc. Está
ponı́vel como um serviço web3 e é acessı́vel via escrito em Java e foi desenvolvido principalmente
RESTful API.4 O código fonte está publicado sob para o inglês, embora recentemente se tenham
uma licença GPL.5 publicado modelos para diversas lı́nguas como o
A tabela 1 mostra os módulos da suite chinês, o espanhol ou o árabe, entre outras.
organizados em quatro categorias: análise FreeLing (Padró, 2011) é uma outra suite de
básica, análise profunda, sistemas de extração, PLN (escrita em C++) que inclui uma lista se-
e aplicações linguı́sticas. melhante à de Stanford CoreNLP, mas dispõe de
Uma das principais contribuições desta nova ferramentas para outras tarefas como a trans-
suite em código aberto é a criação de um ecos- crição fonética ou a desambiguação semântica.
sistema de ferramentas com diferentes nı́veis de A maior parte dos módulos analisa os textos
complexidade. No primeiro nı́vel, situam-se os em catalão, espanhol, português, galego, inglês,
módulos básicos de análise, que são utilizados francês, e recentemente, alemão ou russo (entre
para construir aqueles com uma complexidade outras lı́nguas).
maior, nomeadamente módulos de análise pro- Um outro sistema de PLN escrito em Java é
funda e de extração. E estes, por sua vez, servem OpenNLP,6 que realiza tarefas de análise simila-
para desenvolver aplicações cada vez mais com- res aos que já foram referidos, mas que inclui,
plexas, como a ferramenta de correção/avaliação por exemplo, um módulo de categorização de
linguı́stica ou o anotador semântico. documentos. Existem modelos disponı́veis para
O objetivo do presente artigo é descrever a várias lı́nguas, nomeadamente inglês, espanhol e
arquitetura de LinguaKit, mencionando as me- alemão.
todologias utilizadas na implementação de cada Também programada em Java, IXA pi-
módulo, e apresentar aquelas ferramentas que pes (Agerri et al., 2014) é uma suite modular
ainda não tinham sido tratadas em trabalhos pre- que realiza as tarefas mais habituais de proces-
cedentes. samento linguı́stico: tokenização, etiquetagem
Para além desta introdução, o artigo está or- morfossintática, reconhecimento de entidades e
ganizado da seguinte maneira. Na secção 2 in- análise sintática. Este sistema permite proces-
cluı́mos uma breve revisão do trabalho relacio- sar as seguintes lı́nguas (com variações em função
nado, e a secção 3 mostra a arquitetura do sis- do módulo escolhido): espanhol, inglês, eusquera,
tema. A seguir, apresentamos diferentes ava- italiano e galego.
liações —já publicadas— dos diferentes módulos Com a popularização da iniciativa Universal
(secção 4), uma descrição pormenorizada dos ex- Dependencies,7 que promove a unificação das di-
tratores de termos (secção 5), e as conclusões do retrizes de anotação em diversas lı́nguas, têm
presente trabalho (secção 6). vindo a ser desenvolvidas algumas ferramentas
compatı́veis, como UDPipe (Straka et al., 2016).
UDPipe inclui módulos de aprendizagem au-
2 Trabalho relacionado tomática para tokenização, etiquetagem morfos-
sintática, lematização e análise sintática.
Dado que existem numerosas ferramentas de
Como foi referido, existem mais sistemas que
PLN para diversas lı́nguas e em várias lingua-
realizam tarefas de PLN —alguns com objeti-
gens de programação, nesta secção apresentamos
vos ligeiramente diferentes, ou escritos noutras
sucintamente algumas das mais conhecidas e uti-
linguagens de programação—, tais como NLTK:
lizadas suites de PLN em código aberto, tendo
Natural Language Toolkit (Bird et al., 2009), am-
em conta também as lı́nguas que cada uma delas
plamente utilizado no ensino de PLN, ou spaCy8
suporta.
(mais focado em uso industrial), ambos escritos
O software de PLN mais conhecido é provavel- em python.
mente Stanford CoreNLP (Manning et al., 2014),
Para além dos diferentes softwares apresenta-
que inclui módulos de análise tais como tokeniza-
dos, cabe mencionar também CitiusTools (Gar-
dores, etiquetadores morfossintáticos, reconhece-
cia & Gamallo, 2015), suite de PLN a partir da
dores de entidades, analisadores sintáticos, siste-
qual foram desenvolvidos alguns dos módulos de
desenvolvido principalmente para a análise do galego—, e LinguaKit. À diferença dos sistemas menciona-
o conjugador verbal — que não funciona para o inglês. dos, que oferecem fundamentalmente módulos de
3
https://www.linguakit.com análise, LinguaKit possui também um amplo le-
4
https://market.mashape.com/linguakit/
6
linguakit-natural-language-processing-in-the- http://opennlp.apache.org/
7
cloud http://universaldependencies.org/
5 8
https://github.com/citiususc/Linguakit https://spacy.io/
LinguaKit: uma ferramenta multilingue para análise linguı́stica e extração de informação Linguamática – 21
que de ferramentas de extração, bem como de Com base nos módulos de análise básica, fo-
aplicações mais complexas baseadas nesses siste- ram implementadas duas aplicações diferentes:
mas de extração. um identificador de lı́ngua e um gerador de con-
cordâncias (palavras chave em contexto). O
identificador de lı́ngua é também utilizado inter-
3 Arquitetura namente pelo sistema para fazer a escolha au-
tomática dos módulos de uma ou outra lı́ngua,
A figura 1 mostra as dependências entre os dife- permitindo que o utilizador possa analisar um
rentes módulos apresentados na tabela 1, sendo texto sem ter de selecionar a lı́ngua desejada.
esta arquitetura comum às quatro lı́nguas proces- Os módulos de análise profunda tomam como
sadas pelo sistema. entrada a saı́da da análise básica. O primeiro
A análise básica consiste na segmentação de processo é a lematização, que atribui todos os le-
um texto em orações, que são a entrada do pro- mas e todas as etiquetas possı́veis a cada forma
cesso de tokenização. Por sua vez, o texto toke- (já tokenizada) do texto de entrada. O lema-
nizado é melhorado com regras básicas de split- tizador baseia-se num léxico computacional dis-
ting, que separam os elementos que compõem ponı́vel para cada lı́ngua. Antes do processo de
contrações (e.g., “do → de o”, em português e desambiguação realizado pelo etiquetador mor-
galego) ou sequências de verbo e pronome clı́tico fossintático (PoS-tagger, na tabela 1), é possı́vel
(e.g., “comelo → comer o”, em galego). Este identificar as entidades mencionadas ou nomes
último módulo é dependente da lı́ngua, enquanto próprios (NER). As entidades identificadas pelo
os processos anteriores são realizados com uma NER serão classificadas após a etiquetagem mor-
ferramenta única (utilizando listas de abrevia- fossintática mediante um sistema de classificação
turas também dependentes de cada variedade semântica: o classificador de entidades menciona-
linguı́stica). das (NEC). O último módulo de análise é o par-
O conjugador verbal é um módulo isolado que sing sintático em dependências, que toma como
toma como entrada um verbo em infinitivo tanto entrada o etiquetador morfossintático (com ou
em espanhol como em galego e português. Neste sem aplicação dos módulos de NER e NEC).
último caso, o sistema pode realizar até quatro Várias ferramentas utilizam a saı́da dos
modelos de conjugação verbal, em função quer da módulos de análise profunda para extrair in-
variedade (português de Portugal ou do Brasil), formação dos textos: extratores de opiniões
quer do sistema ortográfico utilizado (antes ou (também conhecidos como analisadores de sen-
depois do Acordo Ortográfico de 1990).9 timento), de palavras chave, de expressões multi-
palavra, e de relações semânticas. Todos estes ex-
9
https://pt.wikipedia.org/wiki/Acordo_ tratores tomam como entrada a saı́da do módulo
Ortografico_de_1990
22– Linguamática Pablo Gamallo e Marcos Garcia
lı́nguas: inglês, português e espanhol, com resul- versão simplificada do apresentado em (Garcia
tados próximos ao estado da arte: ≈ 96 para & Gamallo, 2014).
português e espanhol, e ligeiramente mais baixos Para além disso, este sistema inclui uma saı́da
(≈ 94%) para inglês (Gamallo et al., 2015b; Gar- alternativa que aproveita a resolução de corre-
cia & Gamallo, 2015). ferência para tentar corrigir erros prévios da clas-
sificação semântica. Assim, se a citada forma
“Lennon” tivesse sido anteriormente classificada
Identificação e classificação de entidades como local, mas identificada como menção da
mencionadas mesma entidade que “John Lennon”, a etiqueta
O primeiro destes módulos identifica expressões semântica da primeira seria corrigida para pes-
numex (de base numérica) e enamex (nomes soa (Garcia, 2016).
próprios) mediante máquinas de estados finitas,
que têm em conta tanto as formas ortográficas Analisador em dependências
(uso de maiúsculas) como palavras funcionais
que possam conter (Universidade de Santiago de O módulo de análise sintática, chamado DepPat-
Compostela). Uma vez identificadas as entida- tern, baseia-se em regras formais de dependências
des, o módulo de classificação aplica um método e num algoritmo de parsing com técnicas de es-
de supervisão distante que lhe permite classifi- tados finitos. Foi avaliado para português e espa-
car as entidades em quatro classes: pessoa, orga- nhol e comparado com MaltParser (Nivre et al.,
nização, local ou miscelânea. O sistema emprega 2007), um parser determinı́stico de transições ba-
listas de entidades já conhecidas (gazetteers) e seado em aprendizagem supervisionada. Os re-
um conjunto de regras que permitem desambi- sultados obtidos por DepPattern com corpora de
guar as entidades que aparecem em mais de uma teste construı́do a partir de textos de diferen-
lista (que podem ser, por exemplo, pessoa ou lo- tes domı́nios foram semelhantes aos obtidos por
cal ). Os gazetteers foram extraı́dos automatica- MaltParser: ≈ 82% de F-score (Gamallo, 2015).
mente de fontes externas com conhecimento en- Em Gamallo & González (2011) descrevem-
ciclopédico. se as caracterı́sticas principais da gramática for-
Este módulo foi avaliado para as quatro mal na qual se baseia o conhecimento linguı́stico
lı́nguas analisadas (inglês, português, espanhol e de DepPattern. Um compilador transforma as
galego), utilizando diversos corpora e sendo com- regras formais, escritas com os princı́pios da
parando com sistemas supervisionados (Gamallo gramática de dependências, em scripts Perl que
& Garcia, 2011; Garcia et al., 2012; Garcia & Ga- representam os parsers de estados finitos.
mallo, 2015). Os resultados obtidos —apesar de
que não são sempre diretamente comparáveis—
Análise de sentimentos
foram próximos aos atingidos por FreeLing e
Stanford CoreNLP, superando nitidamente os O sistema de análise de sentimentos (tarefa
modelos disponibilizados para OpenNLP. também conhecida como minaria de opiniões)
classifica uma oração como tendo uma opinião
positiva, negativa ou neutra. O núcleo deste
Resolução de correferência a nı́vel de enti-
módulo é um classificador bayesiano treinado
dade
com texto previamente anotado com as opiniões
Um outro módulo de análise linguı́stica incluı́do referidas, que também utiliza um léxico de po-
em LinguaKit é o de resolução de correferência laridade e regras sintáticas para a identificação
a nı́vel de entidade. Este módulo utiliza como de marcadores linguı́sticos que intensificam ou
entrada um texto com as entidades mencio- mudam a polaridade das palavras. Foi avaliado
nadas classificadas semanticamente, e aplica para inglês e espanhol, e participou em duas com-
uma estratégia determinı́stica baseada em petições focadas na análise de opiniões em re-
filtros mediante os quais atribui um identifi- des sociais: TASS 2013 (Gamallo et al., 2013a)
cador numérico a cada uma das ocorrências para espanhol, e SemEval-2014 (Gamallo & Gar-
(menções) das entidades previamente ana- cia, 2014) para inglês, mostrando um desempe-
lisadas. Idealmente, este identificador será nho competitivo em ambas as lı́nguas.
igual para cada uma das menções que re-
firam a mesma entidade do discurso (e.g., Extrator de relações
“António VariaçõesPessoa 1 ”, “JohnPessoa 2 ”,
“John LennonPessoa 2 ”, “AntónioPessoa 1 ”, Este módulo consiste num sistema de extração
“LennonPessoa 2 ”, . . . ). Este módulo é uma de informação não supervisionado cujo obje-
24– Linguamática Pablo Gamallo e Marcos Garcia
tivo é obter um conjunto aberto de relações desenvolvimento no que diz respeito a recursos
entre dous objetos. As relações (ou tripletas: linguı́sticos tais como listas de tipologias de er-
obj1,relação,obj2 ) selecionadas por um sistema ros, ou regras sintáticas para a identificação e
de extração de informação aberta (Open Infor- classificação de erros.
mation Extraction, OIE) representam as pro-
posições básicas do texto de entrada. O nosso
sistema, argOE (Gamallo & Garcia, 2015), está Outras ferramentas
baseado em regras e toma como entrada um texto Para além das ferramentas referidas (e das
analisado em dependências em formato CoNLL- aplicações de extração mostradas na secção 5),
X. Foi avaliado em inglês, português e espanhol, LinguaKit também inclui as seguintes aplicações:
e comparado com sistemas de OIE focados na (i) um gerador automático de resumos (suma-
extração numa única lı́ngua. O módulo incluı́do rizador), (ii) um visualizador de palavras chave
em LinguaKit melhora os resultados de muitos em contexto (concordâncias), e (iii) conjugadores
dos sistemas com os quais foi comparado, como verbais automáticos.
ReVerb (Etzioni et al., 2011), embora os resulta-
O sumarizador extrai as frases ou orações mais
dos sejam mais baixos do que um outro sistema
relevantes do texto de entrada. Utiliza a seg-
baseado em regras, ClausIE (Corro & Gemulla,
mentação de orações, a análise morfossintática,
2013).
e os extratores de palavras e multipalavras para
ponderar as orações em graus de relevância. A
Anotação e ligação semântica partir da lista ponderada de orações, o usuário
escolhe a percentagem de texto que quer extrair
Este módulo identifica os termos relevantes do para construir o resumo.
texto que podem ser ligados a conceitos presen-
O visualizador de concordâncias, também co-
tes em bases de dados externas, tais como a DB-
nhecido como key word in context, é uma ferra-
pedia. Esta tarefa, que consiste em relacionar os
menta útil para estudos em linguı́stica de cor-
termos mencionados no texto e os conceitos de
pus que procura no texto selecionado a pala-
uma base ontológica e enciclopédica, é normal-
vra escolhida pelo utilizador, obtendo o seu con-
mente conhecido como ligação de entidades (en-
texto anterior e posterior em cada uma das suas
tity linking, EL). O nosso sistema utiliza como
ocorrências.
recursos externos algumas relações da DBpedia
e uma nova base construı́da mediante similari- O módulo de conjugação verbal permite obter
dade distribucional a partir das entradas textuais de modo automático a conjugação completa de
da Wikipedia. Foram avaliadas as versões portu- um verbo a partir da sua forma em infinitivo. O
guesa e inglesa (Gamallo & Garcia, 2016), com sistema contém as regras de conjugação verbal do
resultados similares a outros sistemas EL de re- espanhol peninsular, do galego e de quatro nor-
ferência, como DBpedia Spotlight (Mendes et al., mas do português: duas variedades diatópicas:
2011). português europeu e brasileiro; e duas varian-
tes ortográficas para cada uma das anteriores:
antes e depois do Acordo Ortográfico de 1990.
Corretor linguı́stico Uma vez que o conjugador funciona aplicando
diferentes regras em função do paradigma ver-
O sistema de correção linguı́stica de LinguaKit
bal, este pode gerar as formas conjugadas de ver-
está, por enquanto, só disponı́vel como módulo
bos desconhecidos, tais como neologismos. Para
experimental na versão web.12
além disso, identifica se o verbo é conhecido,
Esta ferramenta foi desenvolvida principal- com base em listas de verbos obtidos de recursos
mente para galego, variedade na qual foi avaliada académicos para cada uma das lı́nguas (Gamallo
e comparada com revisões manuais de textos por et al., 2013b).
parte de docentes profissionais (Gamallo et al.,
2015a). O sistema contém diversos módulos que
identificam e classificam diferentes tipos de er- Usabilidade
ros habituais em aprendizes de galego, tanto
de tipo léxico (castelhanismos, hipercorreções, Para executar qualquer módulo em linha de co-
etc.), como gramatical (concordância de género mandos, disponibilizamos de um script, lingua-
e número, posição dos pronomes átonos, etc.). kit, que requer três argumentos: lı́ngua, nome
Existem, contudo, versões básicas para por- do módulo e ficheiro TXT a ser processado. Por
tuguês e espanhol, mas precisam de um maior exemplo, o comando que faz a chamada básica do
módulo de etiquetagem morfossintática em por-
12
https://linguakit.com/es/supercorrector tuguês é o seguinte:
LinguaKit: uma ferramenta multilingue para análise linguı́stica e extração de informação Linguamática – 25
Tabela 3: As cinco multipalavras mais relevantes (unithood ) extraı́das do programa eleitoral do partido
polı́tico espanhol Podemos para as eleições do 20D/2015.
ficação de multipalavras nas quatro lı́nguas trata- se a partir das frequências dos constituintes por
das. Este método é semelhante ao descrito nou- separado.
tros trabalhos sobre extração terminológica (Vi- É importante sublinhar que estas estratégias
valdi & Rodrı́guez, 2001; Sánchez & Moreno, básicas de extração são de propósito geral pois
2006). Os padrões foram selecionados a partir não estão adaptadas a um domı́nio especı́fico.
da revisão manual de uma lista de n-gramas de São aplicáveis portanto a qualquer domı́nio. No
etiquetas ordenadas por frequência em corpora entanto, para serem mais eficientes, precisavam
de diferentes lı́nguas. de incluir novos sub-módulos que permitissem
Na segunda fase, a ordenação por relevância, uma fácil adaptação a domı́nios de especialidade.
utilizamos uma estratégia diferente à empregada Na atualidade, a extração só permite selecionar
na ordenação por termos básicos. Enquanto es- e identificar candidatos a termo em geral, e não
tes se ordenam em função da noção de termhood, unidades terminológicas de um domı́nio previa-
a relevância das expressões multipalavra define- mente identificado.
se mediante o conceito de unithood. Esta noção Como exemplo de utilização, as tabelas 3 e 4
faz referência à associação das sequências de pa- mostram as expressões multipalavra mais rele-
lavras com unidades lexicais estáveis. Mais con- vantes (usando qui-quadrado como peso para a
cretamente, unithood refere-se ao grau de força e ordenação) extraı́das de dous programas de par-
coesão entre as unidades lexicais que constituem tidos polı́ticos, Podemos e o Partido Popular,
os sintagmas e colocações (Kageura & Umino, para as eleições ao parlamento espanhol de 20
1996). A unithood só se aplica, portanto, a uni- de dezembro de 2015. Assim, este exemplo mos-
dades plurilexicais com alguma coesão interna e tra como o extrator permite identificar as priori-
não a unidades monolexicais. dades programáticas dos partidos polı́ticos com
O grau de coesão, ou unithood, pode calcular- uma simples vista de olhos sobre os termos mais
se com diferentes medidas de associação lexical. relevantes.
O módulo de LinguaKit permite escolher entre 5 Mesmo se a eficiência da extração de ter-
medidas para ordenar os candidatos a multipa- mos não foi avaliada quantitativamente, pode-
lavra: (a) qui-quadrado, (b) função de verosimi- mos encontrar alguns elementos que demonstram
lhança (loglikehood ), (c) informação mutua (mi ), a sua usabilidade desde um ponto de vista qua-
(d) probabilidade condicional simétrica (scp), e litativo. Por um lado, os dous extratores de
(e) simples co-ocorrência. As medidas de asso- termos (básicos e multipalavra) foram inseridos
ciação aplicam-se para verificar se os constituin- no módulo mais complexo de anotação e ligação
tes co-ocorrem num sintagma aleatoriamente ou semântica, o qual sim foi avaliado quantitati-
por atração. Assim, os valores observados equi- vamente e comparado com outros sistemas de
valem à frequência da expressão multipalavra no anotação. Por outro lado, estes módulos foram
texto de entrada, e os valores esperados calculam- utilizados por utentes muito variados com dife-
LinguaKit: uma ferramenta multilingue para análise linguı́stica e extração de informação Linguamática – 27
Tabela 4: As cinco multipalavras mais relevantes (unithood ) extraı́das do programa eleitoral do partido
polı́tico espanhol Partido Popular para as eleições do 20D/2015.
rentes aplicações e objetivos, tais como análises ED431G/08), do European Regional Develop-
dos programas de partidos polı́ticos feitas por jor- ment Fund (ERDF), e de um contrato Juan de
nalistas.13 la Cierva-formación, com referência FJCI-2014-
22853.
6 Conclusões e trabalho futuro
Referências
Este artigo apresentou LinguaKit, um pacote
linguı́stico que permite os utilizadores ter um Agerri, Rodrigo, Josu Bermudez & German Ri-
acesso fácil e unificado a módulos de análise gau. 2014. IXA pipeline: Efficient and ready to
linguı́stica muito diversos. use multilingual NLP tools. Em 9th Interna-
O conjunto de ferramentas disponı́vel, mesmo tional Conference on Language Resources and
se amplo e variado, fica ainda longe de cobrir Evaluation (LREC), 3823–3828.
todos as necessidades dos profissionais e utiliza-
dores da lı́ngua. A este respeito, como traba- Bird, Steven, Edward Loper & Ewan Klein.
lho futuro pretendemos, por um lado, continuar 2009. Natural language processing with Python.
a melhorar o desempenho de alguns dos módulos O’Reilly Media Inc.
de análise, e por outro lado ampliar o número de Corro, Luciano Del & Rainer Gemulla. 2013.
módulos com sistemas de transcrição fonética e ClausIE: Clause-based open information ex-
fonológica. Além disso, está prevista a adaptação traction. Em The World Wide Web Confe-
dos módulos de análise morfossintática e sintática rence, 355–366.
para a sua compatibilidade com as diretrizes de
anotação das dependências universais. Etzioni, Oren, Anthony Fader, Janara Chris-
Para além de novos módulos, o sistema pode tensen, Stephen Soderland & Mausam. 2011.
enriquecer-se com funcionalidades simples mas Open information extraction: the second ge-
úteis para linguistas e investigadores. Por exem- neration. Em International Joint Conference
plo, um buscador de contextos léxico-sintáticos on Artificial Intelligence (IJCAI), 3–10.
que utilize o analisador sintático para permitir Gamallo, Pablo. 2015. Dependency parsing with
procurar que nomes funcionam como sujeitos de compression rules. Em International Workshop
um verbo especı́fico, adjetivos que modifiquem on Parsing Technology (IWPT), 107–117.
um dado nome, etc. Em relação às novas funci-
onalidades, será preciso identificar os principais Gamallo, Pablo & Marcos Garcia. 2011. A
objetivos dos utilizadores para tentar que o sis- resource-based method for named entity ex-
tema cubra as suas necessidades. traction and classification. Em Portuguese
Conference on Artificial Intelligence (EPIA
2011), 610–623.
Agradecimentos
Gamallo, Pablo & Marcos Garcia. 2014. Citius:
Este trabalho foi realizado graças ao fi- a naive-bayes strategy for sentiment analy-
nanciamento da Ayuda da Fundación BBVA sis on English tweets. Em 8th International
para Investigadores y Creadores Culturales, do Workshop on Semantic Evaluation (SemEval),
projeto TELEPARES (MINECO, ref:FFI2014- 171–175.
51978-C2-1-R), da Consellerı́a de Cultura, Edu-
cación e Ordenación Universitaria (2016-2019, Gamallo, Pablo & Marcos Garcia. 2015. Mul-
tilingual open information extraction. Em
13
http://www.galiciaconfidencial.com/noticia/ 17th Portuguese Conference on Artificial In-
27170-son-galiza-galicia-marea telligence (EPIA), 711–722.
28– Linguamática Pablo Gamallo e Marcos Garcia
Gamallo, Pablo & Marcos Garcia. 2016. Entity Garcia, Marcos, Isaac González & Iria del Rı́o.
linking with distributional semantics. Em In- 2012. Identificação e classificação de enti-
ternational Conference on the Computational dades mencionadas em Galego. Estudos de
Processing of the Portuguese Language (PRO- Linguı́stica Galega 4. 13–25.
POR), 177–188.
Kageura, Kyo & Bin Umino. 1996. Methods of
Gamallo, Pablo, Marcos Garcia & Santiago automatic term recognition: A review. Termi-
Fernández-Lanza. 2013a. TASS: a naive-bayes nology 3(1). 259–289.
strategy for sentiment analysis on Spanish twe- Manning, Christopher D., Mihai Surdeanu, John
ets. Em Workshop on Sentiment Analysis Bauer, Jenny Finkel, Steven J. Bethard & Da-
(TASS@SEPLN), 126–132. vid McClosky. 2014. The Stanford CoreNLP
natural language processing toolkit. Em 52nd
Gamallo, Pablo, Marcos Garcia, Isaac González,
Annual Meeting of the Association for Compu-
Marta Mu noz & Iria del Rı́o. 2013b. Learning
tational Linguistics: System Demonstrations,
verb inflection using Cilenis conjugators. The
55–60.
Eurocall Review 21(1). 12–19.
Mendes, Pablo N., Max Jakob, Andrés Garcı́a-
Gamallo, Pablo, Marcos Garcia, Iria del Rı́o & Silva & Christian Bizer. 2011. DBpedia spo-
Isaac González López. 2015a. Avalingua: Na- tlight: Shedding light on the web of docu-
tural language processing for automatic er- ments. Em 7th International Conference on
ror detection. Em Learner Corpora in Lan- Semantic Systems, 1–8.
guage Testing and Assessment, vol. 70 Studies
in Corpus Linguistics, 35–58. John Benjamins Nivre, Joakim, Johan Hall, Jens Nilsson, Atanas
Publishing Company. Chanev, Gülsen Eryigit, Sandra Kübler, Sve-
toslav Marinov & Erwin Marsi. 2007. MaltPar-
Gamallo, Pablo & Isaac González. 2011. A gram- ser: A language-independent system for data-
matical formalism based on patterns of part-of- driven dependency parsing. Natural Language
speech tags. International Journal of Corpus Engineering 13(2). 115–135.
Linguistics 16(1). 45–71.
Padró, Lluı́s. 2011. Analizadores multilingües en
Gamallo, Pablo, Juan Carlos Pichel, Marcos Gar- FreeLing. Linguamática 3(2). 13–20.
cia, José Manuel Abuı́n & Tomás Fernández- Real Academia Galega e Instituto da Lingua Ga-
Pena. 2015b. Análisis morfosintáctico y clasifi- lega. 2004. Normas ortográficas e morfolóxicas
cación de entidades nombradas en un entorno do idioma galego. Editorial Galaxia.
big data. Procesamiento del Lenguaje Natural
53. 17–24. Sánchez, David & Antonio Moreno. 2006. A
methodology for knowledge acquisition from
Garcia, Marcos. 2016. Incorporating lexico- the web. Journal of Knowledge-Based and In-
semantic heuristics into coreference resolu- telligent Engineering Systems 10(6). 453–475.
tion sieves for named entity recognition at
document-level. Em 10th edition of the Lan- Straka, Milan, Jan Hajič & Jana Straková.
guage Resources and Evaluation Conference 2016. UDPipe: Trainable pipeline for proces-
(LREC), 3357–3361. sing CoNLL-U files performing tokenization,
morphological analysis, POS tagging and par-
Garcia, Marcos & Pablo Gamallo. 2010. Análise sing. Em 10th International Conference on
morfossintáctica para português europeu e ga- Language Resources and Evaluation (LREC),
lego: Problemas, soluções e avaliação. Lin- 4290–4297.
guamática 2(2). 59–67. Vivaldi, Jordi & Horacio Rodrı́guez. 2001. Im-
Garcia, Marcos & Pablo Gamallo. 2014. An proving term extraction by combining different
entity-centric coreference resolution system for techniques. Terminology 7(1). 31–47.
person entities with rich linguistic information.
Em 25th International Conference on Com-
putational Linguistics: Technical Papers (CO-
LING), 741–752.
Garcia, Marcos & Pablo Gamallo. 2015. Yet
another suite of multilingual NLP tools. Em
Symposium on Languages, Applications and
Technologies (SLATE), 65–75.
Projetos, Apresentam-se!
Proposta recebida em Março 2017 e aceite para publicação em Junho 2017.
A figura 2 ilustra um exemplo de sequência conjunto de PTs, e Realizar, cuja função é fazer
de sı́mbolos pictóricos para a qual o método deve a realização lı́nguistica de um template. Mais
produzir como saı́da de processamento a seguinte detalhes sobre esses módulos serão descritos nas
sentença, composta de duas orações: Eu quero próximas subseções.
beber água de coco, mas em casa nós queremos Na subseção 2.1, apresentamos o procedi-
brincar de bola com nossos amigos. mento para aquisição do conhecimento e sua re-
O método para solução deste problema é fun- presentação na base de templates. A subseção 2.2
damentado na fusão das ideias da gramática gera- descreve a técnica para detectar e separar as
tiva (GG) (Chomsky, 1965) e na representação de orações de uma sentença. A subseção 2.3 des-
conhecimento (RC) através de templates (McRoy creve o planejamento de documento e micropla-
et al., 2000, 2003; Reiter, 1995). Da GG, a re- nejamento. Por fim, a subseção 2.4 descreve
levância para este problema reside na base ca- como é feita a realização linguı́stica dos templa-
tegorial que faz parte do componente sintático, tes.
na qual uma oração é formada pelo SN + SV ,
onde SN é um sintagma nominal e SV um sin- Aquisição e Representação do Conheci-
tagma verbal (para este método o SV não inclui mento
o verbo). Da RC, utilizamos, em nı́vel de abs-
tração, o conceito dos sintagmas nominal e verbal A criação e validação do corpus linguı́stico, o
que foram representados na forma de Proposição qual foi utilizado para extrair o conhecimento ne-
de Templete (PT). Uma proposição é uma parte cessário para este método, foram realizadas com
de uma oração, podendo ser um sujeito ou pre- supervisão de pesquisadora-chefe e estudantes de
dicado da mesma. Dessa forma, uma PT é um fonoaudiologia do Departamento de Fonoaudio-
micro-template que pode representar o sintagma logia da Universidade Federal de Sergipe.
SN ou SV de uma oração. Com isso, qualquer que As orações e sentenças que fazem parte desse
seja o nı́vel de granularidade de um template, ele corpus, quando relacionadas com as sequências
deve possuir a estrutura sı́ntatica caracterı́stica de sı́mbolos que as representam, possuem os se-
da lı́ngua portuguesa do Brasil. guintes nı́veis cognitivos: iconicidade, sintaxe e
Para gerar orações ou sentenças por meio de memorização. A iconicidade consiste na com-
templates, o método deve realizar as seguintes ta- preensão e percepção, ao selecionar pictogramas
refas: (i) compor Template de Oração (T O ∼ que represente alguma oração ou sentença. A
SN + SV ) através de combinação de PTs com sintaxe consiste no uso de preposição, pronome,
alguma Att (que é o verbo da oração); (2) com- advérbio e pontuação. Quanto à oração que
por Template de Sentença (TS) através de com- se deseja gerar, ela pode ser simples ou com-
binação de TOs, caso a mensagem de entrada posta. Já a memorização está relacionada à
necessite; e (3) realizar linguisticamente TOs ou quantidade de sı́mbolos pictóricos que podem ser
TSs. Tanto TO quanto TS devem estar em con- representos por uma oração ou sentença. Além
formidade com a mensagem (M) que foi dada disso, os nı́veis cognitivos tercem o domı́nio deste
como entrada para o CTO. Todas essas tare- método, juntamente com a necessidade de produ-
fas são, respectivamente, atribuı́das aos módulos zir orações que expressem noção de ação ou es-
DO, CTO e Realizar, que são apresentados na tado. Estes nı́veis são também aplicados às sen-
figura 1. tenças apresentadas na tabela 2.
A figura 1 apresenta a ligação entre os Assim, a partir da análise desse corpus, foram
módulos que compõem este método. Os módulos confeccionadas 128 PTs que compoẽm a base de
são: Detector de Oração (DO), que por sua vez conhecimento para a solução do problema. Uma
contém um conjunto de caracterı́cas que identi- PT é então representada por slots (que são in-
ficam uma oração em uma sentença, Construtor dicados por <SLT>, <SLV> ou <ATPN>), palavras
de Template de Oração (CTO), que contém um da lı́ngua portuguesa e pela Att. A Att é in-
34– Linguamática Rafael Pereira, Hendrik Macedo, Rosana Givigi e Marco Túlio Chella
deve existir antes da posição i − 1 do token cor- proposição M2=“beber água de coco”. Para
rente i, exeto a sexta caracterı́stica. isso, utiliza-se o possı́vel “anzol” de M2, &de,
de modo que o template escolhido do CPT da
O Construtor de Templates de Orações chave(M2) é o segundo elemento do conjunto. O
(CTO) template completo para a oração T Oi seria então:
<SLT PRP> <Att> <SLV VB> <SLT NN> de
O módulo CTO para esta ferramenta foi baseado <SLT NN>
nos módulos de planejamento definidos por Rei-
ter & Dale (2000). Ele tem a responsabilidade Seja a segunda saı́da (ii) do DO, em IN
de montar a estrutura sintática de uma oração casa NN nós PRP querer VB brincar VB de IN
ou sentença através do TO que pode ser conca- bola NN com IN nossos PRP$ amigos NN. As
tenado a fim de montar o template da sentença proposições neste caso são M1=“em casa nós”,
(TS) de acordo com a sequência de pictogramas. M2=“brincar de bola com nossos amigos” e
Com o resultado (i) do DO para sequência Att=“querer”. Assim, SN=“IN NN PRP”,
de pictogramas (ou mensagem M) ilustrado SV=“VB IN NN IN PRP$ NN”. As chaves que
na figura 2, temos que as proposições são mapeiam os CPTs, onde deve ser encontrada as
M1=“eu” e M2=“beber água de coco”, con- PTs M1 e M2, são chave (M1)=“IN NN PRP”
sequentemente, SN=“PRP”, Att=“querer” e e chave (M1)=“VB IN NN IN PRP$ NN”. Es-
SV=“VB NN IN NN” (para este módulo da fer- tas chaves mapeiam para os seguintes CPTs:
ramenta consideramos o SN e SV à nı́vel mor-
fológico, respectivamente, das proposições M1 1. Chave(M1) = IN NN PRP
e M2). Desta forma, as chaves que ma- (a) em <SLT NN> <SLT PRP>
peiam o conjunto onde devem ser encontradas anzóis=[em]
as PTs de M1 e M2 são chave(M1)=“PRP”
e chave(M2)=“VB NN IN NN”. Os resultados 2. Chave(M2)= VB IN NN IN PRP$ NN
dessas chaves foram obtidos via concatenação dos (a) <SLV VB> de <SLT NN> com nossas
valores armazenados no array de morfemas (visto <SLT NN>
na subseção 2.2). Então, para este exemplo, te- anzóis=[de, com, nossas]
mos que os CPTs são:
(b) <SLV VB> de <SLT NN> com nossos
1. Chave(M1)= PRP <SLT NN>
anzóis=[de, com, nossos]
(a) <SLT PRP> anzóis=[]
Do primeiro conjunto, é selecionado o único
2. Chave(M2) = VB NN IN NN
template que representa a proposição M1=“em
(a) <SLV VB> <SLT NN> com <SLT NN> casa nós”. A seguir, o segundo elemento do CPT
anzóis=[com] identificado pela chave(M2) é selecionado, já
que os possı́veis anzóis são &de, &com &nossos e
(b) <SLV VB> <SLT NN> de <SLT NN>
que o template escolhido está relacionado à pro-
anzóis=[de]
posição M2=“brincar de bola com nossos ami-
O primeiro template do CPT é selecionado, gos”. O template completo para a oração T Oii é:
identificando-se pela chave(M1), que representa em <SLT NN> <SLT PRP> <Att> <SLV VB> de
a proposição M1=“eu”. Este CPT contém ape- <SLT NN> com nossos <SLT NN>
nas PT formado por slot, ou seja, qualquer um
deles pode ser selecionado. A questão é como Caso a chave(M1) ou chave(M2) não referen-
selecionar o template que melhor representa a ciem nenhum CPT deste módulo, será necessário
36– Linguamática Rafael Pereira, Hendrik Macedo, Rosana Givigi e Marco Túlio Chella
inserir na base do sistema templates (PTs) que Para o T Oi do primeiro exemplo, <SLT PRP>
representem a oração desejada. Para que ainda <Att> <SLV VB> <SLT NN> de <SLT NN> , a re-
assim se tenha ao menos uma sentença como alização linguı́stica inicia com PT(M1)=<
saı́da, faz-se necessário um procedimento particu- SLT P RP > preenchendo-se o slot com o pro-
lar: outra chave dentre as existentes deve ser sele- nome “eu”; isto resulta em PT(M1)’=“eu”. A
cionada, desde que seja semelhante à chave(M1) seguir Att=“querer” deve concordar com o su-
ou chave (M2). Esta semelhança será compu- jeito da proposição M1 e deve ser conjugado no
tada através da similaridade do cosseno (inter- presente do indicativo (porque nenhum tempo
valo [0, 1]): verbal foi informado pelo usuário) de forma a
concordar com o pronome: Att’=“quero”. Por
~u.Pi fim, preenche-se os slots da PT(M2)=<SLV VB>
cos(zi ) = ,
k~uk kPi k <SLT NN> de <SLT NN> e, dessa forma, temos
que PT(M2)’=“beber água de coco”. Ao con-
tal que 0 ≤ i ≤ 9 e 0 ≤ zi ≤ π2 , onde a catenar PT(M1)’, Att’, PT(M2)’ e realizar a
chave de uma determinada proposição é o vetor pontução, temos a oração “eu quero beber água
p~ = (m1 , m2 , ..., m9 ) com m sendo o valor da enu- de coco,”.
meração morfológica (número de classes gramati- Para o T O(ii) do segundo exemplo, em
cais consideradas) e P = (~a, ~b, ..., ~n) é o conjunto <SLT NN> <SLT PRP> <Att> <SLV VB> de
de vetores pertencentes ao módulo CTO. O vetor <SLT NN> com nossos <SLT NN> , o primeiro
com maior valor de similaridade será selecionado. slot do template da PT(M1)=em <SLT NN>
Sendo assim, o TS da sentença ilustrada na fi- <SLT PRP> é relacionado com o nome do picto-
gura 2 é montado ao concatenar T Oi , a conjunção grama “casa” e o segundo slot com o pronome
“mas” e T O(ii) , então temos que TS é igual a: “nós”: PT(M1)’=“em casa nós”. Em seguida,
Att=“querer” deve concordar com o sujeito da
<SLT PRP> <Att> <SLV VB> <SLT NN> de proposição M1, que nesse caso é o pronome e
<SLT NN>, mas em <SLT NN> <SLT PRP> <Att> deve ser conjugado no presente do indicativo
<SLV VB> de <SLT NN> com nossos <SLT NN> (por default): Att’=“queremos”. Finalmente,
preenche-se os slots da PT(M2)=<SLV VB> de
<SLT NN> com nossos <SLT NN> com as des-
Realização Linguı́stica crições dos pictogramas, respectivamente, “brin-
car”, “bola” e “amigos”: PT(M2)’=“brincar
O propósito da realização linguı́stica é realizar os de bola com nossos amigos”. Ao concatenar
TOs ou TSs (veja a subseção 2.3), ou seja, pre- PT(M1)’, Att’ e PT(M2)’, a oração realizada
encher os slots com as palavras correspondentes, é “em casa nós queremos brincar de bola com
respeitando a concordância nominal, fazer a con- nossos amigos”.
cordância verbal correta com o sujeito da oração Com isso, temos que TS (= T Oi + T Oii ) rea-
e, finalmente, adicionar os sinais de pontuação. lidazado lingusticamente é igual a esta sentença
Dois dicionários de palavras foram cons- “eu quero beber água de coco, mas em casa nós
truı́dos, considerando apenas palavras relaciona- queremos brincar de bola com nossos amigos”.
das com os sı́mbolos pictóricos presentes na base.
O primeiro dicionário possui palavras que não são
verbos e está organizado da seguinte forma: (i) Discussão
a primeira palavra é a palavra-chave que identi-
fica as demais e não está flexionada em gênero Tendo em vista viabilizar uma comunicação sim-
ou número, (ii) as próximas palavras são flexio- ples e autônoma aos pacientes que ainda estam se
nadas por número e, depois, por gênero. O se- familiarizando com os sı́mbolos pictóricos, se faz
gundo dicionário possui apenas verbos. O pri- necessário passar como entrada para o método
meiro verbo está na forma infinitiva e funciona ao menos um sı́mbolo que represente um verbo
como a palavra-chave. Os verbos seguintes estão (atitude). Isso se dá porque é bastante comum o
flexionados nos tempos verbais Presente e Futuro uso de orações que expressem noção de ação ou
para cada pronome. Com este diciónario, pode-se estado neste tipo de comunicação.
realizar um template nesses dois tempos verbais. Pela mesma razão em que se exige uma ati-
Por padrão, o tempo e a pessoa verbal utilizado tude, o uso de vı́rgulas na entrada do DO (ver
para realização de template é o presente do in- seção 2.2) não é obrigatório. Se a vı́rgula fosse
dicativo e terceira pessoa do singular. Para as omitida no exemplo da subseção 2.2 depois da
demais palavras que não são verbos, o número é palavra “coco”, ainda assim seria possı́vel detec-
singular e o gênero, masculino por padrão. tar a oração, pois neste caso, a entrada casaria
Geração Automática de Sentenças em Lı́ngua Natural para Sequências de Pictogramas Linguamática – 37
com a caractéristica 1 da tabela 1 e estaria em de CAA. Estes protocolos visam a seleção do sis-
conformidade com esta regra da gramatica: usa- tema de signos por meio da compreensão, da
se vı́rgula antes das conjuções “mas”, “porém”, percepção visual (escolha dos sı́mbolos, tama-
“pois”, “embora”, “contudo”, “todavia”, “por- nhos, etc), da mobilidade (acesso aos sistemas
tanto” e “logo”. de auxı́lio técnico: precisão, rapidez, agilidade,
De certo, na montagem de TO ou TS, existe força, etc), do nı́vel cognitivo (nı́vel de iconici-
a amarração de PTs aos anzóis quando os utili- dade, memória, léxico), de aspectos linguı́sticos,
zam para selecionar um PT de CPT (veja a sub- das posições posturais (ex: sentado, deitado,
seção 2.3), embora isso ocorra somente se for pas- etc). Por fim, os protocolos analisam as formas
sado algum sı́mbolo pictórico como entrada para de indicação dos sinais, sendo possı́vel: (i) in-
o método, que é interpretado como um anzol. dicação direta, (ii) direta com auxı́lio, (iii) codifi-
cada, (iv) varredura (ou exploração) dependente
ou (v) varredura independente. Um protocolo de
3 A Ferramenta CA2 JU ESCRITO acompanhamento vem sendo desenvolvido para
registro semanal dos dados que evidenciem como
O método de geração proposto para conversão estão sendo atingidos os objetivos comunicativos
de sequência de pictogramas em texto natural foi para a ferramenta.
aplicado no desenvolvimento de uma ferramenta A corretude dos textos produzidos pela ferra-
de apoio ao profissional que lida, em particular, menta foi avaliada comparando-se com um con-
com crianças que fazem uso da CAA para se co- junto de validação fornecido pelo Laboratório
municarem. (ver tabela 2). A distância de Levenshtein, utili-
A composição visual ordenada de sı́mbolos zada como métrica neste experimento preliminar,
pictóricos deve ser feita da seguinte forma: (1) apontou valor próximo de 0 (zero) para todo o
o profissional seleciona os pictogramas que estão conjunto. Isto significa que a similaridade léxico-
apresentados em um teclado virtual localizado sintática entre as sentenças geradas automatica-
na parte inferior da imagem (figura 3), (2) os mente pela ferramenta e as pertencentes ao con-
sı́mbolos selecionados são apresentados em ordem junto de validação foi muito alta.
da seleção no campo acima do teclado e (3) o
texto será gerado a partir de um click. 4 Conclusão
Os sı́mbolos utilizados na ferramenta perten-
cem ao sistema ARASAAC, que fora desenvol- Este artigo propôs um método para geração au-
vido pelo Portal Aragonês de CAA. Esta é uma tomática de sentenças em linguagem natural a
obra de Sergio Palao para CATEDU,3 que os pu- partir de sequência de sı́mbolos pictóricos, bas-
blica sob a licença Creative Commons. tante utilizados em suporte à Comunicação Al-
Esta ferramenta faz atualmente parte de um ternativa e Ampliada (CAA). O método proposto
conjunto de recursos de CAA do Laboratório de é baseado na confecção de templates que permi-
CAA da Universidade Federal de Sergipe para tem boa variabilidade linguı́stica das construções.
ensaios clı́nicos com pacientes. O método descrito foi utilizado para criação
A escolha de mensagens (em forma de de uma ferramenta de suporte ao profissional de
sequência de sı́mbolos pictóricos) que compõe a CAA que lida com crianças com paralisia cere-
base experimental para testes e validação com bral e com crianças com transtorno do espectro
crianças é baseada em protocolos de avaliação autı́stico. O propósito especı́fico da ferramenta é
bem definidos pelos profissionais do Laboratório propiciar um ambiente computacional para faci-
litar a alfabetização destas crianças. A literatura
3
http://catedu.es/arasaac/ relacionada não mostra quaisquer iniciativas com
38– Linguamática Rafael Pereira, Hendrik Macedo, Rosana Givigi e Marco Túlio Chella
este propósito. A ferramenta possui interface vi- Scott Stevens & Howard Wactlar. 2009. Intel-
sual adequada para composição de sequência de ligent assistive technology, applications to de-
pictogramas por parte do profissional e posterior mentia care: Current capabilities, limitations,
geração do texto natural correspondente. and future challenges. The American Journal
Em experimentação preliminar com um con- of Geriatric Psychiatry 17.
junto de validação fornecido pelo Laboratório
Brodwin, Martin. 2010. Assistive technology.
de CAA da Universidade Federal de Sergipe foi
Em Irving B. Weiner & W. Edward Craighead
mostrado que a geração das sentenças por parte
(eds.), Corsini Encyclopedia of Psychology, 1–
da ferramenta condiz perfeitamente com as sen-
2. John Wiley and Sons.
tenças do conjunto de validação. A ferramenta
é atualmente integrante do conjunto de recursos Chomsky, Noam. 1965. Aspects of the theory of
de CAA do respectivo laboratório e faz parte dos syntax. MIT Press.
ensaios clı́nicos com grupos de controle e experi-
mental. Jurafsky, Daniel & James H. Martin. 2000. Spe-
Trabalhos em andamento consistem no au- ech and language processing: An introduction
mento do conjunto de validação e complexidade to natural language processing, computational
das sentenças-alvo, finalização do protocolo de linguistics and speech recognition Prentice Hall
acompanhamento e, principalmente, avaliação Series in Artificial Intelligence. Prentice Hall.
quantitativa da contribuição da ferramenta en- Light, Janice. 1989. Toward a definition of com-
quanto mecanismo da CAA para a alfabetização municative competence for individuals using
de crianças com deficiência a partir dos grupos ci- augmentative and alternative communication
tados anteriormente. Resultados destes estudos systems. Augmentative and Alternative Com-
são previstos até fim de 2017. munication 5(2). 137–144.
McRoy, Susan W., Songsak Channarukul &
Referências Syed S. Ali. 2000. YAG: a template-based ge-
nerator for real-time systems. Em 1st Interna-
Alant, Ema & Juan Bornman. 1994. Augmen- tional Conference on Natural Language Gene-
tative and alternative communication. South ration (INLG), vol. 14, 264–267.
African Family Practise 15(5).
McRoy, Susan Weber, Songsak Channarukul &
Beukelman, David & Pat Mirenda. 2005. Syed S. Ali. 2003. An augmented template-
Augmentative and alternative communication. based approach to text realization. Natural
Brookes Publishin. Language Engineering 9(4). 381–420.
Bharucha, Ashok J., Vivek Anand, Jodi For- Ramos-Soto, Alejandro, Alberto Jose Bugarı́n,
lizzi, Mary Amanda Dew, Charles F. Reynolds, Senén Barro & Juan Taboada. 2015. Linguistic
Geração Automática de Sentenças em Lı́ngua Natural para Sequências de Pictogramas Linguamática – 39
Brett Drury
Faculty of I.T.,National University of Ireland Galway,Ireland
brett.drury@gmail.com
Robson Fernandes Alneu de Andrade Lopes
ICMC, University of Sao Paulo, Sao Carlos,Brazil ICMC, University of Sao Paulo, Sao Carlos,Brazil
robs.fernandes@outlook.com alneu@icmc.usp.br
O Tarsqi Toolkit contém um conjunto de fer- timento, porém a abordagem dominante para o
ramentas que podem ser usadas para extrair ex- português descoberta nessa revisão é a baseada
pressões de tempo, bem como garantir a sua con- em dicionário. A análise do sentimento base-
sistência. ada em dicionário utiliza-se de recursos lexicais
A literatura de pesquisa contém uma série que possuem palavras ou frases com uma ori-
de estratégias para extrair expressões tempo- entação de sentimento pré-definida. Existem três
rais. Essas estratégias podem ser agrupa- dicionários principais: dois multilı́ngue: Senti-
das em duas categorias: 1. aprendizagem de Lex (Silva et al., 2012), Opinion Lexicon (Souza
máquina (Bethard, 2013; Kolya et al., 2013; et al., 2011) e LIWC (Balage Filho et al.,
Llorens et al., 2010; UzZaman & Allen, 2010) 2013), que é parte de uma aplicação de software.
e 2. hı́brida de aprendizagem de máquina e Avaliou-se os três dicionários e os principais pon-
linguı́stica (Laokulrat et al., 2013; Jung & Stent, tos constatados foram que o Sentilex foi superior
2013). para a classificação de sentimento de documentos
Uma abordagem comum de aprendizado e LIWC produziu os melhores resultados para a
de máquina na literatura de pesquisa é classificação de opinião de sentenças. A análise
a aprendizagem supervisionada com campos do sentimento baseado no dicionário para o por-
aleatórios condicionais (conditional random fi- tuguês foi aplicada a uma série de áreas que in-
els — CRF) (Kolya et al., 2013; Llorens et al., cluı́ram hotéis (Chaves et al., 2012), finanças (Al-
2010; UzZaman & Allen, 2010). As abordagens vim et al., 2010), crı́tica de cinema (Freitas &
hı́bridas usam caracterı́sticas linguı́sticas de da- Vieira, 2013) e polı́tica (Silva et al., 2009).
dos rotulados para gerar modelos em uma es- As estratégias supervisionadas de classificação
tratégia de aprendizagem supervisionada. As do sentimento de aprendizado de máquina exi-
duas principais caracterı́sticas linguı́sticas utili- gem dados de treinamento. Um possı́vel impe-
zadas nas técnicas hı́bridas são as estruturas de dimento para o uso dessas técnicas é a falta de
dependência (Laokulrat et al., 2013) e informação corpos anotados na lı́ngua portuguesa. Esta re-
semântica (Jung & Stent, 2013). visão da literatura descobriu um pequeno número
Existem vários corpora que podem ser usa- de recursos que continham relativamente poucos
dos para avaliar estratégias de extração tempo- recursos: Petronews (1500 documentos) (Alvim
ral. Os dois principais corpora para o Inglês et al., 2010), ReLi (2056 documentos) (Freitas
são: TimeBank (Pustejovsky et al., 2003b) e o et al., 2012) e o conjunto de dados de Drury &
AQUAINT Corpus2 . Esses corpora são relati- de Andrade Lopes (2014) (500 documentos).
vamente pequenos, com 183 e 73 notı́cias, res-
pectivamente. Existem corpora em lı́nguas não- 3 Aquisição do Corpus e Visão Geral
inglesas, tais como para o Francês (Bittar, 2010),
Italiano (Caselli et al., 2011), Romeno (Forascu & O corpus, como já comentado, contém notı́cias
Tufis, , 2012), Espanhol3 e Catalão.4 Para o Por- relacionadas à agricultura escritas em português-
tuguês temos o HAREM (Carvalho et al., 2008), brasileiro. O corpus foi construı́do a partir de
com 129 notı́cias. recursos inéditos pré-existentes e com notı́cias co-
letadas na Internet. As notı́cias foram coletadas
com um “scraper” de sites respeitáveis, como:
Análise de Sentimentos
1. Revista Canavieiros (Sugarcane Magazine).
A análise do sentimento, de acordo com Liu e
2. Jornal Cana (Sugarcane Newspaper).
Zhang, é o estudo computacional das opiniões,
avaliações, atitudes e emoções das pessoas em O “scraper” rodava às 8 horas da manhã, an-
relação a entidades, indivı́duos, questões, even- tes do inı́cio da bolsa de São Paulo. Esta de-
tos, tópicos e seus atributos (Liu & Zhang, 2012). cisão foi tomada para garantir que todas as ex-
O campo é vasto, consequentemente esta pes- periências de negociação que foram feitas com
quisa será limitada à análise de sentimentos da modelos derivados deste corpus seriam “justas”.
lı́ngua portuguesa. O “scraper” correu de 2014 a 2016. O corpus
Existêm vários métodos para a análise do sen- final contém 96.784 documentos.
2
https://tac.nist.gov//data/data_desc.html#
AQUAINT
Caracterı́sticas da Linguagem
3
Disponı́vel em https://catalog.ldc.upenn.edu/
docs/LDC2012T12/ Coleções de documentos ou corpus têm carac-
4
Disponı́vel em https://catalog.ldc.upenn.edu/ terı́sticas especı́ficas de linguagem que são de-
docs/LDC2012T10/ terminadas pelo assunto e estilo do autor. Uma
44– Linguamática Brett Drury and Robson Fernandes and Alneu de Andrade Lopes
AF
Cor
0.5 0.51 0.51 0.52 0.52 0.53 0.53
Con
Cor
Figura 3: Relação entre a frequência das palavras
TLI e o seu rank.
SHF
LOF
1.6 1.8 2 2.2 2.4 2.6 2.8 3
Root
AT CP CL FW MWE POS Se To WV
tópicos pré-computados para cada documento no vras com uma orientação positiva, Wn são pala-
corpus. Os modelos pré-treinados têm uma série vras com orientação negativa e S é a orientação
de variações de hiper parâmetros. As duas prin- do sentimento. Documentos com uma pontuação
cipais variáveis são: técnica de amostragem es- de: 1. S < 0 recebem uma orientação negativa,
tatı́stica Latent Dirichlet Allocation (LDA) ou 2. S > 0 recebem uma orientação positiva e 3.
Latent Semantic Indexing (LSI) (Blei et al., S = 0 recebem uma orientação neutra. O recurso
2003) e 2. número de tópicos. Existem 5 modelos é um arquivo de dicionário “pickled”. O arquivo
que usam LDA. Os modelos usam uma variedade contém: a localização relativa de um documento,
de tópicos na faixa 500 ≤ s ≤ 2500. O número de nome do arquivo e orientação de sentimento. Os
tópicos é incrementado em 500 para cada incre- valores das chaves são o local do arquivo e os va-
mento do modelo. O modelo LSI tem um número lores são a orientação do sentimento.
de tópicos de 2000, o número de tópicos foi deter-
minado pelo trabalho realizado por (Drury et al.,
Agrupamento
2015).
Documentos relacionados podem ser detectados
8 Informações de Nı́vel de Documento por um processo de agrupamento. O processo
de agrupamento para este corpus foi conseguido
Informações de nı́vel de documento no con- usando K-means, e a distribuição tópica acima
texto deste artigo são aquelas que descrevem mencionada. K foi ajustado para 200 usando Da-
informações contidas em um documento indivi- vies Bouldin Index (DBI) para calcular a “qua-
dual. Existem 4 tipos de informações do do- lidade” de várias configurações de agrupamento.
cumento: Distribuição do tópico; Orientação do A medida de distância que foi usada para compu-
sentimento; Número do grupo; e Frases de causa. tar os agrupamentos foi a distribuição de tópicos
Os recursos estão localizados respectivamente de cada documento.
nas pastas Topic Resources, Sentiment, Clusters Os clusters e seus documentos componentes
e Cause Phrases. são fornecidos em um formato de dicionário ”pic-
kled”. A chave é um número de cluster nomi-
nal e o valor são os documentos. Para ilustrar
Distribuição do Tópico a semelhança de documentos que fazem parte do
As informações do documento de distribuição de mesmo cluster são apresentados na Tabela 9.Os
tópicos estão contidas em um arquivo de texto. documentos contêm o mesmo tema da predição
Cada linha dentro do arquivo de texto repre- de colheita. O uso de tópicos em vez de seme-
senta um único documento. Cada linha contém o lhança de palavras produziu clusters que contêm
nome do documento e uma coleção de números de o mesmo tema, ao invés da mesma palavra.
tópicos com uma probabilidade. O separador en- Documento 1 Documento 2
tre o número do tópico e sua probabilidade é um As usinas e destilarias A Organização Interna-
espaço, e o separador entre o número de tópicos do Centro-Sul do Brasil cional do Café (OIC),
e os pares de probabilidade é uma tabulação. A dão inı́cio nesta sexta, em sua primeira esti-
dia 1o de abril, a mais mava para a produção
distribuição de probabilidade foi calculada com
uma safra de cana-de- mundial no ano-safra
LDA e 2000 tópicos. Estes valores foram deriva- açúcar, com perspecti- 2015/2016, prevê co-
dos do trabalho realizado por Drury et al. (2015). vas favoráveis. A prin- lheita de 143,4 milhões
cipal região produtora de sacas de 60 kg,
do paı́s irá processar indicando um aumento
Orientação do Sentimento em 2016/2017 619,37 modesto de 1,4% em
milhões de toneladas de relação ao ano-safra
A orientação do sentimento para um documento cana (+2,3%). ........ de 2014/2015 (141,4
foi alcançada contando o número de palavras com milhões)......
uma orientação sentimental. As palavras com
uma orientação do sentimento neste caso são pa-
Tabela 9: Fragmentos de texto dos documentos
lavras com uma orientação positiva ou negativa
no mesmo grupo (cluster ).
do sentimento. As palavras com uma orientação
neutra são ignoradas porque dominariam o docu-
mento. O cálculo pode ser representado:
Relações Causais
S = f req(Wp ) − f req(Wn ),
Os documentos anotados fornecem uma relação
onde f req é a frequência de palavras com uma de- de causa anotada, mas para extrair todas as
terminada orientação de sentimento,Wp são pala- relações de causa pode ser uma tarefa onerosa. O
52– Linguamática Brett Drury and Robson Fernandes and Alneu de Andrade Lopes
corpus fornece uma lista de relações de causa pré- como por exemplo o UDPortugueseBR10
extraı́das. A relação de causa é um arquivo de-
limitado por tabulação que representa a relação
de causa como um triplo: 11 Conclusão
in Information and Human Language Techno- Forascu, Corina & Dan Tufis, . 2012. Romanian
logy (STIL), 215–219. TimeBank: An annotated parallel corpus for
Bethard, Steven. 2013. ClearTK-TimeML: A mi- temporal information. Em Eight International
nimalist approach to TempEval 2013. Em Se- Conference on Language Resources and Evalu-
cond Joint Conference on Lexical and Compu- ation (LREC), 3762–3766.
tational Semantics (SEM), 10–14. Freitas, Cláudia, Eduardo Motta, R. Milidiú &
Bittar, André. 2010. Building a TimeBank for Juliana César. 2012. Vampiro que brilha. . . rá!
French: a reference corpus annotated accor- desafios na anotaçao de opinião em um cor-
ding to the ISO-TimeML standard : Paris 7. pus de resenhas de livros. Em XI Encontro de
Tese de Doutoramento. Linguı́stica de Corpus, s/p.
Blei, David M., Andrew Y. Ng & Michael I. Jor- Freitas, Larissa A. & Renata Vieira. 2013. Onto-
dan. 2003. Latent dirichlet allocation. Journal logy based feature level opinion mining for Por-
of machine Learning research 3. 993–1022. tuguese reviews. Em 22nd International Con-
Carvalho, Paula, Hugo Gonçalo Oliveira, Diana ference on World Wide Web (WWW), 367–
Santos, Cláudia Freitas & Cristina Mota. 2008. 370.
Segundo HAREM: Modelo geral, novidades e Jung, Hyuckchul & Amanda Stent. 2013. ATT1:
avaliação. Em Desafios na avaliação conjunta Temporal annotation using big windows and
do reconhecimento de entidades mencionadas: rich syntactic and semantic features. Em Se-
O Segundo HAREM, 11–31. Linguateca. cond Joint Conference on Lexical and Compu-
Caselli, Tommaso, Valentina Bartalesi Lenzi, Ra- tational Semantics (SEM), 20–24.
chele Sprugnoli, Emanuele Pianta & Irina Pro- Khoo, Christopher, Syin Chan & Yun Niu.
danof. 2011. Annotating events, temporal 2002. The many facets of the cause-effect rela-
expressions and relations in Italian: the It- tion. Em Rebecca Green, Carol A. Bean &
TimeML experience for the Ita-TimeBank. Em SungHyon Myaeng (eds.), The Semantics of
5th Linguistic Annotation Workshop, 143–151. Relationships, vol. 3 Information Science and
Chaves, Marcı́rio Silveira, Larissa A. de Freitas, Knowledge Management, 51–70. Springer.
Marlo Souza & Renata Vieira. 2012. Pirpo: Khoo, Christopher S. G., Syin Chan & Yun Niu.
An algorithm to deal with polarity in portu- 2000. Extracting causal knowledge from a me-
guese online reviews from the accommodation dical database using graphical patterns. Em
sector. Em International Conference on Ap- 38th Annual Meeting on Association for Com-
plication of Natural Language to Information putational Linguistics, 336–343.
Systems, 296–301.
Kolya, Anup Kumar, Amitava Kundu, Rajdeep
Drury, Brett & Alneu de Andrade Lopes. 2014.
Gupta, Asif Ekbal & Sivaji Bandyopadhyay.
A comparison of the effect of feature selection
2013. JU CSE: A CRF based approach to
and balancing strategies upon the sentiment
annotation of temporal expression, event and
classification of Portuguese news stories. Em
temporal relations. Em Second Joint Confe-
Encontro Nacional de Inteligência Artificial e
rence on Lexical and Computational Semantics
Computacional (ENIAC), 413–417.
(SEM), 64–72.
Drury, Brett & Alneu de Andrade Lopes. 2015.
The identification of indicators of sentiment Laokulrat, Natsuda, Makoto Miwa, Yoshimasa
using a multi-view self-training algorithm. Tsuruoka & Takashi Chikayama. 2013. Ut-
Oslo Studies in Language 7. time: Temporal relation classification using
deep syntactic features. Em Second Joint Con-
Drury, Brett, Jorge Carlos Valverde-Rebaza & ference on Lexical and Computational Seman-
Alneu de Andrade Lopes. 2015. Causation ge- tics (SEM), 88–92.
neralization through the identification of equi-
valent nodes in causal sparse graphs construc- Liu, Bing & Lei Zhang. 2012. A survey of opinion
ted from text using node similarity strategies. mining and sentiment analysis. Em Charu C.
Em International Symposium on Information Aggarwal (ed.), Mining text data, 415–463.
Management and Big Data, 58–65. Springer.
Fonseca, Erick R. & João Luı́s G. Rosa. 2013. A Llorens, Hector, Estela Saquete & Borja Navarro.
two-step convolutional neural network appro- 2010. TIPSem (English and Spanish): Evalua-
ach for semantic role labeling. Em Interna- ting CRFs and semantic roles in TempEval-2.
tional Joint Conference on Neural Networks, Em 5th International Workshop on Semantic
2955–2961. Evaluation (SemEval), 284–291.
54– Linguamática Brett Drury and Robson Fernandes and Alneu de Andrade Lopes
Mikolov, Tomas, Ilya Sutskever, Kai Chen, Strötgen, Jannik & Michael Gertz. 2010. Heidel-
Greg S Corrado & Jeff Dean. 2013. Distribu- time: High quality rule-based extraction and
ted representations of words and phrases and normalization of temporal expressions. Em 5th
their compositionality. Em Advances in neural International Workshop on Semantic Evalua-
information processing systems, 3111–3119. tion, 321–324.
Pustejovsky, James, José M. Castaño, Robert In- Thomson, Judith Jarvis. 1987. Verbs of action.
gria, Roser Saurı́, Robert J. Gaizauskas, An- Synthese 72(1). 103–122.
drea Setzer & Graham Katz. 2003a. TimeML: UzZaman, Naushad & James F. Allen. 2010.
robust specification of event and temporal ex- TRIPS and TRIOS system for TempEval-2:
pressions in text. Em Mark T. Maybury (ed.), Extracting temporal information from text.
New directions in question answering, 28–34. Em 5th International Workshop on Semantic
AAAI Press. Evaluation (SemEval), 276–283.
Pustejovsky, James, Patrick Hanks, Roser Saurı́, Vendler, Zeno. 1967. Causal relations. The Jour-
Andrew See, Robert Gaizauskas, Andrea Set- nal of Philosophy 64(21). 704–713.
zer, Dragomir Radev, Beth Sundheim, David
Day, Lisa Ferro & Marcia Lazo. 2003b. The
TIMEBANK corpus. Em Corpus linguistics,
647–656.
Qiu, Guang, Bing Liu, Jiajun Bu & Chun Chen.
2009. Expanding domain sentiment lexicon th-
rough double propagation. Em International
Joing Conference on Artificial Intelligence (IJ-
CAI), vol. 9, 1199–1204.
Rodrigues, João, Francisco Costa, João Silva &
António Branco. 2014. Automatic syllabifica-
tion of portuguese. Encontro Anual da Asso-
ciação Portuguesa de Linguı́stica 715–720.
Shams-Eddien, Katrin. 2002. Beth Levin’s En-
glish verbs classes and alternations. Free Uni-
versity of Berlin.
Silva, Joao, António Branco, Sérgio Castro &
Ruben Reis. 2010. Out-of-the-box robust par-
sing of Portuguese. Em International Confe-
rence on Computational Processing of the Por-
tuguese Language (PROPOR), 75–85.
Silva, Mário J., Paula Carvalho & Luı́s Sarmento.
2012. Building a sentiment lexicon for social
judgment mining. Em International Confe-
rence on Computational Processing of the Por-
tuguese Language (PROPOR), 218–228.
Silva, Mário J., Paula Carvalho, Luı́s Sarmento,
Pedro Magalhães & Eugénio Oliveira. 2009.
The design of OPTIMISM, an opinion mining
system for Portuguese politics. Em New trends
in artificial intelligence: Proceedings of EPIA,
12–15.
Souza, Marlo, Renata Vieira, Débora Busetti,
Rove Chishman & Isa Mara Alves. 2011. Cons-
truction of a Portuguese opinion lexicon from
multiple resources. Em 8th Brazilian Sympo-
sium in Information and Human Language Te-
chnology, 59–66.
http://www.linguamatica.com/
Artigos de Investigação
Abordagem com Regras e Conhecimento Semântico para
a Resolução de Correferências
Evandro Fonseca, Vinicius Sesti, André Antonitsch, Aline Vanin e
Renata Vieira
LinguaKit: uma ferramenta multilingue para análise
linguı́stica e extração de informação
Pablo Gamallo e Marcos Garcia
Projetos, Apresentam-se!
Geração Automática de Sentenças em Lı́ngua Natural
lingua