Você está na página 1de 478

Oslo Studies in Language

7 (1) / 2015

Alberto Simes, Anabela Barreiro, Diana Santos,


Rui Sousa-Silva & Stella E. O. Tagnin (eds.)

Lingustica, Informtica e Traduo:


Mundos que se Cruzam
Homenagem a Belinda Maia

Oslo Studies in Language


General editors: Atle Grnn and Dag Haug

Issue editors:
Alberto Simes
Anabela Barreiro
Diana Santos
Rui Sousa-Silva
Stella E. O. Tagnin

Universidade do Minho & Linguateca


INESC-ID & Linguateca
University of Oslo & Linguateca
Universidade do Porto
Universidade de So Paulo

Reviewers:
Alberto Simes
Alexandre Rademaker
Ana Maria Brito
Anabela Barreiro
Brett Drury
Cludia Freitas
Cristina Mota
Diana Santos
Eckhard Bick
Eugnio Oliveira
Franoise Bacquelaine
Ftima Oliveira
Hugo Gonalo Oliveira
Isabel Galhano
Jorge Teixeira
Jos Joo Dias de Almeida

Joo Veloso
Lus Costa
Lus Miguel Cabral
Lus Trigo
Maria Jos Finatto
Miriam Leite
Mrio J. Silva
Paula Carvalho
Paulo Rocha
Pavel Brazdil
Rui Sousa-Silva
Signe Oksefjell Ebeling
Stella E. O. Tagnin
Slvia Arajo
Thomas Hsgen

Oslo Studies in Language


7 (1) / 2015

Alberto Simes, Anabela Barreiro, Diana Santos,


Rui Sousa-Silva & Stella E. O. Tagnin (eds.)

Lingustica, Informtica e Traduo:


Mundos que se Cruzam
Homenagem a Belinda Maia

Oslo Studies in Language, 7(1), 2015.


Simes, Barreiro, Santos, Sousa-Silva & Tagnin (eds.):
Lingustica, Informtica e Traduo: Mundos que se Cruzam.
Oslo, University of Oslo
ISSN 1890-9639
ISBN 978-82-91398-11-2 (printed)
ISBN 978-82-91398-12-9 (electronic)
2015 the authors
Set in LATEX fonts Gentium Book Basic and Linux Libertine.
Cover design by UniPub publishing house.
Printed by Print House AS from camera-ready copy supplied by the editors.
This work is founded by Portuguese National Funds through
Portuguese Science and Technology Foundation (Project PEst-OE/LIN/UI0022/2014)
http://www.journals.uio.no/osla

Contents
Mundos que se Cruzam

Alberto Simes, Anabela Barreiro, Diana Santos, Rui Sousa-Silva e Stella E.O. Tagnin

Para uma ontologia dos estudos de traduo

Thomas J. C. Hsgen

Corpgrafo, Terminologie, Phrasologie

21

Franoise Bacquelaine

Estudo preliminar da anfora num corpus de interpretao


simultnea

39

Slvia Arajo e Ana Correia

A admirao luz dos corpos

57

Diana Santos e Cristina Mota

Emprstimo lexical, conceptualizao e variao: Para a


abordagem sociocognitiva e socioletomtrica dos
estrangeirismos no portugus

79

Augusto Soares da Silva

Automatic Anonymisation of a new Portuguese-English Parallel


Corpus in the Legal-Financial Domain
101
Eckhard Bick and Anabela Barreiro

Japo visto de Portugal: Explorao usando um corpo de textos


jornalsticos
125
Lus Fernando Costa

Pesquisa em educao: perspectivas (qualitativas?) na explo139


rao de grandes corpora
Miriam Leite e Cludia Freitas

ENCADEAr: ENCADEAmento automtico de notcias


Carla Abreu, Jorge Teixeira e Eugnio Oliveira
v

153

vi

CONTENTS

Affinity Mining of Documents Sets via Network Analysis,


Keywords and Summaries

183

Pavel Brazdil, Lus Trigo, Joo Cordeiro, Rui Sarmento, and


Mohammadreza Valizadeh

Traduo automtica, ma non troppo

207

Anabela Barreiro

Estudos de Terminologia no Brasil: dilogos com Portugal

223

Maria Jos Bocorny Finatto

Ensinador Paralelo: Alicerces para uma pedagogia nova

235

Diana Santos e Alberto Simes

A tool at hand gestures and rhythm in listing events:


Case studies of European and African Portuguese speakers

253

Isabel Galhano Rodrigues

Traduo Automtica na Interao com Mquinas

283

Antnio Teixeira, Jos Casimiro Pereira, Pedro Francisco e Nuno Almeida

Reporter fired for plagiarism: a forensic linguistic analysis of


news plagiarism

301

Rui Sousa-Silva

The English R Coming! The never ending story of Portuguese


323
rhotics
Joo Veloso

Two base generated structures for ditransitives in European


Portuguese

337

Ana Maria Brito

Corpus-driven glossaries in translator training courses

359

Stella Esther Ortweiler Tagnin

The identification of indicators of sentiment using a multi-view


self-training algorithm
379
Brett Drury and Alneu de Andrade Lopes

As WordNets do Portugus

397

Hugo Gonalo Oliveira, Valeria de Paiva, Cludia Freitas, Alexandre Rademaker,


Livy Real e Alberto Simes

SentiLex-PT: Principais caractersticas e potencialidades


Paula Carvalho e Mrio J. Silva

425

CONTENTS

vii

Loving and hating in English and Portuguese:


A corpus-based contrastive study

439

Activities with culmination

457

Signe Oksefjell Ebeling

Ftima Oliveira and Antnio Leal

viii

CONTENTS

Simes, Barreiro, Santos, Sousa-Silva & Tagnin (eds.) Lingustica, Informtica e Traduo: Mundos
que se Cruzam, Oslo Studies in Language 7(1), 2015. 18. (ISSN 1890-9639 / ISBN 978-82-9139812-9)
http://www.journals.uio.no/osla

mundos que se cruzam


ALBERTO SIMES, ANABELA BARREIRO, DIANA SANTOS,
R U I S O U S A- S I L V A E S T E L L A E . O . T A G N I N
Preparar um livro de homenagem a Belinda Maia , simultaneamente, uma satisfao e um desafio. E esse desafio reflete-se, no s no nmero e na qualidade
das contribuies daqueles que quiseram e puderam prestar-lhe homenagem, mas
tambm na escolha do prprio ttulo deste livro. As 15 propostas diferentes que
chegaram at ns revelam o entusiasmo e empenho que os autores e editores demonstraram nesta iniciativa. O ttulo, Lingustica, Informtica e Traduo: Mundos que se Cruzam, foi decidido depois de um processo de seleo pelos autores, de entre uma srie de propostas cativantes, incluindo: Lnguas sem fronteiras,
As maravilhas da lngua: What a wonderful word!, Belinda in language wonderland ou
mesmo Belinda through the language-glass. Estes e outros ttulos aludem traduo, criatividade lingustica e ao fascinante domnio das lnguas, inspirando-se
nas obras de Lewis Carroll, Alice no Pas das Maravilhas e Alice do outro lado do espelho obras queridas da Belinda. A lista poderia ser infindvel, considerando
que o contributo da Belinda para a cincia no se esgota nas lnguas, tendo contribudo significativamente para a terminologia, a lingustica e as tecnologias da
linguagem humana, entre outras.
De um ponto de vista prtico, e apesar de vrias conversas prvias sobre o
assunto, o livro comeou de facto em junho de 2014 com a primeira chamada
secreta, claro de contribuies e com a discusso de ideias de como homenagear a Belinda. Fazer com que o projeto avanasse, mantendo simultaneamente
secreta toda a iniciativa, dificultou um pouco as questes operacionais. Por exemplo, o financiamento ou publicao deste volume pela prpria Universidade do
Porto no foi possvel pois, muito provavelmente, viria a ser descoberto. Esta ,
alis, a principal razo de este volume ser publicado por uma universidade estrangeira. Queremos, portanto, explicar que os colegas da Belinda na Universidade do
Porto e no Centro de Lingustica da Universidade do Porto deram o seu apoio e
participaram ativamente e entusiasticamente nesta iniciativa, e que foi apenas a
burocracia, junto com uma vontade dos editores de inovar e de manter a surpresa,
que levou ao presente arranjo.
No decurso da preparao do presente volume, muitos outros colegas, alunos
ou simplesmente admiradores da Belinda quiseram juntar-se mas, por diversas
razes, no o conseguiram fazer. Para evitar omisses que pudessem ser mal interpretadas, decidimos no mencionar os muitos que, embora interessados, vieram a desistir em diferentes fases, sobretudo porque, devido ao critrio de top

[2]

simes, barreiro, santos, sousa-silva & tagnin


secret, poderemos ter, por lapso, deixado de informar muita gente que quereria e poderia ter participado. O que certo que sabemos que este livro tem o
apoio moral de muitos mais do que os autores que conseguiram contribuir nos
prazos apertados que propusemos. Seja como for, agradecemos vivamente a todos os autores que no s apoiaram, mas que contriburam com o seu texto e com
as revises dos outros artigos.
Poderamos aqui descrever todo o processo de construo do livro, todas as
fases, desde as chamadas de artigos at recolha dos comentrios, passando pelas decises sobre formatao, lnguas, transcrio, entre muitas outras tarefas
que, motivados pela dedicao Belinda, fomos realizando ao longo destes ltimos meses; porm, essa descrio no nos parece relevante. O nico aspeto que
parece necessrio realar que a ordem pela qual apresentamos as contribuies
totalmente aleatria. Fizeram-se vrias tentativas para agrupar os artigos em
diferentes seces, mas a verdade que tal seria limitar e contrariar a viso multidisciplinar deste grupo de pessoas inspiradas pela Belinda.

lingustica, informtica e traduo


Passamos a descrever muito rapidamente as diferentes contribuies. Vrios foram os contributos centrados na traduo. Em Traduo automtica, ma non
tropo, Anabela Barreiro discute duas tarefas da traduo automtica que exigem
a interveno de especialistas lingusticos, a pr-edio de texto e a avaliao da
traduo automtica, tendo como objetivo realar a importncia do fator humano
no processo de traduo automtica. Este um aspeto para o qual Belinda Maia
tem chamado repetidas vezes a ateno. Por seu lado, a contribuio de Antnio
Teixeira et al., Traduo automtica na interao com mquina, apresenta dois
casos de aplicao ao portugus de traduo automtica na rea da interao entre os seres humanos e as mquinas: a converso de informao sobre planos de
medicao e o comando por voz.
J na rea do ensino da traduo, em Ensinador paralelo: Alicerces para uma
pedagogia nova, Diana Santos e Alberto Simes apresentam uma nova ferramenta de apoio ao ensino de tradutores que permite produzir exerccios baseados
em tradues j feitas, estudando tambm quatro tradues de Lewis Carroll para
o portugus.
Igualmente com nfase no ensino de traduo, Stella E.O. Tagnin apresenta,
em Corpus-driven glossaries in translator training courses, um relato prtico do
recurso a uma abordagem orientada pelo corpo para a extrao de terminologia
em textos tcnicos. Essa metodologia foi aplicada com bastante sucesso em vrias
ocasies no Curso de Especializao em Traduo da Universidade de So Paulo,
tendo alguns trabalhos resultado em publicaes comerciais.
Num nvel mais terico, o artigo de Thomas Hsgen, Para uma ontologia dos
Estudos de Traduo. Comentrios sobre a proposta de S. Vandepitte (2008), proOSLa volume 7(1), 2015

mundos que se cruzam

[3]

pe um conjunto de sugestes para um novo mapa coerente e consistente dos


estudos da traduo, a partir de quatro perspetivas: o acrscimo de termos, a
identificao de outros nveis hierrquicos, a modificao de sinnimos e a sugesto de novas relaes associadas.
Durante a traduo, um dos recursos mais teis a um tradutor o acesso a
terminologia. Nessa direo, o artigo de Maria Jos Finatto, Estudos de Terminologia no Brasil: dilogos com Portugal, contrasta artigos de autores brasileiros e
portugueses, que abordam a identificao de terminologia a partir de corpos, salientando o papel fundamental que Belinda Maia teve como disseminadora dessa
metodologia.
Em relao extrao de terminologia a partir de corpos, Franoise Bacquelaine apresenta a evoluo do Corpgrafo, ferramenta idealizada pela prpria Belinda, em Corpgrafo, terminologie, phrasologie, de 2003 at 2008. Alm disso,
relata duas experincias do uso do Corpgrafo. Na primeira, estuda a neonmia
comparada da terminologia Bluetooth em ingls, francs e portugus. Na segunda, aborda o uso dos quantificadores universais chaque/cada, tout/todo o e tous
les/todos os em francs e em portugus de Portugal.
Sendo o Corpgrafo uma ferramenta baseada na anlise e processamento de
corpos, no de estranhar que vrias tenham sido as contribuies que fazem uso
deste tipo de recurso para os mais diferentes estudos.
Augusto Soares da Silva apresenta um estudo comparativo do sucesso dos estrangeirismos em portugus europeu e portugus brasileiro. No seu artigo Emprstimo lexical, conceptualizao e variao: Para a abordagem sociocognitiva
e socioletomtrica dos estrangeirismos no portugus, o autor aplica o novo modelo sociocognitivo e socioletomtrico do emprstimo lexical ao portugus como
lngua pluricntrica, utilizando um corpo de textos nos domnios do futebol e da
moda.
Por um lado, em A admirao luz dos corpos, Diana Santos e Cristina Mota
estudam o campo da admirao em portugus com base nos corpos da Gramateca,
inspirando-se na tese de doutoramento de Belinda Maia sobre as emoes em ingls e portugus. Por outro lado, Signe Oksefjell, em Love and hate in English
and Portuguese, faz um estudo do par love/hate tambm em ingls e portugus,
inspirando-se no contraste entre o ingls e o noruegus feito h alguns anos por
Stig Johansson.
Em Pesquisa em educao: perspetivas (qualitativas?) na explorao de grandes corpora, Miriam Leite e Cludia Freitas apresentam os resultados de dois
estudos baseados em corpos aplicados investigao educacional: um corpo de
blogues criado e mantido por escolas pblicas e um outro, de materiais de ensino,
usado em escolas pblicas, chamando a ateno para as potencialidades do uso de
corpos no estudo da educao, ao mesmo tempo referindo alguns perigos do uso
acrtico de ferramentas apenas quantitativas.
OSLa volume 7(1), 2015

[4]

simes, barreiro, santos, sousa-silva & tagnin


Um estudo eminentemente cultural associado representao de um pas na
imprensa de outro o artigo de Lus Costa O Japo visto de Portugal Explorao
usando um corpo de textos jornalsticos, que , como o nome indica, um estudo
exploratrio extraindo informaes de um jornal. O artigo de Carla Abreu, Jorge
Teixeira e Eugnio Oliveira, por seu lado, usa um corpo jornalstico para criar automaticamente novas histrias, em Construo automtica de histrias a partir
de notcias, e um bom exemplo de uma rea ou preocupao que a Belinda sempre defendeu: aplicaes concretas graas ao progresso tecnolgico.
Para que os estudos mencionados acima sejam possveis necessria a existncia de corpos. Nessa vertente, algumas contribuies relatam problemas e desafios na sua construo.
Em Automatic anonymization of a new Portuguese-English parallel corpus
in the legal-financial domain, Eckhard Bick e Anabela Barreiro apresentam um
novo corpo paralelo portugus-ingls do domnio jurdico-financeiro, em que realizaram a anonimizao de entidades mencionadas para efeitos de preservao
da privacidade e proteo de dados, uma questo importante que merece mais
reflexo na rea da traduo.
J Slvia Arajo e Ana Correia, em Estudo preliminar da anfora num corpus de interpretao, apresentam o processo de compilao de um corpo multimdia bidirecional ingls-portugus o Corpo de Interpretao/Per-Fide e
discutem resultados preliminares referentes s relaes anafricas em dados autnticos de interpretao simultnea. Como a anfora uma rea crtica dessa
atividade profissional, as autoras destacam a contribuio que a explorao desse
corpo pode trazer para a formao de intrpretes simultneos.
O estudo da lngua no pode esquecer os fundamentos lingusticos. Nesse sentido, em Activities with culmination, Ftima Oliveira e Antnio Leal propem
um novo tratamento de um fenmeno aspetual, sugerindo a existncia de trs tipos de verbos em portugus: os que no seu significado lexical incluem um ponto
final (tlicos), os que no o incluem nem podem incluir (atlicos) e os proposta
nova alfatlicos, que podem ou no corresponder a um processo culminado.
J no seu estudo sobre a sintaxe do portugus, Ana Maria Brito questiona se
o portugus europeu tem alternncia dativa. Em Two base generated structures
for ditransitives in European Portuguese, a autora recorre ao estudo de certos
factos de ordem de palavras, anteposio, ligao e escopo, concluindo que, embora num sentido distinto do de outras lnguas, esta lngua tem alternncia dativa.
Concentrando-se, por sua vez, no oral, Joo Veloso estuda as mudanas operadas nos rticos do portugus, em Here come the English Rs! The never ending
story of Portuguese rhotics. Utilizando o corpo do Arquivo Dialetal do Centro de
Lingustica da Universidade do Porto, o autor procura identificar e datar mudanas menos estudadas nesta classe consonntica do portugus.

OSLa volume 7(1), 2015

mundos que se cruzam

[5]

Mas a comunicao humana inclui, ainda, outras reas, como o artigo A tool
at hand: gestures and rhythm in listing events Case studies of European and
African Portuguese speakers demonstra. Isabel Galhano Rodrigues descreve um
estudo etnogrfico de gestos e linguagem corporal em interao. Baseando-se
num corpo de quatro interaes de falantes de diferentes culturas, a autora analisa aspetos morfolgicos e padres rtmicos como forma de deteo de regularidades e diferenas (culturais) dos gestos.
Como a Belinda props e estudou, enquanto pioneira com base em corpos, uma
das funes da linguagem exprimir emoes e sentimentos. Se na comunicao
oral e presencial possvel tirar partido da linguagem corporal e da entoao, na
comunicao escrita esse sentimento torna-se mais complicado de detetar, sendo
a rea de deteo de sentimento por computador uma das mais movimentadas
neste momento.
Assim, Brett Drury e Alneu Lopes, em The identification of indicators of sentiment using a multi-view self-training algorithm, escrevem sobre a identificao
de sentimento usando algoritmos de aprendizagem, em que os resultados atingiram nveis de 70% de preciso.
Tambm relacionado com este tpico, em SentiLex-PT: Principais caractersticas e potencialidades, Paula Carvalho e Mrio Silva apresentam um lxico com
informao de sentimento e demonstram a sua aplicao em dois corpos distintos.
No s este tipo de estudo pode tirar partido de ontologias, rea que sempre
esteve entre as preferidas da Belinda. Em As Wordnets do Portugus, Hugo Gonalo Oliveira et al. apresentam vrias das WordNets existentes para o portugus,
discutindo as suas principais diferenas e semelhanas, e discutindo de que forma
estas iniciativas podem criar sinergias na melhoria dos respetivos recursos.
Finalmente, e voltando ao campo das aplicaes e estudo de textos concretos,
o artigo de Pavel Brazdil et al., Affinity mining of documents sets with network
analysis enriched by keywords and summaries, apresenta algumas experincias
de uso de algoritmos de minagem de textos para detetar similaridades entre documentos. Por seu turno, em Reporter fired for plagiarism: a forensic linguistic
analysis of news plagiarism, Rui Sousa-Silva deteta outro tipo de similaridades
mais problemticas, nomeadamente no campo do plgio jornalstico. Recorrendo
a casos ocorridos nos ltimos anos, o autor mostra que o texto noticioso , frequentemente, objeto de plgio, e ilustra de que modo uma abordagem lingustica
de natureza forense a permite detetar.

OSLa volume 7(1), 2015

[6]

simes, barreiro, santos, sousa-silva & tagnin

d e d i c at r i a s
Dando a palavra aos editores:
Conheci pessoalmente a Belinda em terras estranhas, no LREC 2002 em
Palma de Maiorca, e desde logo fui contagiada pelo seu entusiasmo e vontade
de contribuir para melhorar o panorama da lingustica computacional em
Portugal, mais surpreendente ou comovente por ela ser inglesa e no portuguesa. Camos nos braos uma da outra, como se diz em bom portugus
(mas obviamente no literalmente) e desde a desenvolvemos uma relao
profissional e de amizade de que muito me orgulho. Penso que como lusofalantes no nos devemos envergonhar de reconhecer que uma das pessoas em
Portugal que mais fez pelos estudos de traduo, pelos estudos contrastivos,
e pela lingustica computacional no nosso pas foi uma inglesa do Porto. Esta
homenagem pois o mnimo que me parece natural fazer-lhe. Mais fizera,
no fosse to curto o prazo que tivemos para produzir este livro.
Diana Santos
Carssima Belinda, j nem sei mais quando nos conhecemos. Se no me
falha a memria foi no I CULT em Bertinoro, nos idos de 1997. Que conferncia
excelente! J l percebi que tnhamos abordagens similares no nosso trabalho com os alunos de traduo. A partir da mantivemos contato estreito e em
1998 estiveste em So Paulo para uma conferncia da ABRAPT. Em 2002 tive
o prazer de ter uma contribuio sua para os Cadernos de Traduo, da
UFSC, num nmero especial sobre Lingustica de Corpus. Em 2003 cruzamos
no Corpus Linguistics em Lancaster e voc nos proporcionou um belssimo
tour pela countryside inglesa era seu aniversrio, lembra? Nosso convvio
maior foi em 2004. Voc se recorda do congresso da ABRAPT em Fortaleza,
precedido por aquele maravilhoso fim-de-semana em Guajiru? Inesquecvel,
n? Em compensao, como fizemos voc trabalhar naquele congresso! No
mesmo ano apresentamos um trabalho Ideias que cruzam o oceano
no congresso da EST, em Lisboa, abordando nossos pontos em comum. Foi
quando voc, gentilmente, nos convidou, a mim e ao Franco, para ficar em
sua casa e nos ciceroneou pelo norte de Portugal. Que maravilhosa guia e motorista voc ! Lamento apenas que estejamos em lados opostos do Atlntico.
Como eu gostaria de ter tido a oportunidade de trabalhar mais de perto com
voc, uma pesquisadora admirvel, ecltica, generosa, mas p-no-cho,
sempre procurando desenvolver estudos e ferramentas (leia-se Corpgrafo)
que tenham aplicao prtica na traduo e na terminologia. Curta muito
sua aposentadoria.
Stella E.O. Tagnin
OSLa volume 7(1), 2015

mundos que se cruzam

[7]

No momento da sua jubilao, no poderia deixar de prestar homenagem a uma mestre insigne da traduo em Portugal, a professora Belinda
Maia. Fao-a por meio de dois artigos, um sobre a anonimizao de entidades mencionadas num corpus de traduo profissional do domnio jurdicofinanceiro, o outro sobre as tarefas de pr-edio de texto a ser traduzido
automaticamente e avaliao da traduo computorizada, ambas exigindo a
participao de especialistas nas lnguas envolvidas na traduo. A carreira
acadmica da professora Belinda Maia foi dedicada essencialmente ao ensino da traduo em Portugal, pas que escolheu para viver e trabalhar, onde
a sua obra na rea da lingustica contrastiva e traduo deixa uma marca
indelvel. Como sua antiga aluna de doutoramento, tive o privilgio de testemunhar de perto o seu rigor cientfico e a sua genuinidade e usufruir da
generosidade com que compartilha a sua sabedoria com os seus alunos e colegas de profisso. Que esta singela homenagem permita simbolizar a paixo
com que defende o envolvimento de linguistas e tradutores profissionais no
processo de traduo automtica.
Anabela Barreiro
Whos to say whats proper? What if it were agreed that proper
meant wearing a codfish on your head? Would you wear it?
Lewis Caroll, Alice in Wonderland
Passaram-se mais de 20 anos desde que conheci a Professora Belinda Maia,
como estudante do terceiro ano de traduo da Faculdade de Letras da Universidade do Porto. Foi numa dessas primeiras aulas que, para grande perplexidade de muitos, a Belinda aplicou traduo uma lio de vida qual
poucos estavam habituados: There is no black and white in translation studies. Desde esta lio de traduo e de vida a minha admirao pessoal
e profissional pela Belinda no parou de crescer. Pela sua energia. Pela sua
coragem. Pela sua enorme capacidade de trabalho. Pela sua diplomacia. Pela
sua capacidade de quebrar barreiras convencionais. E, sobretudo, pelo seu
rasgo. Naquela tarde de 1994, ainda desconhecia que os dois partilharamos
um longo caminho, primeiro na orientao do estgio de Licenciatura, depois
na orientao do Mestrado, e, mais tarde, na co-orientao do Doutoramento,
tal como desconhecia que aquela Professora me apoiaria em muitos dos desafios e dilemas, intelectuais e profissionais, com os quais me viria a defrontar
no meu percurso. Neste momento importante da sua vida, no poderia deixar
de lhe prestar homenagem. Fao-o em meu nome e em nome de todos os meus
colegas cujas vidas a Belinda tocou e que, por alguma razo, no participam
neste volume. Mas fao-o sobretudo pela amizade que partilhamos.
Rui Sousa-Silva
OSLa volume 7(1), 2015

[8]

simes, barreiro, santos, sousa-silva & tagnin

agradecimentos
Agradecemos ao CLUP, na pessoa do seu diretor, Joo Veloso, o apoio financeiro
prestado para a edio do presente volume. Agradecemos tambm ao ILOS, da
Universidade de Oslo, o apoio financeiro prestado para a publicao em papel.
Obrigado aos editores da OSLa, Atle Grnn e Dag Haug, a presteza na ajuda e
na facilitao dos prazos, que foram muito apertados, e ao Nuno Carvalho pela
grande ajuda na converso e formatao dos artigos.
O nosso maior agradecimento vai para todos os que participaram nesta iniciativa, como autores, e como parceristas.

c o n ta c t o s
Alberto Simes
Linguateca e CEH, Universidade do Minho
ambs@ilch.uminho.pt
Anabela Barreiro
INESC-ID e Linguateca
anabela.barreiro@inesc-id.pt
Diana Santos
Linguateca e Universidade de Oslo
d.s.m.santos@ilos.uio.no
Rui Sousa-Silva
Centro de Lingustica da Universidade do Porto
r.sousa-silva@lflab.pt
Stella E.O. Tagnin
Universidade de So Paulo
seotagni@usp.br
OSLa volume 7(1), 2015

Simes, Barreiro, Santos, Sousa-Silva & Tagnin (eds.) Lingustica, Informtica e Traduo: Mundos
que se Cruzam, Oslo Studies in Language 7(1), 2015. 919. (ISSN 1890-9639 / ISBN 978-82-9139812-9)
http://www.journals.uio.no/osla

para uma ontologia dos


estudos de traduo1
THOMAS J.C. HSGEN

abstract
The need for a re-mapping of concepts in the field of translation studies is
something that becomes evident today. In this context, Sonia Vandepitte
(2008) proposes a renewed thesaurus that will be analyzed, discussed and
completed in this article understood as a constructive contribution to a new
ontology of translation.

A necessidade de uma ontologia dos estudos de traduo justifica-se, neste


momento, pela diversidade dos estudos propostos, das suas abordagens tericas,
dos seus objetos de investigao, das suas orientaes metodolgicas e dos contextos e prticas analisadas. Esta sua riqueza epistemolgica poder igualmente
ser vista como uma debilidade que, por vezes, resulta numa relao difcil entre
aqueles que se dedicam ao estudo deste domnio to abrangente e heterogneo, e
aqueles que, mergulhados nesta diversidade, prosseguem profissionalmente uma
atividade em constante mudana. Colocado perante desafios profissionais mltiplos que exigem uma adaptao dinmica, o tradutor profissional procura respostas vindas dos estudos de traduo que nem sempre encontra. E, muitas vezes,
no porque no haja trabalho que oferea essa resposta, mas porque, perante uma
exploso de projetos acadmicos no domnio e consequente produo cientfica,
se tornou difcil o acesso informao procurada.
No , assim, por acaso que tm vindo a ser apresentados nos ltimos anos
modelos de reorganizao de toda a investigao disponvel. Partindo da proposta mais influente de Holmes, dos anos setenta, procuraram lanar a linha para
abrir o caminho neste imenso labirinto que se criou e que vai separando o mundo
profissional do mundo acadmico.
Existem hoje em dia cerca de 20.000 publicaes em reviso por pares no domnio da traduo. Contributos como os de Baker (1998), do grupo da Bibliography of Translation Studies da St. Jerome, Gentzler (2001), Kuhiwczak & Littau (2007), Munday (2009), Pym (2010), Tymoczko (2005) e Williams & Chesterman
[1]

Comentando a proposta de Sonia Vandepitte Remapping Translation Studies: Towards a Translation Studies Ontology. Comunicao proferida a 7 de fevereiro de 2014 no mbito do Seminrio
(Re)Cartografar os Estudos de Traduo no Sculo XXI, organizado pelo Centro de Estudos de Comunicao e Cultura da Universidade Catlica.

[10]

thomas j.c. hsgen


(2002), para mencionar apenas alguns dos mais importantes, produziram assim
longas listas de abordagens no mbito dos estudos de traduo que, de acordo o
artigo Remapping Translation Studies: Towards a Translation Studies Ontology
de Vandepitte (2008), pecaram por manifesta falta de consistncia:
These overviews are very incongruent, however: the few subdivisions of types of translation studies areas that are marked clearly
differ from one another, and, taken together, these contributions result in a collection of fairly long lists of translation studies approaches
that lack a consistent basis.
(Vandepitte 2008, pg. 569)
Para o objetivo declarado de reorganizar algo que entrou em desordem, esta
crtica , sem dvida, relevante e, coloca, desde j um critrio de anlise fundamental para a validade de uma nova ontologia como a que Vandepitte prope.
Vandepitte baseia-se conceptualmente em Aitchison et al. (2000) para salvaguardar a conciso da sua ontologia. A construo de thesauri manuais afigura-se
uma tarefa complexa resultando na construo de estruturas que implicam relaes internas de vria ordem, sejam elas hierrquicas, no-hierrquicas, equivalentes e associadas. Uma das finalidades destas estruturas a otimizao da
pesquisa de informao. atravs da etiquetagem ontolgica dos seus objetos
que a informao se torna pesquisvel e comparvel contextualizando e relacionando cada item na relao que estabelece com os restantes. Desnecessrio ser
relembrar que, para isso, se torna fundamental criar uma ordem que permita estabelecer estas relaes. Identificar estas relaes exige um conhecimento profundo do domnio em anlise para o qual o thesaurus construdo. A usabilidade
deste tipo de estruturas depende primordialmente da sua capacidade de localizar e contextualizar as suas entradas num sistema de conceitos que, pelo tipo de
relao estabelecida ontologicamente, se definem mutuamente.
Depois de separar os conceitos principais dos perifricos, o domnio em anlise descrito em termos de subreas que o definem. Segue-se o preenchimento
de cada subrea por entradas que correspondem sua definio recorrendo-se a
listas existentes, manuais, resumos, catlogos, etc. Uma vez identificados todos
os termos a considerar, cada um ter que ser analisado de acordo com o material
restante em termos de sinnimos, hipnimos ou hipernimos. Deste processo podem resultar imprecises, lacunas ou mesmo erros de organizao interna, sendo
necessrias, por isso, sucessivas revises que podero conduzir a 1. acrscimo de
termos, 2. identificao de mais nveis nas hierarquias j estabelecidas ou proposta de reduo de nveis, 3. acrscimo/modificao de sinnimos, 4. sugesto
de novas relaes ou at 5. eliminao de entradas desnecessrias.

OSLa volume 7(1), 2015

para uma ontologia dos estudos de traduo

[11]

neste contexto que vejo o meu contributo possvel para a ontologia proposta
por Vandepitte que irei organizar de acordo com os pontos 1 e 2 acima referidos,
designadamente os pontos relativos a [1] acrscimo de termos, e a [2] identificao
de mais nveis nas hierarquias j estabelecidas ou proposta de redues de nveis.
Dentro desta argumentao fundamental podero surgir, casuisticamente, aspetos de modificao de sinnimos (ponto 3) ou mesmo a sugesto de novas relaes
associadas (ponto 4).
No entanto, antes de o fazer gostaria de esclarecer desde j que no pretendo
formular uma organizao alternativa, certamente possvel, mas antes propor algumas alteraes que, no meu entendimento, aumentam a sua operacionalidade
e subsequente adequao ao objetivo, expresso pela autora, de desenvolver uma
alternativa organizao proposta de Holmes (1987) identificando categorias de
classificao de acordo com critrios precisos que permitiro a apresentao de
todo o tipo de estudos no mbito da traduo num novo mapa coerente e consistente (cf. Vandepitte 2008, pg. 573).
[1] a c r s c i m o d e t e r m o s

Neste campo parece-me pertinente apontar para a falta de um termo no mbito


dos estudos organizados pelo seu propsito (types by purpose), ou seja, aqueles que
tradicionalmente se enquadram nos estudos aplicados da traduo. Postulando
que os estudos aplicados diferem dos estudos puros na maneira como procuram
aplicar o conhecimento adquirido na formulao de normas, padres e aplicaes
prticas, so considerados trs campos de investigao: (i) modelos de ensino de traduo (translation teaching models), (ii) tica tradutiva (translation ethics) e (iii)
traduo cultural (cultural translation). O termo traduo cultural neste contexto
poder causar alguma perplexidade dado o seu carter abrangente e pouco definido no sentido restrito de uma norma, a no ser que nos proponhamos considerlo na perspetiva da teoria performativa em que por exemplo se enquadra a questo dos cnones tradutivos e da influncia das normas culturais na aceitabilidade
de textos traduzidos. Enquanto os modelos de ensino de traduo, bem como a
definio tica podem ser considerados em termos de propsito, a traduo cultural pela abrangncia do conceito cultura no permite essa restrio. Tendo
por isso alguma reticncia acerca da incluso do termo neste campo, parece-me
importante, antes de mais, considerar aqui o que poderamos chamar a avaliao
qualitativa de produtos tradutivos (translation quality assessment), para no usar
o termo crtica da traduo, especialmente conotado com o campo especfico da
traduo literria. Curiosamente Vandepitte apresenta num primeiro momento
o termo crtica da traduo (T[ranslation] criticism) (cf. Vandepitte 2008, pg. 574)
em paralelo com o termo traduo cultural (cultural T[ranslation]), deixando-o cair
neste contexto na listagem final, sem explicao aparente. O termo avaliao qualitativa de produtos tradutivos (translation assessment) aparece como termo assoOSLa volume 7(1), 2015

[12]

thomas j.c. hsgen


ciado didtica (studies of translation teaching), e como sendo sinnimo de avaliao tradutiva (translation evaluation), por sua vez o termo qualidade tradutiva
translation quality surge como termo associado aos estudos da profisso de tradutor (translation profession studies), e como sinnimo de avaliao qualitativa de
produtos tradutivos (translation quality assessment). O termo estudos da avaliao
de qualidade tradutiva orientados para o efeito (effect-oriented translation quality assessment studies) aparece como hipernimo da entrada estudos orientados para o
resultado do processo tradutivo (result-oriented translation studies). No mbito dos
estudos multifocalizados encontramos o termo crtica de traduo (translation criticism) como termo hipernimo da traduo literria (literary translation). E como
exemplos de estudos multifocalizados no discurso e resultado so apresentados os
termos associados reviso tradutiva e critica (translation reviewing and criticism) e
avaliao de qualidade (quality assessment), sendo este sinnimo de avaliao tradutiva (translation evaluation). Torna-se, a meu ver, imprescindvel, introduzir a
avaliao de textos traduzidos no campo de investigao que se prope alargar o
conhecimento e introduzir mudana ao apresentar critrios de avaliao de textos traduzidos. No contexto da crescente utilizao da traduo automtica no
campo profissional, estes estudos abarcaro os processos de ps-edio em que a
aplicao de modelos de avaliao contribuem para processos de reviso e avaliao mais eficazes.
Em relao aos tipos por sujeito (types by subject), Vandepitte sugere a distino entre os estudos de estratgias tradutivas (studies of translation strategies) e os
estudos de tcnicas lingusticas de traduo (studies of linguistic translation techniques):
NT: studies of translation strategies
RT: adaptation
RT: domestication
RT: equivalence
RT: explicitation
RT: foreignization
RT: free translation
RT: imitation
RT: literal translation
UF: word-for-word translation
UF: metaphrase
RT: paraphrase
RT: sense-for-sense translation
NT: studies of linguistic translation techniques
NT: compensation
RT: shifts of translation
(Vandepitte 2008, pg. 585)

OSLa volume 7(1), 2015

para uma ontologia dos estudos de traduo

[13]

Esta distino afigura-se-me discutvel devido confuso instalada na utilizao dos conceitos estratgia, mtodo, procedimento e tcnica. Segundo Venuti
(1998) as estratgias envolvem decises fundamentais relacionadas com as macroestruturas textuais que o autor classifica como sendo de domesticao (domestication) ou estranhante (foreignization). Por sua vez, Jskelinen (1993) distingue estratgias globais que se reportam a princpios e modos de ao gerais, enquanto
que as estratgias locais se referem a opes mais especficas relacionadas com
a tomada de deciso no contexto da soluo de problemas ao nvel das microestruturas textuais: global strategies refer to general principles and modes of
action and local strategies refer to specific activities in relation to the translators
problem-solving and decision-making. Jskelinen (1993, pg. 16). Newmark
(1988) prope a distino entre mtodo tradutivo e procedimento distinguindoos de forma semelhante de Jaaskelainen para diferenciar estratgias globais de
estratgias locais: while translation methods relate to whole texts, translation
procedures are used for sentences and the smaller units of language. (Newmark
1988, pg. 81). A diferenciao entre opes macro- e micro-estruturais parece-me
importante no contexto dos estudos orientados para a descrio do processo e
que creio que devia ser visvel na apresentao de um thesaurus deste tipo. Assim
tornar-se-ia, a meu ver, necessrio reordenar a lista de Vandepitte no sentido de
a tornar mais consistente e clarificadora, de acordo com a seguinte proposta:
NT: studies of translation strategies
NT: studies of translation strategies
RT: adaptation
RT: adaptation
RT: domestication
RT: domestication
RT: equivalence
RT: foreignization
RT: explicitation
RT: free translation
RT: foreignization
RT: imitation
RT: free translation
RT: literal translation
RT: imitation
UF: word-for-word translation
RT: literal translation
UF: word-for-word translation
UF: metaphrase
UF: metaphrase
RT: sense-for-sense translation
RT: paraphrase
NT: studies of linguistic translation
RT: sense-for-sense translation
procedures
NT: studies of linguistic translation techNT: compensation
niques
RT: shifts of translation
NT: compensation
RT: shifts of translation

(Vandepitte 2008, pg. 585)

(proposta do autor)

OSLa volume 7(1), 2015

[14]

thomas j.c. hsgen


Para alm disso, no me parece que o procedimento da compensao (compensation) seja aquele que subsume todos os procedimentos micro-estruturais propostos pelos diversos modelos, sendo um conceito retomado por Hervey & Higgins (1992) para explicar procedimentos que compensem a perda de caractersticas importantes do texto de partida (TP) criando efeitos semelhantes no texto de
chegada (TCH) por meios diferentes:
Compensation here means the technique of making up for the
translation loss of important ST [source text] features by approximating their effects in the TT [target text] through means other than
those used in the ST.
(Hervey & Higgins 1992, pg. 248)
Seria, por isso, um tipo de procedimento entre outros, como p.ex.:
RT:
RT:
RT:
RT:
RT:
RT:
RT:
RT:

Transference
Naturalization
Cultural equivalent
Functional equivalent
Descriptive equivalent
Componential analysis
Synonymy
Through-translation

para referir apenas alguns.


Para alm deste aspeto, a utilizao do termo alteraes tradutivas (translation shifts) para definir todo o tipo de procedimentos micro-estruturais afigurase-nos no mnimo ambgua, por este termo poder ser confundido com conceitos
macro-estratgicos de Catford (1965) e Popovic (1976) ou com o conceito microestratgico de mudanas ou transposies (shifts or transpositions) de Newmark
(1988, pg. 86), utilizado para descrever todo o tipo de mudana de categoria gramatical para resolver problemas de traduo pontuais.
O conceito relativamente recente das tradues naturais (natural translations)
deveria ser includo nesta listagem como termo relacionado com o conceito do
bilinguismo na traduo, j com mais longa tradio nos estudos da traduo e
que, por sua vez, est igualmente ausente desta proposta. Harris, foi, em 1973,
um dos primeiros tericos a estudar com alguma profundidade a relao entre
o bilinguismo e a competncia tradutiva, avanando com uma teoria da traduo
natural que parte do princpio constitutivo de que existe uma relao coextensiva
entre a competncia bilingue e a capacidade de traduzir: all bilinguals are able
to translate, within the limits of their mastery of the two languages; therefore
translating is coextensive with bilingualism (Harris & Sherwood 1978, pg. 155).
Esta abordagem torna-se particularmente importante quando estuda a traduo
OSLa volume 7(1), 2015

para uma ontologia dos estudos de traduo

[15]

natural efetuada por bilingues em situaes espontneas do quotidiano em comparao com a traduo profissional por tradutores com formao avanada em
situaes altamente estruturadas:
Bilingualism and all forms of translation, whether the natural
translation done in everyday circumstances by bilinguals who have
had no special training for it (Harris 1976, pg. 96) or the professional translation of those with advanced translation degrees working
in todays language industry, are necessarily connected at a very fundamental cognitive level. (Shreve 2012, pg. 1).
O facto de o bilinguismo na traduo ter sido, at este momento, um pouco negligenciado na Europa, ao contrrio do que acontece nos EUA (cf. Antonini (2010)),
pode explicar a ausncia desta entrada na proposta de Vandepitte, mas, naturalmente, no a justifica, at porque se observa tambm na Europa um crescente
interesse pelas redes de intrpretes e tradutores voluntrios que, no curto, prazo
iro modificar de forma significativa o panorama da traduo a nvel global.
proposta de Vandepitte (2008, pgs. 584585).
Types by subject
NT: single-focus translation studies
NT: process-oriented translation studies
(incl. cognitive processes)
NT: studies of translation competence
[]

proponho, por estas razes, o seguinte acrscimo:


NT:
RT:
RT:
RT:

studies of bilinguism in translation


natural translation
language brokering
translation volunteers networks
NT: Babels

[2] a l a r ga m e n t o da s h i e r a r q u i a s e s ta b e l e c i da s p o r va n d e p i t t e

O campo que se refere s metodologias contm um problema de hierarquizao


que resulta da relao de concomitncia que existe, na minha opinio, entre os
termos estudos da traduo indutivos (inductive translation studies), estudos da traduo baseados em corpora (corpus-based translation studies), abordagens hermenuticas (hermeneutic approaches), estudos da traduo dedutivos (deductive translation studies), estudos da traduo experimentais (experimental translation studies)
e abordagens especulativas (speculative approaches), por um lado, e abordagens qualitativas (qualitative approaches) e abordagens quantitativas (quantitative approaches), por outro, como se pode verificar na proposta da autora:
OSLa volume 7(1), 2015

[16]

thomas j.c. hsgen


Types by method
Types by general research methods
NT: inductive translation studies
NT: corpus(-based) translation studies
NT: qualitative approaches
NT: quantitative approaches
NT: hermeneutic approaches
NT: deductive translation studies
NT: experimental translation studies
RT: think-aloud protocol studies
UF: TAP studies
NT: speculative approaches
(Vandepitte 2008, pg. 584)

Partilho com Flynn & Gambier (2011, pg. 9293) o pressuposto de que os mtodos quantitativos e qualitativos, isoladamente ou em combinao, so aplicados a
todos os trabalhos sobre os principais fatores do processo tradutivo:
To recapitulate, two main methods of analysis can be used to
study any of the four factors outlined above: quantitative or qualitative or a combination of the two. Listed under quantitative methods
we have noted surveys, (cloze) tests, corpus analyses, key-logging,
eye-tracking, screen-logging and related statistical analyses. Under
qualitative methods we have noted various forms of text and discourse
analysis, narrative and related studies, interviews with individuals or
focus groups, think-aloud protocols, ethnographies, inquiries into to
power, gender and other sets of relations.
Tendo em considerao este entendimento, impe-se uma reorganizao hierrquica dos tipos organizados por mtodos de investigao geral da seguinte forma:
Types by method
Types by general research methods
NT: inductive translation studies
NT: corpus(-based) translation studies
NT: qualitative approaches
NT: quantitative approaches
NT: hermeneutic approaches
NT: deductive translation studies
NT: experimental translation studies
RT: think-aloudprotocol studies
UF: TAP studies
NT: speculative approaches

Types by method
Types by general research methods
NT: quantitative methods
NT: qualitative methods
RT: inductive approaches
RT: deductive approaches
RT: corpus(-based) approaches
NT: hermeneutic approaches
RT: experimental approaches
RT: think-aloud protocol studies
UF: TAP studies
NT: speculative approaches

(Vandepitte 2008, pg. 584)

(proposta do autor)

OSLa volume 7(1), 2015

para uma ontologia dos estudos de traduo

[17]

A alterao de inductive translation studies, corpus(-bases) studies, deductive translation studies e experimental translation studies para inductive approaches, corpus(-based)approaches, deductive approaches e experimental approaches justifica-se, na minha opinio, por razes de coerncia interna considerando que os itens em causa definem abordagens possveis em que
os mtodos identificados podem vir a encontrar a sua aplicao.

concluso
A construo de um thesaurus com estas caractersticas uma tarefa complexa e
exigente, e por natureza, discutvel ou at polmica, porque as diferentes abordagens, prticas e objetivos nos estudos de traduo nem sempre encontram consenso sobre o que se pode considerar como nuclear e complementar (no no sentido da sua importncia, mas sim da sua abrangncia) mesmo dentro de cada ramo
de investigao. Por essa razo, no proponho aqui uma alternativa de organizao estrutural da rea mas, pelo contrrio, privilegio uma postura de cooperao
construtiva na otimizao de uma soluo/proposta de cariz taxonmico.
No entanto, no quero deixar de mencionar a possibilidade de se pensar numa
estruturao ontolgica alternativa dos estudos de traduo. Flynn & Gambier
(2011), p. ex., consideram 4 fatores fundamentais e interligados na descrio e
explicao da atividade tradutiva, a saber, 1. discursos (no sentido lato incluindo
tradues e toda a interao multilingual relacionada com o texto traduzido) 2.
prticas (para alm da prtica tradutiva, fatores mltiplos que de alguma forma
a influenciam), 3. contextos (em que as tradues so produzidas) e 4. atores
(que inclui todos aqueles que participam, direta ou indiretamente, na atividade
tradutiva) (cf. Flynn & Gambier (2011, pg.8993). Na tentativa de assim agrupar os estudos pelo objetivo comum de procurar descobrir o que ser tradutor
(translatorship) talvez se poderia passar de uma perspetiva multidisciplinar que
no procura necessariamente a integrao do conhecimento, para um campo que
Snell-Hornby et al. (1994) chamaram de uma disciplina interdisciplinar que, por
sua vez, procura congregar todo o saber volta daquilo que poderamos chamar
translatorship. Uma ontologia, partindo deste pressuposto, teria desse modo,
como fundamento estruturante alternativo os fatores que definem per se a traduo enquanto atividade humana comunicativa e intencional (cf. Vandepitte (2008,
pg. 570). Porventura, seria um passo na direo, por muitos sentida como desejvel, de uma reconciliao entre a teoria e a prtica.

agradecimentos
Agradeo colega Anabela Barreiro a reviso atenta deste artigo.
OSLa volume 7(1), 2015

[18]

thomas j.c. hsgen

referncias
Aitchison, Jean, Alan Gilchrist & David Bawden. 2000. Thesaurus construction and
use: A practical manual. Aslib IMI.
Antonini, Rachele. 2010. Natural translator and interpreter. Em Yves Gambier
& Luc van Doorslaer (eds.), Handbook of translation, vol. 2, 102104. John Benjamins.
Baker, Mona (ed.). 1998. Routledge Encyclopedia of Translation Studies. Routledge.
Catford, John Cunnison. 1965. A linguistic theory of translation: An essay in applied
linguistics. Oxford University Press.
Flynn, Peter & Yves Gambier. 2011. Methodology in translation studies. Em Yves
Gambier & Luc van Doorslaer (eds.), Handbook of translation, vol. 2, 8896. John
Benjamins.
Gentzler, Edwin. 2001. Contemporary translation theories. Multilingual Matters 2nd
edn.
Harris, Brian. 1976. The importance of natural translation. Working Papers in Bilingualism 12. 96114.
Harris, Brian & Bianca Sherwood. 1978. Translating as an innate skill. Em David
Gerver & H. Wallace Sinaiko (eds.), Language, interpretation and communication,
155170. Plenum.
Hervey, Sndor & Ian Higgins. 1992. Thinking translation. Routledge.
Holmes, James. 1987. The name and nature of translation studies. Em Gideon
Toury (ed.), Translation across cultures, Bahri Publications.
Jskelinen, Riitta. 1993. Investigating translation strategies. Em John Laffling
& Sonja Tirkkonen-Condit (eds.), Recent Trends in Empirical Translation Research,
99120. University of Joensuu.
Kuhiwczak, Piotr & Karin Littau (eds.). 2007. A companion to translation studies.
Multilingual Matters.
Munday, Jeremy (ed.). 2009. The Routledge Companion to Translation Studies. Routledge.
Newmark, Peter. 1988. Approaches to translation. Prentice Hall.
Popovic, Anton. 1976. Dictionary for the analysis of literary translation. Department
of Comparative Literature, The University of Alberta.
OSLa volume 7(1), 2015

para uma ontologia dos estudos de traduo

[19]

Pym, Anthony D. 2010. Exploring translation theories. Routledge.


Shreve, Gregory M. 2012. Bilingualism and translation. Em Yves Gambier & Luc
van Doorslaer (eds.), Handbook of translation, vol. 3, 16. John Benjamins.
Snell-Hornby, Mary, Franz Pchhacker & Klaus Kaindl (eds.). 1994. Translation Studies: An Interdiscipline. Selected papers from the Translation Studies Congress, Vienna,
1992. John Benjamins.
Tymoczko, Maria. 2005. Trajectories of research in translation studies. META
50(4). 10821097.
Vandepitte, Sonia. 2008. Remapping translation studies: towards a translation
studies ontology. META 53(3). 569588.
Venuti, Lawrence. 1998. Strategies of translation. Em Mana Baker (ed.), Encyclopedia of Translation Studies, 240244. Routledge.
Williams, Jenny & Andrew Chesterman. 2002. The map: A beginners guide doing
research in translation studies. St. Jerome Publishing.

c o n ta c t o s
Thomas J. C. Hsgen
Faculdade de Letras da Universidade do Porto
thusgen@letras.up.pt
OSLa volume 7(1), 2015

Simes, Barreiro, Santos, Sousa-Silva & Tagnin (eds.) Lingustica, Informtica e Traduo : Mundos que se Cruzam, Oslo Studies in Language 7(1), 2015. 2137. (ISSN 1890-9639 / ISBN 978-8291398-12-9)
http://www.journals.uio.no/osla

corpgrafo, terminologie, phrasologie


FRANOISE BACQUELAINE

abstract
The Corpgrafo results from interdisciplinary collaboration between linguists and computer engineers under Belinda Maias direction. This userfriendly tool for building and using tailor-made corpora allows not only for
terminology extraction and management, but also for any research based
on monolingual, comparable or parallel corpora. This paper presents the
Corpgrafos evolution from the first to the fourth version, and two experiences of its use in three languages (English, French and Portuguese). The
first experience is in the field of Bluetooth technology terminology extraction and management. The second deals with four Portuguese structures
containing the universal quantifier cada and expressing progression, dropper, proportion between two sets of events or entities and proportion between a set and a subset of events or entities. These experiences show the
strengths, weaknesses and limits of the Corpgrafo.
[1] i n t r o d u c t i o n

Le Corpgrafo, la Terminologie et la Phrasologie marquent les trois tapes


dun parcours sous la direction de Belinda Maia. Le Corpgrafo nous a t prsent en premire anne de master (Mestrado em Terminologia e Traduo) et a
t utilis dans le cadre dun travail de groupe en Terminologie au deuxime semestre 20052006 pour produire une base de donnes terminologiques (BDT) dans
le domaine des tlcommunications sans fil. Cette initiation au Corpgrafo a dtermin la suite : mmoire de master en Terminologie (20062008, soutenance en
janvier 2009) et dcouverte en 20092010, grce au Corpgrafo, de lobjet linguistique de notre thse de doctorat actuellement en cours. Le choix du Corpgrafo
pour contribuer cet hommage rendu celle qui dirige nos recherches depuis
bientt dix ans sest donc impos.
Dans un premier temps, nous nous inspirons dun rapport de la Linguateca
(Santos 2005) et de publications des membres de lquipe de Porto pour retracer lvolution du Corpgrafo depuis le Gestor de Corpora en 2003 (Sarmento &
Maia 2003 ; Maia & Sarmento 2003), jusqu la quatrime et dernire version prsente en 2008 (Maia & Matos 2008) 1 . Une fois dress le portrait du Corpgrafo,
deux expriences de recherche sur corpus en contexte de formation sont prsen1. Dautres sources consultes mais non cites figurent dans la bibliographie dautres articles de cet ouvrage, dont la plupart sont disponible sur le site de la Linguateca http://www.linguateca.pt/.

[22]

franoise bacquelaine
tes. Lune concerne llaboration dune BDT trilingue (anglais, franais, portugais) dans le domaine de la technologie de tlcommunication sans fil Bluetooth.
Lautre a rvl la prdominance du quantificateur universel portugais cada sur
le quantificateur universel pluriel todos (os) dans certains corpus de spcialit,
alors que each et chaque sont moins frquents que all ou tous (les) en anglais et
en franais, quels que soient les corpus. Ces deux exemples illustrent bien deux
des principales applications pdagogiques et scientifiques du Corpgrafo dans la
perspective de lutilisateur.
[2] c o r p g r a f o

La gense du Corpgrafo remonte laube du XXIe sicle, sous limpulsion de


Belinda Maia, dans le cadre du jeune projet de la Linguateca, dont lobjectif principal est la mobilisation de ressources linguistiques et la conception doutils de traitement automatique de la langue portugaise pour assurer sa prennit parmi les
langues informatises et numrises 2 . Le poloCLUP (ple de Porto de la Linguateca) a entam ses travaux en octobre 2002. Lquipe responsable de la conception
et de ladaptation du Corpgrafo aux besoins de ses usagers depuis 2002 est dirige
par Belinda Maia et Diana Santos, qui symbolisent la collaboration entre experts
en Linguistique et en Gnie informatique ncessaire la cration et au dveloppement de ressources pour le traitement automatique des langues (TAL). Lvolution
du Corpgrafo de 2003 nos jours se divise en trois phases. La premire, que lon
pourrait caractriser de prparatoire, correspond au Gestor de Corpora. Nat ensuite le Corpgrafo qui va voluer de la version 1 la version 3 de 2004 2007
essentiellement grce aux efforts de Lus Sarmento, Lus Miguel Cabral, Ana Sofia
Pinto et Dbora Oliveira. La troisime phase correspond la version 4 que lon
doit Srgio Matos sous la direction de Belinda Maia et Lus Costa. Le poloCLUP
sest teint en 2008 et le bon fonctionnement du Corpgrafo dpend dsormais
de la bonne volont de lquipe compose de Belinda Maia, Diana Santos, Srgio
Matos et Lus Miguel Cabral.
Le Gestor de Corpora (GC) a t prsent Lancaster en mars 2003 (Maia & Sarmento 2003) et Braga en juin 2003 (Sarmento & Maia 2003), soit peine quelques
mois aprs le lancement du projet. La volont de crer un outil rpondant aux
besoins denseignants et dtudiants de trois domaines principaux (linguistique,
traduction et TAL) et dimpliquer les utilisateurs dans lvolution du Corpgrafo
a dtermin le choix dune architecture modulaire extensible et adaptable aux
besoins formuls par les utilisateurs. Le GC permettait lutilisateur de crer un
compte priv sur le Web o il pouvait stocker des fichiers PDF, PS, HTML, RTF
ou MsWord convertis en texte grce au module Perl EXTEX, rvolutionnaire
lpoque. Dautres modules lui permettaient deffectuer dautres oprations : (1)
2. Le pari semble gagn : De acordo com estimativas recentes, o portugus a quinta lngua mais usada na
internet, sendo ultraprassada apenas pelo ingls, chins, espanhol e japons (Branco et al. 2012, pg. 14).
OSLa volume 7(1), 2015

corpgrafo, terminologie, phrasologie

[23]

diter le texte pour le nettoyer et le diviser de faon semi-automatique en segments, conformment aux besoins de lutilisateur ; (2) constituer un ou plusieurs
corpus partir de slections de fichiers ; (3) raliser des tudes de frquence et
des recherches de collocations (Sarmento & Maia 2003, pg. 27).
En 2004, grce son architecture modulaire, des outils dextraction et de gestion terminologique ont pu tre ajouts aux fonctions du GC pour faciliter le travail du terminographe : le Corpgrafo tait n (Sarmento et al. 2004). La structure
actuelle du Corpgrafo se mettait en place. Le menu principal (figure 1) offre aujourdhui quatre options, dont les deux premires sont hrites du GC : (1) Gestor (Gestionnaire) pour la cration et la gestion de corpus ; (2) Pesquisa (Recherche) pour lanalyse de corpus selon divers types de requtes ; (3) Centro de
Conhecimento (Centre de connaissance) pour la cration et la gestion de bases
de donnes et de relations smantiques ; (4) Centro de comunicao (Centre de
communication) o lutilisateur peut trouver des informations sur le Corpgrafo.
Outre ces quatre options du menu principal donnant accs diverses fonctions,
lutilisateur dispose de quatre boutons (figure 2) lui permettant (1) daccder la
corbeille de fichiers supprims ; (2) dobtenir de laide sur la fonction quil est en
train dutiliser ; (3) denvoyer des commentaires ; (4) dditer son profil.

figure 2 : Boutons (Version 4).


figure 1 : Menu principal (Version 4).
Par rapport au GC, les fonctions de gestion de fichiers et de corpus de la premire version du Corpgrafo ont t amliores. Lutilisateur dispose dun espace
priv de 10 MB sur le serveur, non seulement pour stocker des fichiers et crer
des corpus en recourant aux fonctions hrites du GC, mais aussi pour tlcharger des sites partir dune adresse URL ou les explorer avant de slectionner et
de tlcharger uniquement ce qui lintresse. Chaque fichier peut dsormais tre
accompagn de mtadonnes (titre, auteur, date, domaine de spcialit, type de
texte, etc.). Certaines de ces mtadonnes apparaissent automatiquement lors de
certaines oprations danalyse de corpus ou de constitution de base de donnes et
elles permettent de classer les fichiers pour des recherches ultrieures. Chaque
corpus est compos dune slection de fichiers qui peut tre altre tout moment et le mme fichier peut tre intgr plusieurs corpus. La figure 3 illustre
les diffrentes options du gestionnaire.
OSLa volume 7(1), 2015

[24]

franoise bacquelaine

figure 3 : Options du gestionnaire (Version 4)


Loption de recherche permet deux types de requte : lune sur les n-grammes
(co-occurrences dun nombre paramtrable n datomes), lautre sur un mot, tel
quun terme simple comme piconet, ou sur une squence plus ou moins fige, telle
quun terme complexe comme access request address. Dans le premier cas, lutilisateur peut dterminer la longueur des n-grammes de 1 6 atomes (mots et signes
de ponctuation). Lanalyse de n-grammes permet dobtenir des rsultats absolus
et relatifs sur la distribution des n-grammes dans le corpus analys. Par exemple,
une requte sur les 4-grammes du corpus Bluetooth en franais (compos de 18
fichiers) nous apprend que le terme technologie sans fil Bluetooth y est attest 40
fois, ce qui reprsente une frquence de 0,026% 3 de lensemble des 4-grammes
attests dan ce corpus (figure 4). En cliquant sur ce 4-grammes, on apprend quil
nest utilis que dans 4 des 18 fichiers, ce qui implique quil existe des variantes
de ce terme central ( savoir technologie Bluetooth ou, tout simplement, Bluetooth).
Les rsultats peuvent tre exports vers un fichier CVS qui peut tre lu par un
tableur du type Excel.
Les rsultats des requtes sur des expressions simples ou complexes peuvent
tre obtenus sous diffrentes formes selon quon veuille les analyser en contexte
(Concordncia Frase) ou dcouvrir des collocations ou toute autre forme de
co-occurrence (Concordncia Janela (Concordance Fentre) et Concordncia
KWIC) (Sarmento et al. 2004, pg. 451). Les options Concordncia Frase et Concordncia KWIC 4 (figures 5 et 6) donnent des rsultats absolus et relatifs sur
la distribution de lexpression de requte dans les divers fichiers du corpus et
permettent daccder aux mtadonnes du fichier de chaque occurrence (bouton
info).

3. Daprs nos calculs, cette frquence est mme plus leve : 4000/110.961 = 0, 36%.
4. Key Word In Context.
OSLa volume 7(1), 2015

corpgrafo, terminologie, phrasologie

[25]

figure 4 : Requte sur n-grammes (Version 4)

figure 5 : Concordncia Frase (Version 4)

Quant loption Concordncia Janela (figure 7), elle permet de classer les
rsultats par ordre alphabtique daprs les atomes qui prcdent ou qui suivent
lexpression de requte. La version 4 comporte une cinquime fonction permettant dexplorer des corpus parallles, mais nous ne lavons jamais utilise.
Mais ce qui a valu le changement de nom du GC, cest bien la possibilit de
crer et de grer des BDT. Lextraction terminologique se fonde sur lanalyse de ngrammes et un ensemble de restrictions lexicales partir dun dictionnaire lectronique. Lutilisateur peut crer des BDT dont le modle se base sur la norme ISO
12620. Chaque terme vedette ou entre de la BDT correspond une fiche comportant divers champs pouvant tre complts ou non (langue, donnes morphologiques, source, dfinition, exemples en contexte, relations smantiques avec
OSLa volume 7(1), 2015

[26]

franoise bacquelaine

figure 6 : Concordncia Frase (Version 4)

figure 7 : Concordncia Frase (Version 4)


dautres termes, quivalent(s) dans une ou plusieurs autres langues, etc.). partir de ces donnes, le Corpgrafo cre automatiquement des glossaires au format
HTML. Il peut aussi produire des thesauri au format HTML, en se fondant sur les
relations smantiques entre termes, et exporter ces informations vers un fichier
dont le format permet de visualiser le rseau smantique ainsi produit (ibidem).
La version 2 est prsente lanne suivante lUniversit de Leeds (Maia &
Sarmento 2005). De la mi-mai 2004 la mi-mai 2005 (Santos 2005, pgs. 1920), les
efforts de Lus Sarmento se sont concentrs sur lamlioration de la gestion terminologique (extraction semi-automatique de termes et de relations smantiques,
production de cartes conceptuelles partir des relations smantiques) et ceux
de Lus Cabral sur linterface SAGI, daprs une enqute auprs des utilisateurs,
tandis que Dbora Oliveira sest charge de ladaptation de la documentation aux
nouvelles fonctions du Corpgrafo.
La division du menu principal en quatre options est prsente pour la premire fois en 2006, alors que le Corpgrafo en est dj sa troisime version (Maia
& Sarmento 2006, pg. 55). Si les fonctions de gestion et de recherche ont lgrement volu lors de cette deuxime phase, les efforts se sont toutefois concentrs sur la semi-automatisation de lextraction terminologique, de lextraction de
dfinitions et de lidentification de relations smantiques (Sarmento et al. 2006,
pgs. 15031504).
OSLa volume 7(1), 2015

corpgrafo, terminologie, phrasologie

[27]

La fonction dextraction semi-automatique des termes existait dj dans la


premire version et a t dcrite ci-dessus. Son avantage, cest que le corpus na
pas besoin dtre annot. Cette fonction est plus performante sur de petits corpus
hautement terminognes que sur de grands corpus en raison du bruit important
que ceux-ci produisent malgr les filtres mis en place en anglais et en portugais.
Mais les progrs de la premire la troisime version sont plus sensibles au
niveau de lextraction semi-automatique de dfinitions et de lidentification semiautomatique de relations smantiques qui taient absentes de la version 1. Ces
deux modules fonctionnent sur des stocks de structures 5 propres introduire
une dfinition ou une relation smantique. Les stocks de structures dfinitionnelles sont assez importants pour langlais et le portugais (plus de 120 structures
dans chaque langue). Cette fonction est plus efficace lorsque le corpus est compos de textes didactiques gnralement riches en dfinitions. Lidentification
des relations smantiques est plus complexe, non seulement parce quelles sont
nombreuses et varies, mais aussi parce quelles sont souvent implicites (idem,
pg. 1504). Les relations smantiques peuvent galement tre tablies manuellement et lutilisateur peut crer dautres relations que celles qui sont pr-dfinies
selon ses besoins. La volont de produire des ontologies et des thesauri de domaine de spcialit partir de ces relations smantiques tait louable mais les
rsultats obtenus se sont rvls peu probants et la recherche sur ces fonctions
ont t abandonnes.
La quatrime version du Corpgrafo se caractrise surtout par lintgration du
moteur Nooj plusieurs fonctions de recherche du Corpgrafo pour reprer des
units phrasologiques en anglais, en franais et en portugais, et par linsertion
de fonctions permettant daligner des corpus parallles et des segments de corpus comparables, de lancer des recherches sur ces corpus aligns et de crer des
bases de donnes phrasologiques ou lexicales (Maia & Matos 2008, pgs. 8081).
La longueur des n-grammes peut dsormais aller jusqu 15-grammes, la possibilit dexporter les bases de donnes a t optimise et il est possible dobtenir
des statistiques sur la frquence des termes ou des lments lexicaux partir des
bases de donnes ou de visualiser les relations smantiques partir de la fiche
dun terme (figure 8).
Le Corpgrafo a ainsi volu selon les objectifs de ses concepteurs et les besoins de ses utilisateurs. Aujourdhui, il remplit la mission qui lui a t assigne :
cest un outil conu prioritairement pour le traitement automatique du portugais
accessible gratuitement tout chercheur dont le travail comporte des recherches
sur corpus, quel que soit son domaine et quelles que soient ses comptences informatiques. Les deux expriences dcrites ci-dessous font apparatre certaines
de ses failles et certains de ses atouts dans la perspective de lutilisateur.
5. Des exemples de ces deux types de structures sont fournis par Sarmento et al. (2006, pg. 1503).
OSLa volume 7(1), 2015

[28]

franoise bacquelaine

figure 8 : Relations smantiques (Version 4)


[3] t e r m i n o l o g i e

Pour raliser ltude de nonymie compare de la terminologie Bluetooth en


anglais, en franais et en portugais (Bacquelaine 2009) 6 , nous avons utilis plusieurs fonctions des options Gestor, Pesquisa et Centro de Conhecimento
pour constituer une BDT partir de corpus comparables sur mesure, pour obtenir
des statistiques sur les termes et pour exporter la BDT vers un fichier consultable
en dehors de loutil 7 .
Toute recherche commence videmment par la cration dun ou plusieurs corpus partir de fichiers 8 tlchargs au moyen des fonctions du Gestor. La plupart des formats des fichiers rcolts taient convertibles par EXTEX. Seules la
prsentation PPT de Schiller (2008) 9 et la leon du professeur Nuno Almeida Almeida (2007) filme le 29 mai 2007 ont t exploites manuellement. La prparation des fichiers sest limite au strict minimum. Le Corpgrafo se fonde sur le
point final pour segmenter le texte en phrases. Ainsi, les termes IEEE 802.15 et IEEE
802.15.1 ont t spars automatiquement en deux ou trois segments qui ont d
tre runis. Nous avons galement dcid de rassembler plusieurs phrases en un
seul segment pour obtenir des dfinitions et des contextes comportant tous les
6. Une version mise jour est actuellement en cours de publication (Bacquelaine 2015).
7. Ce fichier BDT Bluetooth peut tre consult http://web.letras.up.pt/franba/
BDT-Bluetooth/CGshirleyBluetooth.html
8. Les corpus comparables sont dcrits dans notre mmoire (idem, pgs. 6671).
9. Cette version consulte le 15/09/2008 nest plus disponible. Dans les rfrences, nous indiquons donc
ladresse url de la nouvelle version non date (Schiller (s/d)).
OSLa volume 7(1), 2015

corpgrafo, terminologie, phrasologie

[29]

lments ncessaires leur comprhension, notamment les antcdents des pronoms. Le nettoyage na pas besoin dtre parfait car on peut corriger les extraits
dans la fonction BDT. Il faut toutefois veiller ce que les termes soient orthographis correctement pour tre reconnus par les diffrentes fonctions. Quatre
corpus comparables (anglais, franais, portugais europen et portugais du Brsil) ont t constitus partir des fichiers contenant les documents nettoys.
Ces corpus ont ensuite t exploits grce aux fonctions des options Pesquisa
et Centro de Conhecimento.
Les diffrentes fonctions de recherche permettent de limiter la recherche un
corpus slectionn dans un menu droulant. Elles fonctionnent trs bien quelle
que soit la langue. Nous avons utilis trois des cinq fonctions de recherche : Concordncia Frase, Concordncia Janela et Concordncia KWIC. La premire a permis de trouver des dfinitions et des contextes pour les sigles de moins de quatre
lettres qui ne sont pas reconnus par les fonctions de loutil BDT. En effet, cela en
ralentirait les performances, ce qui est contraire lintrt de la majorit des utilisateurs. Ces trois fonctions ont t trs utiles pour reprer les variantes partir
du co-texte et les termes composs partir de noyaux terminologiques tels que
protocol, layer, link, channel ou logical transport.
Loutil BDT permet dextraire des candidats terminologiques partir dun corpus slectionn. Au cours de la deuxime phase de dveloppement du Corpgrafo,
des filtres ont t mis en place en anglais et en portugais pour diminuer le bruit
caus par la ponctuation, les pronoms, les prpositions, les auxiliaires, les dterminants, etc. Une option permet lusager daccder dun simple clic au contexte
et aux rfrences du fichier dorigine avant de slectionner le candidat. Cette slection entrane automatiquement la cration de la fiche correspondante comportant plusieurs donnes insres automatiquement : la langue et les rfrences du
fichier dorigine du terme. Lextraction terminologique semi-automatique fonctionne mieux en anglais et en portugais quen franais, mais le bruit reste important tant donn le volume des corpus. Toutefois, la liste des termes anglais inclure dans lchantillon a t tablie en concertation avec le professeur Almeida
partir de sa leon filme, du manuel de Schiller (2003) et de sa prsentation PPT en
ligne (2008). En tout, 35 termes EN sur 122, 47 termes PT sur 146 et 5 termes FR sur
205, soit un peu plus de 18% des termes, ont t insrs semi-automatiquement.
Les autres fiches ont t cres au fur et mesure des besoins.
La fiche terminologique du Corpgrafo propose dix champs principaux : Dados Gerais (Donnes gnrales), Pesquisadores (Chercheurs), Autores, Fontes (Sources), Morfologia, Definies, Contextos, Relaes Semnticas,
Termos Relacionados et Equivalentes de Traduo. Nous les avons complts
tous sauf le champ Pesquisadores puisquil nest ncessaire que lorsque plusieurs chercheurs travaillent sur la mme BDT.

OSLa volume 7(1), 2015

[30]

franoise bacquelaine
Le champ Dados Gerais contient le terme vedette et ses principales caractristiques : langue, type (sigle, abrviation, etc.), statut (normalis, admis, etc.),
registre (courant, technique, etc.), frquence demploi et origine (emprunt, nologisme, etc.).
Les champs Autores et Fontes identifient, dune part, les auteurs des fichiers do proviennent les termes vedettes, les dfinitions et/ou les contextes,
et, dautre part, les entits publiques ou prives dont ces auteurs relvent. Ces
informations apparaissent automatiquement si la fonction dextraction terminologique semi-automatique a t applique, mais elle peuvent aussi tre insres
manuellement partir de menus droulants des listes dauteurs et dentits enregistrs lors de la premire tape grce aux fonctions du Gestor.
La conception du champ Morfologia semble bien reposer sur lassomption
que la plupart des termes appartiennent la classe des noms et seuls le genre et le
nombre du terme peuvent tre dfinis par le terminographe. Certains domaines
techniques tels que le tricot ou le crochet 10 prsentent pourtant beaucoup de
verbes qui sont des termes et la terminologie Bluetooth comporte plusieurs adjectifs et de nombreux sigles, qui correspondent, certes, des entits nominales,
mais dont certains combinent les lettres aux chiffres et parfois mme la ponctuation (L2CAP, IEEE 802.15). Les termes complexes sont segments automatiquement
(mais pas les sigles) et la classe grammaticale de chaque lment qui le compose
peut tre slectionne partir dun menu droulant qui propose les options NC
(nom commun), NP (nom propre), AJ (adjectif), VB (verbe), PP (prposition) et AD
(adverbe). Ce systme ferm limite les possibilits de classement et la segmentation du terme est imparfaite et ne peut tre amliore. Par exemple, la contraction
de la prposition et de larticle dfini, en franais et en portugais, et larticle dfini
singulier ou la prposition de lids devant un nom commenant par une voyelle
en franais sont considrs comme un seul mot (et donc un seul atome), ce qui
pose des problmes de classement. Le pronom latin hoc dans rseau ad hoc, les articles et les conjonctions tels que les articles dfinis et la conjonction et dans
interface entre lhte et le contrleur ne peuvent tre classs. Il est vrai que les articles et les conjonctions sont plutt rares dans les terminologies et que cet outil
a t programm pour langlais et le portugais. Lapostrophe a trs peu de chance
dtre employe dans les terminologies anglaises et elle est trs rare en portugais.
Le problme ne se pose que pour les termes complexes de plus en plus souvent
reprsents par des sigles 11 . Une solution pourrait tre de les classer comme un
tout, syntagme nominal, verbal, adjectival ou adverbial et des traits morphologiques dautres classes de mots devraient pouvoir figurer dans ce champ.
10. Notre mmoire de Licence en Philologie germanique sintitule Deutsch-franzsische Terminologie des
Strickens und Hkelns (Bacquelaine 1980) et la plupart des termes slectionns pour lanalyse sont des verbes
particule sparable ou insparable.
11. Sablayrolles parle mme de siglomanie en nologie (2000, pg. 263).

OSLa volume 7(1), 2015

corpgrafo, terminologie, phrasologie

[31]

Les deux champs suivants contiennent la ou les dfinition(s) et le ou les contexte(s) demploi permettant de reprer les collocations et autres phrasologismes
propres au terme et au domaine. La plupart des dfinitions et des contextes ont t
extraits automatiquement des corpus prpars cet effet. Quelques dfinitions
portugaises ont t transcrites du document audio-visuel et quelques anglaises du
livre de Schiller (2003). Dautres ont t reformules partir de plusieurs sources.
Etant donn la complexit des relations smantiques dans ce domaine, nous
navons pas tabli systmatiquement les relations smantiques entre termes dans
la BDT. Nous avons prfr construire trois micro-structures partir de la documentation et des entretiens avec lexpert : les rseaux ad hoc Bluetooth (Bacquelaine 2009, pg. 29), les modes, tats et adresses des appareils compatibles Bluetooth (idem, pg. 31) et le systme principal Bluetooth (idem, pg. 77). Ces trois
micro-structures donnent une ide des relations entre la plupart des noyaux conceptuels dsigns par les termes de la BDT. Par contre, les relations de synonymie
(Termos relacionados) ont t tablies systmatiquement, car elles permettent
de dterminer le nombre de concurrents pour le mme concept. Quelques rares
cas dantonymie ont galement t signals.
Enfin, le dernier champ contient les quivalents de traduction que lon slectionne par langue dans un menu droulant. Cette fonction a t amnage depuis.
En effet, le menu droulant sallongeait au fur et mesure que la BDT senrichissait et il ne comporte plus dsormais que les initiales majuscules ou minuscules
des termes enregistrs dans la BDT. Cet amnagement parsente lavantage de
raccourcir le menu droulant mais aussi linconvnient docculter les termes : le
terminographe ne peut plus choisir le terme dans le menu, il doit savoir ce quil
cherche pour pouvoir le trouver. Il faut donc que la fiche de lquivalent ait t
cre pralablement et notre organisation en trois tapes, langlais, puis le franais, puis le portugais, sest rvle trs pratique. On peut aussi passer dune fiche
lautre grce des hyperliens entre synonymes, antonymes et quivalents de
traduction. Cette fonction ajoute en 2006 la demande des utilisateurs se rvle
trs utile pour vrifier si aucun terme concurrent na t oubli.
Une autre fonction trs utile de la BDT est celle qui permet dobtenir des statistiques sur chaque terme. Elle distingue non seulement le nombre doccurrences
au singulier et au pluriel, sauf en franais, mais aussi le nombre doccurrences par
fichier. Ces donnes permettent de comparer lusage selon les auteurs, les types
de texte ou les registres. Il est aussi possible dobtenir des statistiques gnrales
par langue et par corpus. Ces dernires ne tiennent compte que des termes de
plus de trois lettres extraits et insrs semi-automatiquement, si bien que nous
navons pu utiliser ces rsultats efficacement en raison des nombreux sigles de
trois lettres et des nombreux termes (81,6% du total) insrs manuellement.
On peut aussi associer chaque fiche un ou plusieurs mdias (images, films
ou enregistrements sonores numriss), mais quelques problmes doivent encore
OSLa volume 7(1), 2015

[32]

franoise bacquelaine
tre rsolus. Dune part, aucun champ nest prvu pour indiquer la prsence de
ces fichiers, dautre part, ils nont pas t exports avec les autres donnes de la
BDT.
Dans lensemble, cette exprience terminographique a t trs positive. Si les
performances des fonctions de gestion et de recherche sont remarquables, les
fonctions dextraction semi-automatique de termes et de dfinitions peuvent tre
amliores, notamment en franais, mais elles ont quand mme facilit la tche
terminographique. Certaines contraintes, telles le nombre minimum de quatre
lettres par terme pour obtenir des rsultats statistiques ou les options rduites
de classement morphologique, devraient pouvoir tre leves ou amnages par
lutilisateur, comme cest le cas des relations smantiques. tant donn que tous
les utilisateurs nont pas besoin de tous les champs prvus pour les fiches terminologiques, ceux-ci pourraient tre activs selon les besoins de chacun. Les corpus FR et PE (portugais europen) crs pour cette premire exprience ont t
rutiliss dans la deuxime. Cette possibilit de recyclage reprsente un autre
avantage du Corpgrafo.
[4] p h r a s o l o g i e

Pour comparer lusage des quantificateurs universels chaque/cada, tout/todo o


et tous les/todos os en franais et en portugais europen dans le cadre du sminaire de Smantique du Doctorat en Linguistique de la FLUP (1er semestre 2009
2010), nous avons analys trois corpus dans chaque langue au moyen des fonctions Concordncia Frase et Concordncia Janela. Les premiers corpus comparables comportent 140 224 atomes en portugais et 110 928 en franais. Ils se
composent darticles de presse sur la deuxime guerre en Irak extraits de divers
journaux portugais, belges et franais accessibles gratuitement en ligne. Ces extraits ont t rcolts partir de mots cls (guerre, Irak, date, euphmismes courants lis la guerre et la mort) sur deux priodes, la premire entre le 18 et le
24 mars 2003 (dbut de la deuxime guerre) et la seconde entre le 18 et le 24 mars
2006 (troisime anniversaire du dbut de la deuxime guerre). En effet, ces corpus
avaient t constitus pour tudier les obstacles la traduction des euphmismes
(Bacquelaine 2006) et ont t rutiliss en tant que corpus reprsentatifs du registre courant en franais et en portugais. Toutefois, deux corpus scientifiques
ont t ajouts dans chaque langue, car les quantificateurs tout et surtout todo o
sont plutt rares dans le registre courant. Nous avons ainsi rutilis les corpus
comparables sur les tlcommunications sans fil (352 813 atomes en portugais et
149 082 en franais) et cr un nouveau corpus partir dun texte de dpart dans
le domaine du droit constitutionnel comptant 67 463 atomes en portugais et de
sa traduction remanie qui compte 81 490 atomes en franais. Ces deux derniers
corpus sont ainsi comparables et parallles la fois, mais ils ont tous t traits
de la mme faon.
OSLa volume 7(1), 2015

corpgrafo, terminologie, phrasologie

[33]

Les attestations des trois quantificateurs, au fminin et au masculin, en franais et en portugais, ont t extraites grce la fonction Concordncia Frase.
Ces rsultats bruts ont t copis-colls sur une feuille de calcul Excel o ont t
ralises les oprations de slection des segments pertinents 12 et de classement
de ceux-ci daprs les noms sur lesquels ils oprent en vue de lanalyse qualitative
et quantitative de ces donnes. Contrairement aux attentes des locuteurs natifs
lusophones qui ces rsultats ont t prsents 13 , il sest avr que, dans labsolu,
cada est plus frquent que chaque, quel que soit le co-texte ou le registre (courant,
juridique ou technico-scientifique).
La fonction Concordncia Janela permet de classer les rsultats par ordre alphabtique daprs le co-texte, cest--dire les mots qui prcdent ou suivent lexpression de requte (la ponctuation na videmment aucun intrt). Cette fonction a ainsi rvl les affinits particulires de chaque quantificateur avec certains
noms. Par exemple, laffinit de cada avec le nom vez est trs forte. Elle a aussi mis
en vidence la particularit de cada qui peut oprer sur un nom quantifi par un
numral cardinal suprieur lunit, ce que ni chaque ni each ne peuvent faire.
Ces dcouvertes ont ainsi dtermin le choix de lobjet dtude de notre doctorat
en cours. En effet, la frquence de cada particulirement leve dans le corpus
Bluetooth sexplique en partie par la frquence de quatre squences semi-figes
dont les traductions 14 en anglais et en franais ne comportent ni each ni chaque
et qui sassimilent la phrasologie au sens large. Les exemples (1) (4) illustrent
ces quatre squences :
(1)

Estima-se que as organizaes () procuraro usar mtodos cada vez menos


convencionais e mais inesperados.
(corpus Irak)

(2)

Um dispositivo pode fazer parte de diferentes piconets ; porm, como as


unidades de rdio s podem sintonizar uma das portadoras em cada instante, ele s pode comunicar com uma piconet de cada vez.
(corpus Bluetooth)

(3)

Blair () resisitiu a uma prova de fogo, ao conseguir que a maioria dos


deputados desse o seu apoio partipao britnica na guerra apesar de
um em cada trs parlamentares trabalhistas terem votado contra.
(corpus Irak)

12. Les rsultats de cette recherche ont t prsents au Colloque international Traduction, terminologie
et rdaction technique : des ponts entre le franais et le portugais en janvier 2011 et larticle Apports de la
smantique et de la syntaxe la traduction des quantificateurs universels franais et portugais a t accept
en juillet 2011 pour publication dans les Actes, qui se font toujours attendre ce jour.
13. Il sagit du groupe de smantique du CLUP dirig par le professeur Ftima Oliveira, compos notamment
de Ftima Silva, Lus Filipe Cunha, Antnio Leal, Purificao Silvano, Idalina Ferreira et Joaquim Barbosa.
14. Les quivalents de traduction ont t confirms par une tude postrieure de corpus parallles disponibles en ligne.
OSLa volume 7(1), 2015

[34]

franoise bacquelaine
(4)

Como o intervalo de gerao de clulas menor, a atribuio de um canal


LCH por cada 3 tramas deixa de ser suficiente para satisfazer o requisito da
conexo
(corpus Bluetooth)

En (1), cada vez se combine un comparatif (mais, menos, maior, menor, melhor ou
pior 15 ) pour exprimer la progression dans un sens ou dans lautre. La progression sexprime par dautres moyens en anglais (p. ex. more and more, ever more,
ou la lexicalisation du concept en recourant to increase, increasing ou increasingly
pour exprimer laugmentation quantitative ou lintensification qualitative) et en
franais (p. ex. de plus en plus, de moins en moins, de mieux en mieux, de mal en pis
ou diverses lexicalisations du concept telles que se multiplier ou croissant). Nous
avons baptis compte-gouttes la relation exprime en (2), o uma correspond
un numral cardinal restreignant lunit la quantit de piconets o lappareil
Bluetooth peut communiquer de cada vez (at a time et la fois sont les quivalents
les plus frquents). Les exemples (3) et (4) illustrent les deux derniers types de
relations quantifies par cada en portugais. En (3), um em cada trs parlamentares
trabalhistas (one in (every) three Labour MEPs et un dput travailliste sur trois) exprime une proportion entre un ensemble et un sous-ensemble tandis quen (4),
um canal LCH por cada 3 tramas (one LHC channel for every three frames et un canal LHC
pour trois trames) exprime une proportion entre deux ensembles distincts.
Les relations de proportion sont les plus complexes et les prpositions em ou
por peuvent entraner lun ou lautre type de proportion, mais il ne sagit pas
ici dentrer dans les dtails de lexpression de ces quatre relations quantifies
par cada, mais bien de dmontrer la performance et lutilit des fonctions de recherche du Corpgrafo qui dvoilent des aspects insouponns des langues naturelles.
[5] c o n c l u s i o n

Ces deux expriences dmontrent incontestablement les atouts du Corpgrafo


et les performances exceptionnelles des fonctions de gestion et de recherche, malgr ses dfauts invitables. Les besoins des utilisateurs ne sont pas uniformes et
certains amnagements raliss pour satisfaire les besoins des uns compliquent la
tche des autres. Certaines contraintes peuvent tre gnantes. Il a t question de
la limitation du menu de classement du champ Morfologia de la BDT, de la longueur minimale des termes fixe quatre lettres pour amliorer les performances
de loutil alors que les sigles de deux ou trois lettres se multiplient dans la plupart
des terminologies de pointe, des statistiques sur chaque terme qui ignorent galement les termes de moins de quatre lettres et enfin des statistiques sur la BDT
qui ne tiennent compte que des termes insrs de faon semi-automatique. La
fonction BDT a t conue en conformit avec la norme ISO 12620, mais, comme
15. Inferior et superior sont aussi possibles, mais ne sont pas attests dans les corpus utiliss.
OSLa volume 7(1), 2015

corpgrafo, terminologie, phrasologie

[35]

le fait remarquer Gouadec (2003), lutilisateur prfre des rpertoires terminologiques aussi simples que possible et donc en contravention totale avec toutes les
rgles de la terminographie (1618 1620 16 ). Comme nous lavons dit, la possibilit de slectionner les champs des fiches terminologiques selon les besoins de
chaque utilisateur permettrait damliorer la prsentation de la BDT exporte. La
gestion des mdias associs devrait pouvoir tre amliore par le signalement de
leur prsence et leur inclusion lors de lexportation.
Certes, des corpus prt--porter, comparables ou parallles, sont disponibles
et exploitables gratuitement en ligne, mais ils ne contiennent pas toujours ce dont
on a besoin, notamment lorsquil sagit de terminologie ou de phrasologie spcialise. Certes, dautres outils permettent dexplorer limmense corpus du Web (par
exemple, WebCorp 17 voire Google) ou de constituer des corpus partir de motscls associs au domaine (par exemple, BootCat 18 ) 19 , mais le Corpgrafo est sans
doute le seul outil gratuit accessible en ligne 20 ou tlchargeable spcialement
conu pour le traitement automatique du portugais et fonctionnant aussi pour
dautres langues en caractres romains. Il permet en outre dinclure des fichiers
non disponibles sur Internet, tels que ceux fournis par les experts de la FEUP.
Son architecture modulaire lui confre une grande flexibilit et la possibilit de
sadapter aux besoins formuls par les utilisateurs. Cette flexibilit lapparente
un laboratoire o des pistes sont suivies jusquau bout ou abandonnes en chemin
si les rsultats savrent ngatifs. Les fonctions de gestion de fichiers et de corpus
ainsi que les fonctions de recherche sont trs efficaces et ne requirent que peu
defforts de prparation des matires premires. La possibilit de rectifier le texte
des dfinitions et des contextes dans les bases de donnes ainsi que celle de crer
des relations smantiques constituent dautres atouts du Corpgrafo.
Initialement conu comme un outil daide la recherche et la formation en
linguistique portugaise et en terminographie au service de la traduction, il ne peut
se mesurer des fonctions intgres aux outils daide la traduction telles que
Termbase ou Multiterm, qui sont beaucoup plus pratiques pour les traducteurs
professionnels. Il nen reste pas moins que cest un outil didactique performant
pour initier les tudiants aux canons de la terminographie et de la lexicographie.
En outre, il se rvle un alli fidle et utile pour toute recherche sur un ou plusieurs corpus. Les corpus sur mesure constituent ainsi un investissement long
terme permettant dutiliser les mmes corpus ou den crer dautres partir des
mmes fichiers pour raliser toute sorte de recherches fondes sur le langage et
toute sorte de comparaisons entre langues ou registres au sens large (oral ou crit,
16. Il sagit dun document sonore.
17. http://www.webcorp.org.uk/live/.
18. http://bootcat.sslmit.unibo.it/.
19. Ces deux outils concurrents, Webcorp et Bootcat, nous ont t signals par Slvia Arajo que nous tenons
remercier pour sa rvision minutieuse et ses conseils judicieux.
20. http://labclup.letras.up.pt/corpografo/
OSLa volume 7(1), 2015

[36]

franoise bacquelaine
langue courante ou langue de spcialit, types de textes, etc.), quel que soit le
domaine de recherche (Terminologie, Traduction, Linguistique, TAL, Sociologie,
etc.). Depuis que le projet nest plus financ, ce qui est regrettable, le Corpgrafo
na plus fait lobjet que damnagements ponctuels et son bon fonctionnement dpend dsormais de la bonne volont de quelques-uns. Quils en soient remercis.

rfrences
Almeida, Nuno. 2007. A tecnologia Bluetooth.
Bacquelaine, Franoise. 1980. Deutsch-franzsische Terminologie des Strickens
und Hkelns. Universit de Lige, non publi.
Bacquelaine, Franoise. 2006. Leuphmisme, un obstacle la traduction. Revista
da Faculdade de Letras : Lnguas e Literaturas XXIII. 463487.
Bacquelaine, Franoise. 2009. La terminologie Bluetooth en anglais, en franais et en
portugais. tude de nonymie compare. Porto : Faculdade de Letras da Universidade do Porto. MA thesis. Version de septembre 2008 revue aprs soutenance.
Bacquelaine, Franoise. 2015. La terminologie Bluetooth en anglais, en franais et en
portugais tude de nonymie compare. Presses acadmiques francophones.
Branco, Antnio, Amlia Mendes, Slvia Pereira, Paulo Henriques, Thomas Pellegrini, Hugo Meinedo, Isabel Trancoso, Paulo Quaresma, Vera Lcia Strube
de Lima & Fernanda Bacelar. 2012. A lngua portuguesa na era digital The Portuguese Language in the Digital Age. Springer.
Gouadec, Daniel. 2003. Terminologie et traduction. Document audio, communication et discussion : 105- 3230. http://archives.diffusion.ens.fr/
diffusion/audio/2003_10_17_terminologie_02.mp3.
Maia, Belinda & Srgio Matos. 2008. Corpgrafo V4 - Tools for Researchers and
Teachers using Comparable Corpora. In Pierre Zweigenbaum, ric Gaussier &
Pascale Fung (eds.), LREC 2008 Workshop on Comparable Corpora (LREC 2008), 7982.
ELRA.
Maia, Belinda & Lus Sarmento. 2003. GC - Integrated Web Environment for
Corpus Linguistics. Prsentation la Corpus Linguistics 2003 (CL2003). http:
//www.linguateca.pt/documentos/cl2003.pdf.
Maia, Belinda & Lus Sarmento. 2005. The Corpgrafo - an Experiment in Designing a Research and Study Environment for Comparable Corpora Compilation
and Terminology Extraction. In Proceedings of eCoLoRe / MeLLANGE Workshop,
Resources and Tools for e-Learning in Translation and Localisation, 4548.
OSLa volume 7(1), 2015

corpgrafo, terminologie, phrasologie

[37]

Maia, Belinda & Lus Sarmento. 2006. Corpgrafo - Applications. In Third International Workshop on Language Resources for Translation Work Research & Training,
Satellite event of LREC 2006 (LR4Trans-III), 5558.
Sablayrolles, Jean-Franois. 2000. La nologie en franais contemporain. examen du
concept et analyse de productions nologiques rcentes (Lexica. Mots et Dictionnaire 4). Champion.
Santos, Diana. 2005. Relatrio da Linguateca de 15 de Maio de 2004 a 14 de Maio
de 2005. Tech. rep. Linguateca. http://www.linguateca.pt/documentos/
RelatorioLinguatecaMaio2005.pdf.
Sarmento, Lus & Belinda Maia. 2003. Gestor de Corpora Um ambiente Web integrado para Lingustica baseada em Corpora. In Jos Joo Almeida (ed.), Corpora
Paralelos, Aplicaes e Algoritmos Associados (CP3A), 2530.
Sarmento, Lus, Belinda Maia & Diana Santos. 2004. The Corpgrafo - a Web-based
environment for corpora research. In Maria Teresa Lino, Maria Francisca Xavier, Ftima Ferreira, Rute Costa & Raquel Silva (eds.), Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC2004), 449452.
Sarmento, Lus, Belinda Maia, Diana Santos, Ana Pinto & Lus Cabral. 2006. Corpgrafo V3 : From Terminological Aid to Semi-automatic Knowledge Engine. In
Nicoletta Calzolari, Khalid Choukri, Aldo Gangemi, Bente Maegaard, Joseph Mariani, Jan Odjik & Daniel Tapias (eds.), Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC2006), 15021505.
Schiller, Jochen. 2003. Mobile Communications. Harlow (GB) : Pearson Education
Limited 2nd edn.
Schiller, Jochen. 2008. Wireless LANs. Cette version consulte le 15/09/2008 nest
plus disponible ; une version remanie non date est disponible https://
www.iith.ac.in/~tbr/teaching/docs/wireless_lans.pdf.

c o n ta c t s
Franoise Bacquelaine
Faculdade de Letras, Universidade do Porto
franba@letras.up.pt
OSLa volume 7(1), 2015

Simes, Barreiro, Santos, Sousa-Silva & Tagnin (eds.) Lingustica, Informtica e Traduo: Mundos
que se Cruzam, Oslo Studies in Language 7(1), 2015. 3956. (ISSN 1890-9639 / ISBN 978-82-9139812-9)
http://www.journals.uio.no/osla

estudo preliminar da anfora num


corpus de interpretao simultnea
SLVIA ARAJO E ANA CORREIA

abstract
In this paper, we propose an exploratory study about the usefulness of multilingual corpora in areas related to the study of language, translation and,
in particular, of simultaneous interpreting. After a brief overview of corpusbased interpreting studies as well as of some existing electronic interpreting
corpora, we move on to describe the compilation stages of a bidirectional
multimedia corpus (PTEN/ENPT). This is followed by an example of how
the corpus can be explored, which focuses on the issue of anaphoric relations. The aim of this study if twofold: on the one hand, to convey the relevance of this type of resource as a repository of authentic simultaneous
interpreting data; and, on the other hand, to demonstrate that by analysing
it from a linguistic perspective it may be possible to identify sensitive areas
in simultaneous interpreting (e.g. anaphora), which may prove an important contribution for interpreter training.
[1] l i n g u s t i c a d e c o r p u s a p l i c a da i n t e r p r e ta o

Aps o comprovado xito da lingustica de corpus aplicada ao estudo da traduo,


seguiram-se vrios trabalhos de investigao com o intuito de aplicar esta metodologia ao contexto especfico da interpretao1 , incidindo maioritariamente nos
modos consecutivo e simultneo, at ao momento. Do conjunto de estudos sobre
interpretao baseados em corpora, refira-se, a ttulo de exemplo, o de Timarov
(2005) sobre a densidade lexical dos discursos, o de Russo et al. (2006) sobre padres lexicais e, finalmente, o de Shlesinger (2009) sobre as caractersticas ditas
universais do discurso interpretado ou interpretese. Importa ressalvar que existem, para alm dos corpora de interpretao eletrnicos apresentados na seco
seguinte, vrias compilaes manuais (Maia 2000, 2008) de discurso interpretado
que tambm constituem corpora a diferena reside no facto de no estarem organizados numa plataforma eletrnica. O estudo de Setton (1999), por exemplo,
baseia-se num corpus ad hoc compilado manualmente. Uma parte significativa
destes corpora no informatizados composta pelas produes orais de alunos a
frequentar ps-graduaes de interpretao, que so gravadas e posteriormente
[1]

O termo interpretao deve ser entendido aqui como a atividade de natureza oral que implica a passagem
de uma mensagem de uma lngua para outra, quer em modo simultneo, quer em modo consecutivo
(Bendazzoli 2010).

[40]

arajo & correia


transcritas. Este tipo de coletnea tem vindo a ser utilizado para identificar, com
maior ou menor grau de sistematicidade, os erros cometidos pelos alunos, chegando mesmo a culminar na criao de tipologias de erro. A ttulo de exemplo,
citamos os estudos de Gile (1987, 1992) e Falbo (1998) sobre os erros cometidos
por estudantes de interpretao simultnea durante o seu perodo de aprendizagem. Estes estudos baseiam-se na premissa de que o trabalho de reflexo sobre
a prtica da interpretao atravs de dados reais, i.e., de um corpus (informatizado ou no), promove a conscincia metalingustica nos estudantes e pode, por
conseguinte, ajudar a desenvolver estratgias de antecipao e resoluo de problemas (Sandrelli 2010). Uma das reas que pode beneficiar deste tipo de reflexo diz respeito, como veremos na seco 4, s relaes anafricas e s conexes
semntico-pragmticas por elas desencadeadas. Estas podem, de facto, afetar a
inteligibilidade do discurso se no forem devidamente processadas, quer ao nvel
da produo, quer ao nvel da receo.
[2] c o r p o r a d e i n t e r p r e ta o e m f o r m at o e l e t r n i c o

Como vimos, a metodologia da lingustica de corpus tem sido usada, ainda que
de forma artesanal, para estudar a interpretao. Devido natureza intrnseca da
interpretao, os corpora compilados com material interpretado, manuais ou eletrnicos, so necessariamente paralelos, isto , contm pelo menos duas verses
lingusticas de um mesmo texto (original e traduo). Daqui se depreende que
o corpus paralelo seja de grande utilidade para o estudo da traduo, podendo
e devendo esta inferncia ser alargada ao contexto da interpretao (Ginezi
2014).
Desde o apelo lanado por Shlesinger (1998), foram desenvolvidos diversos
projetos dedicados compilao de corpora de interpretao eletrnicos, entre
os quais se destaca o pioneiro European Parliament Interpreting Corpus (EPIC). O EPIC
foi indubitavelmente um forte catalisador de investigao nesta rea, tendo servido de base a inmeros projetos de dissertao no contexto acadmico italiano
(Russo 2010). Os membros da equipa que esteve na origem do EPIC tm-se dedicado ao estudo da direcionalidade e seu impacto no desempenho dos intrpretes, associado s eventuais diferenas decorrentes da interpretao entre lnguas
romnicas, por um lado, e entre uma lngua romnica e uma germnica, por outro lado (Monti et al. 2005). Outro estudo que merece destaque resulta do European Parliament Translation and Interpreting Corpus (EPTIC), projeto derivado do
EPIC, que reequaciona o conceito de simplificao lexical enquanto universal de
traduo/interpretao atravs de medida quantitativas fornecidas pelo corpus
(Bernardini et al. 2013).
Na senda do EPIC (Bendazzoli & Sandrelli 2005), surgiram outros corpora de
interpretao que cobrem uma maior variedade de lnguas, modos e contextos
de interpretao. de destacar o trabalho desenvolvido pelo Hamburger Zentrum
OSLa volume 7(1), 2015

estudo preliminar da anfora num corpus de interpretao simultnea

[41]

fr Sprachkorpora no mbito da compilao de corpora orais. No seu repositrio,


incluem-se tambm alguns corpora de interpretao, nomeadamente o corpus
Dolmetschen im Krankenhaus (DiK) (House et al. 2012) e o corpus Consecutive and Simultaneous Interpreting (CoSi) (Bhrig et al. 2012). O primeiro visa a interpretao
comunitria num contexto hospitalar e o segundo est direcionado para a interpretao em situao de conferncia, quer em modo consecutivo quer em modo
simultneo. Os trs corpora mencionados resultaram de projetos financiados de
larga escala. Existem outros, resultantes de projetos individuais de investigao,
que constituem tambm importantes ferramentas para o estudo da interpretao.
Um exemplo o corpus DIRSI-C, composto por discursos de natureza mdica em
ingls e italiano, que permitiu chegar a importantes concluses sobre o impacto
da direcionalidade (i.e., interpretar de ou para a lngua materna) no desempenho
dos intrpretes (Bendazzoli 2010).
[3] c o r p u s d e i n t e r p r e ta o / p e r - f i d e

O corpus de interpretao que constitui a base emprica do estudo sobre a anfora que apresentamos na seco seguinte decorre do corpus Per-Fide (Arajo et al.
2010; Almeida et al. 2014). Para dar continuidade a este corpus composto exclusivamente por textos (escritos) paralelos, pretende-se agora acrescentar uma dimenso oral atravs da compilao de um corpus de interpretao. Este corpus
ser composto pelas transcries das intervenes, em sesso plenria, dos eurodeputados portugueses e ingleses. Convm, aqui, realar que as transcries
por ns realizadas so diferentes das transcries que integram o corpus Europarl
(Koehn 2005). Com efeito, para o corpus de interpretao, partimos do CompteRendu in Extenso (CRE), i.e., o relato integral das sesses plenrias do Parlamento
Europeu, que deu origem ao Europarl, mas procurmos aproxim-lo daquilo que
efetivamente proferido pelos deputados e intrpretes. Apesar de se limitar s
lnguas portuguesa e inglesa, este corpus de interpretao tem a vantagem de especificar a lngua-fonte de cada interveno.
Alm de ser um produto derivado do projeto Per-Fide, este corpus que agora
apresentamos diretamente influenciado pelo EPIC, projeto que lhe serviu de inspirao. De seguida, passamos ento a descrever o Corpus de Interpretao/PerFide, salientando algumas das suas caractersticas e elencando as vrias etapas de
compilao, sem nos adentrarmos nos detalhes mais tcnicos. Porm, antes ainda
dessa descrio, apresentamos um resumo visual do processo, que poder contribuir para uma melhor compreenso dos procedimentos envolvidos na compilao
do corpus na figura 1.
Conforme assinalado na figura 1, a criao do corpus pode ser decomposta em
trs grandes etapas: pr-processamento, processamento e ps-processamento.
Antes de o material a incluir no corpus poder ser processado, necessrio levar a
cabo a transcrio do material, ainda em formato audiovisual (pr-processamento).
OSLa volume 7(1), 2015

[42]

arajo & correia

figura 1: Etapas de compilao do corpus


De seguida, necessrio segmentar, alinhar e anotar esses dados transcritos (processamento), para que possam ser depois pesquisados na rede atravs de uma interface construda para o efeito (ps-processamento). Abaixo, apresentamos estas
trs fases de forma um pouco mais detalhada.

Pr-processamento
Conforme mencionado acima, o Corpus de Interpretao/Per-Fide um corpus de
interpretao composto pelas transcries dos discursos proferidos pelos eurodeputados portugueses e ingleses e das respetivas interpretaes. Os discursos
reunidos correspondem a um perodo de seis meses de intervenes dos deputados portugueses, desde janeiro a junho de 2011. A fim de equilibrar quantitativamente os dados, as intervenes dos homlogos ingleses limitam-se a apenas
trs desses seis meses. Este um corpus bidirecional na medida em que inclui
discursos originais em ambas as lnguas. Podemos, alis, dividi-lo em dois subcorpora para melhor ilustrar o seu carter bidirecional: subcorpus 1) portugus
original ingls interpretado; subcorpus 2) ingls original portugus interpretado. Cria-se, assim, uma estrutura cruzada que, como se pode ver abaixo na
figura 2, demonstra a natureza simultaneamente paralela e comparvel (a dois
nveis) do corpus.
Os discursos (i.e., originais e interpretaes) que integram este corpus apresentam especificidades decorrentes do contexto em que ocorrem. Com efeito, o
sistema de atribuio da palavra no Parlamento Europeu bastante rgido, o que
faz com que cada deputado tenha, em mdia, dois minutos para as suas intervenes. Para garantir a mxima rentabilizao de um tempo de antena mnimo, os
OSLa volume 7(1), 2015

estudo preliminar da anfora num corpus de interpretao simultnea

[43]

figura 2: Esquema de combinatrias lingusticas.


deputados leem os seus discursos, que so previamente redigidos. Naturalmente,
a leitura dos discursos traduz-se num dbito e densidade elevados, que tipicamente no se encontrariam numa produo espontnea. No que toca aos intrpretes, no sabemos se estes tm acesso prvio aos discursos que vo interpretar,
assim como no dispomos de informao sobre a sua formao e experincia profissional.
Os discursos que vo integrar o corpus foram descarregados em bruto a partir
do stio web do servio audiovisual do Parlamento Europeu, que disponibiliza as
gravaes das sesses plenrias desde abril de 2006 em todas as lnguas oficiais da
Unio Europeia. Estes discursos foram posteriormente armazenados no servidor
do projeto Per-Fide. Cada discurso corresponde a um ficheiro wmv, que por sua vez
integra 22 pistas de udio (uma para cada lngua oficial, exceo do croata e do
irlands). Assim, o passo seguinte consistiu em isolar para cada vdeo o material
udio relevante, i.e., as pistas portuguesa e inglesa. No que respeita aos direitos
de autor, importa referir que o servio audiovisual permite que o material disponibilizado no seu stio web seja utilizado gratuitamente para fins educativos,
conforme se pode ler no separador Copyright desse mesmo stio.
Depois de recolher e processar os discursos, deu-se incio etapa de transcrio. Contmos, para isso, com o apoio dos alunos do 3 ano da licenciatura em
Lnguas Aplicadas (2013/14) da Universidade do Minho que transcreveram, no
mbito da unidade curricular de Princpios de Interpretao, a quase totalidade
dos discursos a integrar no corpus. Nesta etapa, o investigador confrontado
com a necessidade de tomar decises metodolgicas que orientem o trabalho de
transcrio. Estas decises devem estar firmadas na identificao clara da(s) fiOSLa volume 7(1), 2015

[44]

arajo & correia


nalidade(s) do corpus. No nosso caso, por exemplo, o esforo adicional de anotar
pausas e hesitaes ao transcrever os discursos no acrescentaria valor ao estudo
das relaes anafricas, que o fenmeno que pretendemos estudar atravs deste
corpus. Contudo, devemos ressalvar que, embora concebido para o estudo de um
fenmeno particular, este corpus no se limita ao estudo da anfora. Ser um
recurso aberto comunidade acadmica, podendo servir de base a inmeras pesquisas sobre aspetos lingusticos e cognitivos da linguagem em uso. O trabalho
de transcrio pautou-se por uma preocupao constante em refletir o mais fielmente possvel aquilo que efetivamente pronunciado pelos oradores e intrpretes. Assim, a par da transcrio ortogrfica, optou-se por anotar casos de autocorreo e reformulao, utilizando uma barra (/). As transcries basearam-se
nas convenes HIAT (Halbinterpretative Arbeitstranskriptionen), integradas no EXMARaLDA Partitur-Editor (Schmidt 2004). HIAT um sistema de transcrio para a
representao escrita da lngua falada, projetado nos anos 70 no mbito da anlise
do discurso e que foi retomado pelos criadores do Partitur-Editor EXMARaLDA. As
transcries propriamente ditas foram elaboradas no referido software, PartiturEditor, que permitiu ainda a integrao de metadados relativos aos oradores e aos
discursos atravs dos separadores Speakertable e Metainformation, respetivamente.
No primeiro separador, inclui-se o nome do deputado e o grupo poltico ou o sexo
do intrprete (M/F), conforme se trate de um discurso original ou interpretao.
No segundo separador, inclui-se a data do discurso e a fonte (i.e., original vs. interpretao). A escolha deste software foi determinada pelo seu carter livre e,
sobretudo, pelo facto de codificar os ficheiros transcritos em XML. Cabe assinalar
que o EPIC, tratando-se de um projeto com mais recursos humanos e financeiros,
apresenta transcries mais detalhadas do ponto de vista da anotao paralingustica (e.g. pausas e disfluncias). Note-se que a tentativa de produzir transcries
que sejam user/annotator-friendly comum a ambos os corpora. O nvel de detalhe tambm superior no que concerne anotao paralingustica, j que cada
transcrio acoplada a um cabealho de metadados que inclui abundante informao sobre o contexto, orador e o discurso (e.g. tema, tema especfico, durao,
nmero de palavras, palavras por minuto, etc.). A incluso de metadados, tambm prevista no nosso corpus, garante que outros investigadores possam utilizar
estes recursos de uma forma adequada, j que a origem e a natureza dos dados
esto devidamente identificadas.

Processamento
Como se disse, neste momento, encontramo-nos em fase de reviso das transcries j elaboradas pelos alunos da licenciatura em Lnguas Aplicadas. Aps esta
etapa, passar-se- a um conjunto de procedimentos tcnicos que visam a estruturao e disponibilizao do corpus na rede, em livre acesso. Feitas as transcries, ser necessrio alinhar os originais com as respetivas transcries. Este
OSLa volume 7(1), 2015

estudo preliminar da anfora num corpus de interpretao simultnea

[45]

alinhamento implica uma segmentao ao nvel frsico, passvel de automatizao graas aos cdigos XML gerados pelo Partitur-Editor. Esta segmentao servir
de base ao alinhamento dos bi-textos (i.e., original + interpretao) mas tambm
prpria segmentao dos ficheiros vdeo/udio correspondentes que sero depois sincronizados com o texto. Daqui decorre o carter multimdia deste corpus,
semelhana do corpus multimdia Veiga de legendagem (Dios & Guinovart 2012),
desenvolvido no Centro de Lingustica da Universidade de Vigo. Este corpus ir, assim, permitir ao utilizador efetuar pesquisas em bitextos alinhados, com acesso ao
material audiovisual correspondente. Com efeito, estes dois aspetos representam
um salto evolutivo face ao EPIC, embora, no mbito deste ltimo, esteja j prevista a incluso de bitextos alinhados e de material audiovisual como sugesto de
trabalho futuro. importante referir que os bitextos sero alinhados e etiquetados morfossintaticamente, aumentando as potencialidades do corpus para fins de
investigao. Estas duas tarefas sero executadas de forma semiautomtica, combinando software de alinhamento (Simes & Almeida 2007) e etiquetao (Schmid
1994; Brants 2000) cujos resultados sero alvo de uma reviso manual.

Ps-processamento
A ltima etapa prende-se com a disponibilizao do corpus e prev a construo de
uma interface de pesquisa prpria, que a seu tempo poder ser consultada atravs
do stio web do corpus Per-Fide.
Neste momento, o corpus ainda no se encontra disponvel para consulta.
Contudo, foi possvel analisar um subconjunto de discursos, j transcritos, que
faro parte do corpus. Esta anlise revelou que a anfora um fenmeno lingustico importante na interpretao, uma vez que pode afetar os discursos produzidos pelos intrpretes em termos de coeso e coerncia.
[4] a a n f o r a n a i n t e r p r e ta o s i m u l t n e a

Toda a comunicao significativa usa a linguagem e, se quisermos saber como esta


funciona, temos que analisar atos concretos de comunicao, i.e., textos (orais
e/ou escritos). Compreender um texto implica ser capaz de construir uma representao mental coerente desse mesmo texto (Morais 2011, pg. 17). Como refere
(Lopes 2008, pg. 62), h duas dimenses que se afiguram cruciais na construo de
uma representao mental de um texto. Em primeiro lugar, a coerncia referencial,
basicamente suportada pelas anforas discursivas e, em segundo lugar, a coerncia
relacional que envolve relaes semnticas que conectam segmentos discursivos.
So muitos os trabalhos dedicados a esta dimenso da coerncia discursiva, que
permite estabelecer uma fronteira entre uma sequncia aleatria e desconexa de
frases e um produto com sentido em termos semntico-pragmticos (Jaubert 2005;
Kostopoulou 2007; Sanders et al. 2007; Lopes & Rodrigues 2013, entre muitos outros). Ao produzir um discurso, um determinado locutor utiliza mecanismos de
OSLa volume 7(1), 2015

[46]

arajo & correia


coeso e coerncia que lhe permitem assinalar a interdependncia semntica entre os diferentes elementos que o compem. Tanto quanto do nosso conhecimento, no foi ainda realizado um estudo especificamente centrado na compreenso da anfora e ancorado em dados extrados de um corpus de interpretao
simultnea. Nas linhas que se seguem, pretendemos demonstrar que os processos
anafricos so pistas fortes para a ativao e orientao das operaes cognitivas
conducentes compreenso do discurso original e da sua interpretao.

[4.1]

A relao anafrica: uma relao binria assimtrica

Uma relao anafrica caracteriza-se pela dependncia interpretativa entre dois


termos ou segmentos textuais, o termo antecedente (ou termo anaforizado) e o
termo anafrico (ou termo anaforizante). A anfora pois uma relao binria assimtrica entre um antecedente previamente identificado referencialmente e um
termo anafrico que s ganha identidade referencial pela sua integrao naquele
contexto (Campos & Xavier 1991, entre outros). A ttulo meramente exemplificativo, podemos dizer que o excerto do discurso original que se segue entrelaa
duas cadeias de referncia (uma cadeia com trs anis excelente trabalhoque
(efectuou)que (se traduz) e uma outra cadeia com quatro anis relatrioque (permite) elipse de que (constitui)este ( um relatrio)):
(1a)

Muito obrigado, Senhor Presidente, caros Colegas. Quero felicitar os relatores pelo excelente trabalho que efectuou e que se traduz num relatrio
que permite dar um bom incio construo do prximo quadro financeiro
plurianual e [que] constitui um desafio para a Comisso e para o Conselho.
Este um relatrio ambicioso e em simultneo um relatrio realista.

Cada uma destas cadeias referenciais faz uso de procedimentos lxico-gramaticais


(Oliveira 1987; Kleiber 1994; Corblin 1995; Perdicoyanni-Palologou 2001, entre
outros) que instauram a dependncia de um conjunto de termos anafricos relativamente a uma expresso nominal plena que inicia a cadeia referencial. Todos
estes termos anafricos pronominais retiram a sua referncia exclusivamente da
relao que tm com o seu antecedente. interessante notar que, ao restituir este
discurso original, o intrprete ingls elimina a marca de plural (the rapporteur)
que o deputado aplica por engano no actante agentivo (os relatores) do verbo efectuou acima transcrito:
(1b)

OSLa volume 7(1), 2015

Yes, colleagues, I would like to congratulate the rapporteur for his excellent work because he permits us to really do things in the right way. A
good start, financially speaking, within the framework of the MFF and of
course what we have here is a very ambitious report, but a very realistic
one as well.

estudo preliminar da anfora num corpus de interpretao simultnea

[47]

Neste discurso interpretado, mantm-se a significao global do discurso original, apesar de a cadeia de referncia mais saliente ((the rapporteur)his (excellent
work)he (permits)) incidir sobre a expresso nominal the rapporteur e j no sobre os termos antecedentes estipulados em (1a). Ou seja, o discurso interpretado
deixa de dar primazia ao produto (i.e., ao relatrio) para abrir com o autor desse
produto (i.e., o relator) a cadeia de referncia que percorre o excerto (1b). Tratase, na realidade, de uma restituio da informao por modulao metonmica
(Chuquet & Paillard 1987, pg. 31) que consiste em privilegiar a relao de causa
(rapporteur) pelo efeito (report) e no o inverso.
A referncia anafrica , sem dvida, uma condio bsica para a construo
de qualquer ato comunicativo. ela que contribui para a organizao textual, na
medida em que assegura a progresso temtica. Importa assinalar, contudo, que o
uso excessivo de elementos anafricos pode constituir um obstculo clareza. De
facto, os deputados portugueses tendem a alongar as frases atravs de mecanismos recorrentes de subordinao (com o uso do pronome relativo que), conforme
ilustrado no exemplo (2a):
(2a)

O longo processo de trabalho que este importante relatrio exigiu, incluindo os muitos compromissos alcanados, tornou-o num documento
bastante amplo e equilibrado dos diversos interesses que a PAC tem de
dar resposta. Este relatrio constitui uma boa orientao para as propostas legislativas, pelo que felicito o seu relator.

Esta concatenao de que exige um esforo cognitivo adicional e maior tempo de


processamento, dado que frequentemente est associada a verbos com diferentes
tipos de transitividade. Por exemplo, a colocao dar resposta mencionado em (2a)
seleciona um complemento introduzido por intermdio da preposio a. Mas este
trao sinttico nem sempre respeitado, sobretudo com alguns complementos de
natureza oracional, nomeadamente nas oraes relativas, como podemos ver no
exemplo anterior (dos diversos interesses que a PAC tem de dar resposta em vez
de dos diversos interesses a que a PAC tem de dar resposta). Nestes casos, a omisso da preposio tem vindo a generalizar-se. Para adaptar este discurso aos moldes sintticos da lngua inglesa, o intrprete opta por dividir este pargrafo em
oraes coordenadas assindticas (weve been through []; theres been many
[]; now we have []) ou sindticas (and I would like []) de forma a evitar a
cascata de pronomes relativos do discurso original:
(2b)

Weve been through a long procedure, theres been many amendments


that have been tabled and compromises reached. Now we have a balanced report taking into account different interests. This report is a good
guideline for proposals, legislative proposals, and I would like to congratulate the rapporteur.
OSLa volume 7(1), 2015

[48]

arajo & correia


Ao optar maioritariamente por um esquema parattico (Duarte 2003) que consiste em verter o contedo das oraes relativas dentro de oraes coordenadas
(as)sindticas, o intrprete necessariamente levado a segmentar o seu discurso
em blocos de informao mais circunscritos que preservam a ordem cannica da
frase (sujeito verbo objeto(s)). Esta forma aparentemente mais simples (porque mais atomizada) de processar e restituir o discurso original faz com que o
intrprete tenha de atribuir ao verbo de cada uma das oraes coordenadas um
sujeito, pois o ingls distingue-se do portugus por ser necessariamente uma lngua de sujeito foneticamente realizado. Em (2b), os dois pronomes pessoais we so
suficientemente impessoais para que o intrprete possa atribuir, sem se comprometer, um sujeito sinttico a cada uma das oraes independentes que constituem
o seu discurso. Uma alternativa introduo destes pronomes poderia ser o recurso a estruturas passivas curtas que dispensam precisamente qualquer explicitao do agente do processo. isso que acontece num dos segmentos discursivos
presentes em (2b): theres been many amendments that have been tabled and compromises reached. A mobilizao de esquemas diatticos impessoais (quer ativos
quer passivos) pode implicar uma menor sobrecarga da memria, pois, como se
pode ver, por exemplo, no discurso interpretado que se segue, o uso do pronome
se evita que se tenha de explicitar os agentes mencionados no original (a saber:
the UK media/reporters):
(3a)

UK law is being made in Strasbourg, a monster red-tape factory is closing


industry, now we have tax, but because it isnt football, the people arent
informed. The UK media avoid EU reality, brains are fed with TV soaps,
reporters say the EU does not affect local issues. The EU is not news.

(3b)

Mas porque no futebol, as pessoas no esto informadas. Foge-se


realidade. Diz-se que a Unio Europeia no afeta as questes locais. A
Unio Europeia no faz parte das notcias.

Como vimos, os termos de uma relao anafrica surgem, na linearidade do texto,


como uma cadeia anafrica: o termo antecedente referencialmente independente do termo anafrico, ao passo que este referencialmente dependente do
termo antecedente. Importa referir que a escolha errada de um destes termos no
discurso interpretado pode originar alteraes de sentido mais ou menos profundas. Apresentamos abaixo dois pares de exemplos que ilustram, respetivamente,
uma identificao errnea do termo antecedente e do termo anafrico.

Identificao errnea do termo antecedente


No discurso original que se segue, a sigla AU (precipitadamente proferida antes do
seu equivalente por extenso: African Union) foi apreendida pelo intrprete como
sendo a sigla referente Unio Europeia. Esta confuso entre AU e EU ter levado
OSLa volume 7(1), 2015

estudo preliminar da anfora num corpus de interpretao simultnea

[49]

o intrprete a introduzir no seu discurso uma cadeia de referncia relativa Unio


Europeia que no figura de todo no discurso original:
(4a)

The AU, the African Union, could do far more. We have heard many platitudes from the AU but weve seen little concrete action so far.

(4b)

A Unio Europeia, a Unio Africana com certeza que poderiam fazer


mais. Ouvimos j belas declaraes da UE mas at agora poucas aces.

A anlise deste exemplo exibe uma conexo interfrsica bem-sucedida do ponto


de vista da coeso e da coerncia. Contudo, em (4b), o antecedente nico do discurso original (a Unio Africana) passa a assumir uma entidade dupla (a Unio
Europeia e a Unio Africana) no discurso interpretado, que despoleta a retoma
parcial da entidade errada, devido provavelmente semelhana fontica entre
AU e EU.

Identificao errnea do termo anafrico


Em portugus, o termo anafrico pronominal pode ser um pronome pessoal de 3
pessoa, sujeito ou complemento, com ou sem realizao lexical. Quando, na relao anafrica, o termo anafrico no tem realizao lexical, i.e., corresponde a
uma categoria vazia, falamos de elipse e de termo elptico (Marques 2009, pg. 38).
No discurso original que se segue, estamos perante um sujeito nulo subentendido,
que, apesar de no estar foneticamente realizado, pode ser identificado pelas marcas de concordncia verbal ([eles] trabalharam bem):
(5a)

Desde a sua adeso Unio, em 2007, que quer a Bulgria, quer a Romnia tinham a expectativa legtima dos seus cidados se tornarem cidados
comunitrios de pleno direito e poderem usufruir dos mesmos direitos de
todos os outros cidados comunitrios, onde se inclui a liberdade de circulao no interior do Espao Schengen. , pois, a cidadania europeia que
reforamos ao alargar o Espao Schengen. Sexta e ltima nota, Senhor Presidente: [eles] trabalharam bem. evidente que ambos os pases esto de
parabns pelo esforo que realizaram para cumprir todos os requisitos de
Schengen.

A interpretao referencial desse pronome [eles] que no est materialmente expresso depende exclusivamente da sua relao anafrica com o SN (quer a Bulgria, quer a Romnia) que figura no contexto lingustico esquerda. No discurso
interpretado, assistimos a uma quebra desta progresso temtica (antecedente:
Bulgria e Romniaanafrico: [pro=eles]), pois o intrprete opta por um pronome pessoal de 2 pessoa (youve done a good job) quando se estaria espera do
pronome de 3 pessoa (theyve done):
OSLa volume 7(1), 2015

[50]

arajo & correia


(5b)

Since their accession (to the) European Union, Bulgaria and Romania
have legitimately wanted their citizens to become European citizens, with
full rights, and that of course includes the right to move freely within the
Schengen area. So European citizenship is what we are about strengthening here by enlarging the/ this Schengen area. Sixth point: youve done
a good job. Its clearly that/ its clear that these countries should be congratulated for all the efforts theyve made to comply with the Schengen
requirements, []

Neste caso, no parece possvel a identificao anafrica de you em relao ao SN


Bulgaria and Romania, a no ser que a situao extralingustica permita identificar
referencialmente esse SN. No parece ser o caso, pois o deputado no interpela
diretamente nenhum representante passvel de incarnar esse you.
Para alm dos casos anteriormente mencionados de escolha inadequada de um
dos termos da relao anafrica, tambm detetmos casos de no explicitao do
termo anafrico e, como veremos mais frente, de dupla identificao do termo
anafrico.

No identificao do termo anafrico


O discurso original que se segue contm uma relao anafrica, na qual o SN as
devidas ilaes o antecedente e o pronome indefinido uma o termo anafrico.
Este pronome funciona simultaneamente como termo catafrico (PerdicoyanniPalologou 2001) que anuncia a orao que figura posteriormente na linearidade
textual:
(6a)

Espero que todas as instituies tenham retirado as devidas ilaes da


crise financeira, econmica e social que teima em no nos largar. Uma
para mim clara: s uma Europa unida, solidria, com uma governao
econmica reforada, concertada e convergente, estar altura de enfrentar com sucesso os desafios polticos que temos pela frente.

No discurso interpretado, perde-se esta dupla cadeia referencial (anafrica e catafrica):


(6b)

So I think that all of the institutions have learned their lesson from the
major financial crisis that weve experienced. We are a united Europe, a
Europe of solidarity and we are trying to converge, to converge our policies.

O marcador de negao restritiva que figura, em (6a), no ltimo elemento da cadeia referencial (s uma Europa unidaestar altura) parece-nos importante
para reforar a ideia de que a ilao apresentada resume, de facto, a principal lio
que se deve reter e aplicar para se conquistar uma Europa melhor. Ao eliminar
OSLa volume 7(1), 2015

estudo preliminar da anfora num corpus de interpretao simultnea

[51]

do seu discurso este marcador e ao optar por uma forma verbal no presente simples (are), o intrprete no transmite exatamente o mesmo sentido que subjaz
ao original e leva-nos a crer que a Europa j aprendeu a lio. Aqui, fica claro
que a rutura da cadeia anafrica original tem repercusses, a nvel semntico, no
discurso-alvo.
A alterao de sentido decorrente dessa rutura poderia ter sido atenuada se
a forma verbal are (We are a united Europe orao 1) aparecesse precedida,
por exemplo, de um verbo como need (We need to be a united Europe) que marca
uma necessidade implicitamente expressa no enunciado original: para que a
Europa possa estar altura dos seus ideais, precisamos de a tornar mais coesa.
Imposta pela situao de crise que se faz sentir, esta necessidade de implementao de uma (maior) concertao econmica devia suscitar uma nova forma de
atuao por parte dos agentes europeus. O verbo try usado na forma progressiva
(we are trying to converge, to converge our policies orao 2) denota, sem dvida, o esforo que tem sido feito nesse sentido. No entanto, a juno das duas
oraes resulta, devido aos mltiplos valores que a conjuno and pode adquirir
em contexto, numa ambiguidade semntica entre a leitura de finalidade (somos
uma europa unida e para tal, estamos a tentar atuar de forma mais concertada) e
de causalidade (como somos uma Europa unida, estamos a tentar atuar de forma
mais concertada). Por via desta operao, perde-se o valor de condio expresso
no original (a Europa s estar altura se estiver unida), cuja concretizao se
situa no futuro, ao contrrio das leituras semnticas acima descritas, ambas ancoradas no presente (are/are trying).

Dupla identificao do termo anafrico


Ao analisar o discurso original que se segue e a respetiva interpretao, deparamonos com um caso bastante curioso de quebra da progresso temtica. Parece-nos,
de facto, que a no especificao do montante atribudo pela UE Grcia em (7b)
pode levar-nos a interpretar o SN novo financiamento equivalente no luz desse
montante (como seria expectvel) mas sim luz do sintagma preposicional (financiar) de forma intil:
(7a)

Everyone can now see that a default in Greece is coming, except the euro
zone finance ministers who, 13 months after uselessly committing 110 billion euros, now seem set to commit a further sum almost as large.

(7b)

Hoje todos ns podemos ver quais so as consequncias para a economia


grega, excepto os ministros das finanas da Unio Europeia que aps terem financiado de forma intil a economia grega esto dispostas a fazer
um novo financiamento equivalente.
OSLa volume 7(1), 2015

[52]

arajo & correia


Ou seja, ao passo que o adjetivo large (em a further sum almost as large) apresenta,
em (7a), um valor indubitavelmente quantitativo (que remete para a ideia de que
o novo financiamento poder aproximar-se dos 110 mil milhes de euros concedidos aquando do financiamento anterior), no caso de (7b), o adjetivo equivalente
(em um novo financiamento equivalente) parece adquirir um valor predominantemente qualitativo, dado que o nico termo antecedente disponvel no contexto
anterior remete precisamente para o sintagma preposicional acima mencionado.
Ao enveredarmos por uma leitura deste tipo, apenas sobressai a ideia de que este
novo resgate no ajudar a resolver a situao financeira de um pas como a Grcia. Para reforar a dimenso quantitativa do adjetivo equivalente, uma soluo
possvel passaria por substituir este adjetivo por um modificador do tipo: um
novo financiamento quase to avultado quanto o anterior.
[5] c o n s i d e r a e s f i n a i s

Apesar de nos encontrarmos ainda na fase de pr-processamento do corpus, foi j


possvel isolar alguns exemplos para estudar o fenmeno das relaes anafricas
no contexto da interpretao simultnea. Com efeito, a anfora um mecanismo
que condiciona a coerncia textual, o que se reveste de especial importncia numa
atividade como a interpretao, cujo objetivo ltimo consiste em promover a inteligibilidade comunicativa de uma mensagem-fonte. Atravs deste estudo exploratrio, foi possvel identificar as quebras de ligao que podem ocorrer numa
cadeia anafrica aquando do ato interpretativo. Como pudemos constatar, estas
quebras podem igualmente afetar, ainda que em menor grau, a tessitura do discurso original. Os problemas decorrentes da quebra da cadeia anafrica, que envolve, como vimos, dois termos, podem ser atribudos identificao errnea do
termo antecedente ou anafrico; no identificao do termo anafrico; e dupla identificao do termo anafrico, que gera ambiguidade na interpretao do
enunciado. Como se pode concluir, a anlise de um conjunto reduzido de exemplos permitiu extrair indcios de padres de comportamento anafrico, que sero
alvo de um estudo qualitativo mais aprofundado e complementado com dados
numricos logo que o corpus esteja pesquisvel. A par da anfora, prev-se que
a explorao do corpus possa tambm apontar para a existncia de reas crticas
na interpretao do ponto de vista lingustico. Graas integrao de material
textual e audiovisual neste corpus, os investigadores tero sua disposio um
recurso multimdia que permitir a realizao de estudos lingusticos, no s de
natureza segmental mas tambm suprassegmental (e.g. prosdia). Acreditamos
que este tipo de reflexo, baseada em corpora, poder ser uma fonte de contributos vlidos para enriquecer os contedos formativos na rea da interpretao.
Estes podero tambm ter aplicaes relevantes ao nvel da traduo e do ensino
de lnguas.
OSLa volume 7(1), 2015

estudo preliminar da anfora num corpus de interpretao simultnea

[53]

agradecimentos
Este trabalho foi realizado com o apoio da Bolsa de Investigao com a referncia
SFRH / BD / 88142 / 2012, financiada pela Fundao para a Cincia e Tecnologia
no mbito do Programa Operacional Potencial Humano inscrito no Quadro de Referncia Estratgico Nacional (Formao Avanada), comparticipado pelo Fundo
Social Europeu e por fundos nacionais do Ministrio da Educao e Cincia.

referncias
Almeida, Jos Joo, Slvia Arajo, Nuno Carvalho, Idalete Dias, Ana Oliveira, Andr Santos & Alberto Simes. 2014. The Per-Fide corpus: a new resource for
corpus-based terminology, contrastive linguistics and translation studies. Em
Tony Berber Sardinha & Telma So Bento Ferreira (eds.), Working with Portuguese Corpora, 177200. Bloomsbury Academic.
Arajo, Slvia, Jos Joo Almeida, Alberto Simes & Idalete Dias. 2010. Apresentao do projecto Per-Fide: Paralelizando o Portugus com seis outras lnguas.
Linguamtica 2(2). 7174.
Bendazzoli, Claudio. 2010. Il corpus DIRSI: creazione e sviluppo di un corpus elettronico
per lo studio della direzionalit in interpretazione simultanea: Alma Mater Studiorum Universit di Bologna. Tese de Doutoramento.
Bendazzoli, Claudio & Annalisa Sandrelli. 2005. An approach to corpus-based interpreting studies: Developing EPIC (European Parliament Interpreting Corpus). Em Heidrun Gerzymisch-Arbogast & Sandra Nauert (eds.), MuTra Challenges of Multidimensional Translation: Conference proceedings, 112.
Bernardini, Silvia, Adriano Ferraresi & Maja Milievi. 2013. From EPIC to EPTIC:
building and using an intermodal corpus of translated and interpreted texts.
Apresentao na 46th Annual Meeting of the Societas Linguistica Europea (SLE 2013).
Brants, Thorsten. 2000. TnT a statistical part-of-speech tagger. Em 6th Applied
NLP Conference, ANLP-2000, 224231.
Bhrig, Kristin, Ortrun Kliche, Birte Pawlak & Bernd Meyer. 2012. The corpus
Interpreting in Hospitals: Possible applications for research and communication training. Em Thomas Schmidt & Kai Wrner (eds.), Multilingual Corpora
and Multilingual Corpus Analysis. Hamburg Studies in Multilingualism (14), 305315.
John Benjamins.
Campos, Maria Henriqueta Costa & Maria Francisca Xavier. 1991. Sintaxe e Semntica do Portugus. Universidade Aberta.
OSLa volume 7(1), 2015

[54]

arajo & correia


Chuquet, Hlne & Michel Paillard. 1987. Approche linguistique des problmes de
traduction anglais - franais. Ophrys.
Corblin, Francis. 1995. Les Formes de Reprise dans le Discours. Anaphores et Chanes de
Rfrence. Presses Universitaires de Rennes.
Dios, Patricia Sotelo & Xavier Gmez Guinovart. 2012. A multimedia parallel corpus of english- galician film subtitling. Em Alberto Simes, Ricardo Queirs &
Daniela da Cruz (eds.), st symposium on languages, applications and technologies,
255266.
Duarte, Ins. 2003. Aspectos lingusticos da organizao textual. Em Maria Helena Mira Mateus, Ana Maria Brito, Ins Duarte & Isabel Hub Faria (eds.), Gramtica da lngua portuguesa, 87123. Editorial Caminho.
Falbo, Caterina. 1998. Analyse des erreurs en interprtation simultane. The Interpreters Newsletter 8. 107120.
Gile, Daniel. 1987. Les exercices dinterprtation et la dgradation du franais:
une tude de cas. META 32(4). 420428.
Gile, Daniel. 1992. Les fautes de traduction: une analyse pdagogique. META 37(2).
251262.
Ginezi, Luciana Latarini. 2014. Desafios para a construo de um corpus de aprendizes de interpretao simultnea. TradTerm 23. 165191.
House, Juliane, Bernd Meyer & Thomas Schmidt. 2012. CoSi - A Corpus of Consecutive and Simultaneous Interpreting. Em Thomas Schmidt & Kai Wrner
(eds.), Multilingual Corpora and Multilingual Corpus Analysis Hamburg Studies in
Multilingualism (14), 295304. John Benjamins.
Jaubert, Anna. 2005. Cohsion et cohrence. tudes de linguistique textuelle. ENS ditions.
Kleiber, Georges. 1994. Anaphores et pronoms. Duculot.
Koehn, Philipp. 2005. Europarl: A Parallel Corpus for Statistical Machine Translation. Em Conference Proceedings: the tenth Machine Translation Summit, 7986.
Kostopoulou, Georgia. 2007. The role of coherence in text approaching and comprehension: Applications in translation didactics. Meta 52(1). 146155.
Lopes, Ana Cristina Macrio. 2008. Texto, gramtica e processamento. Em Ftima Oliveira & Isabel Margarida Duarte (eds.), O Fascnio da Linguagem Actas
do Colquio de Homenagem a Fernanda Irene Fonseca, 5768.

OSLa volume 7(1), 2015

estudo preliminar da anfora num corpus de interpretao simultnea

[55]

Lopes, Ana Cristina Macrio & Conceio Carapinha Rodrigues. 2013. Texto, coeso
e coerncia. Almedina.
Maia, Belinda. 2000. Making corpora: a learning process. Em Silvia Bernardini
& Federico Zanettin (eds.), I corpora nella didattica della traduzione: Corpus Use
and Learning to Translate, 4760. Cooperativa Libraria Universitaria Editrice Bologna.
Maia, Belinda. 2008. Corpgrafo. Presentation at TaLC at TaLC: Teaching and
Linguatecas (Portuguese language) Corpora. http://www.linguateca.pt/
documentos/MaiaWorkshopTaLC2008.pdf.
Marques, Isilda Gaspar. 2009. Anfora associativa - propostas de abordagem em contexto escolar: Faculdade de Letras da Universidade de Coimbra. Tese de Mestrado.
Monti, Cristina, Claudio Bendazzoli, Annalisa Sandrelli & Mariachiara Russo. 2005.
Studying directionality in simultaneous interpreting through an electronic corpus: EPIC (European Parliament Interpreting Corpus). META 50(4). s/pp.
Morais, Maria da Felicidade Arajo. 2011. Marcadores da estruturao textual: elementos para a descrio do papel dos Marcadores Discursivos no processamento cognitivo do texto. Centro de Estudos em Letras. Universidade de Trs-os-Montes e
Alto Douro. Coleo Lingustica 6.
Oliveira, Ftima. 1987. Cadeias anafricas: que referncia? Revista da Faculdade de
Letras : Lnguas e Literaturas, II srie 4. 125136.
Perdicoyanni-Palologou, Hlne. 2001. Le concept danaphore, de cataphore et
de dixis en linguistique franaise. Revue qubcoise de linguistique 29(2). 5577.
Russo, Mariachiara. 2010. Reflecting on interpreting practice: graduation theses
based on the European Parliament Interpreting Corpus (EPIC). Em Lew Zybatow
(ed.), Translationswissenschaft-Stand und Perspektiven, Innsbrucker Ringvorlesungen
zur Translationswissenschaft VI, (vol 12), 3550. Peter Lang.
Russo, Mariachiara, Claudio Bendazzoli & Annalisa Sandrelli. 2006. Looking for
lexical patterns in a trilingual corpus of source and interpreted speeches: extended analysis of EPIC (European Parliament Interpreting Corpus). Forum 4(1).
221254.
Sanders, Ted, Jentine Land & Gerber Mulder. 2007. Linguistic markers of coherence improve text comprehension in functional contexts. Information Design
Journal 15(3). 219235.
OSLa volume 7(1), 2015

[56]

arajo & correia


Sandrelli, Annalisa. 2010. Corpus-Based Interpreting Studies and Interpreter Training: a Modest Proposal. Em Lew Zybatow (ed.), Translationswissenschaft-Stand
und Perspektiven, Innsbrucker Ringvorlesungen zur Translationswissenschaft VI, (vol
12), 6990. Peter Lang.
Schmid, Helmut. 1994. Probabilistic part-of-speech tagging using decision trees.
Em Proceedings of the international conference on new methods in language processing,
4449.
Schmidt, Thomas. 2004. Transcribing and annotating spoken language with EXMARaLDA. Em Proceedings of the LREC-Workshop on XML based richly annotated
corpora, ELRA.
Setton, Robin. 1999. Simultaneous Interpretation: A Cognitive-pragmatic Analysis.
John Benjamins.
Shlesinger, Miriam. 1998. Corpus-based Interpreting Studies as an offshoot of
Corpus-based Translation Studies. Meta 43(4). 486493.
Shlesinger, Miriam. 2009. Towards a definition of Interpretese: An intermodal, corpus-based study. Em Gyde Hansen, Andrew Chesterman & Heidrun
Gerzymisch-Arbosgast (eds.), Efforts and models in interpreting and translation research: A tribute to Daniel Gile, 237254. John Benjamins.
Simes, Alberto & Jos Joo Almeida. 2007. Avaliao de alinhadores. Em Diana
Santos (ed.), Avaliao conjunta: um novo paradigma no processamento computacional da lngua portuguesa, 219230. IST Press.
Timarov, rka. 2005. Corpus linguistics methods in interpreting research: A
case study. The Interpreterss Newsletter 13. 6570.

c o n ta c t o s
Slvia Arajo
Instituto de Letras e Cincias Humanas, Universidade do Minho
saraujo@ilch.uminho.pt
Ana Correia
Instituto de Letras e Cincias Humanas, Universidade do Minho
ana.moutinho@ilch.uminho.pt
OSLa volume 7(1), 2015

Simes, Barreiro, Santos, Sousa-Silva & Tagnin (eds.) Lingustica, Informtica e Traduo: Mundos
que se Cruzam, Oslo Studies in Language 7(1), 2015. 5777. (ISSN 1890-9639 / ISBN 978-82-9139812-9)
http://www.journals.uio.no/osla

a admirao luz dos corpos


DIANA SANTOS E CRISTINA MOTA

resumo
This paper studies the field of admirao in their two meanings in Portuguese, namely: veneration/respect and surprise, using the framework suggested in Belinda Maias PhD thesis (Maia 1994/1996). After presenting briefly her findings and methodology, we investigate (i) the distribution of the
vague words of the field of admirao by the two meanings, and discuss the
heuristics used in its rule-based distinction; (ii) the distribution of admirao
by genre, tense and person; (iii) its presence in negative sentences; and (iv)
its antonym(s).

A forma como as emoes so mencionadas e descritas numa lngua uma janela


para o tecido social de um povo e de uma cultura. Belinda Maia foi pioneira ao usar
um mtodo contrastivo para iluminar as diferenas entre as suas duas culturas.
Passados vinte anos, o trabalho dela continua atual e as suas descobertas muitos
interessantes, embora tenham tido bastante menos impacto do que mereciam.
Este artigo , pois, um tributo ao seu trabalho pioneiro e um contributo, embora
modesto, para o estudo das emoes em portugus. Aps (re)apresentarmos as
concluses obtidas em Maia e tentarmos compar-las, do lado portugus, com
dados obtidos nos nossos corpos, apresentamos vrios estudos originais sobre as
palavras associadas a admirao, que, em portugus, tem dois sentidos distintos,
embora relacionados: surpresa e venerao/respeito.
De um ponto de vista eminentemente prtico, se conseguirmos uma boa separao / distino entre admirao-respeito, sentimento positivo tanto em relao
ao sujeito como ao objeto, e admirao-espanto, neutro e at possivelmente negativo em relao ao objeto, podemos contribuir para uma melhoria dos sistemas de
apreciao na nossa lngua, quer publicando as regras, quer tornando os corpos da
Gramateca (Santos 2014b), devidamente anotados, acessveis a todos para treinar
os seus sistemas. Isso significa que podemos tambm satisfazer a Belinda em mais
esse trao do seu carter pragmatismo generoso, ou generosidade pragmtica
em vez das torres de marfim acadmicas que ela s vezes lamenta.
[1] a p r e s e n ta o

Este artigo estuda a admirao (nas suas duas vertentes, espanto/surpresa e venerao/respeito) em portugus, usando o enquadramento terico proposto por
Belinda Maia (Maia 1994/1996) na sua tese de doutoramento, e pretende ser assim

[58]

santos & mota


tambm uma prova da admirao que temos por ela e pelo seu trabalho, como
colaboradoras e amigas h muitos anos.
Em particular, discutimos as seguintes questes:
distribuio por gnero de texto;
distribuio por pessoa e por tempo;
qual a sua presena em frases negativas;
como distinguir os dois sentidos acima referidos;
a existncia de um oposto da admirao.
O trabalho tem como enquadramento mais vasto a anotao de emoes no
mbito da Gramateca, que pressupe, como exposto em Santos & Mota (2010),
a reviso da anotao automtica com a necessria adio da interpretao humana nos casos mais complicados, de forma a obter uma anotao 100% coerente.
Em Santos & Mota (2015) apresentamos uma viso global do campo das emoes,
enquanto neste artigo nos concentramos na surpresa e na venerao, ambas passveis de descrio em portugus pela palavra admirao.
Dado que a fundamentao terica e a inspirao vm da tese de doutoramento de Belinda Maia, comeamos por apresentar brevemente, na seco seguinte, os instrumentos de trabalho a propostos, bem como os campos lexicais
associados ao conceito de admirao.
[2] a e m o o e m i n g l s e e m p o r t u g u s

Belinda Maia, na sua tese de 1994 (note-se que usamos como verso legtima, como
o desejo da autora, a verso revista de 1996), dedicou-se ao estudo lingustico
da emoo nas suas duas lnguas, usando para isso um corpo comparvel (coligido, digitalizado e analisado por ela) de textos literrios, de 778.500 palavras em
ingls e 819.500 em portugus, produzindo cerca de 25 mil exemplos de emoo
(somando as duas lnguas). Aps rever a literatura extensa sobre as emoes na
lngua, decide-se pela abordagem lingustica, ou seja, no partindo de postulados
psicolgicos ou filosficos, mas sim da forma como as duas lnguas funcionam,
para a sua categorizao. inspirada sobretudo por Ortony et al. (1988), que usa
como ponto de partida:
I propose to adopt Ortony et als (1988) classification of emotion groups,
and add to it when necessary. (Maia 1994/1996, seco 4.5)
Uma das razes aduzidas que a teoria deles no est colada ao ingls, visto
que faz uma diferena entre a situao da emoo e a palavra da emoo, e da
oferece mais possibilidades para uma anlise bilingue.
OSLa volume 7(1), 2015

a admirao luz dos corpos

[59]

Muito resumidamente, Belinda Maia usa os seguintes instrumentos de trabalho ao cartografar as emoes em portugus e em ingls:
(i) assume que numa emoo existe sempre o sentidor (senser) e o fenmeno
(que inspira a emoo);
(ii) em relao ao sentidor, considera interessante distinguir entre a expresso
de emoes prprias ou doutros;
(iii) em relao ao fenmeno ou estmulo, ela prope onze tipos de estmulos
diferentes, sendo o primeiro no especificado, os quatro seguintes associados ao sentidor, os prximos quatro associados ao outro no sentido do
dilogo, e finalmente os ltimos dois referindo-se quer a um objeto (no
humano, portanto) quer a uma proposio.
Belinda Maia estudou 17 emoes, concetualmente divididas em quatro grupos, nomeadamente anger (3), appreciation (3), disappointment (2), dislike (4), distress (1), fear (2), gratitude (3), hope (2), joy (1), liking (4), pride (3), relief (2), reproach (3), resentment (1), satisfaction (2), self-reproach (3), sorry for (1). A descrio
do grupo, acima marcado simplesmente pelo nmero, dada a seguir: 1) reao
a acontecimentos (em que interessante que no existem, segundo ela, alegria
pela felicidade ou infelicidade dos outros1 nas duas lnguas estudadas); 2) reaes
a acontecimentos projetados (em que mais uma vez o grupo logicamente possvel
de medos confirmados no tem expresso lexical em nenhuma das lnguas); 3)
reaes a agentes; 4) reaes a objetos, sobre as quais Belinda Maia comenta que
amor e dio, arquetpicas emoes para um leigo, no so consideradas emoes
bsicas por vrios tericos2 . Note-se que interessante que no so considerados
como emoo os campos na nossa opinio possveis de ingratido e de coragem, enquanto a saudade um subtipo de distress e a vergonha est includa no
grupo de self-reproach/remorse.
Alm disso, ela tambm refere e estuda - indicando que esto fora do esquema
de Ortony et al. (1988) - as seguintes possveis emoes: surpresa, desejo, e emoo genrica (compreendendo palavras como sentir, emocionar, emoo, sentimento).
Para dar uma pequena ideia do tipo de dados fornecidos na tese de Belinda
Maia, apresentamos aqui a sua anlise referente a surpresa, com as tabelas publicadas em relao distribuio dos lexemas. Em ingls: surprise (48,5%), amaze
[1]

[2]

O que no significa que no seja possvel sentir essas emoes sem palavras a elas dedicadas. De facto,
Belinda Maia demonstra a sua alegria precisamente pelo facto de a lngua portuguesa no ter um equivalente lexical da palavra gloat, que alis era muito rara no seu corpo ingls tambm. Mas happy for
apenas uma variante de happy, o que no exige portanto um campo parte.
Embora em lngua inglesa exista uma ateno gramatical sobre a distino entre animado e no animado,
tal no acontece em portugus, donde poderia fazer algum sentido juntar os 3 e 4 num mesmo grupo
dizemos ns, que somos falantes de portugus.
OSLa volume 7(1), 2015

[60]

santos & mota


(19,3%), startle (12,4%), astonish (12,1%), e outras seis palavras cobrindo os restantes 7,7%. Em portugus, surpreender (35,4%), espantar (23,9%), pasmar (13,4%),
assombrar (11,3%) e admirar (9,5%). interessante, do nosso ponto de vista, reparar que a maior parte destas palavras em portugus so ambguas, ou pelo menos
podem significar outras coisas tambm: alm de admirar, que o tema do nosso
artigo, atente-se nas seguintes frases: Ele surpreendeu-os na fronteira; Esse cheiro
espanta as moscas; A casa estava assombrada.
A tabela 13.1, repetida aqui na forma de quatro tabelas diferentes (tabelas 14), indica a proporo dos casos em que a emoo (de surpresa) orientada para
o sentidor (S), ou para o fenmeno (P), assim como quantos casos so descries
de comportamento3 .
SURPRISE
GENERAL
S focus %
P focus %
beh %

English
66,7
33,3
22,3

Portuguese
62,5
37,5
22,1

tabela 1: O campo da surpresa no material de Maia, primeira panormica


A questo do comportamento (marcada por beh) outra das distines que
Belinda Maia faz na sua anotao, devido questo filosfica da diferena entre
comportamento associado a uma emoo e emoo propriamente dita. Citamos o
seu texto sobre o assunto, cf. Maia (1994/1996, seco 4.4):
When an emotional situation is being described seriously, there appear to be three main ways in which emotion words, at least in English and Portuguese, function in these descriptions: 1 a) to describe
the Subject, or Sensers, emotional state or processes, as in I love you,
He is angry with you, or I feel depressed; 1 b) to describe the behaviour
associated with the emotional processes or state, as in He looked terrified, She sounded upset or They waited anxiously; 2. to describe the qualities or behaviour of the Object of the emotion, or Phenomenon, as
in He annoys me, She is irritating or The kitten is adorable. The difference
between 1 a) and b) is that the former assumes the existence of the
emotion, whereas the latter is more tentative and merely describes
the behaviour that might indicate it.
Alm de chamar a ateno para esta distino, Belinda Maia tem o cuidado de
marcar cada caso que considera descrio de comportamento. Isso , alis, especialmente relevante no campo da surpresa, visto que, segundo ela, os casos de
[3]
OSLa volume 7(1), 2015

Outra questo mencionada, e anotada por Belinda Maia, foi a de deliberate (deliberadamente) quando
um dado fenmeno tem como inteno provocar a emoo.

a admirao luz dos corpos

1
2
3
4
5
6
7
8
9
10
11
Total

[61]

S focus
3

English
P focus totals
3

5
37
7
5
11
8
135
25
6
242

5
44
10
8
17
15
178
67
16
363

7
3
3
6
7
43
42
10
121

%
0,8

S focus
19
1
4
12
5
9
7
6
165
49
11
288

1,4
12,1
2,8
2,2
4,7
4,1
49
18,5
4,4

Portuguese
P focus totals
7
26
3
4
4
7
19
4
9
27
36
8
15
3
9
53
218
56
105
5
16
173
461

%
5,6
0,9
0,9
4,1
2
7,8
3,3
2
47,3
22,8
3,5

tabela 2: Qual o fenmeno inspirador de surpresa?


pasmar seriam mais naturalmente descritos em ingls como he gaped in amazement
ou his jaw dropped in surprise. Ns podemos adicionar, para o portugus, Ficou de
boca aberta, ou mesmo Os olhos iam-lhe saltando das rbitas. No seu corpo, encontrou
mais de 20% dos casos descrevendo comportamento.
A tabela 2 detalha, nas duas lnguas, o tipo de fenmeno associado surpresa.
As tabelas 3 e 4 indicam, respetivamente para os casos focados no sentidor
(Sfoc) e os no fenmeno (Pfoc), a forma sinttica em que aparecem.
Sentidor
S-adj-att
S-adj-pr
S-pp-att
S-pp-pr
S-adv
S-n
S-v
S-v-se

Total EN

4
16
133
1
88

1,1
4,4
36,6
0,3
24,2

Total PT
8
6
15
107

%
1,7
1,3
3,3
23,2

110
42

23,9
9,1

tabela 3: No caso de surpresa focada no sentidor, qual a forma sinttica?


Em relao a estes dados, Belinda considera haver uma grande percentagem
de adjetivos (referentes ao sentidor), sobretudo em ingls (41%), mas tambm em
portugus (26,5%), e de particpios passados: aqui repare-se na diferena de comOSLa volume 7(1), 2015

[62]

santos & mota

Fenmeno
P-adj-att
P-adj-pr
P-pp-att
P-pp-pr
P-adv
P-n
P-v
P-v-se

Total EN
28
26

%
7,7
7,1

Total PT
8
5

%
1,7
1,1

21
16
30

5,9
4,4
8,3

3
69
59
29

0,7
15
12,8
6,3

tabela 4: No caso de surpresa focada no fenmeno, qual a forma sinttica?


plementao entre o ingls, com 53,3%, e o portugus, com apenas 29%4 . Outra
questo sublinhada por ela que em portugus existe um grande nmero de casos orientados ao sentidor com a cpula ficar (25,2%) e com quase-cpulas como
parecer (sobre as quais no apresenta valores), enquanto adjetivos e advrbios relacionados com o fenmeno so raros ao contrrio do ingls, em que so muito
frequentes.
Belinda Maia tambm menciona a ambivalncia de todos os substantivos relativos ao fenmeno (nas duas lnguas), em que ambivalncia significa que podem
ser (fora do contexto) tanto associados ao fenmeno como ao sentidor: por exemplo (o exemplo nosso), surpresa ambivalente porque aceita A surpresa da Maria
(Sfoc) ou A surpresa por ele no ter vindo (Pfoc).
Duas diferenas interessantes entre as lnguas so: o ingls (pelo menos nos
corpos usados por Belinda Maia) no tem verbos associados ao sentidor, enquanto
o portugus tem (admirar-se de ... ou pasmar-se com), produzindo 9,1% de casos;
alm disso, os verbos associados ao fenmeno so mais frequentes em portugus
(19,1%) do que em ingls (8,3%). Ela tambm relata outros casos tpicos das lnguas
em questo: o it existencial para o ingls, como em It did not surprise me to find..., e
a construo portuguesa h coisas de espantar.
Outro tema focado por Belinda Maia a complexidade da anlise dos verbos
de surpresa reflexivos: ela menciona 29 exemplos de um tipo semi-reflexivo, a
maior parte referente a admirar-se, comentando que nalguns casos a classificao
entre Sfoc e Pfoc foi arbitrria.
E terminamos aqui este exemplo da riqueza de informaes e de anlises presente em Maia (1994/1996): uma seco de trs pginas numa tese de quatrocentas
demonstra o quanto foi feito, e verdadeiramente admirvel. No admira, tam[4]

OSLa volume 7(1), 2015

Tal pode apreciar-se mais facilmente se esquecermos a diferena entre adjetivo e particpio passado, com
a mesma vagueza nas duas lnguas (Santos 1998), e somarmos as linhas S-adj e S-pp: 153 casos em ingls
(En) e 136 em portugus (Pt).

a admirao luz dos corpos

[63]

bm, que muito se possa aproveitar para repetir e esmiuar melhor o que o
objetivo confesso do presente artigo, no lado do portugus. Mas pensamos que
se torna bvio para qualquer leitor que existiro muitos outros tesouros na sua
tese, e, sublinhamos, razes para a ler, tanto pela clareza da discusso como por
opinies muito interessantes sobre a prpria gramtica portuguesa.
[3] a a d m i r a o n o s c o r p o s d o a c / d c

A primeira coisa que gostaramos de fazer seria uma comparao com os dados relativos ao portugus compilados na tese de Belinda Maia, para ver se mais dados
permitem mais conhecimento, ou se a amostra dela era suficientemente representativa j.
Em princpio, podemos estudar quer textos literrios apenas, quer toda a lngua a que temos acesso, veja-se Santos (2014a) para uma descrio breve do enquadramento.
Alguns problemas, contudo, se nos deparam. Em primeiro lugar, consideramos que os dados acima referidos se referem apenas a surpresa (visto que foram
todos submetidos a rigoroso escrutnio por Belinda Maia) mas, de momento, alguma parte do que est marcado como surpresa pode referir-se realmente a venerao ou respeito, visto que a distino entre os dois ainda no foi cabalmente
operacionalizada e revista, veja-se a seco [4].
A noo de venerao poder, portanto, no caso de ter um perfil sinttico
muito diferente e ser suficientemente frequente, confundir os nmeros relativos
distribuio sinttica da surpresa, que apresentamos na tabela 5. medida que
essa desambiguao for includa no AC/DC, poderemos obter valores mais confiveis.
A outra dificuldade, que mais difcil de contornar, a de que centenas de milhes de palavras no permitem a anlise to detalhada em termos, por exemplo,
da orientao para o sentidor e para o fenmeno, e por isso a comparao ter de
ser feita por categorias menos finas, em particular, amalgamando as tabelas 3 e 4
apenas por categoria gramatical, na coluna Maia.

V
N
ADJ
PP
ADV
total

Maia
130
179
27
122
3
461

%
28,2
38,8
5,8
26,5
0,65

Literrio
4490
3845
4462
1033
1160
14990

%
30,0
25,6
29,8
6,9
7,7

Todos
60925
55047
79349
6725
10723
212769

%
28,6
25,9
37,3
3,2
5,0

tabela 5: A distribuio por categoria gramatical da surpresa nos vrios corpos


OSLa volume 7(1), 2015

[64]

santos & mota


A maior diferena claramente na percentagem dos adjetivos, mas a distino
entre adjetivos, particpios passados e formas passivas do verbo uma das tarefas
mais espinhosas e menos consensuais na gramtica da nossa lngua... O facto de
que a soma ADJ + PP no difere muito nos trs materiais parece-nos resolver esta
eventual disparidade de forma relativamente satisfatria.
Por outro lado, para casos com frequncia muito baixa no material original,
como so os apenas trs advrbios, natural que haja diferenas significativas
quando se observam amostras muito maiores.
O que ressalta como interessante e inesperado, desta comparao a trs nveis
a semelhana dos valores literrios com o resto da lngua, constituindo ainda por
cima o corpo literrio declarado apenas 7% do total. Por isso na seco [3.1] vamos
olhar com mais cuidado para a questo do gnero.
A partir de agora, daremos uma panormica do campo admirao + surpresa
(em que admirao significa neste caso venerao), deixando para a seco [4] a
explicao de como atacmos essa distino mais fina.

[3.1] Distribuio por gnero textual


Na figura 1 apresentamos a distribuio do material por gnero do texto. Contudo, preciso reconhecer que o conceito de gnero tambm no nada simples
de fixar. Veja-se Santos (2015) para uma discusso dos conceitos e das escolhas
envolvidas, e Freitas & Santos (2015) para a questo do gnero blogue.
Vemos que o gnero onde a admirao mais frequente o das recenses do
corpo ReLi (Freitas et al. 2014) seguido pelos blogues da Amaznia, e pelo texto
literrio. A surpresa sempre mais frequente do que a admirao mais frequente na literatura (traduzida e original) e nas recenses de livros, tendo em
conta que tambm faz parte da arte dramtica. No ser surpresa verificar que
no texto legal, tcnico e acadmico nenhuma destas emoes frequente. Por
outro lado j mais interessante constatar que o texto enciclopdico, assim como
o oral informal, so os nicos que apresentam a mesma proporo de supresa e
admirao. Todos os outros gneros contm (muito) mais surpresa.
[3.2] Distribuio por tempo verbal
Uma questo interessante saber qual a distribuio de uma emoo de acordo
com os tempos verbais, e se diferente da distribuio das outras emoes ou do
prprio texto em geral.
Como este assunto no se esgota facilmente, escolhemos aqui testar se a nossa
intuio referente aos dois tipos de emoes pode ser confirmada pelos dados
gerais, ainda sem distribuio por sentido, mas com a seguinte hiptese:
a admirao no sentido de respeito refere-se sobretudo a tempos estativos,
generalizadores, e ser portanto encontrada principalmente no presente e
no imperfeito;
OSLa volume 7(1), 2015

a admirao luz dos corpos

[65]

figura 1: Admirao e surpresa nos corpos da Gramateca.

figura 2: Distribuio da admirao comparada com todas as emoes nos corpos


da Gramateca, por tempo verbal (explicao das abreviaturas no stio do
AC/DC).
OSLa volume 7(1), 2015

[66]

santos & mota


a surpresa algo que se experimenta, temporrio e fixo no tempo, por isso
ser (muito) mais usado na passiva e com o perfeito.

Note-se que temos a possibilidade de olhar para o tempo verbal dos verbos de
emoo, ou para o tempo verbal das frases em que uma palavra de emoo ocorre,
e que esses dois tipos de nmeros sero ou podero ser completamente diferentes.
Neste caso escolhemos o mais fcil de investigar, que se refere s formas verbais,
mas que pode proporcionar algum vis, visto que no abarca o campo semntico
global.
Na figura 2, comparamos as emoes verbais todas com a admirao (em logaritmo). O mais interessante, naturalmente, so os casos em que a distribuio
no seja semelhante. Da inspeo da figura, os casos mais gritantes so, aparentemente, mais casos de perfeito e menos casos de imperfeito do que a mdia das
emoes, e significativamente mais casos de passiva no infinitivo.

figura 3: Relao entre passiva em geral e admirao na passiva, por corpo.


Na figura 3, olhamos para a ocorrncia do campo da admirao na passiva, por
corpo. De forma a compar-los, apresentamos o logaritmo do nmero de passivas
no eixo dos XX e o logaritmo das referentes admirao no eixo dos YY. Os corpos
ENPC (texto literrio traduzido do ingls), COLONIA (que por ter um texto sobre
emoes tem sempre mais de tudo) e o Vercial (texto literrio desde 1500) tm
mais admirao na passiva do que o resto do material, enquanto que a lista do
ANCIB e o jornal Avante tm menos.
OSLa volume 7(1), 2015

a admirao luz dos corpos

[67]

[3.3] Distribuio por pessoa


E o mesmo fizemos em relao pessoa5 . No querendo nem podendo esgotar
aqui todas as possibilidades de investigao, resolvemos concentrar-nos em dois
corpos distintos: o Museu da Pessoa6 , que, como j foi dito, centrado sobre a
histria pessoal dos entrevistados, e tem, portanto, mais percentagem de primeira
pessoa que outros textos; e o CONDIV, contendo jornalismo especializado sobre
trs temas distintos futebol, moda e sade, e que se esperaria que tivesse uma
percentagem muito maior de terceira pessoa, como se pode observar na tabela 67 .
S
P
Total
admir S
admir P
admir total

MP 1a
44867
10740
71186
21
17
26

MP 3a
121171
23713
185539
3
6
31

CONDIV 1a
18880
19514
69480
27
27
60

CONDIV 3a
336832
104791
610251
367
63
642

tabela 6: A distribuio da pessoa


Nessa tabela vemos que os verbos marcados com os valores de surpresa ou respeito so mais frequentes, relativamente, na primeira pessoa no Museu da Pessoa
(3,65e-4 na primeira contra 1,67e-4 na terceira), mas no CONDIV so mais frequentes na terceira 1,05e-3 do que na primeira, 8,64e-4).
Mais marcada a diferena entre o singular e o plural, cuja explicao cabal ter de ficar para o futuro: mesmo na terceira pessoa, o singular tem sempre
muito mais casos. Tal no dever contudo ser surpreendente, na medida em que
ser mais natural falarmos das emoes ou estados de esprito de um indivduo
do que duma pluralidade.
Mas, para indagarmos se o que observmos em relao aos valores de admirao uma propriedade especial da admirao ou das emoes em geral, temos de
comparar com o perfil de todas as emoes, em ambos os corpos ou em todos.
[5]
[6]

[7]

Para facilitar a reproduo dos nossos resultados, apresentamos a forma de extrair os dados utilizada:
[pos="V.*"& pessnum="1S.*"& sema=".*emomin:(surpresa|admirar).*"]
Os dados das tabelas que se seguem referem-se verso do Museu da Pessoa de Setembro de 2014. Ao
revermos o artigo em Janeiro de 2015, demo-nos conta de que o panorama quantitativo (automtico) tinha mudado radicalmente, por termos adicionado talvez temporariamente o conceito de respeito (e
como tal todas as palavras a ele associadas) noo de admirao. Mas como essa questo no relevante
para a distino entre os dois sentidos de admirao (que focamos no presente artigo) e, para termos valores fiveis, teramos ainda de efetuar nova desambiguao entre respeito-venerao e respeito-medo,
decidimos no incorporar os novos valores no artigo.
O observador atento poder reparar que na primeira pessoa existem mais casos no total do que a soma
de S com P... o que se deve aos casos marcados pelo PALAVRAS como 1/3S, e que foram arbitrariamente
considerados nesta tabela como primeira pessoa. Igualmente, os casos em excesso de terceira pessoa
referem-se ao uso do infinitivo impessoal, que no marcado nem com S nem com P.
OSLa volume 7(1), 2015

[68]

santos & mota


Na figura 4, apresentamos o peso das vrias emoes na primeira e terceira
pessoas do singular e do plural nos dois corpos investigados, remetendo os leitores
para Santos (2015) para mais discusso sobre a dificuldade de estudar a pessoa
semntica em portugus.

figura 4: Distribuio da admirao por primeira ou terceira pessoa nos corpos


ConDiv ( esquerda) e Museu da Pessoa ( direita).

[3.4] Presena em frases negativas


Outro assunto que j mencionmos como de certo interesse em relao emoo
a sua presena ou caracterizao em frases negativas, que foi estudada com algum
pormenor em relao ao binmio medo-coragem em Maia & Santos (2012). Nesse
artigo, foi afirmado correspondendo a uma verso anterior do material que
apenas obtivemos 2.951 casos de negao de medo verbal em 27.113 casos no total.
Embora nenhum dos estados de esprito a que este artigo se refere tenha um
oposto lexical bvio, como era o caso de coragem, interessante verificar que no
muito mais frequente a sua negao do que no campo do medo, pese embora a
falta de algo que exprima falta de surpresa ou falta de respeito8 , como se pode
apreciar na tabela 7.
[4] a d i s t i n o e n t r e a s d u a s a d m i r a e s

Como j por vrias vezes mencionado, uma caracterstica interessante da lngua


portuguesa associar palavra admirar dois sentidos que noutras lnguas so le[8]

OSLa volume 7(1), 2015

A palavra desrespeito denota falta de respeito, mas no como atitude ou emoo, e sim como ao. No
se pode dizer ele tinha desrespeito por ela, ou senti uma grande desrespeito, mas apenas Isso/essa ao foi um
grande desrespeito.

a admirao luz dos corpos

negado
total
%

medo
1646
164.046
1.0

[69]
coragem
2033
194.959
1.04

admirao
633
71.674
.88

tabela 7: A proporo das emoes (verbais), negadas ou no, no conjunto de todos os corpos
xicalmente bem separados, e que denotaremos para facilidade de compreenso
no presente artigo a partir de agora sempre por surpresa e venerao.
Comeamos por tentar proceder a uma distino entre as duas admiraes
no caso da base admirar. Embora fosse extremamente interessante conhecer a
histria desta palavra ou famlia de palavras, no a consideraremos aqui.
Usado reflexivamente, admirar-se significa quase sempre surpresa (embora
seja possvel uma pessoa admirar-se ao espelho, em relao sua aparncia). Transitivamente, admirar significa uma atitude (de admirao) em relao a uma pessoa, obra, ou ao, quando o sujeito humano. Quando o sujeito uma ao ou
situao e o objeto humano, estamos em face de surpresa novamente, cf. O comportamento dele admirou-a. Na passiva9 , os auxiliares estar e ficar esto associados
a espanto, enquanto ser indica a atitude mental. Noutros casos preciso mais do
que a estrutura sinttica para distinguir entre os dois sentidos de admirar, como
o caso das oraes participiais (sem auxiliar expresso) (exs. 1-2), ou a prpria nominalizao, admirao (exs. 3-5), embora em alguns casos, como em ter/inspirar
admirao, o verbo suporte permita facilmente a desambiguao. Repare-se tambm que as preposies por e de, respetivamente associadas ao verbo e ao nome,
so ambguas, como os exemplos mais uma vez ilustram.
(1) D. Ana Perptua ficou fascinada pelo esprito fulgurante do poeta, admirado
por todos, e admitido na intimidade da famlia na quinta de Arroios, em
Colares.
(2) Langdon parou, admirado por ela conhecer a obscura publicao sobre os
movimentos dos planetas e seu efeito sobre as mars.
(3) Grande, porm, seno dolorosa, foi a admirao de Salazar, quando, anos depois, lendo o primeiro tomo da edio das obras de Cames, (...)
(4) O relativamente obscuro general Suharto tem gozado desde ento da admirao de Washington.
[9]

Estamos naturalmente muito conscientes de que passiva no mais uma vez uma designao consensual, mas remetemos o leitor para Santos (2014c) para uma descrio das vrias escolhas e alternativas
possveis, e qual a escolhida no presente enquadramento.
OSLa volume 7(1), 2015

[70]

santos & mota


(5) Dos montes e das cidades acudiam monges, acudiam mesmo pagos, para o
visitar, uns na admirao de to espantosa penitncia, outros na esperana
de serem por ele curados de feridas e males.
Seja como for, crimos vrias regras automticas para lidar com todas as ocorrncias relacionadas com a base admirar nos nossos corpos, de maneira a distinguir entre os dois sentidos.
A correta desambiguao de todas as ocorrncias exige a reviso humana, o
que ainda no foi feito, exceto num nico corpo o Museu da Pessoa para
podermos avaliar o trabalho envolvido e os problemas esperveis. Na prxima
seco descrevemos exatamente os resultados dessa reviso.

[4.1] Descrio quantitativa


Os resultados obtidos, englobando todo o campo da surpresa e da venerao, encontram-se na tabela 8. (Note-se que existe uma marcao dupla em relao s
emoes: as palavras que so quase sempre veculo de uma dada emoo so marcadas com emomin; outras palavras que s em poucos contextos a podem veicular,
como emomax. Na reviso, revimos ambos os casos, por isso juntmos os dois valores na tabela.)
surpresa
venerao

emomin+emomax
186385+21053
39571

+medo
4938

+tristeza
362

Lemas dif.
175 (98)
14

tabela 8: Palavras inicialmente marcadas como surpresa ou venerao em todos


os corpos
Em relao a essa tabela, convm indicar que:
os casos no decididos entre surpresa-saudade-tristeza referem-se a banzo,
palavra brasileira de origem africana;
os casos no decididos entre surpresa-medo referem-se a formas associadas
a sobressaltar ou sobressalto.
Estas classificaes so feitas automaticamente, no estamos a dizer que no fosse
possvel, para cada um dos casos, identificar a emoo certa ou predominante. Por
outro lado, o altssimo nmero de lemas diferentes entre antes e depois da reviso e uniformizao10 tambm demonstra as caractersticas do material usado.
[10]

OSLa volume 7(1), 2015

Juntando diferenas entre as variantes tal como estupefacto e estupefato ou atnito e atnito e retirando
muitos casos bvios de erro no texto original (tais como imprevisibildade ou subito) ou erro do analisador
sinttico (por exemplo, espasmo como derivado de pasmo, surpreendedora como substantivo em vez da
forma feminina do adjetivo surpreendedor).

a admirao luz dos corpos

[71]

Em particular, deve-se acautelar a questo do peso a dar a estudos de riqueza


lexical baseados simplesmente no nmero de lemas distintos. De qualquer maneira, para concretizar, apresentamos em apndice o nmero de lemas diferentes
considerado, indicando que todos os neologismos e formas criativas que nos pareceram deliberadas foram mantidos sobretudo porque estamos convictas de
que a existncia destes casos testemunha a pujana da emoo na lngua, concordando com o raciocnio defendido por Baayen & Renouf (1996). Alm disso,
convm lembrar que os diminutivos, aumentativos e superlativos no so necessariamente neutros: podem trazer nuances de sentido, e por isso foram contados
separadamente.
Quanto reviso humana do Museu da Pessoa, os nmeros encontram-se na
tabela 9.
admirao
surpresa

Inicial
17
148

Final
46
118

Dvidas
2 maravilhar
2 maravilhar

tabela 9: Reviso do Museu da Pessoa relativa a surpresa/admirao


Refira-se que h muitos mais casos de admirao na variante brasileira (38
contra 8 casos, mesmo que o tamanho da parte brasileira seja cerca de 3,5 vezes o
da portuguesa); tambm convm salientar que quatro casos de maravilhar foram
considerados tanto surpresa como admirao, veja-se dois exemplos:
(6) Bom, essa gruta, eu estava nessa gruta e a eu fui s me maravilhando com
aquilo tudo
(7) E essas empresas ficaram to to maravilhadas com o projeto que eles tambm vo entrar no projeto, provavelmente doar para os clientes deles
Como seria de esperar, a admirao automtica pecou (e bastante) por defeito.
Por outro lado, o seguinte exemplo ilustra claramente que preciso fazer regras
muito especficas para distinguir as duas frases seguintes, a primeira exprimindo
surpresa e a segunda admirao:
(8) Dona Maria da Conceio, eu queria fazer uma pergunta para a senhora que
o seguinte, como a senhora viu toda essa transformao das cidades, do
mundo? Muito admirada, mas tambm vi muito progresso, mas progresso e
maldade.
(9) A minha me aparecia menos nas coisas pblicas, no tinha a preponderncia do meu pai na vida comum, da vida da aldeia das coisas pblicas, da
OSLa volume 7(1), 2015

[72]

santos & mota


igreja, das festas, mas era uma pessoa extremamente delicada, muito aceite,
tambm na vida comum. Muito admirada, muito carinhosa com os meninos,
com os filhos, de uma grande dedicao ao meu pai e sobretudo amorosa,
um extremo de afectividade.

[4.2] Comparao de casos complicados


No mbito do desenvolvimento do Rve11 , a primeira autora escolheu um conjunto de casos que poderiam ser difceis de classificar dos corpos Museu da Pessoa
e OBRAS, e que eram praticamente todos os casos com lema admirar ou admirao,
e uns poucos associados palavra reverncia. Essa lista foi depois analisada e todos
os casos classificados pela primeira autora, e depois o mesmo foi feito por Cludia
Freitas, revendo a anotao inicial, e pela segunda autora, criando uma anotao
alternativa, independente.
Embora os resultados sejam apresentados e discutidos em mais detalhe noutro
artigo (Santos et al. 2015), uma concluso bastante relevante foi a da existncia de
um conjunto razovel de casos em que mais do que uma aceo foi considerada
pelas anotadoras, demonstrando que existem muitas situaes em que um item
lexical em contexto pode ser vago, ou seja, ter mais do que um dos sentidos
e deste modo justificando claramente a partilha do sentidos pelos mesmos itens
lexicais.
Exemplos de multiplicidade de sentidos que nos parecem particularmente claros so:
(10) Esse Hilrio tinha na montra da oficina dele, em 1945, um carro feito por ele
que quem passasse por l admirava aquela arte .
(11) aqueles dois recentes conhecimentos de Albernaz, embevecidos, boquiabertos e invejosos diante das proezas imaginrias daqueles trs militares
(12) ngelo aos quinze anos j embasbacava os seus ingnuos professores
Outra observao interessante foi a descoberta de um outro sentido de admirar, parafrasevel por olhar com gosto/prazer, e que foi encontrado no OBRAS
frequentemente, mas no no Museu da Pessoa. Vejam-se os seguintes exemplos:
(13) Do alto de uma janela como Paul Adam, admira o caleidoscpio da vida no
eptome delirante que a rua
(14) A rigor, era natural admirar as belas figuras
[11]
OSLa volume 7(1), 2015

http://www.linguateca.pt/Reve/

a admirao luz dos corpos

[73]

(15) O meu amigo dividiu a dor com o pblico; e, se enterrou a mulher sem aparato, no deixou de lhe mandar esculpir na Itlia um magnfico mausolu,
que esta cidade admirou exposto, na Rua do Ouvidor, durante perto de um
ms.
Com efeito, se em 13 s se pode compreender o prazer de ver ou mirar, em 15
pode-se facilmente tambm interpretar como admirao.
[5] o o p o s t o d e a d m i r a r

Outra observao interessante refere-se ao oposto de admirar no sentido de venerar: ser possvel escolher entre desprezar e invejar? Em invejar mantm-se a
noo de que o objeto bom, mas o sentimento que inspira mau, enquanto em
desprezar simplesmente a atitude (oposta) que mencionada.
Para tentar responder a esta questo de uma forma emprica, baseando-nos
na hiptese de que a antonmia tambm uma propriedade textual, como defendido por Justeson & Katz (1991, 1992), medimos a co-ocorrncia destes conceitos
(lemas), em todos os corpos, e obtivemos 72 casos de co-ocorrncia de desprezar
e admirar, e 148 de invejar e admirar. Embora a balana penda mais para a inveja,
portanto, observmos que s vezes esta mencionada como um tipo de admirao
e no como o seu oposto, cf. exemplos 16 e 17.
(16) (...) ela via com santa inveja e admirao as sobre-humanas foras que imaginava no frade (...)
(17) Entusistico f de Mrio Soares, Jos Aparecido de Oliveira revela que o que
mais admira, inveja mesmo, no nosso Presidente no cultura, no a comunicabilidade, no a inteligncia, no a glria.
[6] o b s e r va e s f i n a i s

Quando se abraa um assunto to interessante e multifacetado como o dos modos


de uso de palavras relacionadas ao campo das emoes na lngua, difcil abordlo em todas as vertentes, mesmo quando nos restringimos a uma das vinte que
Belinda Maia estudou, ainda por cima contrastivamente. Muito fica por fazer, e
limitamo-nos nos pargrafos seguintes a sugerir outros estudos que reputamos
de grande interesse.
(i) Um dos aspetos que gostaramos de explorar futuramente a dimenso
temporal, estudando como variaram as distines entre o sentido de surpresa e venerao ao longo do tempo e qual a original, usando os corpos
Vercial12 , Colonia (Zampieri & Becker 2013) e CONDIVPort (Silva 2008). Os
[12]

http://alfarrabio.di.uminho.pt/vercial/
OSLa volume 7(1), 2015

[74]

santos & mota


primeiros dois so corpos de textos essencialmente literrios escritos entre
1500 e os anos 30 do sculo XX; o ltimo um corpo jornalstico que inclui
notcias dos anos 50, 70 e 2000.
Esse estudo poderia ser levado a cabo, estudando, primeiro, a aplicabilidade
das regras de distino entre os dois sentidos j criadas para o corpo Museu
da Pessoa (que permitem analisar o uso reflexivo, da passiva, da nominalizao, entre outros ver seco [4]) e, em seguida, a sua interrelao com os
vrios aspectos estudados na seco [3]: distribuio por pessoa, por tempo,
presena em frases negativas, etc.
(ii) Outro estudo que ficou por fazer mas que seria uma sequncia bvia do interesse por esta rea seria investigar quais os objetos e os sujeitos associados
admirao, eventualmente selecionando quais as propriedades mais admiradas ou de espantar.
(iii) Finalmente, usando corpos paralelos, seria relevante verificar se estas duas
atitudes/emoes teriam tradues interessantes ou influncia forte de outra lngua.
Mesmo que muito tenha ficado por fazer, do trabalho aqui relatado podemos
concluir que, em portugus, pelo menos nos corpos estudados, o sentido de surpresa francamente mais frequente que o de venerao, tanto em termos de ocorrncias, como em termos da prpria riqueza lexical das duas emoes ou atitudes.
Tal no , contudo, corroborado pela diviso do trabalho entre as palavras
associadas raiz admir-, que, na maioria dos casos, se referem indiscutivelmente
ao sentido de reverncia (veja-se admirvel, admiravelmente, admirador). A prpria
distribuio do verbo admirar converge nesse sentido (no Museu da Pessoa, em
35 casos, 25 exprimem venerao e 10 surpresa), o que pode dar pistas para a sua
evoluo futura.
Por outro lado, interessante verificar que uma palavra de origem estrangeira, f, que leva indubitavelmente a palma na referncia a este sentimento, com
as palavras admirador ou admiradora sendo relegadas para um nicho mais antiquado, formal e culto.
Seguindo esta lgica, as autoras confessam-se admiradoras e fs de Belinda
Maia e do seu trabalho sobre as emoes na lngua e sobre a comparao entre
as duas lnguas, e esperam, com esta pequena contribuio, arranjar mais interessados na rea e atrair a ateno para a mina de ouro que o trabalho de Maia
(1994/1996).

agradecimentos
Agradecemos Cludia Freitas a anotao dos casos referidos no artigo, e ao Eugnio Oliveira e Maria Jos Finatto os comentrios pertinentes.
OSLa volume 7(1), 2015

a admirao luz dos corpos

[75]

apndice
Lista, por ordem decrescente de frequncia, dos lemas considerados com o sentido
de admirao/respeito/venerao:
f, admirvel, admirador, reverncia, venerar, deslumbrar, venerao, deslumbramento, admirar, venervel, admirao, reverente, endeusar, admiradora, reverentemente, admiravelmente.

Lista, por ordem decrescente de frequncia, dos lemas considerados com o


sentido de surpresa:
surpreender, surpresa, surpreendente, inesperado, admirar, sbito, surpreso,
admirao, espantar, espanto, imprevisvel, imprevisto, sobressalto, perplexo, surpreendentemente, repentino, pasmar, inesperadamente, maravilhar, espantado, admirado, pasmo, atnito, sobressaltar, estupefato, rompante, boquiaberto, pasmado, maravilhado, embasbacar, banzo, subitamente,
banzar, aparvalhado, impromptu, imprevistamente, surpresinha, admiradssimo, espantadssimo, surpreendedor, sbitamente, espantao, surpreendidssimo, inesperadssimo, perplexamente, rompncia, espantvel, pasmadamente, pasmante, pasmadinho, maravilha, readmirar, aparvalhadamente, espantador, sobressaltozinho, pasmao, sobressaltante, espantadamente, pasmacento, superespantado, perplexante, admiradamente, perplexificao, perplexificar, surpresinhas, pasmtico, autoadmirao, admiradinho, superadmirado, surpreendidamente, semipasmado, subitssimo, estupefactante, maravilhante, sobressaltadamente, perplexar, europerplexo,
maravilhadora, espantadinho, sobressaltoso, maravilhadamente, surpreso,
surpresssimo, perplexizante, semiestupefacto, amaravilhar, perplexia, subitizao, subitizar, dessurpreendentemente, banzadinho, surprezinha, espanto, subitar, admirandas, pasmadssimo.

Nota sobre o lema amaravilhar


Possivelmente na origem um erro de digitao, esta frase encontra-se em vrios
locais na Internete:
Provavelmente o pantesta mais famoso e notvel tenha sido o fsico
alemo Albert Einstein. Seu amaravilhar-se diante da Cincia freqentemente o estimulava a exaltar uma provvel natureza divina inerente a tudo.
Tanto quanto nos foi possvel averiguar, provm de uma verso anterior da Wikipdia, mas que foi corrigida, ou seja, retirada desta enciclopdia por conter uma
afirmao duvidosa! Contudo, j infetou a Internete e at os corpos da Linguateca
OSLa volume 7(1), 2015

[76]

santos & mota

referncias
Baayen, R. Harald & Antoinette Renouf. 1996. Chronicling the Times: Productive
Lexical Innovations in an English Newspaper. Language 72(1). 6996.
Freitas, Cludia, Eduardo Motta, Ruy Luiz Milidi & Juliana Csar. 2014. Sparkling
Vampire... lol! Annotating Opinions in a Book Review Corpus. Em Sandra Alusio & Stella E. O. Tagnin (eds.), New Language Technologies and Linguistic Research:
A Two-Way Road, 128146. Cambridge Scholars Publishing.
Freitas, Cludia & Diana Santos. 2015. Blogs, Amaznia e a Floresta Sint(c)tica:
um corpus de um novo gnero? Em Simone Sarmento, Tony Berber Sardinha, Livia Pretto Mottin & Ana Maria T. Ibaos (eds.), Pesquisas e perspetivas em
lingstica de corpus, 123150. Mercado de Letras.
Justeson, John S. & Slava M. Katz. 1991. Co-occurrences of Antonymous Adjectives
and Their Contexts. Computational Linguistics 17(1). 119.
Justeson, John S. & Slava M. Katz. 1992. Redefining Antonymy: The Textual Structure of a Semantic Relation. Literary and Linguistic Computing 7(3). 176184.
Maia, Belinda. 1994/1996. A Contribution to the Study of the Language of Emotion in
English and Portuguese: FLUP. Tese de Doutoramento. Verso revista: 1996.
Maia, Belinda & Diana Santos. 2012. Who is afraid of ... what? - In English and in
Portuguese. Em Signe Oksefjell Ebeling, Jarle Ebeling & Hilde Hasselgrd (eds.),
Aspects of corpus linguistics: compilation, annotation, analysis 12, s/pp.
Ortony, Andrew, Gerald L. Clore & Allan Collins. 1988. The Cognitive Structure of
Emotions. Cambridge University Press.
Santos, Diana. 1998. A relevncia da vagueza para a traduo, ilustrada com exemplos de ingls para portugus / The relevance of vagueness for translation:
Examples from English to Portuguese. TradTerm 5. 4170, 7178.
Santos, Diana. 2014a. First steps of Gramateca: a corpus-based grammar initiative
for Portuguese, driven by Linguateca. Apresentao na Universidade de Oslo.
http://www.linguateca.pt/Diana/download/GramatecaOslo.pdf.
Santos, Diana. 2014b. Gramateca: corpus-based grammar of Portuguese. Em Jorge
Baptista, Nuno Mamede, Sara Candeias, Ivandr Paraboni, Thiago A.S. Pardo &
Maria das Graas Volpe Nunes (eds.), International Conference on Computational
Processing of Portuguese (PROPOR2014), 214219. Springer.
Santos, Diana. 2014c. Podemos contar com as contas? Em Sandra Alusio & Stella
Tagnin (eds.), New language technologies and linguistic research: a two-way road,
194213. Cambridge Scholars Publishing.
OSLa volume 7(1), 2015

a admirao luz dos corpos

[77]

Santos, Diana. 2015. Comparando corpos orais (transcritos) e escritos no mbito da Gramateca. Em Proceedings from the conference Parler les langues romanes/Parlare le lingue romanze/Hablar las lenguas romances/Falando lnguas romnicas (The ninth GSCP International Conference), University Press Universit di Napoli LOrientale.
Santos, Diana, Rui Pedro Ribeiro Marques, Cludia Freitas, Cristina Mota & Alberto
Simes. 2015. Comparando anotaes na Gramateca, Atas do ELC2014 (Ttulo
preliminar). Em preparao.
Santos, Diana & Cristina Mota. 2010. Experiments in human-computer cooperation for the semantic annotation of Portuguese corpora. Em Nicoletta Calzolari,
Khalid Choukri, Bente Maegaard, Joseph Mariani, Jan Odijk, Stelios Piperidis,
Mike Rosner & Daniel Tapias (eds.), Proceedings of the International Conference on
Language Resources and Evaluation (LREC 2010), 14371444. ELRA.
Santos, Diana & Cristina Mota. 2015. Emotions in natural language: a broadcoverage perspective. Em apreciao.
Silva, Augusto Soares da. 2008. O corpus CONDIV e o estudo da convergncia e
divergncia entre variedades do portugus. Em Lus Costa, Diana Santos & Nuno
Cardoso (eds.), Perspectivas sobre a Linguateca / Actas do encontro Linguateca : 10
anos, 2528. Linguateca.
Zampieri, Marcos & Martin Becker. 2013. Colonia: Corpus of historical portuguese. Em Marcos Zampieri & Sascha Diwersy (eds.), Non-standard data sources
in corpus-based research, vol. 5 ZSM Studien, 7784. Shaker.

c o n ta c t o s
Diana Santos
Linguateca e Universidade de Oslo
d.s.m.santos@ilos.uio.no
Cristina Mota
Linguateca
cmota@ist.utl.pt
OSLa volume 7(1), 2015

Simes, Barreiro, Santos, Sousa-Silva & Tagnin (eds.) Lingustica, Informtica e Traduo: Mundos
que se Cruzam, Oslo Studies in Language 7(1), 2015. 7999. (ISSN 1890-9639 / ISBN 978-82-9139812-9)
http://www.journals.uio.no/osla

emprstimo lexical, conceptualizao e


variao: para a abordagem
sociocognitiva e socioletomtrica dos
estrangeirismos no portugus
AUGUSTO SOARES DA SILVA

resumo
This paper first advocates an onomasiological, concept-based and socio-cognitive approach to lexical borrowing, expanding the current loanword research from lexical items towards concepts. Second, it presents a corpusbased and concept-based sociolectometrical study on differences in the use
of loanwords in European Portuguese and Brazilian Portuguese and their
impact on diachronic lexical variation between the two national varieties.
In the first part, the main topics and contributions of the Cognitive Sociolinguistic perspective on borrowability, and concept-based sociolectometrical
methods of measuring variation in the success of loanwords are highlighted. In the second part, English and French loanwords in the field of football and clothing terminologies are analyzed through possible receptor Portuguese equivalents and advanced corpus-based sociolectometrical measures, such as featural measures (calculating the proportion of terms possessing a special feature) and uniformity measures (calculating onomasiological homogeneity and convergence/divergence between language varieties).
These measures are based on onomasiological profiles, i.e. sets of alternative synonymous terms, together with their frequencies. As a development
of our previous research on lexical convergence and divergence between
European and Brazilian Portuguese (Soares da Silva 2010), the data include
thousands of observations of the usage of alternative terms to refer to 43
football and clothing concepts. Corpus material was extracted from sports
newspapers and fashion magazines from the 1950s, 1970s and 1990s/2000s,
Internet chats related to football, and labels and price tags pictured from
clothes shop windows. Football and clothing concepts confirm the hypothesis that the influence of foreign languages is stronger in the Brazilian variety
than in the European variety. The use of loanwords has contributed towards
onomasiological heterogeneity within and across the two national varieties
in the last 60 years.

[80]

augusto soares da silva


[1] n o va s p e r s p e t i va s d e e s t u d o d o e m p r s t i m o l e x i c a l

O estudo do emprstimo lexical em geral tem uma longa tradio em lingustica


particularmente histrica. Atualmente, so os anglicismos que despertam maior
interesse, naturalmente pela enorme influncia do ingls, e os estudos tm-se
concentrado nos contextos de contacto lingustico tnue, como os que ocorrem
na Europa ocidental, em que o contacto com o ingls se faz sobretudo atravs dos
media.
Apesar de o emprstimo lexical ser, ao longo do sculo passado, um tpico
relevante de investigao em lingustica histrica e lingustica de contacto de lnguas, as questes de investigao da maior parte dos estudos existentes so de
mbito limitado. Predominantemente orientados por uma perspetiva estruturalista, os estudos tm-se concentrado na classificao de tipos de estrangeirismos
de acordo com o grau da sua adaptao morfolgica e fonolgica lngua recetora,
na sua evoluo diacrnica e no seu tratamento lexicogrfico. A investigao estruturalista sobre o emprstimo lexical tem estado, assim, centrada na palavra e
suas formas e nos processos estruturais a que os estrangeirismos esto sujeitos.
Recentemente, novas perspetivas e agendas tm sido introduzidas, graas a
estudos tipolgicos (e.g. Haspelmath 2008; Haspelmath & Tadmor 2009 e, particularmente, estudos orientados no enquadramento da (Socio)Lingustica Cognitiva (ver, sobretudo, Zenner et al. 2012; Zenner 2013; Zenner & Kristiansen 2014).
Destacam-se trs importantes contributos da perspetiva sociocognitiva para o estudo do emprstimo lexical, que sero desenvolvidos nas duas seces seguintes.
Primeiro, os estrangeirismos so estudados a partir dos conceitos que designam,
o que conduz a uma abordagem onomasiolgica do emprstimo lexical: passa-se,
assim, de uma perspetiva centrada na palavra para uma perspetiva centrada no
conceito. Segundo, o fenmeno do emprstimo lexical incide tambm em unidades multipalavras, expresses idiomticas e outras expresses do domnio da
fraseologia: passa-se, pois, de uma perspetiva centrada na unidade lexical isolada
para uma perspetiva construcional e contextual. Terceiro, os estrangeirismos so
estudados em vastos corpora e atravs de avanados mtodos quantitativos multivariacionais, que permitem analisar a interao entre fatores conceptuais, estruturais, socioculturais e pragmtico-discursivos do emprstimo lexical e medir o
sucesso dos estrangeirismos e o seu impacto na variao intralingustica: passase, assim, de uma perspetiva sistmica para uma perspetiva centrada no uso efetivo
dos estrangeirismos.
O objetivo do presente estudo apresentar o novo modelo sociocognitivo e socioletomtico centrado no conceito de investigao do emprstimo lexical e apliclo ao portugus como lngua pluricntrica, comparando o sucesso dos estrangeirismos nas duas variedades nacionais do portugus europeu (PE) e portugus brasileiro (PB). Nas duas seces seguintes, apresentaremos os elementos principais
e os contributos da perspetiva sociocognitiva e da abordagem onomasiolgica e
OSLa volume 7(1), 2015

emprstimo lexical, conceptualizao e variao

[81]

socioletomtrica do emprstimo lexical. Seguidamente, sero apresentados os


resultados do estudo de caso sobre o uso e o sucesso de estrangeirismos que designam conceitos de futebol e de vesturio nas duas variedades nacionais do portugus ao longo dos ltimos 60 anos e em diferentes variedades estilsticas. Com
base num vasto corpus de textos de jornais desportivos e revistas de moda e aplicando mtodos socioletomtricos baseados em perfis onomasiolgicos, procuraremos (i) medir e comparar o sucesso dos estrangeirismos no PE e no PB; (ii) confirmar a hiptese de que a influncia do ingls e de outras lnguas estrangeiras
maior no PB do que no PE; e (iii) determinar o impacto dos estrangeirismos na variao onomasiolgica dos conceitos de futebol e vesturio e na heterogeneidade
onomasiolgica em geral e ainda, embora sumariamente, na relao diacrnica
entre PE e PB. Este estudo uma extenso da nossa investigao sociolexicolgica, sociocognitiva e socioletomtrica sobre convergncia e divergncia entre PE
e PB (Soares da Silva 2010, 2011, 2012, 2013, 2014a,c). O estudo do impacto dos estrangeirismos na convergncia e divergncia diacrnica entre as duas variedades
nacionais ao longo dos ltimos 60 anos desenvolvido em Soares da Silva (2014a),
com base numa anlise de corpus e numa anlise de atitudes lingusticas.
[2] s o c i o l i n g u s t i c a c o g n i t i va , c o n ta c t o d e l n g u a s e e m p r s t i m o

A Sociolingustica Cognitiva (Kristiansen & Dirven 2008; Croft 2009; Soares da Silva
2009; Geeraerts 2010; Geeraerts et al. 2010; Soares da Silva 2014b) uma extenso emergente da Lingustica Cognitiva (Geeraerts & Cuyckens 2007) como modelo orientado para o significado e centrado no uso, que pretende investigar a
inter-relao entre as dimenses sociais e as dimenses conceptuais da variao
intralingustica atravs de avanados mtodos empricos quantitativos e multivariacionais. Representa a convergncia de interesses de investigao da Sociolingustica e da Lingustica Cognitiva e contribui quer para integrar na agenda
da Lingustica Cognitiva os aspetos sociais da linguagem quer para incorporar na
agenda da Sociolingustica os aspetos conceptuais da variao intralingustica. A
contribuio da Sociolingustica Cognitiva para o estudo das lnguas pluricntricas est patente em Soares da Silva (2014b).
Destacam-se trs contributos especficos da Sociolingustica Cognitiva para a
investigao sociolingustica, que evidenciam a importncia da semntica nos estudos variacionistas: (i) a anlise da variao do significado, isto , os vrios modos
de interao entre o significado e as outras fontes de variao lingustica, nomeadamente forma e contexto; (ii) o tratamento do problema metodolgico da equivalncia semntica, pr-requisito para o estudo scio-variacionista do lxico e da
gramtica; e (iii) o estudo do significado da variao ou representao cognitiva
da variao intralingustica, nas suas componentes de perceo, categorizao e
avaliao atitudinal da diversidade lingustica.
OSLa volume 7(1), 2015

[82]

augusto soares da silva


Em relao a (i), a distino elaborada em semntica lexical cognitiva entre
variao semasiolgica (diferentes referentes/sentidos de uma palavra), variao onomasiolgica conceptual (diferentes palavras conceptualmente diferentes
designativas de um mesmo conceito), variao onomasiolgica formal (diferentes palavras conceptualmente equivalentes designativas de um mesmo conceito)
e variao contextual (diferenas sociolingusticas, estilsticas e pragmticas), a
que voltaremos na seco seguinte, contribui para determinar a correlao entre
significado, forma e contexto como fatores de variao lingustica.
Quanto a (ii), a resposta questo da equivalncia semntica e, logo, noo
de varivel sociolingustica passa pela incorporao de uma teoria do significado entendido como conceptualizao, tal como tem sido desenvolvida pela Lingustica
Cognitiva, e pela verificao de que se as diferenas semnticas entre as variantes
lexicais ou gramaticais forem estveis entre variedades lingusticas, ento qualquer variao remanescente variao sociolingustica.
Relativamente a (iii), reas da Lingustica Cognitiva como a teoria do prottipo
e a teoria dos modelos cognitivos e culturais permitem verificar como os falantes
percecionam, categorizam e avaliam as variedades lingusticas.
Mais diretamente em relao lingustica de contacto de lnguas (Matras 2009)
e a fenmenos induzidos por esse contacto como os emprstimos, destacamos
quatro contributos associados aplicao de modelos da Lingustica Cognitiva.
A Teoria do Prottipo (Geeraerts et al. 1994; Taylor 1995) mostra que emprstimo e mudana de cdigo (codeswitching) no se deixam definir em termos de
propriedades necessrias e suficientes, mas com base em prottipos e efeitos de
prototipicidade, pelo que os emprstimos evidenciam diferentes graus de salincia cognitiva e os limites entre emprstimo e mudana de cdigo so difusos.
As noes de salincia cognitiva e de incrustamento (entrenchment) (Schmid
2007) permitem compreender a variao no fenmeno do emprstimo e o papel
do significado conceptual, pragmtico e social na promoo da atratividade de
determinadas palavras de uma lngua estrangeira.
A Gramtica de Construes (Langacker 1987; Goldberg 1995; Croft 2001) contribui para integrar as tradies de investigao sobre emprstimo lexical, emprstimo gramatical e mudana de cdigo, introduzindo a ideia de um contnuo
entre lxico e gramtica.
A Teoria da Metfora Conceptual e dos Modelos Cognitivos Culturais (Lakoff
& Johnson 1980, 1999) til para o estudo das diferenas (inter)culturais dentro
e entre lnguas em contacto, bem como para o estudo da perceo, categorizao
e avaliao atitudinal do contacto de lnguas e dos emprstimos.
Os contributos da Sociolingustica Cognitiva para o estudo do emprstimo lexical esto patentes em Zenner & Kristiansen (2014).

OSLa volume 7(1), 2015

emprstimo lexical, conceptualizao e variao

[83]

[3] m t o d o o n o m a s i o l g i c o e s o c i o l e t o m t r i c o

Utilizamos neste estudo uma perspetiva onomasiolgica de investigao do emprstimo lexical, no sentido de que tomamos o conceito expresso pelo estrangeirismo
como ponto de partida. A anlise incide na variao onomasiolgica entre palavras semanticamente equivalentes (sinnimos denotacionais), de que o estrangeirismo faz parte. Lembremos a distino clssica entre semasiologia e onomasiologia, estabelecida na tradio europeia da semntica lexical (Baldinger 1964).
Enquanto a perspetiva semasiolgica toma a palavra como ponto de partida para
analisar os seus vrios sentidos ou referentes, a perspetiva onomasiolgica parte
do conceito para analisar as diferentes palavras ou outras expresses que o designam. A semasiologia ocupa-se de fenmenos como a polissemia (Soares da Silva
2006), ao passo que a onomasiologia estuda fenmenos como a sinonmia e mecanismos lexicogenticos como a formao de palavras ou o emprstimo.
A variao onomasiolgica pode envolver diferenas conceptuais e/ou diferenas sociais. Assim, as escolhas lexicais podem ser determinadas ora por fatores conceptuais ora por fatores dialetais, socioletais ou idioletais numa palavra,
letais. Por exemplo, a opo entre guarda-redes e goleiro ou equipa e time uma
escolha de formas que exprimem o mesmo conceito mas pertencem a diferentes
variedades nacionais; e a opo entre morrer e falecer uma escolha de formas
que exprimem o mesmo conceito mas so estilisticamente diferenciadas. Podemos designar esta variao entre sinnimos denotacionais como variao onomasiolgica formal, em oposio variao onomasiolgica conceptual, como a que se d,
por exemplo, entre guarda-redes e jogador (sendo o primeiro termo hipnimo do
segundo), a qual envolve diferenas conceptuais (Geeraerts et al. 1994). A variao onomasiolgica formal deve-se, pois, no a uma classificao conceptual diferente da mesma entidade, mas ao uso de diferentes palavras referindo o mesmo
conceito e associadas a diferentes regies, grupos sociais ou registos, isto , os
sinnimos denotacionais. Esta variao onomasiolgica sociolinguisticamente
relevante, justamente porque os sinnimos denotacionais revelam a prpria existncia e competio entre variedades letais.
Convm notar que a distino entre variao onomasiolgica formal e conceptual no dicotmica, bem como no fcil estabelecer uma relao de equivalncia semntica entre diferentes expresses. Na verdade, podem existir diferenas conceptuais subtis. Em relao a itens lexicais concretos, a equivalncia
semntica mais fcil de estabelecer, na medida em que podemos controlar os
referentes e assim verificar se o referente o mesmo ou no. Neste estudo, os
sinnimos denotacionais de peas de vesturio foram determinados com base em
fotos das respetivas peas; no caso dos termos de futebol, as imagens e/ou o contexto permitiram determinar objetivamente a relao de sinonmia denotacional.
As dificuldades aumentam quando passamos de itens lexicais concretos para itens
abstratos e para construes gramaticais. Todavia, o que importa determinar no
OSLa volume 7(1), 2015

[84]

augusto soares da silva


se as expresses alternativas diferem semanticamente, mas se as diferenas semnticas so estveis entre as diferentes variedades.
O conjunto das expresses sinnimas alternativas usadas para designar determinado conceito, juntamente com as suas frequncias relativas no corpus, constitui o perfil onomasiolgico desse conceito. Por exemplo, o perfil onomasiolgico de
GOLO inclui os termos alternativos bola, goal, gol, gl, golo, ponto e tento. A Tabela 1
apresenta as frequncias absolutas e relativas de cada um dos termos alternativos
nas bases de dados do PE e do PB na dcada de 50.
O mtodo onomasiolgico tem vantagens no estudo da variao intralingustica,
bem como no estudo do emprstimo lexical. Analisar expresses sinnimas alternativas de conceitos lexicais permite um mecanismo de controlo capaz de evitar
quer os perigos estatsticos resultantes de uma distribuio assimtrica de conceitos quer os perigos temticos no corpus. Na verdade, as frequncias dos termos
no corpus podem estar correlacionadas tanto com a preferncia onomasiolgica
formal como com a especificidade temtica. Tomando o perfil onomasiolgico de
CASACO, o eventual predomnio do termo casaco pode indicar uma preferncia
pelo termo casaco em detrimento de blazer, mas pode tambm resultar do facto de
os textos evitarem o uso de estrangeirismos (ou ento indicar que os termos no
so sinnimos). Um outro exemplo: comparando o uso de estrangeirismos em
diferentes perodos temporais, o aumento da sua frequncia no significa necessariamente maior sucesso desses estrangeirismos, pois pode ter resultado do facto
de o corpus mais recente ter mais textos de um assunto propcio a estrangeirismos
do que o corpus mais antigo.
A perspetiva onomasiolgica de estudo do emprstimo lexical tem a vantagem
de se deixar de olhar apenas para o termo estrangeiro e de se passar a considerar
o termo estrangeiro na sua relao com o conceito que designa e com os outros
termos que exprimem esse conceito. Outra vantagem a redefinio da distino entre emprstimo estrito e emprstimo cultural ou, o mesmo dizer, emprstimo
suprfluo e emprstimo necessrio: os emprstimos culturais ou necessrios designam objetos ou conceitos novos (CD ou compact disk, blog, start-up), sendo portanto
a nica lexicalizao de determinado conceito, ao passo que os emprstimos estritos ou suprfluos duplicam termos j existentes, passando assim a competir
com esses termos vernculos (ranking, manager). A abordagem onomasiolgica
permite ainda medir o sucesso dos estrangeirismos, expresso na sua preferncia
para designar os respetivos conceitos relativamente aos termos sinnimos com
que competem.
Para medir o sucesso dos estrangeirismos e o seu impacto na variao intralingustica, so usados trs mtodos socioletomtricos baseados em perfis onomasiolgicos: medida da proporo de determinada caracterstica (A), medida de
uniformidade interna (I) e medida de uniformidade externa (U). Estas medidas
foram desenvolvidas pela unidade de investigao Quantitative Lexicology and Vari-

OSLa volume 7(1), 2015

emprstimo lexical, conceptualizao e variao


GOLO
bola
goal
gol
gl
golo
ponto
tento
AIng

abs
109
24
0
0
1841
204
795

P50
rel rel*W
3,7
0,0
0,8
0,8
0,0
0,0
0,0
0,0
61,9
31,0
6,9
0,0
26,7
0,0
31,8

abs
0
528
111
66
0
26
631

B50
rel rel*W
0,0
0,0
38,8
38,8
8,1
4,1
4,8
1,9
0,0
0,0
1,9
0,0
46,3
0,0
44,8

[85]

W
0
1
0,5
0,4
0,5
0
0

tabela 1: Impacto de anglicismos (AIng ) no perfil GOLO no PE e PB nos anos 50


ational Linguistics (QLVL) no seu estudo socioletomtrico do neerlands da Blgica
e da Holanda (Geeraerts et al. 1999; Speelman et al. 2003). Para cada um destes clculos, so efetuadas medidas no ponderadas (A, I, U) e ponderadas (A, I, U). As
primeiras tm em conta a frequncia relativa de cada conceito no corpus. Neste estudo, o impacto dos estrangeirismos considerado do ponto de vista pragmtico
e comunicativo, atendendo a diferenas de frequncia dos conceitos estudados, e
no do ponto de vista estrutural, que atribui o mesmo peso a cada conceito. Por
isso, as medidas ponderadas so estatisticamente mais significativas.
A medida A/A a medida fundamental neste estudo: permite calcular a proporo de termos com determinada caracterstica neste caso, a proporo de
estrangeirismos no perfil onomasiolgico de um conceito e nos perfis onomasiolgicos de um conjunto de conceitos na amostra estudada. A caracterstica K
estrangeirismo, neste caso um contnuo. Assim, atribudo o valor mais
alto (1) aos estrangeirismos que mantm a forma original e o valor mais baixo
(0,25) a fortes adaptaes e a decalques. A proporo (A) de todos os estrangeirismos usados para nomear um conceito a soma das frequncias relativas dos
estrangeirismos atestados no corpus ponderada pelo valor (W) de adaptao dos
estrangeirismos. Tomando o exemplo do perfil GOLO, atribudo o valor (1) ao
termo goal, visto que mantm a forma grfica e fontica do termo original do ingls, e o valor (0,5) a golo (usado no PE) e gol (usado no PB). Na Tabela 1, calculada
a influncia do ingls no perfil onomasiolgico de GOLO no PE e no PB dos anos 50
(P50, B50), com base nas frequncias absolutas (abs) e relativas (rel) dos termos
alternativos, no valor (W) de anglicismo e na soma das frequncias relativas dos
termos alternativos ponderada pelo valor W (rel*W). A proporo de anglicismos
no perfil de GOLO na dcada de 50 maior no PB (44,8%) do que no PE (31,8%).

OSLa volume 7(1), 2015

[86]

augusto soares da silva


AVANADO
atacante
avanado
avante
dianteiro
forward
ponta de lana
I

P50
8,8
71,6
0,0
19,2
0,1
0,3

(P50)2
77,8
5128,8
0,0
369,2
0,0
0,1
55,8

B50
36,6
0,9
48,9
6,8
5,2
1,5

(B50)2
1340,7
0,9
2393,5
45,8
27,4
2,4
38,1

tabela 2: Uniformidade interna (I) do perfil AVANADO em PE e PB nos anos 50


A medida de uniformidade interna (I/I) consiste em calcular a uniformidade
dentro de uma nica variedade lingustica: I/I atinge o seu valor mais elevado
quando todos os falantes escolhem o mesmo item lexical para designar determinado conceito; diminui medida que aumentar ou o nmero de termos alternativos ou o nmero de termos dominantes. A uniformidade interna de um conceito
igual soma dos quadrados das frequncias relativas dos itens lexicais usados
para nomear esse conceito. Tomando o exemplo do perfil de AVANADO, a Tabela 2 mostra que a uniformidade interna na dcada de 50 maior no PE (55,8%)
do que no PB (38,1%). I/I um indicador de homo/heterogeneidade onomasiolgica dentro e entre variedades lingusticas.
A medida de uniformidade externa (U/U) consiste em calcular a uniformidade
entre diferentes variedades lingusticas. A uniformidade externa de um conceito
entre duas variedades igual soma das frequncias relativas mais pequenas dos
itens lexicais usados para designar esse conceito. Diacronicamente, convergncia e divergncia entre duas variedades traduzem-se em aumento e diminuio
da uniformidade externa, respetivamente. Sincronicamente, quanto maior a
distncia entre os registos padro e subpadro, menor a uniformidade externa
entre esses dois registos. Dada a pouca relevncia desta medida no presente estudo, no a vamos exemplificar (ver Soares da Silva 2010).
[4] corpus e base de dados

Os dados lingusticos para o presente estudo foram recolhidos dos campos lexicais
do futebol e da moda/vesturio, devido popularidade dos respetivos conceitos
e ao facto de serem suscetveis influncia de lnguas estrangeiras. Os materiais do corpus foram extrados de trs fontes: (i) jornais de desporto e revistas de
moda dos primeiros anos das dcadas de 50, 70 e 90-2000; (ii) linguagem da Internet de chats associados a clubes de futebol; e (iii) etiquetas de roupas de lojas de
vesturio. Os materiais de (i) permitem responder questo diacrnica de saber
se a influncia das lnguas estrangeiras maior no PB ou no PE e se aumentou ou
OSLa volume 7(1), 2015

emprstimo lexical, conceptualizao e variao

[87]

diminuiu ao longo do tempo, bem como questo da convergncia e divergncia


entre PE e PB. Os materiais de (ii) e (iii), de diferentes fontes pela maior produtividade de cada uma, mas ambos de um registo mais informal, permitem saber
em que estrato maior a influncia das lnguas estrangeiras, bem como estudar
a estratificao de cada uma das variedades nacionais. Os dados relativos ao PB
provm de So Paulo e do Rio de Janeiro.
O subcorpus de futebol contm 2,7 milhes de palavras oriundas de 8 jornais
desportivos (4 portugueses e 4 brasileiros) e 15 milhes de palavras coligidas de
chats da Internet. O subcorpus de vesturio contm 1,2 milhes de palavras de 28
revistas de moda (14 portuguesas e 14 brasileiras) e 1300 imagens de etiquetas de
lojas de vesturio. Estes dois subcorpora constituem o corpus CONDIVport (Soares da Silva 2008), disponibilizado na Linguateca, em www.linguateca.pt/ACDC
(Santos & Sarmento 2003).
Com base no corpus CONDIVport, coligimos os sinnimos denotacionais de 43
conceitos nominais, sendo 21 do vocabulrio do futebol e 22 do vocabulrio do
vesturio, juntamente com as suas frequncias de uso no corpus. Para a seleo
dos 43 conceitos de futebol e de vesturio foram tomados como critrios a sua heterogeneidade onomasiolgica formal e a sua representatividade nos respetivos
campos lexicais. Foram excludos termos de gria ou metafricos, para no inflacionar as diferenas entre as duas variedades nacionais. Os 21 conceitos ou perfis
onomasiolgicos de futebol, perfazendo um total de 183 termos, foram analisados
numa base de dados constituda por 90.202 observaes do uso destes termos nos
jornais desportivos portugueses e brasileiros selecionados e 143.946 observaes
do seu uso nos chats. Os 22 perfis onomasiolgicos de vesturio de homem (M)
e de mulher (F), num total de 264 termos, foram analisados numa base de dados
de 12.451 observaes do seu uso nas revistas de moda portuguesas e brasileiras
selecionadas e em 2.775 observaes do seu uso em etiquetas de roupas de lojas
de vesturio. Todos os perfis de futebol e vesturio, incluindo os sinnimos denotacionais selecionados e observados no corpus, so apresentados em Anexo. Os
estrangeirismos que mantm a sua forma original esto indicados entre aspas. O
nmero total de observaes no corpus CONDIVport de cada perfil de futebol e de
vesturio encontra-se em Soares da Silva (2010, 2014a).
[5] r e s u l ta d o s

[5.1] Sucesso e evoluo dos estrangeirismos no PE e no PB


Tomando a medida A/A, descrita na seco [3], vamos quantificar a proporo de
termos com a caracterstica anglicismo, francesismo ou estrangeirismo (qualquer que seja a provenincia) dentro do perfil onomasiolgico de determinado
conceito e, depois, no conjunto dos conceitos analisados nas amostras das duas variedades. Os estrangeirismos no vocabulrio de futebol so distribudos por dois
conjuntos: anglicismos e todos os estrangeirismos (incluindo espanholismos, itaOSLa volume 7(1), 2015

[88]

augusto soares da silva


AIng (P50)
AIng (P70)
AIng (P00)
AIng (P50)
AIng (P70)
AIng (P00)
Aestr (P50)
Aestr (P70)
Aestr (P00)
Aestr (P50)
Aestr (P70)
Aestr (P00)

7,1%
9,8%
10,2%
13,2%
15%
12,8%
13,9%
17,9%
18,5%
15,9%
18%
15,9%

<
<
<
<
<
<
<
<
<
<
<
<

AIng (B50)
AIng (B70)
AIng (B00)
AIng (B50)
AIng (B70)
AIng (B00)
Aestr (B50)
Aestr (B70)
Aestr (B00)
Aestr (B50)
Aestr (B70)
Aestr (B00)

18%
17,1%
16,2%
18,5%
20,4%
20,3%
23,5%
22,8%
23,3%
23,4%
25%
25%

tabela 3: Estrangeirismos no corpus de futebol (de 1950 a 2000)


lianismos e galicismos). Os estrangeirismos no vocabulrio do vesturio so distribudos por trs conjuntos: galicismos, anglicismos e todos os estrangeirismos.
As Tabelas 3 e 4 apresentam os resultados com as percentagens de anglicismos
(A/AIng ), francesismos (A/AF r ) e todos os estrangeirismos (A/Aestr ) no PE (P) e
PB (B), nos trs perodos em anlise (1950, 1970 e 2000). apresentada, primeiramente, a proporo ponderada (A) e, depois, a proporo no ponderada (A) de
estrangeirismos.
No futebol, a influncia de anglicismos e outros estrangeirismos claramente
maior no PB do que no PE em todos os perodos estudados. nos anos 50 que se
verifica a distncia maior entre as duas variedades: mais do dobro de anglicismos
em B50. Esta grande diferena percentual entre B50 e P50 resulta do facto de haver
maior nmero e frequncia de estrangeirismos conservando a sua forma original
no PB. o caso de referee, forward, back, team, foul, goal, keeper, match, half, shoot,
corner, ausentes nos jornais portugueses. No PE h aumento, principalmente dos
anos 50 para 70, ao passo que no PB parece haver uma pequena diminuio. Este
ligeiro decrscimo resulta, porm, dos aportuguesamentos dos estrangeirismos
no PB a partir dos anos 70.
No vesturio, verifica-se uma diminuio de francesismos e um claro aumento
de anglicismos, por razes socioculturais bem conhecidas, designadamente a diminuio da influncia do francs e o inevitvel aumento da influncia do ingls.
No conjunto de todos os estrangeirismos no vocabulrio do vesturio, temos um
aumento no PE e uma situao de estabilidade no PB. A influncia de estrangeirismos continua a ser maior no PB, embora a diferena entre as duas variedades
seja menos acentuada.

OSLa volume 7(1), 2015

emprstimo lexical, conceptualizao e variao


AF r (P50)
AF r (P70)
AF r (P00)
AF r (P50)
AF r (P70)
AF r (P00)
AIng (P50)
AIng (P70)
AIng (P00)
AIng (P50)
AIng (P70)
AIng (P00)
Aestr (P50)
Aestr (P70)
Aestr (P00)
Aestr (P50)
Aestr (P70)
Aestr (P00)

17,6%
15,9%
10,2%
16,7%
20,6%
16,1%
3,3%
5,8%
16,9%
7,7%
16%
19,5%
22,4%
22,1%
28,2%
27,3%
38,1%
37,9%

=
<

=
<

=
<

=
<

AF r (B50)
AF r (B70)
AF r (B00)
AF r (B50)
AF r (B70)
AF r (B00)
AIng (B50)
AIng (B70)
AIng (B00)
AIng (B50)
AIng (B70)
AIng (B00)
Aestr (B50)
Aestr (B70)
Aestr (B00)
Aestr (B50)
Aestr (B70)
Aestr (B00)

[89]
18,5%
18,1%
7,9%
22,2%
17,6%
16,9%
4,2%
7,6%
16,8%
6,7%
15%
27,1%
23,8%
26,7%
24,9%
33%
34,4%
44,4%

tabela 4: Estrangeirismos no corpus de vesturio (de 1950 a 2000)

No conjunto dos dois campos lexicais, a influncia do ingls aumenta e maior


no PB (embora haja uma pequena descida desta influncia no PB no campo do futebol). Por seu lado, a influncia do francs diminui (embora esta influncia seja
muito pouco significativa no domnio do futebol) e facto interessante a registar
essa influncia no menos importante no PB do que no PE. As Tabelas 3 e 4
confirmam, assim, a hiptese de uma maior permeabilidade do PB aos estrangeirismos, quer importando-os diretamente, quer adaptando-os.
At aqui temos os resultados globais do impacto dos estrangeirismos em cada
uma das variedades nacionais. Importa tambm olhar para o comportamento dos
perfis individuais e comparar o seu impacto nos resultados globais. A questo
saber se a proporo de estrangeirismos dos perfis individuais segue ou no a
tendncia global. Por limitaes de espao, no vamos analisar aqui esta questo.
Em Soares da Silva (2014a), pode verificar-se que o desvio padro geralmente
maior no PB do que no PE. Por outro lado, entre os perfis com maior proporo
de estrangeirismos encontram-se tanto conceitos mais frequentes como menos
frequentes.
Vejamos agora a questo da adaptao de estrangeirismos. A Tabela 5 evidencia a maior tendncia do PB (B) adaptao, em contraste com o PE (P), que
tende para a substituio por termos vernculos. A percentagem de adaptaes
OSLa volume 7(1), 2015

[90]

augusto soares da silva


AIng.adapt (P50)
AIng.adapt (P70)
AIng.adapt (P00)
AIng.adapt (P50)
AIng.adapt (P70)
AIng.adapt (P00)

6%
7,9%
8,9%
7,5%
7,5%
7,8%

=
<
<

=
<
<

AIng.adapt (B50)
AIng.adapt (B70)
AIng.adapt (B00)
AIng.adapt (B50)
AIng.adapt (B70)
AIng.adapt (B00)

2,8%
16,9%
16%
3,8%
16,5%
15,8%

tabela 5: Adaptaes/decalques de anglicismos no corpus de futebol


de termos ingleses de futebol (AIng.adapt /AIng.adapt ) aumenta fortemente no PB
de 50 para 70. No conjunto dos 21 perfis, temos 23 adaptaes e 19 decalques
no PB contra 6 adaptaes e 14 decalques no PE. Alguns exemplos relativamente
aos anglicismos goal-keeper, goal, corner, penalty, back, shoot, offside: no PB, goleiro,
gol, crner, pnalti, beque, chute e impedimento; no PE, guarda-redes, baliza, pontap
de canto, grande penalidade, defesa, pontap/chuto e fora de jogo. A exceo offside:
decalcado em fora de jogo no PE e substitudo pelo termo vernculo impedimento
no PB.
Em sntese, as Tabelas 3, 4 e 5 confirmam a hiptese de uma maior permeabilidade do PB aos emprstimos lexicais, quer importando-os diretamente, quer
adaptando-os.
Vejamos agora o impacto dos estrangeirismos em diferentes variedades estilsticas, para saber se a influncia estrangeira maior no registo padro ou no
registo subpadro. Para isso vamos comparar, no caso do futebol, os dados do registo mais formal dos jornais dos anos 90/2000 (P00 e B00) e os dados do registo
informal dos chats (Psub 00 e Bsub 00) e, no caso do vesturio, os dados do registo
mais formal e mais nacional das revistas de moda dos anos 90/2000 (P00 e B00) e os
dados do registo informal e mais local das etiquetas de lojas de vesturio (Psub 00
e Bsub 00).
A Tabela 6 apresenta os resultados em relao aos emprstimos do ingls no
vocabulrio do futebol. A proporo ponderada (A) de anglicismos maior no
registo coloquial dos chats (14,3% no PE e 26,9% no PB) do que no registo formal
dos jornais (10,2% no PE e 16,2% no PB). A nvel da medida no ponderada (A),
no h diferenas significativas. A proporo (A/A) de emprstimos do ingls
no registo coloquial tambm maior no PB (A 26,9%/A 19,7%) do que no PE (A
14,3%/A 12,3%).
As percentagens de emprstimos do ingls e do francs dos termos de vesturio esto indicadas na Tabela 7. A proporo A/A de estrangeirismos usados
nas etiquetas de lojas de vesturio idntica proporo A/A dos mesmos estrangeirismos usados nas revistas de moda. A nica exceo ocorre no PB, mas
isso deve-se principalmente s poucas ocorrncias do perfil CASACO F e do termo
blazer (blizer, bliser). A proporo de galicismos no registo subpadro idntica
OSLa volume 7(1), 2015

emprstimo lexical, conceptualizao e variao


AIng (P00)
AIng (B00)
AIng (Psub 00)
AIng (P00)
AIng (B00)
AIng (Psub 00)

10,2%
16,2%
14,3%
12,8%
20,3%
12,3%

<
<
<

=
<

AIng (Psub 00)


AIng (Bsub 00)
AIng (Bsub 00)
AIng (Psub 00)
AIng (Bsub 00)
AIng (Bsub 00)

[91]
14,3%
26,9%
26,9%
12,3%
19,7%
19,7%

tabela 6: Anglicismos de futebol nas variedades padro e subpadro


AIng (P00)
AIng (B00)
AIng (Psub 00)
AIng (P00)
AIng (B00)
AIng (Psub 00)
AF r (P00)
AF r (B00)
AF r (Psub 00)
AF r (P00)
AF r (B00)
AF r (Psub 00)

16,9%
16,8%
18%
19,5%
27,1%
17,9%
10,2%
7,9%
9,7%
16,1%
16,9%
14,1%

=
>
>

=
>
<

=
>

AIng (Psub 00)


AIng (Bsub 00)
AIng (Bsub 00)
AIng (Psub 00)
AIng (Bsub 00)
AIng (Bsub 00)
AF r (Psub 00)
AF r (Bsub 00)
AF r (Bsub 00)
AF r (Psub 00)
AF r (Bsub 00)
AF r (Bsub 00)

18%
10,1%
10,1%
17,9%
22,6%
22,6%
9,7%
10,4%
10,4%
14,1%
11,3%
11,3%

tabela 7: Anglicismos e francesismos de vesturio nas variedades padro e subpadro

nas duas variedades nacionais. J a proporo ponderada (A) de anglicismos no


registo subpadro maior no PE (18%) do que no PB (10,1%), embora tal se deva
ausncia de ocorrncias de t-shirt nas lojas brasileiras de vesturio. Mas a nvel
da medida no ponderada (A), a proporo de anglicismos maior no PB (22,6%)
do que no PE (17,9%).
A comparao estratificacional sincrnica sugere dois resultados. Primeiro,
no vocabulrio de futebol, o registo subpadro parece ser mais recetivo a estrangeirismos do que o registo padro. Trata-se de um efeito da globalizao dos termos de futebol. Obviamente que a globalizao tem influncia em ambos os registos, mas o seu impacto no registo subpadro maior devido grande popularidade do futebol e sua enorme difuso pelos media, sobretudo a televiso. Alm
disso, o registo subpadro sofre menos presso por parte do purismo lingustico
e da ideologia nacionalista. Segundo, a hiptese da maior recetividade do PB aos
estrangeirismos tambm confirmada no registo subpadro, embora apenas em
relao ao vocabulrio de futebol.
OSLa volume 7(1), 2015

[92]

augusto soares da silva

[5.2] Estrangeirismos, heterogeneidade onomasiolgica e variao pluricntrica


Vamos agora verificar o impacto dos estrangeirismos na heterogeneidade onomasiolgica dos conceitos de futebol e de vesturio analisados e na relao diacrnica
entre as duas variedades nacionais do portugus. A anlise que se segue sumria,
pretendendo apenas ilustrar a possibilidade de medir o impacto onomasiolgico
dos estrangeirismos bem como a sua influncia na relao entre variedades lingusticas. A anlise desenvolvida do impacto dos estrangeirismos na convergncia
e divergncia entre PE e PB encontra-se em Soares da Silva (2014a).
Com base nos clculos socioletomtricos de uniformidade interna (I/I) e de
uniformidade externa (U/U), referidos na seco [3], pudemos encontrar trs resultados principais da anlise diacrnica das relaes entre PE e PB nos ltimos
60 anos. A anlise desenvolvida destes resultados encontra-se em Soares da Silva
(2010).
Primeiro, os clculos de uniformidade externa (U/U) entre PE e PB indicam
divergncia clara no corpus do vesturio (uniformidade decrescente) e convergncia restringida no corpus do futebol (uniformidade crescente). Relativamente
aos termos de futebol, as percentagens de U mostram convergncia de 50 para
70 (U aumenta 11,39%) e estabilidade a partir de ento, mas as de U no indicam qualquer alterao significativa. Ao mesmo tempo, os nmeros sugerem uma
grande distncia entre PE e PB nos trs perodos: U 43,78%/U 35,13% (anos 50),
U 55,17%/U 35,90% (anos 70) e U 56,76%/U 36,80% (anos 2000). Quanto aos termos de vesturio, as percentagens de U e U evidenciam divergncia ao longo do
tempo: U 78,80%/U 61,65% (anos 50), U 65,92%/U 58,66% (anos 70) e U 57,11%/U
51,44% (anos 2000), donde U diminui 12,88% de 50 para 70 e 8,81% de 70 para
2000. A hiptese da divergncia entre PE e PB pois confirmada no campo lexical do vesturio. Os termos de vesturio so mais representativos do vocabulrio
comum e, por isso, os resultados do vesturio estaro mais prximos da realidade
sociolingustica. A ligeira convergncia no campo do futebol ser um efeito da
globalizao e da estandardizao do vocabulrio do futebol.
Segundo, comparando as percentagens de uniformidade externa (U/U) entre
PE e PB nos trs diferentes perodos, conclui-se que (i) no corpus de futebol h mais
mudanas do lado do PB, o que sugere que a evoluo interna mais forte e mais
rpida no PB do que no PE; e (ii) no corpus de vesturio as tendncias evolutivas
das duas variedades so idnticas, o que mostra que a divergncia se d dos dois
lados. Tudo isto sugere que no h uma orientao de uma variedade em relao
outra.
Terceiro, os clculos de uniformidade interna (I/I) indicam maiores mudanas no PB em ambos os campos lexicais. No corpus de futebol, verifica-se um
grande aumento de homogeneidade onomasiolgica interna no PB, sobretudo de
50 para 70 (de I 30,85% para I 61,85%), ao passo que as alteraes no PE so menores (de I 51,86% para I 55,63%). o PB quem apresenta uma maior diminuio
OSLa volume 7(1), 2015

emprstimo lexical, conceptualizao e variao

[93]

no nmero de termos alternativos. Duas razes podero explicar este aumento


de homogeneidade onomasiolgica no PB: (i) grande nmero de estrangeirismos
conservando a forma original em PB50 e sua adaptao a partir dos anos 70; (ii)
grande popularidade do futebol no Brasil e o seu prestgio internacional a partir
dos anos 60, em virtude da conquista de duas Taas Mundiais consecutivas (1958 e
1962). No corpus do vesturio, as percentagens de uniformidade interna mostram
que a homogeneidade onomasiolgica diminui de 50 (PE: I 66,47%; PB: I 76,48%)
para 70 (PE: I 62,99%; PB: I 55,71%) e aumenta de 70 para 2000 (PE: I 68,75%; PB:
I 67,87%) e que as mudanas so maiores no PB do que no PE.
Podemos ento concluir que os estrangeirismos contribuem, at certo ponto,
para os resultados principais da relao diacrnica entre as duas variedades nacionais. Por um lado, os emprstimos do ingls no futebol, mais frequentes no PB
do que no PE, contribuem para uma distncia maior entre as duas variedades nos
anos 50 e para uma ligeira convergncia entre 50 e 70. Os emprstimos do ingls
e do francs no vesturio, em propores idnticas nas duas variedades e com
um ligeiro predomnio no PB, contribuem para a divergncia entre PE e PB. Por
outro lado, os estrangeirismos de futebol e de vesturio, geralmente mais influentes e mais rapidamente adaptados no PB, contribuem para maiores mudanas
de homo/heterogeneidade no PB do que no PE. Obviamente que a influncia dos
estrangeirismos no o nico fator determinante; outros fatores destes resultados diacrnicos so a endo/exogenidade, os arcasmos/neologismos e a influncia
brasileira (ver Soares da Silva 2010).
[6] c o n c l u s e s

A anlise sociocognitiva e socioletomtrica baseada num vasto corpus e em perfis


onomasiolgicos de conceitos de futebol e de vesturio sobre o uso de estrangeirismos nas duas variedades nacionais do portugus nos ltimos 60 anos permitiu
verificar que, embora ambas as variedades sejam recetivas aos estrangeirismos, a
influncia do ingls e de outras lnguas estrangeiras maior no PB do que no PE. A
maior recetividade do PB ao emprstimo lexical manifesta-se tanto no uso de termos estrangeiros diretamente importados como na sua adaptao. Vimos que o
PB, tanto no registo formal como no registo informal, importa um nmero maior
de estrangeirismos e adapta-os e integra-os mais frequente e rapidamente do que
o PE. Esta maior influncia estrangeira no PB, particularmente a dos anglicismos,
mais evidente no vocabulrio do futebol, mas no vocabulrio do vesturio, com
propores de estrangeirismos idnticas nas duas variedades, no deixa de ser
significativo o facto de a influncia do francs no ser menor no PB em comparao com o PE. Estes resultados no s confirmam a hiptese de que o PB tende
a ser mais recetivo aos estrangeirismos do que o PE, como indiciam quer a emergncia quer o tremendo fracasso da atitude purista de defesa da pureza da lngua
e de guerra contra os estrangeirismos, sobretudo no Brasil (Faraco 2001).
OSLa volume 7(1), 2015

[94]

augusto soares da silva


O uso de estrangeirismos contribuiu para uma maior variao onomasiolgica
e, assim, para a heterogeneidade onomasiolgica dentro e entre PE e PB. Por um
lado, os estrangeirismos contriburam para uma diminuio da uniformidade lexical entre as duas variedades. No caso do PB, o maior uso de estrangeirismos um
dos fatores da sua maior mutabilidade de homo/heterogeneidade lexical ao longo
do tempo. Por outro lado, os estrangeirismos contriburam, at certo ponto, para
a divergncia clara entre as duas variedades ao longo dos trs perodos temporais
estudados no vocabulrio do vesturio e para a ligeira convergncia no vocabulrio de futebol.
Finalmente, a perspetiva sociocognitiva, o mtodo onomasiolgico baseado
em sinnimos denotacionais e os mtodos socioletomtricos baseados em perfis
onomasiolgicos de conceitos e num vasto corpus permitem medir e comparar o
uso, o sucesso e a evoluo dos estrangeirismos nas variedades nacionais do portugus, bem como analisar o sucesso dos estrangeirismos como um fenmeno multifatorial, determinado simultaneamente por fatores conceptuais, estruturais, socioculturais e pragmtico-discursivos.

agradecimentos
Este estudo foi financiado pela Fundao para a Cincia e a Tecnologia, como parte
do projeto estratgico PEst-OE/FIL/UI0683/2011 do Centro de Estudos Filosficos
e Humansticos da Universidade Catlica Portuguesa. Agradeo aos revisores Rui
Sousa Silva e Lus Trigo os seus esclarecedores e estimulantes comentrios e sugestes.

anexo
Perfis de futebol
RBITRO: apitador, rbitro, director da partida, juiz, juiz de campo, ref(eree), referi,
refre
RBITRO AUXILIAR: rbitro auxiliar, rbitro assistente, auxiliar, 2/3/4 rbitro, bandeirinha, fiscal de linha, juiz de linha, liner
AVANADO: atacante, avanado, avante, dianteiro, forward, ponta-de-lana
BALIZA: arco, baliza, cidadela, goal, gol(o), malhas, marco, meta, rede, redes, vala
BOLA: balo, bola, couro(inho), esfera, esfrico, pelota
CANTO: canto, chute de canto, corner, crner, escanteio, esquinado, pontap de canto,
tiro de canto
DEFESA: (full-)back, beque, bequeira, defensor, defesa, lateral, lbero, zagueiro
EQUIPA: conjunto, formao, eleven, equipa/e, esquadra, esquadro, grupo, match,
onze, onzena, plantel, quadro, team, time, turma
EXTREMO: ala, extremo, ponta, ponteiro
OSLa volume 7(1), 2015

emprstimo lexical, conceptualizao e variao

[95]

FALTA: carga, falta, foul, golpe, infra(c)o, obstru(c)o, transgresso, violao (das
regras)
FINTA: corte, drible(ing), engano, feint, finta, firula, ginga, lesa, manobra enganadora,
simulao
FORA DE JOGO: adiantamento, banheira, deslocao, fora-de-jogo, impedimento, offside, posio irregular
GOLO: bola, goal, gol, golo, ponto, tento
GRANDE PENALIDADE: castigo mximo, castigo-mor, falta mxima, grande penalidade,
penalidade, penalidade mxima, penlti (pnalti, pnalti), penalty
GUARDA-REDES: arqueiro, goal-keeper, goleiro, golquper, guarda-meta, guarda-rede,
guarda-redes, guarda-vala, guarda-valas, guardio, keeper, porteiro, quper, vigia
JOGADA: jogada, lance
JOGO: batalha, choque, combate, competio, confronto, desafio, disputa, duelo, embate,
encontro, jogo, justa, luta, match, partida, peleja, prlio, prova, pugna
MDIO: alfe, central, centro-campista, centro-mdio, half, interior, mdio, meia, meiocampista, meio-campo, midfield, trinco, volante
PONTAP LIVRE: chute (in)direto, falta, free(-kick), livre (directo, indirecto), pontap
livre, tiro dire(c)to, tiro livre (direto, indireto)
PONTAP: chute, chuto, kick(-off), panzio, pelotada, pontap, quique, shoot, tiro
TREINADOR: mister, professor, tcnico, treinador

Perfis de vesturio
BLUSA F: blouse, blusa, blusinha, bustier, camisa, camisa-body, camiso, camiseiro
(inho), camiseta/e, (blusa) chmisier, (blusa) chemisi
BLUSO M/F: blazer, blizer, bliser, bluso, bluson, camura, camurcine, camisa
esporte, casaco de pele (de ganga, etc.), colete, parka
CALAS M/F: cala, calas, pantalona
CALAS CURTAS M/F: bermuda(s), calas-capri, cala(s) corsrio, cala(s) curta(s), calas 3/4, cales, cool pants , corsrios, hot pants, knikers, pantacourt,
pedal pusher, short(s), short cuts, short shorts, shortinho, slack(s)
CALAS JUSTAS F: fuseau(x), fus, legging(s)
CAMISA M: bluso, camisa, camisa de gravata, camisa de manga curta, camisa desportiva, camisa esporte(iva), camisa jeans, camisa social, camiseta, camisete, camisette
CAMISOLA M/F: blusa, bluso, blusinha, body, cachemir, camisa, camisa-de-meia, camiseta, camisinha, camisola, camisolinha, canoutier, canouti, malha, malhinha,
moleton, pull, pullover, pulver, suter, sweat, sweat shirt, sweater
OSLa volume 7(1), 2015

[96]

augusto soares da silva


CASACO F: blazer, blizer, bliser, casaco, casaquinho/a, manteau, mant, palet,
paletot
CASACO M: blazer, blizer, bliser, casaco, palet, paletot
CASACO CURTO F: bolero, carmona, casa(i)b(v)eque, casaco curto, casaquilha, colete,
colete camiseiro , corpete, corpinho, garibldi, gilet, manguito, mini, minicasaco, roupinha, shortie, vasquinha
CASACO CURTO M: casaco curto, colete, espartilho, gibo, gilet, jaleca, jaleco, jaqueta,
vstia
CASACO DE CERIMNIA M/F: black-tie, casaca, casaco cerimnia, fraque, manteau,
mant, palet, paletot, pelerine, smo(c)king, sobrecasaca, tuxedo
CASACO DE MALHA M/F: cardig, cardigan, casaco/casaquinho de malha (de l, de
tric), gilet, japona, malha, twin-set
CASACO IMPERMEVEL M/F: cir, cir-maxi, anorak, canadiana, capa, capa de
chuva, casaco impermevel, corta-vento, casaco-gabardina, gabardine/a, impermevel, kispo, parka
CASACO QUENTE M/F: abafo, agasalho, balandrau, capote, casaco, casaco comprido,
casaco de abafo/abafar, casaco de agasalho, casaco de/em pele, casaco-sobretudo,
duffle-coat, gabo, gilet, manteau, mant, manto, overcoat, palet, pardessus, pelerine, samarra, sobrecasaca, sobretudo, sobreveste, trench (coat)
CONJUNTO F: complet, completo, conjunto, costume, duas-peas, ensemble, fatinho, fato, saia-casaco, tailleur, toilette, toilete, vestido-casaco
FATO M: beca, completo, costume, fato, terno
JAQUETA M/F: casaca, casaco curto, jaleca, jaqueta, jaquette, jaquetinha, vstia
JEANS M/F: cala(s) de ganga, cala(s) em denim, cala(s) em jeans, ganga, jeans
SAIA F: kilt, maxi (mxi), maxissaia, micro-mini, micro-saia, mni (mini), mini-saia, minissaia, pare, saia, saia-cala, saia-calo, saio, sainha, saiote
T-SHIRT M/F: camisa, camiseta/e, camisette, camisola, licra, singlet, tee-shirt,
t-shirt
VESTIDO F: camiseiro, chemisier, chemisi, shirt-dress, traje/o, veste, vestido(inho),
vestido-camisa, vestido-camiseiro, vestido-camiseta, vestido-chemiser(), (vestido)
cai-cai, (vestido) tomara-que-cai

referncias
Baldinger, Kurt. 1964. Smasiologie et onomasiologie. Revue de Linguistique Romane
28. 249272.
Croft, William. 2001. Radical Construction Grammar. Oxford University Press.
OSLa volume 7(1), 2015

emprstimo lexical, conceptualizao e variao

[97]

Croft, William. 2009. Toward a social cognitive linguistics. Em Vyvyan Evans


& Stephany Pourcel (eds.), New Directions in Cognitive Linguistics, 395420. John
Benjamins.
Faraco, Carlos Alberto. 2001. Estrangeirismos. Guerras em torno da lngua. Parbola
Editorial.
Geeraerts, Dirk. 2010. Lexical variation in space. Em Peter Auer & Jrgen Schmidt
(eds.), Language in Space. An International Handbook of Linguistic Variation, vol. 1,
821837. De Gruyter.
Geeraerts, Dirk & Hubert Cuyckens. 2007. The Oxford Handbook of Cognitive Linguistics. Oxford University Press.
Geeraerts, Dirk, Stefan Grondelaers & Peter Bakema. 1994. The Structure of Lexical
Variation. Meaning, naming, and context. De Gruyter.
Geeraerts, Dirk, Stefan Grondelaers & Dirk Speelman. 1999. Convergentie en Divergentie in de Nederlandse Woordenschat. Meertens Instituut.
Geeraerts, Dirk, Gitte Kristiansen & Yves Peirsman (eds.). 2010. Advances in Cognitive Sociolinguistics. De Gruyter.
Goldberg, Adele. 1995. Constructions. A Construction Grammar approach to argument
structure. The University of Chicago Press.
Haspelmath, Martin. 2008. Loanword typology: Steps toward a systematic crosslinguistic study of lexical borrowability. Em T. Slotz, D. Bakker & R. Salas Palomo (eds.), Aspects of Language Contact: New theoretical, methodological and empirical findings with special focus on Romancisation processes, 4362. De Gruyter.
Haspelmath, Martin & Uri Tadmor. 2009. Loanwords in the Worlds Languages: A
Comparative Handbook. De Gruyter.
Kristiansen, Gitte & Ren Dirven (eds.). 2008. Cognitive Sociolinguistics: Language
variation, cultural models, social systems. De Gruyter.
Lakoff, George & Mark Johnson. 1980. Metaphors We Live By. The University of
Chicago Press.
Lakoff, George & Mark Johnson. 1999. Philosophy in the Flesh: The Embodied Mind
and its Challenge to Western Thought. Basic Books.
Langacker, Ronald W. 1987. Foundations of Cognitive Grammar: Theoretical Prerequisites, vol. 1. Stanford University Press.
OSLa volume 7(1), 2015

[98]

augusto soares da silva


Matras, Yaron. 2009. Language contact. Cambridge University Press.
Santos, Diana & Lus Sarmento. 2003.
O projecto AC/DC: Acesso a corpora/disponibilizao de corpora. Em Amlia Mendes & Tiago Freitas (eds.),
Actas do XVIII Encontro Nacional da Associao Portuguesa de Lingustica, 705717.
Schmid, Hans-Jrg. 2007. Entrenchment, salience and basic levels. Em Dirk Geeraerts & Hubert Cuyckens (eds.), The Oxford Handbook of Cognitive Linguistics,
117138. Oxford University Press.
Soares da Silva, Augusto. 2006. O Mundo dos Sentidos em Portugus: Polissemia, Semntica e Cognio. Almedina.
Soares da Silva, Augusto. 2008. O corpus CONDIV e o estudo da convergncia
e divergncia entre variedades do portugus. Em Lus Costa, Diana Santos &
Nuno Cardoso (eds.), Perspectivas sobre a Linguateca/Actas do Encontro Linguateca:
10 anos, Linguateca. http://www.linguateca.pt/LivroL10/.
Soares da Silva, Augusto. 2009. A Sociolingustica Cognitiva: razes e objecto de
uma nova rea de investigao lingustica. Revista Portuguesa de Humanidades
Estudos Lingusticos 13(1). 191212.
Soares da Silva, Augusto. 2010. Measuring and parameterizing lexical convergence and divergence between European and Brazilian Portuguese. Em Dirk
Geeraerts, Gitte Kristiansen & Yves Peirsman (eds.), Advances in Cognitive Sociolinguistics, 4183. De Gruyter.
Soares da Silva, Augusto. 2011. Para a abordagem socioletomtrica do pluricentrismo do portugus europeu e brasileiro: dos indicadores lexicais aos construcionais e atitudinais. Em Augusto Soares da Silva, Amadeu Torres & Miguel Gonalves (eds.), Variao lingustica e dimenses sociocognitivas, 573592. Aletheia,
Faculdade de Filosofia da UCP.
Soares da Silva, Augusto. 2012. Comparing objective and subjective linguistic distances between European and Brazilian Portuguese. Em Monika Reif, Justyna A.
Robinson & Martin Ptz (eds.), Variation in Language and Language Use: Linguistic,
socio-cultural and cognitive perspectives, 244274. Peter Lang.
Soares da Silva, Augusto. 2013. El pluricentrismo del portugus: Aspectos generales y elementos del enfoque sociolectomtrico. Em Rudolf Muhr, Carla Amors
Negre, Carmen Fernndez Juncal, Klaus Zimmermann, Emilio Prieto & Natividad Hernndez (eds.), Exploring linguistic standards in non-dominant varieties of
pluricentric languages / explorando estndares lingsticos en variedades no dominantes de lenguas pluricntricas, 7990. Peter Lang.

OSLa volume 7(1), 2015

emprstimo lexical, conceptualizao e variao

[99]

Soares da Silva, Augusto. 2014a. Measuring and comparing the use and success of
loanwords in Portugal and Brazil: A corpus-based and concept-based sociolectometrical approach. Em Eline Zenner & Gitte Kristiansen (eds.), New Perspectives on Lexical Borrowing: Onomasiological, methodological and phraseological innovations, 101141. De Gruyter.
Soares da Silva, Augusto. 2014b. Pluricentricity: Language Variation and Sociocognitive Dimensions. De Gruyter.
Soares da Silva, Augusto. 2014c. The pluricentricity of Portuguese: A sociolectometrical approach to divergence between European and Brazilian Portuguese.
Em Augusto Soares da Silva (ed.), Pluricentricity: Language Variation and Sociocognitive Dimensions, 143188. De Gruyter.
Speelman, Dirk, Stefan Grondelaers & Dirk Geeraerts. 2003. Profile-based linguistic uniformity as a generic method for comparing language varieties. Computers
and the Humanities 37. 317337.
Taylor, John R. 1995. Linguistic Categorization. Prototypes in Linguistic Theory. Oxford
University Press 2nd edn.
Zenner, Eline. 2013. Cognitive Contact Linguistics. The macro, meso and micro influence
of English on Dutch: University of Leuven. Tese de Doutoramento.
Zenner, Eline & Gitte Kristiansen (eds.). 2014. New Perspectives on Lexical Borrowing:
Onomasiological, methodological and phraseological innovations. De Gruyter.
Zenner, Eline, Dirk Speelman & Dirk Geeraerts. 2012. Cognitive Sociolinguistics
meets loanword research: Measuring variation in the success of anglicisms in
Dutch. Cognitive Linguistics 23(4). 749792.

c o n ta c t o s
Augusto Soares da Silva
Universidade Catlica Portuguesa
assilva@braga.ucp.pt
OSLa volume 7(1), 2015

Simes, Barreiro, Santos, Sousa-Silva & Tagnin (eds.) Lingustica, Informtica e Traduo: Mundos
que se Cruzam, Oslo Studies in Language 7(1), 2015. 101124. (ISSN 1890-9639 / ISBN 978-8291398-12-9)
http://www.journals.uio.no/osla

automatic anonymisation of a new


portuguese-english parallel corpus
in the legal-financial domain
ECKHARD BICK AND ANABELA BARREIRO

resumo
Este artigo apresenta o processo de anonimizao automtica de entidades
mencionadas num novo corpo paralelo pesquisvel do domnio jurdico-financeiro para o par de lnguas portugus-ingls. O corpo resulta de memrias de traduo utilizadas em traduo profissional. Contm cerca de
40.000 pares de frases alinhadas, ou seja, frases que so tradues umas das
outras. A anotao das entidades mencionadas foi feita com regras especiais
da Gramtica de Restries otimizadas para o domnio jurdico-financeiro,
que permitiram alcanar uma abrangncia balanceada em termos de preciso de quase 90% para as entidades mencionadas candidatas (pessoa, organizao, endereo e identificadores pessoais) e uma abrangncia consideravelmente superior com modificaes heursticas e otimizadas para a produo. O corpo destina-se a estudos de traduo e lingustica computacional (traduo automtica estatstica) e ser publicamente pesquisvel,
permitindo ao seu utilizador procurar uma palavra ou expresso e devolvendo os resultados da pesquisa em contexto na lngua da busca e na sua
traduo.
[1] i n t r o d u c t i o n

High quality parallel corpora are useful for many natural language processing
(NLP) applications and represent an important resource for language and translation learning. However, parallel corpora available for research are scarse, and
when available, they may not be of good quality. Many parallel corpora contain mistakes resulting from lexical variation or inappropriate use of the lexicon
and terminology, which carries over into semantic errors and unsuitable translations Barreiro (2009). Despite quantity and quality limitations, researchers use
parallel corpora for cross-language retrieval, mining terms for human and machine translation (MT), among other applications. For languages like Portuguese,
the few parallel corpora available may be specific to a certain subject matter or
domain, but normally do not exist for technical texts. Given the lack of parallel data available to train NLP systems, the corpus described in this paper represents an effort in making trustworthy technical data available for research pur-

[102]

bick & barreiro


poses, namely to train statistical machine translation (SMT) systems in the legalfinancial domain.
One of the most important tasks in releasing a legal-financial domain corpus
is to ensure that data privacy is maintained. According to the Universal Declaration of Human Rights, Article 12, everyone is entitled the right to privacy and
protection of his/her personal data, information about his/her family, home, etc.
Data and personally identifiable information protection applies to both individuals and corporations.
Named entities (NE) such as person or corporate name, address (physical and
postal), ID number, date of birth, sex, registration data, affiliation, e-mail address,
social security number, driver license, computer IP address, and so on, are examples of personally identifiable information. With respect to this legal right, there
is a significant challenge for organisations to make data useful, but comply with
information privacy regulations, so that personally identifiable information is not
disclosed publicly. However, the effort involved in text anonymisation prevents
many organizations otherwise willing to share data, from making their corpora
publicly available for research purposes.
In this paper, we tackle the challenges of anonymisation of data in our corpus, keeping the data useful for research and while maintaining privacy. We will
examine which types of NE are relevant to anonymisation and how they can be
identified automatically, using pattern matches and contextual rules. We will also
evaluate the results achieved with an adapted Named Entity Recognizer (NER)
parser and discuss fall-back strategies for maximum recall.
[2] s tat e o f t h e a r t

Corpora resources represent the driving force behind NLP systems and the source
of data to train SMT systems. Several resources and corpora tools allow studying
human translation and performing contrastive studies between Portuguese and
English (cf. Santos (1996, chp. 8), Maia (2008), and Tagnin et al. (2009), among
others). Tools for searchable corpora allow, for example, to search a word or
expression in Portuguese and see how that word or expression was translated into
English in different contexts. Searches can be simple text searches or advanced
context searches exploiting categories like part of speech, syntactic function or
semantics, and will often allow quantitative analysis, providing frequency lists,
and so on.
There are several parallel corpora available for Portuguese as one of the languages involved in the corpus translation pair, among them: the EuroParl1 , JR[1]
OSLa volume 7(1), 2015

http://www.statmt.org/europarl

automatic anonymisation of a new pt-en parallel corpus

[103]

CAcquis2 , NAT-QI3 , CorTrad4 , COMPARA5 , and Linguee6 . Most of these parallel


corpora are searchable, and therefore, constitute popular and useful tools for
word and term searches.
Different corpus types present different challenges, and corpora from specialized domains are faced with problems such as data sparsity, lack of freely available
sources and non-standard language that makes it difficult to use corpus tools developed for mainstream corpora (from the news and literature domain). If a corpus is to be used publicly outside a narrow circle of project researchers, further
problems arise, not least copyright issues which have plagued mainstream corpora from the very outset. In the legal-financial domain, where the data is largely
produced by public institutions, copyright is not the main issue, but rather the potentially high sensitivity/privacy of the data, which calls for either an impossible
amount of signatures to allow their use or an effective anonymisation procedure.
An effective anonimization procedure is not a trivial task, especially if privacy is to be protected, while still retaining linguistic integrity and allowing researchers to look for interesting patterns. For text corpora, the recognition and
classification of anonymisation-candidate named entities (ACNE) is the central
challenge, while the actual anonymisation is relatively straightforward, as we will
illustrate in (i)-(iv) in Section [5], taking the form of removal, category dummies
or psydonymisation, depending on parameters such as statistical purpose (e.g.
type occurencies) or desired fluency (e.g. syntactic analysis).
The first formal privacy protection model was the k-anonymity model proposed by Sweeney (2002) for structured datasets (e.g. patient records). The method
consisted of removing attributes with sensitive information, such as name or address, driving license number or record, inter alia. Attributes represent quasiidentifiers that in combination can uniquely identify individuals. The k-measure
is used to quantify the confusion risk between referents (e.g. patients) of the individual records. However, the measure and related methods are difficult or impossible to port from databases to text corpora, because corpora lack the clearly defined fields of databases. Thus, the challenge in database anonymisation is solely
how to generalize information while retaining informativity, while the main problem in text corpora is the identification and classification of what is to be generalized/anonymised - something that is given from the start in database fields. This
precludes a 100% safe anonymisation (de-identification) with automatic methods,
whatever its (internal confusion) k-value is. On the other hand, the k-anonymity
model assumes that the set of entries in the database (e.g. hospital patients) is
[2]
[3]
[4]
[5]
[6]

http://langtech.jrc.it/JRC-Acquis.html
http://linguateca.di.uminho.pt/nat
http://nilc.icmc.usp.br/dispara/CorTrad/
http://www.linguateca.pt/COMPARA/
http://www.linguee.com/
OSLa volume 7(1), 2015

[104]

bick & barreiro


PT-PT

EN-UK

h) Os que exeram funes de administrao ou de


fiscalizao em cinco sociedades, exceptuando as sociedades de advogados, as sociedades de revisores
oficiais de contas e os revisores oficiais de contas,
aplicando-se a estes o regime do artigo 76 do &fA;,
de 16 de Novembro;
i) Os revisores oficiais de contas em relao aos quais
se verifiquem outras incompatibilidades previstas
na respectiva legislao;

h) Those, who have management or supervisory duties in five companies, excepting law firms, firms of
official auditors and official auditors, subject in the
latter case to the provisions of article 76 of DecreeLaw no. 487/99, of the 16th of November;

j) Os interditos, os inabilitados, os insolventes, os


falidos e os condenados a pena que implique a
inibio, ainda que temporria, do exerccio de
funes pblicas.

j) Those, who are disqualified or debarred from the


exercise of their rights, the insolvent, bankrupt and
those on whom a sentence has been imposed, which
involves disqualification from the exercise of public
office, even if only temporarily.

i) Official auditors, who are in any of the other circumstances of incompatibility provided in the corresponding legislation;

table 1: PT-EN legal-financial parallel corpus.

knowable, which is why they have to be anonymised against each other (hence
the internal confusion measure). By contrast, a text corpus does not come with
clear referents and needs NER just to identify the data records themselves. So
in principle, the anonymisation background is the entire population, making the
task less challenging in this regard. In addition, without a database structure, an
internal confusion measure such as the k-value is not practically applicable. All
in all, textual anonymisation is quite different from the anonymisation of data
fields, with its own added problems, such as vagueness, importance of context,
lack of consistency, among others. In the following sections ([3] to [6]), we will
discuss how these issues can be addressed with NLP tools.
[3] c o r p u s

Taking into consideration that the quality of SMT is ultimately dependent on the
adequacy of the parallel corpora used for the task, and that good quality translations for a specialised domain are difficult or impossible to obtain when training
MT systems on another, or more general domain, we have prepared such a specialized parallel corpus for the legal-financial domain. Apart from SMT researchers,
we are also targeting human translators in need of contextualized and idiomatic
translation examples. The corpus is based on translation memories used in the
Metatrad7 agencys professional translation activities, and comprises 40,000 sentences in Portuguese and English, corresponding to about 1 million tokens each.

[7]
OSLa volume 7(1), 2015

http://www.metatrad.com

automatic anonymisation of a new pt-en parallel corpus

[105]

[4] t h e p a l av r a s n e r f r a m e wo r k

The PALAVRAS parser Bick (2000) is a rule-based parser using the Constraint Grammar paradigm, specifically the open source CG3 compiler8 . PALAVRAS uses contextual disambiguation and mapping rules on morphologically multi-tagged input, where each token receives one or more readings lines (a so-called cohort).
The core version of the system covers part-of-speech (POS), inflection, syntactic
function and dependency links or constituent structure. However, various special grammar modules have been added over time for specific research projects or
applications, such as semantic roles, semantic prototypes, valency, anaphora and
NER Bick (2014). The parser has been applied to a host of Portuguese language
corpora (among others, all Linguateca9 corpora), and research versions have addressed transcribed speech, historical text and various non-standard written domains.
PALAVRAS NER participated twice in Linguatecas joint NER tasks, and performed at the top of the field. The first version (avalia SREC, Bick (2003)), taking
a more static approach, tried to fix multi-word names (MWEs) before running the
systems grammars - either by simple lexicon-lookup or by pattern-recognition
in the preprocessor - and the only allowed post-grammar token alteration was
fusion of adjacent name chains. This technique was replaced by a more dynamic,
grammar based NE chunking approach in the second version Bick (2006), used
for the HAREM shared task Santos et al. (2006). In this system, which we are
using here, preprocessor-generated name candidate MWEs are fed to the morphological analyzer not as a whole, but in individual token parts. Thus, parts of
unknown name candidates will be individually tagged for word class, inflection
and, most importantly, semantic prototype class, which is used as a prime trigger for NE classification and used by the NE type mapping rules (cf. [5.3]). In
addition, each part is tagged as either @prop1 (leftmost part) or @prop2 (middle
and rightmost parts), and both tag types can be added or removed by contextual
rules. At the same time, the NE category set was expanded from 6 super-categories
to 41 fine-grained categories with a functional rather than lexematic definition.
For our anonymisation task, we internally maintained the fine-grained set, but
selected the individual human category @hum as the anonymisation category
<NAME_PERSON> and lumped the membership group category with administrative/institutional organisations and companies into @org (anonymisation category <NAME_ORGANIZATION>).

[8]
[9]

http://visl.sdu.dk/constraint_grammar.html
http://www.linguateca.pt/ (2000-2014)
OSLa volume 7(1), 2015

[106]

bick & barreiro


[5] a n o n y m i s at i o n

Anonymisation consists of the identification, categorization and neutralisation


of sensitive identifying information from data. Specifically, we are addressing
the task of turning a set of documents into a corpus that may be publicly used
for research purposes. Identifying information can be names of people, names
of organizations, social security numbers, postal and physical addresses, among
others. In its broadest sense, anonymising data can be performed by the four basic
methods illustrated in (i)-(iv):
(i) replacement of identifying entities with category dummies or place holders
(e.g. <NAME_PERSON>), pseudonymization (e.g. John Doe) or substitution
of numbers or letters (e.g. 99-99-9999 for dates)
(ii) suppression or omission of identifying entities from the released data (replacement of a proper name with (...) or [-])
(iii) generalization or replacement of specific data (a birth date 27-02-1978)
with less data (the year of birth 1978)
(iv) perturbation or random changes to the data (e.g. the sequence of characters &fA; standing for the name of a Decree-Law in Portuguese, DecretoLei n 487/99, as represented in Table 1)
For unstructured data sets like text corpora, with a desire of maintaining textual cohesion, (i) and (ii) are most relevant. For corpus-size data sets, anonymisation is difficult or impossible to perform without automatic tools, and independently of which method is used for the actual anonymisation, the task presupposes the existence of a well-working module for NER and classification, optimally
supported by a robust morphosyntactic tagger.
Because in most cases anonymisation is necessary only for certain NER types,
and because false negatives are more problematic in the treatment of sensitive
data than false positives, the NER process should be optimized for high recall,
rather than precision, for types such as person/organisation names and corresponding identifying number expressions. This optimization need and the type
of data to be anonymised, optimally calls for a tailor-made solution, as Medlock
(2006) points out:
The inherent subjectivity of anonymisation means that different instances of
the task may exhibit different characteristics even within the same domain.
In light of this, it is probably impractical to deploy a solution requiring a large
amount of annotated training data, bearing in mind that such training data
may not generalise within the same domain, let alone across domains. In reality, application of an NLP-based anonymisation procedure would probably
OSLa volume 7(1), 2015

automatic anonymisation of a new pt-en parallel corpus

[107]

be carried out on an instance-by-instance basis, with rapid adaptation to the


characteristics of the required solution through the use of weakly-supervised
machine learning techniques.
While we agree with Medlock on the high domain and text dependence of
anonymisation, we will here follow another methodological approach for exactly
this reason (domain and text dependence), and try to show that linguist-written
rules supplementing a rule based parser are an effective and (in our view methodologically better) way to address both NER in general, and domain-dependent
anonymisation in particular. The most relevant problem with Medlocks HMM
approach is that it is statistical and needs labeled training data, which does not
exist for our corpus. Even if training data were produced (manually), this would
not allow the system to work well on a new domain. Also, the statistical setup does
not allow users to prioritize and fix individual annotation error types, because a
statistical system works as a whole, as a black box. Linguistic rules on the other
hand, once written, are individually accessible and allow effective tracing, identification and fixing of errors when run on a new corpus. Thus, we will explore and
evaluate how the existing PALAVRAS NER resource Bick (2003, 2006) can be used
and adapted for the translation memory anonymisation of the Portuguese side of
the corpus. For the actual search interface, NER marking and anonymisation will
be carried over to the English side automatically with existing translation word
alignment tools.

[5.1] Preprocessing and Postprocessing


In order to run a text parser on a corpus with a data structure, it is necessary to
separate text from corpus meta-information such as paragraph ids, time stamps,
author or speaker information, etc.. In the case of PALAVRAS, this means enclosing meta-information in angular brackets <...>, as illustrated in the preprocessed corpus header (<20080805~134716 u 0 PT-PT>) in Table 2. In addition, the parallel English text has to be protected against Portuguese analysis
in the same fashion.
Other tasks for the preprocessor are the normalisation of meta-characters
(the corpus uses hexadecimal &...; codes, such as &'92;, &'93;, and &'94; in
Table 2), as well as OCR errors, where possible (e.g. extra spaces in numbers,
confusion of 1/l, //o or ,/.). In the annotated corpus, text is line-tokenized,
including punctuation, and each token followed by a number of tag fields, among
them NER category. In order to recreate the corpus, tokens have to be extracted
and stripped of non-relevant tags. Because PALAVRAS is a syntactic parser, it
splits elements like do, , etc. into syntactic primitives, here prepositions and
articles, and fuses MWEs (among them, name MWEs) into single tokens. The
postprocessor has to reconstruct running text from this, attach punctuation and
un-bracket metatext. Finally, and most importantly, the NER tags selected for
OSLa volume 7(1), 2015

[108]

bick & barreiro


PT-PT
Raw corpus

Preprocessed
corpus

20080805 134716 u 0 PT-PT Relativamente


opinio dos formandos quanto possibilidade de os CET&92; serem vistos pela populao em geral como cursos de &93;segunda
categoria&94;,
<20080805 134716 u 0 PT-PT> Relativamente opinio dos formandos quanto
possibilidade de os CETs serem vistos pela
populao em geral como cursos de segunda categoria

EN-UK
ENG-UK
So far as trainees&92 opinion regarding the
possibility that CETs will be seen by the general public as &93;second rate&94; courses
ENG-UK So far as trainees opinion regarding the possibility that CETs will be seen by
the general public as second rate courses

table 2: Preprocessing.

PT-PT

Parser output

Post-processed
corpus

O [o] <art> <dem> DET M S


seu [seu] <poss 3S/P> <si> DET M S
nome [nome] <f> <ac-cat> N M S
[ser] <vK> V PR 3S IND VFIN
Ana=Borges [Ana=Borges] <hum> PROP F S
$,
com [com] PRP
domiclio [domiclio] <build> N M S
profissional [profissional] <h> ADJ M/F
em [em] <sam-> PRP
a [o] <-sam> <art> DET F S
Av.=Repblica=n=50,=3=piso
[Av.=Repblica=n=50,=3=piso] <address>
$,
Lisboa [Lisboa] <civ> PROP F S
$?
<ENG-UK ... >

PROP

F S

O seu nome <NAME_PERSON> com domiclio profissional na <NAME_ADDRESS>, Lisboa?

table 3: Annotation example.

anonymisation have to be inserted as <NAME_....> place-holders and the respective token removed. For certain unclassified name tokens, the postprocessor performs its own heuristic anonymisation (cf. [5.3.2]), treating all-uppercase names
as organisations and compound names as person names.
Note that the extract illustrated in Table 3, apart from two ACNE, contains a
third NE, Lisboa, which has also been classified as civitas <civ>. Geographical
locations were considered public domain in our current scheme, but could easily
be anonymised, given the full NER mark-up, or, in this case, fused into the address
ACNE.
OSLa volume 7(1), 2015

automatic anonymisation of a new pt-en parallel corpus

[109]

[5.2] General Grammar Adaptations


Since the NER grammar itself relies on grammatical context and needs to target
words with the right POS, look up lexical properties of recognized words, etc., the
quality of the underlying POS and morphological tagging is important. Ordinarily,
PALAVRAS can achieve F-Scores of 98-99% for POS, but for our bilingual legalfinancial domain corpus, the parser had precision problems with the proper noun
class (with a certain ensuing recall loss distributed across the confusion classes).
The reason for this are graphical properties of the corpus, in particular the high
incidence of uppercasing.
Text type (language)
VEJA (pt-br)
Leipzig internet corpus (en)
TM3 law corpus (pt)
TM3 nouns & proper nouns
Leipzig internet corpus (de)

% Uppercase words
14.45%
16.61%
29.08%
29.51%
37.61%

table 4: Uppercase incidence.


As can be seen from the comparison Table 4, our corpus uses twice as much
uppercasing as ordinary Portuguese or English text, and almost as much as German, which uppercases all nouns as an orthographical rule. In particular, 1/3 of
all nouns in the corpus were uppercase, turning uppercase from a safe into an unsafe predictor of name-hood. A further problem was that 21.40% of the uppercase
words had not only the initial, but all letters uppercase, making it difficult to distinguish usually safe abbreviation names like ONU or OTAN from ordinary words in
all-uppercase. Because of the ensuing highly increased ambiguity between proper
nouns (PROP) and other parts of speech, it was necessary to change, amend and
add rules in PALAVRAS core grammar.

False Negative Names


As a default, PALAVRAS morphological analyser will try to recognize words with
uppercase initial as names, while analyzing everything else as a chain of morphemes in order to assign it POS and inflection categories. It will do the same even
for upper-cased material in three cases: (a) at sentence start, (b) for noun/adjective
material, and, of course, in the face of (c) multi-word all-uppercasing. For ordinary cases of increased uppercasing, such as newspaper headings or book titles,
this is a good strategy, but in a corpus like ours, with many uppercased sequences,
it leads to overgeneration of non-names. The grammar therefore needs to append (locally ambiguous) proper noun readings to uppercased material risking
POS disambiguation errors, using so-called morphological APPEND rules. The simplified CG rule in (v) tackles cases where a name has been interpreted as a verb
OSLa volume 7(1), 2015

[110]

bick & barreiro


or masculine noun, but where a feminine article a in combination with quotes
(<*1> + <*2>) makes a name reading as brand/product/vehicle likely (e.g. a
Bramir, or a Imperial):

(v) ("%u$1"v <HEUR> PROP F S) TARGET ("<([a-z]+)>"r + <*>) (0


<*1> + <*2>) (-1C ("<a>" <art>)) (0C V OR NMS) ;
# a "Bramir", a "Imperial"

The most difficult are cases where the initial-uppercase clue (for namehood)
is lost because the whole word is in uppercase, e.g. EVITA COSTA (V: evitar,
N: costa). Still, many extreme cases (e.g. (vi)) can be ruled out heuristically,
even in otherwise uppercased context. For instance, rules can rule out multiple
derivation or forbid certain affixes specifically.

(vi) Cardim (N: cardo+im), Salvor (N: salva+or), Portimo (N:


porto/porta/porte+im+o), Lombador (N: lombada+or), Godinho
(ADJ/N: godo+inho), Etar (V: eta+ar)

False Positive Names


The legal-financial corpus often marks key terms (as defined entities) by writing
them in all-uppercase (e.g. dbito da CONTA, descritos no ANEXO). This may
trigger a (wrong, but in other contexts meaningful) interpretation as a name abbreviation. Thus, the rule in (vii) targets all-uppercase strings with three to six
letters, if they are not flanked (NEGATE -1, NEGATE 1) by other all-uppercase
tokens or line boundaries on both sides (>>>, <<<).

(vii) APPEND ("%U$1"v <HEUR> PROP M/F S) TARGET ("<([a-z]{3,6})>"r


<allupper>) (NEGATE -1 <allupper>) (NEGATE 1 <allupper>)
(NEGATE -1 >>> LINK 2 <<<) ;

Strings of this and similar type, such as AS (article or A.S.?), CET and PAI
need to be contextually disambiguated. Thus, rules exploit the fact that an alluppercase word in parenthesis is more likely a name abbreviation than, say, a
function word. On the other hand, a plural article or a plural ending in -s help
discard a company name in favour of a noun abbreviation (e.g. os CET, os SPVs).
OSLa volume 7(1), 2015

automatic anonymisation of a new pt-en parallel corpus

[111]

[5.3] The NER Grammar


Person Names
Person names are arguably the most prototypical ACNE type, and represent clearly
sensitive information, asking for high recall10 . Our system harvests categoryrelevant information from both the lexicon and the sentence context. Person
name strings are built from left to right, with either a +HUM noun (e.g. titles, professionals, nationals, nouns ending in '-ista') or a lexicon sanctioned first name
at the head. Though the former need not be anonymised, they provide a useful
clue even in the absence of a recognized first name. The rule in (viii) allows attributes (e.g., o atleta profissional N.N.) in between the noun head atleta
and the name N.N., but more complex rules exist to cover cases with interfering
prepositional phrases (PPs) (e.g. atleta profissional de futebol N.N.), title
chains or inverted, predicative cases (e.g. N.N. atleta de profissional).
(viii) MAP (@hum @prop1) TARGET (<HEUR> PROP) OR (<hum> PROP) OR
(<H> PROP) (*-1 (<Hprof>) OR (".*ista"r N) OR (<Hnat>) OR
(<Hetn>) BARRIER NON-ATTR LINK NOT 0 @hum) ;
# O Atleta profissional Pedro Alvarez
Following HAREM conventions, titles are regarded as part of a person name.
The (simplified) rule in (ix) targets only the first title in a row, and makes an exception for addresses (where person names can be part of a street name).
(ix) MAP (@hum @prop1) TARGET N-TITLE (**1 PROP OR <*> + N-HUM
BARRIER (*) - N-TITLE LINK NOT 0 N-TITLE) (NOT -1 N-TITLE OR
N-STREET) ; # Sr. Alvarez, o Sr. Dr. Tefilo Alvarez, # Tio
Zeca, padre Melanaos, Exmo. Sr. Dr.= Fonseca da Paz
The actual name-part chaining is achieved by CG mapping @prop1 beginning-of-name) and @prop2 (in-name) tags in addition to the category tag @hum,
allowing a later filter program to fuse the name parts into syntactic units for further processing, frame-based category mapping and disambiguation. The filter
program inserts |-markers between title nouns and the name proper, and only
the latter will be anonymised. Rules like (x) and (xi) allow person names to grow
to the right.
(x) MAP (@prop2) TARGET PRP-DE OR ("\(di|v[ao]n\)"r) (*1 (<hum>
PROP) OR (<HEUR> PROP) OR (<H> PROP) BARRIER (*) - <art>) ;
# name growing right
[10]

This is definitely true for the proper noun part of person names, while categories like HAREMs OFFICIAL,
or titles without proper nouns (e.g. Sr. Dr. Juz) have no great need for anonymisation. The only
exception for the proper noun person names are cases where a name is used to denote works of art (e.g.
listen to Mozart) and possibly names in publications - where we follow HAREM conventions in using
a different category, PUBLICATION
OSLa volume 7(1), 2015

[112]

bick & barreiro


(xi) MAP (@prop2) TARGET ("[A-Z][a-z]+"r PROP) (*-1 (@hum)
CBARRIER (*) - @prop2 ) ; # PROP chain element looking left
(*-1) for a @hum header with nothing (*) but other second
elements (@prop2) in between (BARRIER)
Special person name contexts in the legal-financial domain are settlements or
patents named after people (e.g. acrda Lindemann or patente Kobashi).
In a person name context, upper-case words wrongly tagged as other wordclasses, can be marked as proper name material by the grammar (e.g. rule (xii)
for the numeral Cem in Sr Cem Srk).
(xii) SUBSTITUTE (<*>) (<*> <prop>) TARGET (<*>) (-1 <Htit> +
@hum) ;
NE type mapping rules are ordered into sections in the grammar, with one
section for each type. However, if no rule from the ordinary person name section
was applicable, and if no later rules assign a different category either, then a second round of more heuristic person name mapping is performed. For example, a
heuristic proper noun appearing first in a chain of proper nouns will be tagged
@hum, if it is initial-uppercase rather than all-uppercase, and not preceded by an
article or brand-noun11 , as illustrated in (xiii).
(xiii) MAP (@hum @prop1) TARGET PROP (0 ("[A-Z][a-z]+"r <HEUR>))
(NOT -1 N-HUM-person OR PROP OR <art> OR N-BRAND) (1 PROP) ;

Organization Names
Internally, our grammar distinguishes between different types of organisation
according to the PALAVRAS and HAREM schemes 1-7.
(i) organisation (@org) - the umbrella category, e.g. international, NGO;
(ii) company (@company): e.g. Embraer, A.S., Ltda.;
(iii) administrative units12 (@admin): government, parliament, assembly;
(iv) institution (@inst): institute, laboratory, museum, university;
[11]

[12]

OSLa volume 7(1), 2015

The rule has been simplified, real rules often have multiple exceptions to cover special cases. Here, the
brand case is constrained to <foreign>-marked proper nouns, there is a town name context exception
for So, and the PROP chaining also allows the preposition de.
This is a HAREM category and was also used for countries and towns, if they functioned as agents or cognizers. The distinction is not upheld by PALAVRAS, but only mapped later using semantic role inference,
where desired. Furthermore, PALAVRAS tags place-bound administrative units as institutions, alongside
shops, hotels etc.

automatic anonymisation of a new pt-en parallel corpus

[113]

(v) functional bodies of organisations (@suborg): boards, councils, committees;


(vi) groups with members (@grouporg): clubs;
(vii) special plural cases: @grouphum (e.g. families) and @groupofficial.
The subcategory distinctions in schemes 1-7 are not strictly necessary for
anonymisation and can be lumped for this purpose, but they are useful for other
corpus work, and are maintained in the grammar that works with subcategoryspecific rules and sets. Scheme 1 is mapped last, using heuristic rules and the
parsers lexicon (which does not recognize the subdistinctions). Scheme 4 is not
anonymised on its own, only where the parent organisation appears adjacently
(e.g. Conselho de Administrao da|Embraer). Like person names, organisation names can be triggered by specific noun heads, that are defined as sets in
the Constraint Grammar, N-COMPANY (e.g. alugadora, banco, caixa, companhia,
editora, empresa, sociedade), N-ADMINISTRATION (e.g. assembleia, cmara,
parlamento), N-GROUP (e.g. delegao, equipe, pessoal), among others. These
trigger nouns are treated as part of the name if in uppercase and followed by a
preposition (SPB, Sociedade Portuguesa de Bioqumica), but not if followed
by a proper noun or all-uppercase (e.g. a alugadora Aires Baeta). In many
cases, the @org category can also be triggered by a tail token at its end13 . Thus, it
is typical of corporations and formal clubs that they affix a legal-financial typer
marker, such as AS, &, Co., GmbH, Lda., S.A.R.L., or generic name parts such as
Holding, Consulting, Telecom, Associados. This is also exploited by the NER
rules through special sets, that can then look both left (N-CLUB) in (xiv) and right
(N-CLUB-POST) in (xv).
(xiv) MAP (@company @grouporg @prop1) TARGET PROP (-1 N-CLUB)
(NOT -1 <*>) ; # S.C. Braga
(xv) MAP (@company @grouporg @prop1) TARGET PROP (NOT 0 <prop2>)
(1 N-CLUB-POST) ; # Boavista FC
Note that the rules above add a @company tag alongside the normal @grouporg
for sport clubs. This allows later disambiguation rules to treat the club as a company if the name string continues with an acronym, such as S.A.D., which stands
for Sociedade Annima Desportiva.
A more heuristic distinctor for organisations names is a definite article immediately left of a proper noun, or - safest - an all-uppercase abbreviation. Articles do occur with other name types, but less frequently with person names than
[13]

Tail tokens also occur with person names, but they are rare (e.g. Neto, Neta, Filho), unless one also
counts prepositional phrases like da Silva, dos Santos, etc.
OSLa volume 7(1), 2015

[114]

bick & barreiro


organisation names. Provided that other name types have been targeted with
their own safe rules already, it is therefore a good bet for otherwise unclassifiable names to categorize them as @company after the letter a14 and @grouporg
after the letter o. Because full names are much easier to classify than abbreviations, an internal tagging memory was used to resolve uppercase abbreviations
that had already occurred earlier in the text in parentheses after a corresponding
long form.

Addresses
Though the existing PALAVRAS NER module already treated addresses as a separate NER category, it did not perform well on the bilingual legal-financial domain corpus at hand, in part simply because international address formats (e.g.
English, Dutch, etc.) appeared next to the known Portuguese ones (e.g. 10a
Belmont Street, NW1 8HH, Londres), but also because of the large orthographical variation in the corpus, possibly caused by OCR or keyboard (typewriter?)
limitations. Thus, there were around 20 different variants of n, to name just one
example, including n., n, n.e, no.s, no., n9., n*, n", n,, etc. plus uppercase
variants, with similar variation in ordinals before words like piso and andar, or
as affixes (e.g. 89-3), as well as use of ordinal abbreviations in other words (e.g.
2o dt, Esq). In order to identify address NE, we again defined head nouns and
tail words, as illustrated in rules (xvi) and (xvii).
(xvi) LIST N-ADDRESS = <Lpath> "Av" "Av." "Av.a" "Av. [A-Z].*"r ...
"rua" "R." "Ra" "Via" ...
(xvii) LIST N-ADDRESS-POST = "Avenue" "Bd" "Boulevard" "Rd" "Road"
"St" "Street" "Sq" "Square" ....
The latter was necessary, because English addresses place the closed-class
part of street names last (e.g. Hampton Road), while Portuguese (and other Romance languages) have closed-class material first (e.g. Via Appia). A third possibility is seen in German and Dutch addresses where the closed-class items are not
separate words, making the use of regular expressions necessary (Bergstrasse,
Meulengracht). In addition, Portuguese/Continental and English addresses place
street number differently, so they mark either right or left boundaries of street
addresses. @prop2 rules were used to let addresses span right over further uppercase material, added numerical material and subaddress words (e.g. casa,
lote, piso, esq., r/c), allowing also interfering commas, letters, hyphens, slashes,
the preposition de, articles and the n token in all its variants. Though identified
as such, person names inside addresses were not allowed to prevent address string
[14]
OSLa volume 7(1), 2015

Provided, of course, the parser has correctly disambiguated a as not being a preposition.

automatic anonymisation of a new pt-en parallel corpus

[115]

from growing right, i.e. from the head Avenida to the last part Esq. or Piso
across the person names in bold face in the examples in (xviii) and (xix). This
means that it is the larger address NE that gets marked rather than the smaller
person NE inside it (Jlio Dinis and Ferno de Magalhes, in the examples).
(xviii) Avenida *Jlio Dinis*, n. 2 3o Esq.
(xix) Avenida *Ferno de Magalhes*, n 1862.-14 Piso
A special topic concerns town names with postal area codes, which were treated as addresses when appearing on their own, but otherwise fused into adjacent
address strings. Internationally, postal codes vary a lot, and number-only codes
in particular need a recognized place name or address as context. Conversely,
once identified, postal codes can help identify lexically unknown place names. In
some cases, address heads or tail words are identified in connection with proper
nouns, but without a number extension, subaddress or postal code. These are first
tagged ambiguously as @address @site, and later treated by the disambiguation
grammar with full context, lumping these cases together with other site words
such as estao, estdio, mina, and shopping, among others. Corpus-wise, we
decided that street names, etc. used on their own are not precise enough to need
anonymisation.

Identifying Numerical Expressions


Numerical expressions can help identify a person or company either directly or
indirectly. Indirect numerical identifiers such as age, weight, income, etc. can
help a detective choose between several people, but are not identifiers on their
own, and obviously numerals in addresses present no problem because they will
be anonymised together with the address as a whole. Problematic, on the other
hand, are direct numerical identifiers that are long enough to be unique, or appear in a feature-attribute pair that makes them unique. Examples for such numerical ACNEs are:
(i) telephone or telefax numbers
(ii) email or personal/company websites, passport numbers, and tax numbers
(IRC, CIRC, RFI, NIF - person, NIPC - company)
(iii) bank accounts, NIB (IBAN)
(iv) invoices, file numbers, NUIPC (identificador de processo crime)
The safest way to identify these cases is with a triggering head noun in the
left-hand context, defined as a set including the above abbreviations as well as
OSLa volume 7(1), 2015

[116]

bick & barreiro


variants of telefone/telef/tel/tel/fax/telefax, passaporte, etc., and
more general expressions such as imatricul*, identific*, etc. In these contexts, virtually any numerical expression of a certain length, with a mixture of
digits, letters and -/. will be an individual identifier. Heuristic numerical pattern matches (bold in the rule exemplified in (xx)) can also be used in the absence
of privacy trigger nouns, based on the trigger word n (nmero) alone, but only
in the absence of competing specific triggers for public identifiers.
(xx) MAP (@nameid) TARGET (<cif> NUM) (*-1 ("n") OR ("nmero")
BARRIER (*) - (@nameid) - IT LINK NEGATE *-1 N-PUB OR N-COPY
OR (<media>) OR (<ABBR>) CBARRIER N-PRIVATE OR NON-KOMMA <prop2> - PRP-COM - PRP-DE - ("n") - <artd> - <*>) \bf{(0
(".*[0-9][0-9]= [0-9][0-9][0-9A-Z=]+"r) OR ("[0-9=]{7,}"r) OR
("[0-9].*[.-=][0-9]{4,}.*"r) OR ("[0-9]+/[0-9].*"r))} ;
Together with the ACNE type @nameid, we introduced @pub, for public identifiers. This name type uses similar rules and number patterns, but looks for
a special N-PUB set (e.g. aviso, circular, decreto, despacho, lei, parecer,
resoluo) or the N-COPY set used for publication names and works of art (e.g.
<sem-r> readable: books, etc., <sem-w> watchables: films, etc.,
<sem-l> listenables: concerts, etc.). The same sets are used as exceptions (e.g. NEGATE) in the heuristic @nameid rule quoted in (xx). Leaving aside
other purposes and application of tagging private and public identifiers, it should
be born in mind that anonymisation for these categories is easily and undestructively achieved by substituting, for example, the digit 9 for all other digits in
the text. So far, we only considered a similar option (letter substitution) for
the last identifier category, emails and web addresses (e.g. aaaaa.aaa@aaa.aa,
aaaa://aaa.aaaa.aa/), but the substitution method should be considered as a
last resort to achieve the highest possible anonymisation recall at publication
time in the face of legal constraints.
[6] e va l u at i o n

[6.1] Evaluating the Adapted PALAVRAS Parser


An evaluation subset of 6,800 aligned paragraphs, with 80,800 Portuguese words,
was extracted randomly from the total data set, based on the last digits of the
paragraph ids. The Portuguese part of the evaluation data was automatically annotated for NER strings and their categories, using the adapted PALAVRAS parser.
Since purely numerical NERs can be easily treated with a coverall digit replacement operation, our focus was on non-numerical candidates for anonymisation
(human names, organisation names and addresses), including only one numerical category, individual identifiers. These categories were then inspected and
OSLa volume 7(1), 2015

automatic anonymisation of a new pt-en parallel corpus

hum
org
address
nameid
all

Cases
263
871
38
54
1229

Recall
87.83
93.69
81.58
60.71
88.32

Precision
87.50
86.53
91.18
87.18
86.88

[117]

F1 -score
87.66
89.97
86.11
71.58
86.68

table 5: Performance by category.


ACNEs
untyped
typed

Recall
90.71
88.32

Precision
89.22
86.88

F1 -score
89.96
87.59

untyped, chunked (0.5)


typed, chunked (0.5)

88.36
86.26

86.91
84.84

87.63
85.54

untyped, chunked
typed, chunked

86.02
84.19

84.61
82.81

85.31
83.49

table 6: Performance according to different evaluation metrics.


evaluated with regard to NER span and category. In addition, the text was manually annotated for false negatives of the same name types. The whole evaluation
process was performed solely by one author, based on his linguistic expertise, albeit without parallel multi-annotator controls. All in all, the parser found 1,142
out of 1,259 possible ACNEs, making for a recall of 90.71%, and suggested 128 false
positives, equalling a precision of 89.22%. About 52% of the false positives were
non-ACNE name types, 48% were uppercase nouns. Confusion across anonymisation categories was fairly rare (2-3%), the most common error being to read
uppercase person name abbreviations (e.g. AH, JB) as company names. For individual ACNE type recognition, overall recall was 87.78% and precision 86.98%,
with organisations performing best, and name ids performing worst.
In 48 cases, the recognized ACNEs were too short, in 6 cases too long, amounting to a 5% chunking error rate. Typical cases were missing address details or
organisation type extensions (e.g. 95_Wilton_Road & 201, Londres, SW1V 1,
or VESTAS_Mediterranean A / S).
If chunking errors are included in the accuracy calculation, both recall and
precision drop with a couple of percentage points, if any mismatch is counted as
an error (CoNLL evaluation scheme Sang & De Meulder (2003)), or 1 percentage
point if partial hits are counted half (MUC evaluation scheme15 ).
[15]

http://www.itl.nist.gov/iaui/894.02/related_projects/muc/muc_sw/muc_sw_manual.
html
OSLa volume 7(1), 2015

[118]

bick & barreiro


On the background of a real-world anonymisation task, it should be born in
mind that almost all span (chunking) errors are irrelevant to anonymisation, since,
for example, CEP codes without street addresses or an A/S suffix without a company name, are already quite anonymous. There are few published evaluation
scores for text anonymisation in the literature, let alone for the same language
and domain, but one comparable approach is Medlocks work on an English email
corpus Medlock (2006), where F-scores between 54.42 and 63.99 (depending on the
metrics) were achieved for selective anonymisation (roughly our set of categories)
and 65.76-73.87 for blanket anonymisation (all potential NER types), achieved
with the LingPipe HMM tagger16 . However, a direct performance comparison
is problematic, because Medlock uses a pre-tagged gold corpus rather than results inspection, and intentionally limited training corpus size. Another comparison, for typed NER, albeit on the easier newspaper domain, is the CoNLL 2003
shared task17 , where the best systems achieved F-Scores of 88.76 for English and
72.41 for German, possibly reflecting the before-mentioned difficulty of identifying names in the face of noun-uppercasing. PALAVRAS own typed F-Score on the
mixed HAREM domain was 63.0/68.3 for absolute/relative category classification.

[6.2] Increasing Recall


As discussed earlier, recall is more important for anonymisation than precision,
and as intended, evaluation shows that for the overall tagging task this goal was
achieved. However, the R-P difference is not big, and mainly valid for the <org>
class, while <address> and <nameid> have a low recall. Obviously, recall for the
latter categories can be increased by better pattern matching rules, addition of
further address fields and id trigger words, and this was done after the above
round of evaluation. But on the other hand, a more radical recall-increasing approach is desirable for a real world application, where anonymisation close to
100% is necessary if human post-editing is to be avoided. A case-for-case inspection of false negatives shows that add-on strategies can be used exploiting the
following patterns:
(i) treating all-uppercase strings as ACNEs, or - trusting the parsers POS disambiguation - all-uppercase proper nouns (in the evaluation run, all such
false negatives had been recognized as PROP, just not the right type of PROP).
Typing as <org> would also be possible (only 25% were not <org>).
(ii) treating all compound proper names as ACNEs, i.e. strings where the parser
fused 2 or more upper case tokens into one, and tagged it as PROP. These
cases were about equally distributed between person and organisation names.
[16]
[17]
OSLa volume 7(1), 2015

http://www.alias-i.com/lingpipe/
http://www.cnts.ua.ac.be/conll2003/ner/

automatic anonymisation of a new pt-en parallel corpus

[119]

(iii) treating single-token PROP as ACNEs, if the parser marked them as <foreign>.
Again, these cases covered a mixture of person/organisation types.
(iv) treating camel case as ACNE (of <org> type).
(v) treating all numerical expressions as ACNEs. These were mostly of <nameid>
type, but <address> in cases where uppercase letters were followed by digits.
The above strategies capture 88.8% of all false negatives. Of the remaining
13 cases, one was partially recognized already (person name within organisation name), and would thus get anonymised anyway; the rest consisted of ordinary words used as names (e.g. Tranquilidade) or ambiguous with names at
sentences start (e.g. Marques), names with case errors (e.g. o opbbr uma
sociedade, o Oi) or mistyped/untyped PROP, the latter sometimes as part of
what the parser regarded as a longer PROP chain. Given this distribution of cases,
almost total anonymisation recall could be achieved by treating all PROP-tagged
strings as ACNEs. Table 7 below shows how the individual strategies affect recall,
and - for the non-numerical types - precision.
The price in precision loss for applying the above strategies is, of course, fairly
high. The safest strategy is all-uppercase PROP, where recall gain out-weighs precision loss 5:1 and where recall for the main affected category, <org>, climbed
to over 96%. Treating all complex PROP as ACNEs is much less safe, and would
sink precision into the 50% bracket. However, only applying this strategy to complex PROP not otherwise categorized, still matches most false positives of this
type18 , while leading to a more tolerable precision loss, only a little above the
corresponding recall gain. It is beneficial especially for person names (8% recall
gain), bringing them on par with <org> coverage. Camel case and the <foreign>
tag are much more expensive in precision terms, and risk including typos and,
for the latter, a good portion of ordinary English words (> 40%). General numerical anonymisation, finally, captures virtually all id and address information and
is unproblematic to use - irrespective of precision loss - because textual cohesion suffers much less from digit replacement than it does when upper case noun
chains and proper nouns are replaced with dummies.
We conclude from the above that apart from numerical anonymisation, two
fallback strategies are cost-efficient enough to be used - treating remaining alluppercase as <org> and unclassified compound proper nouns as <hum>. All in
all, this achieves a recall for ACNEs of 98.24%, arguably good enough for purely
[18]

The target group of compound names, person names, are mostly cases where all elements of the MWEs
are individually proper nouns, while compound names with uppercase noun elements often belong to
other classes. It is exactly this trait that makes it likely that the parser already has found a classification
for them, based on its knowledge about semantic noun classes.
OSLa volume 7(1), 2015

no recall heuristics
all-upper PROP
compound PROP
numerical expressions
uppercase + numerical
<org>
<hum>
<address>
<nameid>
<foreign> PROP
<camelcase> PROP
other PROP
other
30
41
20
4

False
negative

0.50%
0.17%
0.84%

2.35%
3.43%
1.76%
0.25%

R gain

0.47%
5.51%

P loss

3.77%
0.50%

6
2
10
3

Cumulative
recall,
untyped
90.29%
92.64%
96.23%
97.91%
98.24%
99.13%
98.10%
100.00%
100.00%
98.83%
98.91%
99.75%
table 7: Effect of recall heuristics.

<org> 96.16%
<hum> 95.82%
<nameid> 100%
<address> 92.16%

Typed recall
effect for
main category

2.97%
7.99%
39.29%
10.58%

Typed
recall
gain

OSLa volume 7(1), 2015

bick & barreiro


[120]

automatic anonymisation of a new pt-en parallel corpus

[121]

automatic corpus treatment. As a futher safety measure, we provide the option


of including publication names and public identifiers in the anonymisation, because the former may contain person names, and the latter may be confused with
private (person) identifiers.

[6.3] Parallel Corpus Anonymisation


Anonymisation of the English part of our parallel corpus could of course be performed by independent anonymisation using the same techniques as for the Portuguese part, specifically by using the English sister parser of PALAVRAS, EngGram. However, we opted for a different, alignment-based solution, where ACNEs
marked in the Portuguese text were aligned with matching strings in the parallel English sections, transferring the already established NE category tags. This
method ensures that the same category definitions and span conventions are used
in the two languages, and also automatically establishes referent links between
Portuguese and English ACNEs, which is useful because many paragraphs contain many ACNEs, and in anonymised form, without the actual name string, it is
not always easy for the reader to establish which goes where in the translation.
Alignment is achieved in 3 steps:
(i) All Portuguese ACNEs are numbered, and where the individual strings match
corresponding English strings, the latter are tagged/anonymised with the
same category and number. This method captures most person names,
addresses and numerical name identifiers, because these name types do
not differ much across languages. To guard against typing/OCR errors and
small orthographical differences, search strings were case-insensitive and
adapted as regular expressions with optional dummy characters replacing
unsafe characters (dots, strings, spaces, accents, etc.).
(ii) A pure pattern-based ACNE identification was performed for numerical expressions with variability across languages (dates) and to identify name
identifiers that were not present in the Portuguese part because they were
missing, omitted or anonymised in that language (e.g. &fA;). If possible
(e.g. dates), these new English ACNEs were then back-aligned with not-yet
aligned Portuguese ACNEs and numbered correspondingly.
(iii) The remaining unaligned Portuguese ACNEs were typically multi-part organisation names, whose English equivalent was a part-by-part translation,
or all-uppercase abbreviations where the Portuguese and English letter order differed (e.g. NATO - OTAN). In these cases, we tried to match English
uppercase strings of similar makeup, for example matching a name with
a lowercase word in the middle with an English corresponding sequence
of uppercase-lowercase-uppercase words. Even this kind of alignment was
OSLa volume 7(1), 2015

[122]

bick & barreiro


quite successful, not least, because we used already-aligned material to constrain the left and right borders of the search space.

PT-PT

EN-UK

(A) As Partes so duas sociedades consti tudas sob o domnio integral da <_ORGANISATION>, sociedade adjudicatria da Fase
A do denominado Concurso das Elicas,
conforme Contrato celebrado com a (agora
designada)
<_ORGANISATION_
ADMIN>
(<NAME3_ORGANISATION_
ADMIN>)
em
<NAME4_DATE>, nos termos do qual, e dos respectivos anexos, a <NAME5_ORGANISATION>
e a <NAME6_ORGANISATION> assumiram os
direitos e obrigaes relacionados co m as actividades de promoo dos Parques Elicos e do
Projecto Industrial previs tos no mesmo Contrato
com a <NAME7_ORGANISATION_ ADMIN>,
respectivamente;

(A) The Parties are two companies incorporated under the exclusive control of
<NAME1_ORGANISATION>, a company, which
has been awarded the contract for Phase A of the
Wind power Tender, in accordance with a Contract with the <NAME2_ORGANISATION_ ADMIN>
(<NAME3_ORGANISATION_ ADMIN>), as it is
now designated, signed on the <NAME4_DATE>.
According to the terms of the said Contract with
the <NAME7_ORGANISATION_ ADMIN> and the
annexes thereof, <NAME5_ORGANISATION> and
<NAME6_ORGANISATION> respectively assumed
the rights and obligations in relation to the promotion of the Wind Parks and Industrial Project
envisaged in the said Contract;

table 8: Annotation example.

[7] c o n c l u s i o n s a n d f u t u r e wo r k

We have presented a new 1 million token Portuguese-English parallel corpus,


covering the legal-financial domain, and shown how an existing general-purpose
NER-parser can be adapted for robust text anonymisation, achieving F-scores of
80-90% on the NER task as such, and over 98% ACNE recall for the anonymisationoptimized system as a whole. We were also able to show that alignment can be
used to propagate anonymisation between languages. Website publication of the
corpus with a suitable search-interface is planned for the immediate future, but
we also need to investigate how well our anonymisation method carries over into
other domain or language pairs, so that a more general database and search tool
for translation memories can be created.

acknowledgments
We would like to thank Metatrad for making it possible to create the corpus described here, and for allowing us to make it publicly available for searching. We
also would like to thank Hugo Gonalo Oliveira and Miriam Leite for relevant comments that helped improve this paper. Anabelas work was funded by FCT through
grant SFRH/BPD/91446/2012).
OSLa volume 7(1), 2015

automatic anonymisation of a new pt-en parallel corpus

[123]

references
Barreiro, Anabela. 2009. Make it Simple with Paraphrases: Automated Paraphrasing for
Authoring Aids and Machine Translation: Universidade do Porto PhD dissertation.
Bick, Eckhard. 2000. The Parsing System Palavras: Automatic Grammatical Analysis
of Portuguese in a Constraint Grammar Framework: Aarhus University PhD dissertation.
Bick, Eckhard. 2003. Multi-Level NER for Portuguese in a CG Framework. In Jorge
Baptista, Isabel Trancoso, Maria das Graas Volpe Nunes & Nuno J. Mamede
(eds.), Computational Processing of the Portuguese Language: 6th International Workshop, PROPOR 2003. Faro, Portugal, June 2003 (PROPOR 2003), 118125. Springer.
Bick, Eckhard. 2006. Functional Aspects in Portuguese NER. In Renata Vieira,
Paulo Quaresma, Maria da Graa Volpes Nunes, Nuno J. Mamede, Cludia
Oliveira & Maria Carmelita Dias (eds.), Computational processing of the portuguese
language, proceedings of propor 2006, 8089. Springer.
Bick, Eckhard. 2014. Palavras, a constraint grammar-based parsing system for
portuguese. In Tony Berber Sardinha & Thelma de Lurdes So Bento Ferreira
(eds.), Working with portuguese corpora, 279302. Bloomsbury Academic.
Maia, Belinda. 2008. Corpgrafo V4 - Tools for Educating Translators. In Elia Yuste
Rodrigo (ed.), Topics in Language Resources for Translation and Localisation, 5770.
John Benjamins Pub. Co.
Medlock, Ben. 2006. An Introduction to NLP-based Textual Anonymisation. In
Nicoletta Calzolari, Khalid Choukri, Aldo Gangemi, Bente Maegaard, Joseph
Mariani, Jan Odjik & Daniel Tapias (eds.), Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC 2006), 10511056.
Sang, Erik F. Tjong Kim & Fien De Meulder. 2003. Introduction to the CoNLL-2003
shared task: Language-independent named entity recognition. In Proceedings
of CoNLL 2003, .
Santos, Diana, Nuno Seco, Nuno Cardoso & Rui Vilela. 2006. HAREM: An Advanced NER Evaluation Contest for Portuguese. In Nicoletta Calzolari, Khalid
Choukri, Aldo Gangemi, Bente Maegaard, Joseph Mariani, Jan Odjik & Daniel
Tapias (eds.), Proceedings of the 5th International Conference on Language Resources
and Evaluation (LREC 2006), 19861991.
Santos, Diana Maria de Sousa Marques Pinto dos. 1996. Tense and aspect in English
and Portuguese: a contrastive semantical study: Instituto Superior Tcnico, Universidade Tcnica de Lisboa PhD dissertation.
OSLa volume 7(1), 2015

[124]

bick & barreiro


Sweeney, Latanya. 2002. k-anonymity: a model for protecting privacy. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems 10(5). 557
570.
Tagnin, Stella O. E., Elisa Duarte Teixeira & Diana Santos. 2009. CorTrad: a multiversion translation corpus for the Portuguese-English pair. Arena Romanistica
4. 314323.

c o n ta c t s
Eckhard Bick
University of Southern Denmark
eckhard.bick@mail.dk
Anabela Barreiro
INESC-ID
anabela.barreiro@inesc-id.pt
OSLa volume 7(1), 2015

Simes, Barreiro, Santos, Sousa-Silva & Tagnin (eds.) Lingustica, Informtica e Traduo: Mundos
que se Cruzam, Oslo Studies in Language 7(1), 2015. 125137. (ISSN 1890-9639 / ISBN 978-8291398-12-9)
http://www.journals.uio.no/osla

o japo visto de portugal


explorao usando um corpo
de textos jornalsticos
LUS FERNANDO COSTA

abstract
The Portuguese were the first Europeans establishing contact with Japan in
the 16th century. They wrote about what they had seen there, which was the
start of a long history of documenting Japan in Portugal. Even though the
relationship between the two countries had its ups and downs throughout
the times, fascination for Japan among the Portuguese seems to continue.
The goal of the study reported in this article was to identify which aspects
of Japan most drawn the attention of Portuguese media in the 90s. Concordances and frequencies from the CETEMPblico corpus, containing texts
published in the Portuguese daily newspaper PBLICO in the 90s, and a combination of automatic and manual processes, were used for that purpose.
[1] i n t r o d u o

Os portugueses chegaram ao Japo no ano de 1543, causando uma impresso to


forte nos japoneses que ainda hoje se podem observar os resultados desse encontro entre culturas to diversas. As influncias mais evidentes encontram-se na
alimentao e na prpria lngua japonesa.
O tempura, um dos pratos mais famosos da cozinha japonesa foi introduzido
pelos portugueses no Japo ( uma adaptao do prato portugus peixinhos da
horta). De referir tambm a adaptao do bolo po de l em que a verso japonesa se
chama kasutera e do kompeito (em Portugal, confeito) em que as verses adaptadas
no Japo sero nesta altura mais populares que os originais em Portugal.
Relativamente lngua japonesa, diversas palavras comuns provm do portugus. Alguns exemplos so pan (po), koppu (copo), shabon (sabo) e tabako (tabaco).
O fascnio foi recproco; a obra Historia de Japam (Fris 1976-1984) escrita pelo
portugus Lus Fris no sculo XVI relata com tal pormenor a poca em que viveu
que ainda hoje uma fonte muito utilizada mesmo por investigadores japoneses.
Outro portugus que escreveu sobre o Japo foi Joo Rodrigues, que escreveu
uma gramtica muito completa da lngua japonesa (Rodrigues 1604), para alm de
outras obras, relatando a histria do Japo e as suas observaes sobre diferentes aspetos da cultura japonesa como a pintura, a arquitetura, regras de cortesia

[126]

lus fernando costa


e a cerimnia do ch. Escreveu tambm sobre cincia, nomeadamente sobre os
conhecimentos de matemtica e astronomia no Japo.
Mais recentemente, outro portugus enamorou-se perdidamente pelo Japo:
Wenceslau de Moraes. No final do sculo XIX, princpio do sculo XX, escreveu
vrios livros, descrevendo o povo japons com uma profundidade inigualvel
poca (de Moraes 1993). Viveu trinta anos no Japo, no final da sua vida, com um
estilo de vida muito semelhante aos japoneses. Morreu mesmo no Japo, onde jaz
sepultado.
Janeira (1981) e Janeira (1988) so leituras muito interessantes sobre estas temticas. Nessas obras, fala-se destes e de outros portugueses que ajudaram a trazer Portugal a paragens to remotas.
Nesses tempos o Japo era um pas fechado ao exterior. Mas as coisas mudaram radicalmente desde ento. Hoje, muitos de ns, para alm de termos produtos japoneses em casa, tivemos tambm contacto de alguma forma com outras
criaes japonesas como o Sushi, o Karaoke, o Manga ou o Anime.
Atravs do trabalho descrito neste artigo, pretendeu-se determinar quais as
facetas do Japo que so mais destacadas pelos meios de comunicao social portugueses dos dias de hoje. Analisou-se, para tal, de forma semiautomtica um
conjunto de textos publicados no jornal Pblico na dcada de 90.
[2] m e t o d o l o g i a

Para realizar o estudo descrito neste artigo, usou-se um sub-conjunto do corpo


CETEMPblico (Rocha & Santos 2000). Este corpo um recurso valiosssimo que
contm o texto de cerca de 2.600 edies do jornal dirio portugus PBLICO, publicadas entre os anos de 1991 e 1998, totalizando cerca de 180 milhes de palavras. O CETEMPblico est dividido em 1.504.258 extratos, classificados por semestre e por assunto.
Cada um destes extratos est por sua vez dividido em pargrafos e frases, estando tambm assinalados os seus ttulos e autores. Para alm de tudo isto, a cada
palavra ou tomo (unidade) do corpo encontra-se associada informao gramatical, anotada automaticamente pelo analisador sinttico PALAVRAS (Bick 2000).
Esta informao inclui a categoria gramatical das palavras, bem como informao morfolgica, sinttica e semntica.
O objeto do estudo eram especificamente os textos relacionados com o Japo.
Para determinar estes textos e, consequentemente, criar um sub-corpo de textos
relacionados com o Japo, selecionaram-se todos os extratos de texto contendo
pelo menos uma das seguintes palavras: Japo, as vrias formas do lema japons
(japons, japonesa, japoneses e japonesas) e do lema nipnico (nipnico, nipnica, nipnicos e nipnicas). Concluiu-se, ento, que 24.673 dos extratos continham uma
destas palavras e, portanto, podem estar de alguma forma relacionados com o
Japo.
OSLa volume 7(1), 2015

o japo visto de portugal

[127]

Os trabalhos de anlise de contedo de textos em portugus que consegui encontrar so feitos sobre amostras bem mais pequenas. Veja-se, por exemplo, Ferro
(2011), Lobo (2010) e Magalhes (2004) onde se estudaram respetivamente 161,
159 e 73 peas jornalsticas, e de Almeida Menezes (2011), onde se estudaram 10
entrevistas. Apenas em Magalhes (2004) e de Almeida Menezes (2011) indicado terem-se utilizado ferramentas computacionais para suportar a anlise do
contedo dos textos. Em ambos os casos foram usadas ferramentas do WordSmith
Tools (Scott 1996). Em Lobo (2010) referido explicitamente no se terem usado
programas de computador para suportar a anlise textual e em Ferro (2011) no
feita qualquer referncia ao seu uso.
Para outras lnguas existem variados exemplos do uso de ferramentas computacionais para suportar a anlise de quantidades muito maiores de texto. Vejase, por exemplo, Kutter & Kantner (2012), onde se trabalhou sobre um corpo de
meio milho de textos em ingls, holands, francs e alemo para analisar como
os meios de comunicao social de diferentes pases europeus cobrem guerras
e intervenes militares, e Baker et al. (2008) onde se usaram textos em ingls
contendo 140 milhes de palavras para estudar como a imprensa britnica relata
assuntos relacionados com refugiados, pessoas que pediram asilo, imigrantes e
migrantes.
Para o trabalho descrito neste artigo, dada a quantidade de texto e a abrangncia do objeto de estudo, usou-se uma mistura de processos computacionais e
manuais. Relativamente aos processos computacionais, utilizaram-se fundamentalmente concordncias e distribuies. Tanto umas como outras podem ser obtidas atravs do servio de interrogao a corpos AC/DC (Costa et al. 2009). Este
servio permite fazer pesquisas num conjunto de corpos com diferentes caractersticas, sendo o CETEMPblico um desses corpos.
Concordncias no so mais do que exemplos extrados de um corpo de textos que correspondem a uma determinada expresso de pesquisa. Por exemplo,
interrogando-se o corpo CETEMPblico no AC/DC com a expresso de pesquisa
[sem="93b" & word="Soares"] (esta expresso indica que se pretendem todas
as ocorrncias da palavra Soares no segundo semestre de 1993), obtm-se 2.176
concordncias, incluindo os seguintes exemplos.
(1)

par=ext53093-pol-93b-2: Antes da assinatura do protocolo, pelo presidente


da Cmara de Usuki, Toshio Shibasaki, e pelo comissrio-geral da Comisso dos Descobrimentos, Vasco Graa Moura, j Mrio Soares prometera s
cerca de duas mil pessoas que se deslocaram ao centro da cidade que Portugal tudo far para fazer do Museu Namban-Centro de Documentao das
Relaes Luso-Nipnicas um grande museu de amizade Portugal-Japo .

OSLa volume 7(1), 2015

[128]

lus fernando costa


(2)

par=ext82501-pol-93b-1: Os originais devero ser entregues ao imperador


Akihito antes de 18 de Outubro, data em que se inicia a visita oficial ao
Japo do Presidente da Repblica, Mrio Soares .

(3)

par=ext111822-pol-93b-1: Soares respondeu que no se mostrava nada impressionado com a mensagem, pois acabava precisamente de chegar de
ptimos momentos de convvio com um imperador o do Japo .

As distribuies, tal como as concordncias, referem-se a expresses de pesquisa.


Mas em vez de exemplos, os resultados so apresentados atravs de contagens.
Exemplificando, veja-se a figura 1, onde se pode observar o resultado de um pedido de distribuio por assunto dos extratos relacionados com o Japo. Os extratos includos no CETEMPblico esto classificados por assunto, tendo esta classificao sido determinada automaticamente a partir da seco do jornal de onde
cada extrato proveniente. As categorias utilizadas para classificar o assunto dos
extratos so as seguintes: Sociedade, Poltica, Desporto, Cultura, ND (no determinado), Economia, Opinio e Informtica. Para detalhes sobre como esta classificao
foi feita, pode consultar o artigo Rocha & Santos (2000).

figura 1: Distribuio por assunto no AC/DC


Tal como referido anteriormente, o primeiro passo deste trabalho, foi criar
um sub-corpo do CETEMPblico contendo os extratos de texto relacionados com
o Japo. Determinou-se ento, a distribuio destes extratos por semestre e por
assunto.
Seguidamente, identificaram-se as personalidades que aparecem com maior
frequncia nos extratos usando-se a anotao morfolgica contida no CETEMPblico. Com base nesta anotao, geraram-se listas com o nmero de extratos em
que ocorre cada uma das palavras marcadas como nome prprio. Isto foi feito
para a globalidade do sub-corpo de extratos relacionados com o Japo e para cada
um dos semestres abrangidos pelo mesmo. Da lista ordenada pelo nmero de extratos em que cada um dos nomes prprios ocorre, extraram-se ento as quinze
personalidades mais citadas.
OSLa volume 7(1), 2015

o japo visto de portugal

[129]

Partindo destes resultados, analisaram-se manualmente extratos onde essas


personalidades so nomeadas para determinar o motivo pelo qual estas aparecem
com maior ou menor frequncia ao longo do tempo. Esta anlise foi feita usando
concordncias obtidas atravs do servio AC/DC. Para alm disso foram tambm
consultadas fontes externas, como por exemplo a Wikipdia. Diga-se que esta
anlise manual dos extratos foi feita de forma bastante ligeira e pouco sistemtica.
Estou convencido que tambm aqui se podero automatizar partes do processo, e
pretendo investigar as melhores formas de o fazer em trabalhos futuros.
[3] r e s u l ta d o s

Comeou-se por contabilizar o nmero de extratos que referem de alguma forma o


Japo em cada um dos semestres abrangidos pelo estudo. Como se pode constatar
na figura 2, a percentagem de extratos referindo temas japoneses varia entre os
1,2% e os 2,1%. O semestre com mais referncias a temas japoneses foi o segundo
semestre de 1993. Possivelmente, isto deveu-se s mudanas polticas ocorridas
por essa altura no Japo: o Partido Liberal Democrata, que tinha governado o
Japo ininterruptamente desde 1955, foi destronado no decorrer desse semestre.

figura 2: Percentagem de extratos relacionados com o Japo


Como referido anteriormente, os extratos no corpo CETEMPblico esto classificados por assunto. Na figura 3 pode consultar a percentagem de extratos pertencentes a cada uma das categorias. Refira-se que, relativamente ao ano de 1991,
uma percentagem muito significativa dos extratos no est classificada e, portanto, no se podem tirar grandes concluses.
De qualquer modo, pode-se constatar que existe alguma variao de semestre
para semestre no que diz respeito s categorias mais representadas. Os extratos mais frequentes so sobre economia e pode-se verificar que, na maior parte
dos semestres, esses so os extratos em maior quantidade. As excees so (para
alm do ano de 1991, relativamente ao qual no se podem tirar grandes concluOSLa volume 7(1), 2015

[130]

lus fernando costa


ses, como referido anteriormente) o segundo semestre de 1993, onde os extratos
sobre poltica so os mais numerosos (devido s j referidas mudanas polticas
histricas) e o primeiro semestre de 1995, onde os extratos em maior quantidade
so os classificados como sociedade (isto deveu-se a dois acontecimentos trgicos:
um sismo devastador em Kobe e o ataque com o gs venenoso sarin no Metro de
Tquio).

figura 3: Distribuio dos assuntos dos extratos relacionados com o Japo


De forma a entender do que tratavam os vrios extratos referentes ao Japo
includos no CETEMPblico, contabilizaram-se os nomes de pessoas neles contidos. As figuras 4, 5 e 6 resumem os resultados obtidos. Os grficos apresentam o
nmero de extratos por semestre em que cada um dos nomes referido. A figura 4
inclui as personalidade japonesas, ao passo que a figura 6 refere-se s personalidades internacionais nos extratos com menes ao Japo. Considerou-se conveniente incluir um grfico separado (figura 5) para duas personalidades japonesas
(o realizador de cinema Akira Kurosawa e o Imperador Akihito). O motivo desta
separao prende-se com o facto de estas duas personalidades serem referidas ao
longo de todo o perodo de estudo, ao passo que as pessoas includas na figura 4 so
referidas muitas vezes em determinados semestres, mas desaparecem do radar
no resto do perodo de estudo.

[3.1] Personalidades japonesas


Como seria de esperar, nove das quinze pessoas mais referidas nos extratos estudados so personalidades japonesas. de referir tambm que todas estas personalidades so homens, sendo a maior parte deles, na realidade, os vrios primeirosministros que o Japo teve entre 1991 e 1998.
OSLa volume 7(1), 2015

o japo visto de portugal

[131]

figura 4: Referncias a personalidades japonesas


Toshiki Kaifu foi primeiro-ministro entre Agosto de 1989 e Novembro de 1991.
As referncias ao seu nome aparecem maioritariamente durante a poro desse
perodo coberta pelo corpo CETEMPblico, o ano de 1991. Depois disso, o seu nome
aparece apenas esporadicamente. Surge no entanto um ligeiro aumento de ocorrncias no segundo semestre de 1994, que se deve criao do partido poltico
Partido da Nova Fronteira, do qual foi o primeiro presidente. Depois desse semestre, no entanto, o seu nome praticamente deixa de ser referido.
O seu sucessor no cargo de primeiro-ministro, Kiichi Miyazawa, ocupou o cargo
de Novembro de 1991 a Agosto de 1993. , alis, a personalidade japonesa mais referida no corpo CETEMPblico e, como seria de esperar, a maior parte dessas referncias ocorre no perodo em que foi primeiro-ministro. Depois desse perodo,
o seu nome deixa de ser referido quase de todo, aparecendo apenas algumas referncias no segundo semestre de 1998, aquando da sua nomeao como ministro
das finanas do governo liderado por Keizo Obuchi.
O primeiro-ministro que se seguiu, Morihiro Hosokawa, que ocupou o cargo
entre Agosto de 1993 e Abril de 1994, tem o maior nmero de referncias num
nico semestre de entre todas as personalidades japonesas estudadas. Isto devese a ter liderado a coligao que destronou o Partido Liberal Democrata, que tinha
governado o Japo ininterruptamente desde 1955. Para o grande nmero de referncias no primeiro semestre de 1994 contriburam, tambm, as suas tentativas
de melhorar as relaes com os pases vizinhos e a sua demisso, provocada pelas
acusaes de corrupo de que foi alvo.

OSLa volume 7(1), 2015

[132]

lus fernando costa


Depois da demisso de Hosokawa, Tsutomu Hata ocupou o cargo de primeiroministro por umas breves nove semanas, entre Abril e Junho de 1994. A maior
parte das referncias ao seu nome no corpo CETEMPblico surgem, portanto, no
primeiro semestre de 1994, mas existem algumas referncias em 1993, por ter
fundado o partido Shinseito, que fez parte da coligao que apoiou o governo liderado por Hosokawa. Foi tambm ministro dos negcios estrangeiros desse mesmo
governo desde Agosto de 1993 at sua tomada de posse como primeiro-ministro.
Seguiu-se Tomiichi Murayama, que foi primeiro-ministro entre Junho de 1994
e Janeiro de 1996. O maior nmero de referncias ao seu nome surge no primeiro
semestre de 1995, isto porque o Japo esteve em foco internacionalmente devido
a dois acontecimentos trgicos: o devastador sismo em Kobe, a 17 de Janeiro, e o
ataque com gs sarin (uma arma qumica muito potente) no Metro de Tquio, a
20 de Maro.
O sucessor de Murayama no cargo de primeiro-ministro foi Ryutaro Hashimoto. Ele ocupou o cargo entre Janeiro de 1996 e Julho de 1998. No entanto, existem referncias ao seu nome j desde 1991, dado ter sido o ministro das finanas
do governo Kaifu em 1991 e o ministro da economia do governo Murayama entre
1994 e 1996.
A outra personalidade includa na figura 4 Shoko Asahara. Ele foi o fundador do grupo religioso Verdade Suprema, tristemente famoso por vrios dos seus
seguidores terem feito ataques com gs sarin no Metro de Tquio que causaram a
morte de 12 pessoas e um grande nmero de feridos. Como se pode observar no
grfico, foi o nome mais referido no semestre em que ocorreu o ataque, o primeiro
semestre de 1995.
Como referido anteriormente, o grfico que se pode observar na figura 5, contm a distribuio por semestre das referncias a duas outras personalidades japonesas, Akira Kurosawa e o Imperador Akihito.
As referncias a Kurosawa surgem na sua maior parte nos anos de 1991, 1992
e 1993. Foi no decorrer desse perodo que ele realizou os seus dois ltimos filmes:
Rapsdia em Agosto, em 1991, e Madadayo, em 1993. No segundo semestre de 1995,
surgem algumas referncias devido a um ciclo de cinema japons exibido no cinema Nimas, em Lisboa. O ciclo inclua filmes de Kurosawa, mas os seus filmes
foram tambm citados pela crtica especializada ao comentar filmes de outros realizadores. Finalmente, no segundo semestre de 1998, o nmero de referncias ao
realizador volta a aumentar, porque foi nessa altura que ele faleceu.
O imperador Akihito surge com alguma frequncia no segundo semestre de
1993, por um lado, por ter feito uma visita Europa e, por outro lado, por ter recebido o presidente portugus Mrio Soares, que visitou o Japo nessa altura. Mas o
perodo em que o imperador aparece mais vezes no corpo CETEMPblico no primeiro semestre de 1998, em que relatada a sua visita a Portugal, acompanhado
da imperatriz Michiko, aquando da Exposio Mundial em Lisboa (Expo-98).

OSLa volume 7(1), 2015

o japo visto de portugal

[133]

figura 5: Referncias a Kurosawa e ao Imperador Akihito

[3.2] Personalidades internacionais


De entre as quinze personalidades mais referidas nos artigos estudados do CETEMPblico, seis delas no so japonesas. H dois presidentes dos Estados Unidos
(George Bush e Bill Clinton), o data presidente da Rssia, Boris Ieltsin, e o presidente portugus da altura Mrio Soares. Finalmente, a completar o rol, temos
duas personalidades do mundo do desporto motorizado: o piloto de Frmula 1
Michael Schumacher e o motociclista Michael Doohan.
Os Estados Unidos so parceiros muito importantes do Japo, tanto a nvel
comercial, como militar, pelo que natural que as personalidades internacionais
mais citadas nos artigos referentes ao Japo sejam os presidentes americanos Bush
e Clinton.
George Bush foi o presidente dos Estados Unidos entre Janeiro de 1989 e Janeiro de 1993. As referncias ao seu nome no corpo concentram-se, por isso, nos
textos publicados entre 1991 e 1993, e ocorrem mais vezes no primeiro semestre
de 1992. Isto deve-se ao facto de Bush ter feito uma visita de estado ao Japo nesse
semestre.
Foi sucedido no cargo por Bill Clinton, que foi presidente dos Estados Unidos
at 2001. Bill Clinton mais referido no primeiro semestre de 1993, que coincide
com os seus primeiros meses na presidncia. O incio do seu mandato foi marcado
por uma srie de medidas econmicas protecionistas que tiveram impacto no Japo, e isso contribuiu para o seu nome aparecer muitas vezes nos textos relacionados com este pas. Outro fator determinante foi uma visita aos Estados Unidos
feita pelo primeiro-ministro japons Miyazawa, que se encontrou com Clinton. As
OSLa volume 7(1), 2015

[134]

lus fernando costa


referncias a Clinton estendem-se por todo o perodo de estudo, havendo, no entanto, um aumento de volume no primeiro semestre de 1996. Isto deve-se visita
que fez ao Japo por essa altura, e durante a qual se encontrou com o primeiroministro japons Hashimoto.

figura 6: Referncias a personalidades internacionais


Boris Ieltsin foi o presidente da Rssia de Julho de 1991 a Dezembro de 1999, ou
seja, a sua presidncia estendeu-se por quase todo o perodo abrangido pelos textos estudados neste artigo. Ieltsin aparece mais vezes relacionado com o Japo no
segundo semestre de 1992 e no ano de 1993. No que diz respeito a 1992, esse protagonismo deveu-se s dificuldades diplomticas entre a Rssia e o Japo, que levaram inclusive ao cancelamento de uma visita de Ieltsin a este pas. Nessa altura, a
Rssia enfrentava graves dificuldades econmicas e necessitava criticamente de
financiamento, mas o Japo fazia depender esse financiamento da resoluo do
conflito entre os dois pases relativo s ilhas Curilhas. Estas ilhas foram ocupadas
pelo exrcito sovitico no final da Segunda Grande Guerra. Relativamente a 1993,
a Rssia (e o seu presidente Ieltsin) aparecem frequentemente nos artigos sobre o
Japo devido cimeira do G7 (grupo englobando os pases mais economicamente
desenvolvidos do mundo), realizada em Tquio entre 7 e 9 de Julho. A Rssia,
data, no fazia parte do grupo, e causou sensao ter sido convidada a faz-lo pelo
Japo, que liderava o G7 na altura.
Mrio Soares foi presidente de Portugal de Maro de 1986 a Maro de 1996. A
sua ligao ao Japo deve-se principalmente sua visita quele pas em Outubro de
1993. A maior parte das referncias ao seu nome aparecem, portanto, nos textos
publicados no segundo semestre desse ano. Nesse semestre foi mesmo a personalidade internacional mais referida nos extratos estudados, tendo quase o mesmo
OSLa volume 7(1), 2015

o japo visto de portugal

[135]

nmero de referncias que a personalidade japonesa mais citada, o primeiroministro Hosokawa.


Analisando-se extratos onde so nomeados os dois pilotos includos na lista
dos quinze nomes mais referidos nos textos estudados do CETEMPblico (Michael
Doohan e Michael Schumacher), percebe-se que estes no tm nenhuma ligao
particular ao Japo. Os seus nomes aparecem em extratos contendo a palavra
Japo porque existem Grandes Prmios do Japo, tanto em motociclismo, como
em Frmula 1. Para alm disso, Michael Doohan correu por uma marca japonesa,
a Honda, havendo tambm vrios pilotos japoneses nas provas de motociclismo
em que ele participou. Decorre da que o seu nome ocorra com alguma frequncia
em textos contendo as palavras nipnico, nipnica, japons e japonesa.
[4] o b s e r va e s f i n a i s

No trabalho descrito neste artigo usou-se uma abordagem semiautomtica para


analisar textos sobre o Japo publicados no jornal PBLICO. Comeou-se por selecionar de forma automtica, de entre todos os extratos de texto includos no CETEMPblico, aqueles que esto relacionados com o Japo. Para tal, usou-se como
critrio de escolha, a presena de determinadas palavras-chave nos extratos. Seguidamente, determinou-se a distribuio dos textos selecionados por semestre e
por tema. O passo seguinte foi identificar as personalidades que neles aparecem
com maior frequncia. Partindo desses resultados analisaram-se manualmente
extratos onde essas personalidades so nomeadas para determinar porque estas
aparecem com maior ou menor frequncia ao longo do tempo. Frequentemente
os resultados desta anlise acabaram por revelar os acontecimentos relacionados
com o Japo que mais captaram a ateno dos jornalistas portugueses.
A distribuio de extratos por assunto revelou uma maior abundncia de textos sobre economia. Isto no surpreende dado que o Japo uma das maiores
economias do mundo, produzindo e exportando inmeros produtos para todo o
mundo. Os nicos semestres em que os textos sobre economia no dominaram
foram o segundo semestre de 1993 (ano em que o Partido Liberal Democrata perdeu as eleies depois de inmeros anos no poder) e o primeiro semestre de 1995,
em que ocorreu um grande sismo em Kobe e o ataque com gs sarin no Metro de
Tquio.
No que diz respeito s personalidades referidas nos textos, refira-se que todas
as quinze pessoas mais referidas so homens, sendo nove deles japoneses. Seis
das personalidades japonesas so os vrios primeiros-ministros que governaram
o Japo durante o perodo de estudo (como se pode constatar, foi um perodo de
alguma instabilidade poltica). Adicionalmente fazem parte desta lista o Imperador Akihito, o realizador Akira Kurosawa e o lder da seita Verdade Suprema
Shoko Asahara.
OSLa volume 7(1), 2015

[136]

lus fernando costa


Relativamente s seis personalidades internacionais mais citadas nos textos
relacionados com o Japo, concluiu-se que duas delas so desportistas que no tm
nenhuma ligao particular ao Japo. Os restantes foram presidentes das duas
superpotncias mundiais, os Estados Unidos e a Rssia, e o presidente portugus
Mrio Soares.
A metodologia utilizada neste trabalho, inclui uma fase em que textos so analisados manualmente para tentar determinar as razes da notoriedade das personalidades neles mencionadas variar ao longo do tempo. Dada a quantidade de
textos existentes, esta anlise foi necessariamente feita de forma ligeira e pouco
sistemtica. Em trabalhos futuros pretendo investigar como se poder estender
o suporte computacional tambm a esta fase da anlise dos textos.
Outras reas que pretendo explorar no futuro so as ocorrncias de outros
nomes prprios como locais e marcas, e a comparao de resultados com outros
corpos, como por exemplo um corpo de portugus brasileiro como o CETENFolha,
outro dos corpos que se pode pesquisar usando o AC/DC.
Finalmente, tambm pretendo investigar o processo oposto, ou seja estudar
as referncias a Portugal nos meios de comunicao social japoneses.

agradecimentos
Estou agradecido Diana por me ter desafiado a escrever este artigo e principalmente por me ter dado a oportunidade de comear a trabalhar para a Linguateca
em 2002. Para alm de ter aprendido imenso, conheci muitas pessoas interessantes, entre elas a homenageada neste livro, a Belinda, com a qual tambm tive o
prazer de trabalhar.

referncias
de Almeida Menezes, Danielle. 2011. Discurso sobre literaturas de lngua inglesa:
uma anlise baseada em ferramentas da lingustica de Corpus. Trabalhos em
Lingustica Aplicada 50(1). 97118.
Baker, Paul, Costas Gabrielatos, Majid Khosravinik, Michal Krzyzanowski, Tony
McEnery & Ruth Wodak. 2008. A useful methodological synergy? Combining
critical discourse analysis and corpus linguistics to examine discourses of refugees and asylum seekers in the UK press. Discourse and Society 19(3). 273305.
Bick, Eckhard. 2000. The Parsing System Palavras: Automatic Grammatical Analysis
of Portuguese in a Constraint Grammar Framework: Aarhus University. Tese de
Doutoramento.
Costa, Lus, Diana Santos & Paulo Alexandre Rocha. 2009. Estudando o portugus
tal como usado: o servio AC/DC. Em The 7th Brazilian Symposium in Information
and Human Language Technology (STIL 2009), 150153.
OSLa volume 7(1), 2015

o japo visto de portugal

[137]

Ferro, Hugo. 2011. A construo meditica da sade mental e da doena mental: o caso
do Pblico e do Correio da Manh entre 1990 e 2010: Faculdade de Letras da Universidade de Coimbra. Tese de Mestrado.
Fris, Lus. 1976-1984. Historia de Japam. Biblioteca Nacional de Lisboa. 5 volumes.
Edio anotada por Jos Wicki.
Janeira, Armando Martins. 1981. Figuras de Silncio - A Tradio Cultural Portuguesa
no Japo de Hoje. Junta de Investigaes Cientficas do Ultramar.
Janeira, Armando Martins. 1988. O Impacto Portugus sobre a Civilizao Japonesa.
Publicaes Dom Quixote 2nd edn.
Kutter, Amelia & Cathleen Kantner. 2012.
Corpus-Based Content Analysis: A Method for Investigating News Coverage on War and Intervention. International Relations Online Working Paper. Stuttgart University.
http://www.uni-stuttgart.de/soz/ib/forschung/IRWorkingPapers/
IROWP_Series_2012_1_Kutter_Kantner_Corpus-Based_Content_
Analysis.pdf.
Lobo, Mafalda. 2010. Cobertura meditica de frica na imprensa europeia,
no contexto da II Cimeira UE-frica.
http://www.bocc.uff.br/pag/
silva-mafalda-cobertura-mediatica-de-africa-na-imprensa-europeia.
pdf.
Magalhes, Clia. 2004. Interdiscursividade e conflito entre discursos sobre raa
em reportagens brasileiras. Linguagem em (Dis)Curso 4. 3560.
de Moraes, Wenceslau. 1993. Antologia. Vega. Seleco de textos de Armando
Martins Janeira.
Rocha, Paulo & Diana Santos. 2000. CETEMPblico: Um corpus de grandes dimenses de linguagem jornalstica portuguesa. Em Maria das Graas Volpe Nunes
(ed.), Actas do V Encontro para o processamento computacional da lngua portuguesa
escrita e falada (PROPOR), 131140.
Rodrigues, Joo. 1604. Arte da Lingoa de Iapam. Collegio de Iapo da Companhia de
Iesu.
Scott, Mike. 1996. Wordsmith tools. Oxford University Press.

c o n ta c t o s
Lus Fernando Costa
Yamaguchi University e Linguateca
luis.f.kosta@gmail.com
OSLa volume 7(1), 2015

Simes, Barreiro, Santos, Sousa-Silva & Tagnin (eds.) Lingustica, Informtica e Traduo: Mundos
que se Cruzam, Oslo Studies in Language 7(1), 2015. 139152. (ISSN 1890-9639 / ISBN 978-8291398-12-9)
http://www.journals.uio.no/osla

pesquisa em educao:
perspectivas (qualitativas?) na
explorao de grandes corpora
MIRIAM LEITE E CLUDIA FREITAS

abstract
Research methods in Education usually rely on qualitative analysis, focusing on samples of individuals or small groups. On the other hand, it is well
known that education deals with large scale issues as well: in Brazil, the
planning of public policies must take into account the more than 50 million
students enrolled in Secondary Education. However, the quantitative approach is viewed with suspicion in Education, leading to very little development
of large scale studies. Since these studies can be based on written texts, the
dialogue between Education and corpus based approaches becomes highly
valuable. In this paper, we briefly present the results of two studies based
on corpora specifically designed to foster educational research: (i) a corpus
of blogs created and maintained by public schools; (ii) a corpus of teaching
materials used in public schools. When discussing the results of these researches, we draw attention to the crucial role played by corpus tools, and to
the risks and potentials of the corpus based approach in Education.

No preciso ser especialista em Educao para saber que se lida, nesse campo,
com questes que se colocam em larga escala: segundo o Censo Escolar da Educao Bsica, em 2013, registraram-se 50,04 milhes de matrculas nas redes pblica
e privada do pas. Por outro lado, tampouco necessria maior expertise para se
ponderar que o microcosmo da Educao tambm precisa ser considerado, tanto
pela pesquisa acadmica, quanto pelas polticas pblicas. A abstrao dos mais
de 50 milhes de matrculas se traduz em vida vivida, quando cada uma delas
ganha nome e sobrenome e impe a singularidade da sua localizao geogrficocultural, histria familiar, deficincia fsica ou mental etc. Interessam, portanto,
para a pesquisa em Educao, os estudos qualitativos que focalizam tais contingncias, mas tambm investigaes e reflexes que operem com dados massivos,
que, por certo, so do mesmo modo pertinentes a esse campo.
Entretanto, polmicas em torno das abordagens quantitativas, que marcaram
a pesquisa acadmica, sobretudo, nas dcadas de 1980 e 1990, parecem ainda repercutir na Educao, observando-se pouco desenvolvimento de estudos em larga

[140]

leite & freitas


escala1 , o que inclui a restrio de pesquisas com grandes volumes de texto organizados em corpora.
Diante da crescente multiplicao da produo e da facilitao do acesso a todo
tipo de acervo textual, as possibilidades de pesquisa em Educao com esse tipo
de focalizao so ampliadas e diversificadas, e julgamos que vale problematizar
o quadro ainda atual de resistncia a pesquisas com acervos empricos de larga
escala. Afinal, os desenvolvimentos tecnolgicos que permitiram a disponibilizao de um quantitativo informacional indito na histria da humanidade tambm
possibilitaram a criao de ferramentas que viabilizam abordagens inovadoras.
Neste artigo, discutimos o uso de corpora na pesquisa em Educao. Com esse
propsito, apresentamos o corpus BlogsSME/RJ2 (Leite 2013), para argumentar pela
pertinncia da utilizao de ferramentas de gerenciamento e explorao de corpus, como o Corpgrafo (Sarmento et al. 2004), como auxiliares poderosos do pesquisador na explorao do contedo de grandes acervos textuais. Trazemos ainda
o estudo desenvolvido a partir da anlise dos corpora ApostilasSME/RJCienc e ApostilasSME/RJMat (Romo 2014), como exemplo das especificidades da pesquisa no
campo educacional. Em concluso, assinalamos a necessidade de aproximao
entre Educao, Estudos da Linguagem e Lingustica Computacional, no apenas
para evitar uma apropriao ingnua de tais recursos, como tambm para criar
possibilidades de participar do seu desenvolvimento.
[1] r e s i s t n c i a s e p o t e n c i a l i da d e s

Concordando com Gatti (2004)3 , percebemos que bastante difundido no meio


acadmico da Educao brasileira o entendimento de que, at o perodo de redemocratizao poltica no pas, predominavam as pesquisas quantitativas de vis
tecnicista e fundamentao positivista. De fato, em publicao de 1986 que teve
grande circulao no campo da Educao Pesquisa em Educao: abordagens quali[1]

[2]
[3]
OSLa volume 7(1), 2015

Em recente levantamento realizado a partir da reviso de peridicos publicados em lngua portuguesa


classificados nas faixas A1 e A2 do sistema Qualis/CAPES (http://qualis.capes.gov.br/) da rea da
Educao, constatou-se visvel crescimento de estudos estatsticos, porm, apenas em vis neotecnicista.
No se trata de anlises de corpora textuais de grande extenso, mas, sim, de pesquisas em torno dos resultados das avaliaes de rendimento escolar em larga escala. Entende-se aqui neotecnicismo como uma
nomeao genrica para perspectivas educacionais que se caracterizam pelas seguintes marcas: gesto
da vida escolar segundo parmetros da organizao empresarial, com mais profissionais da rea da economia e da administrao do que educadores atuando no seu planejamento e deciso; centralizao das
atividades de planejamento pedaggico e alto controle do trabalho docente; concepo de qualidade educacional mensurvel em parmetros estatsticos provenientes de testagem externa escola, em provas
com questes objetivas e padronizadas, em geral restritas s disciplinas de Lngua Portuguesa e Matemtica; criao de sistema de recompensas para o profissional da educao segundo desempenho dos seus
alunos nas avaliaes em larga escala, mas tambm na aprovao na escola; parceria pblico-privada;
ateno s estratgias de marketing na gesto da rede (Leite (2014), no prelo, nota 12).
O acrnimo SME/RJ refere-se Secretaria Municipal do Estado do Rio de Janeiro
Esta discusso foi tambm desenvolvida no artigo Pesquisa em Educao e cibercultura: questes de metodologia e poltica(Leite 2015), para tratar de aspectos polticos que no so aqui focalizados.

perspectivas (qualitativas?) na explorao de grandes corpora

[141]

tativas (Ldke & Andr 2008) anuncia-se, j na contracapa: A pesquisa em educao encontra-se atualmente em fase de grande evoluo, ampliando seu foco de
interesse e mtodos para alm dos estudos tradicionais do tipo survey ou experimental, que constituram suas mais fortes inclinaes durante as ltimas trs ou
quatro dcadas.
Entretanto, Gatti (2004) cita estudos que apontam que a pesquisa em Educao
era bastante limitada at ento e que, nesse universo restrito, apenas 29% operavam com dados quantitativos. Mas o que se observa que, com ou sem respaldo
emprico, difundiu-se, no campo educacional, robusto preconceito contrrio aos
estudos quantitativos, o que leva a autora a constatar quadro semelhante, passada quase uma dcada da publicao deste ltimo artigo citado: tudo o que vem
a partir de abordagens qualitativas bom; o que vem de abordagens quantitativas mau) (Gatti 2012, pg. 30).
Dificulta-se, assim, a construo de uma crtica mais consistente que permita
uma identificao menos apaixonada dos limites e potencialidades da pesquisa
com dados massivos. Desse modo, percebe-se a ausncia de pesquisadores da Educao quando se desenvolvem tais estudos, que so, com frequncia, realizados
por profissionais de outras reas, como especialistas em informtica, economistas, administradores de empresas.
Contudo, muitas j foram as vozes da academia que se mobilizaram para matizar tal entendimento e argumentar contrariamente ao reducionismo da antagonizao apriorstica qualitativo/quantitativo. Brando (2002), por exemplo, em
texto que j conta com mais de dez anos de publicao, argumenta que:
A incomensurabilidade das prticas sociais no significa, no entanto,
que no se possa e deva tentar aproximaes quantitativas dos fenmenos. Portanto, os antagonismos quantitativo/qualitativo, assim
como micro/macrossocial so improcedentes; informaes e dados
objetivos, assim como depoimentos e entrevistas em profundidade
podem ser produzidos em perspectiva positivista; sem uma conceituao prvia e uma reconstruo a posteriori, nenhum material de
pesquisa escapa superficialidade do mau jornalismo. (Brando 2002,
pg. 2829).
Ou seja, a associao apriorstica entre o trabalho acadmico com base em dados empricos de larga escala e abordagens homogeneizadoras e simplistas dos
contextos sociais focalizados pela pesquisa em Educao no se sustenta. O reconhecimento da irrepetibilidade do acontecimento social contingente pode nos
levar ao estudo do singular, mas tambm pode se beneficiar do olhar para um
quantitativo ampliado de casos singulares.
Santos (2014) faz outra ponderao que julgamos de ainda maior interesse
para esta discusso: a dicotomia entre qualitativo e quantitativo uma falsa
OSLa volume 7(1), 2015

[142]

leite & freitas


questo, porque preciso atribuir qualidades para se poder contar, ou ter pelo
menos uma ideia de magnitude. Concordamos e destacamos: alm de falsa,
perigosa, pois reafirma a suposta neutralidade dos nmeros. O reconhecimento
dos aspectos qualitativos de todo ato de quantificao em pesquisa fundamental
para a desnaturalizao das categorias em operacionalizao.
Propomos, ento, com base nos recursos eletrnicos hoje disponveis, a busca
por uma abordagem qualitativa de dados textuais de larga escala na pesquisa em
Educao. Em outras palavras, tentamos desenvolver uma leitura desse tipo de
acervo textual por meio das novas tecnologias, em uma perspectiva reconfigurada
segundo as especificidades da pesquisa do campo educacional.
De fato, a crescente disponibilizao de documentos de interesse para a pesquisa em Educao, sobretudo por meio da internet, impe urgncia na superao
desses preconceitos e dificuldades. Documentos pblicos, legislao, textos tericos e literrios, registros etnogrficos (de observaes de campo, flmicas, televisivas, de redes sociais e outros espaos virtuais de publicao e interao social),
transcries de entrevistas e matrias jornalsticas so apenas alguns exemplos
dos textos que podem interessar ao pesquisador da Educao. At o momento,
predomina a abordagem manual dessa empiria, o que obviamente limita o escopo
dos estudos desenvolvidos.
Para argumentar pela pertinncia do acesso integralidade dos corpora cuja
extenso compromete a possibilidade do seu processamento por meio da leitura
convencional, apresentamos, a seguir, o corpus BlogsSME/RJ, para compararmos os
estudos desenvolvidos a partir de leitura amostral, com sua posterior abordagem
digital, que possibilitou acesso totalidade do corpus.
[2] l e i t u r a s d i g i ta i s

O estudo que deu origem ao corpus BlogsSME/RJ foi desenvolvido no contexto da


pesquisa Diferena e desigualdade na educao escolar do jovem adolescente: desconstrues, em que se indagava acerca dos sentidos de juventude e adolescncia afirmados em contextos virtuais de publicizao de atividades escolares dos anos finais
do ensino fundamental da rede pblica municipal do Rio de Janeiro. Tendo-se
constatado, em estudo anterior, o estmulo, por parte da Secretaria Municipal de
Educao do Rio de Janeiro/SME-RJ, utilizao dos recursos digitais de comunicao contemporneos, supusemos que os blogs das escolas municipais cariocas
que atendem aos anos finais do ensino fundamental poderiam conter registros
relevantes relativamente s identificaes desses estudantes. Por meio do portal
RioEduca4 , organizado pela SME-RJ e responsvel pela disponibilizao dos blogs
da sua rede de ensino, foram selecionados aqueles relativos aos anos finais do ensino fundamental, que atendem faixa etria priorizada em nossos estudos.
[4]
OSLa volume 7(1), 2015

http://www.rioeduca.net

perspectivas (qualitativas?) na explorao de grandes corpora

[143]

Chegou-se, ento, a um conjunto de 160 blogs, ativos entre janeiro de 2009


incio da gesto da SME/RJ que promoveu a criao e desenvolvimento desses
blogs e novembro de 2013, quando se realizou a pesquisa. Destes, 100 eram blogs
de escolas, 14, de projetos especficos, 30, de professores, 01, da 5 Coordenadoria
Regional de Educao/CRE5 .
Devido ao grande volume de documentos compilados, a leitura inicial desse
material teve de se restringir ao quantitativo possvel na abordagem convencional: foram selecionados 20 blogs, incluindo blogs de escolas, de professores e
de projetos especficos, de todas as 11 coordenadorias regionais de Educao. Foi
feita a leitura extensiva de todas as postagens, comentrios e da seo Quem somos, buscando destacar registros de interesse para a pesquisa.
No foram localizados registros significativos de ateno a juventude e adolescncia, focos da pesquisa. Predominava a postagem de fotos que pouco contavam
sobre a identificao atribuda aos estudantes adolescentes nos contextos retratados. Havia muitas imagens de atividades esportivas, formaturas, exposies de
trabalhos ou mesmo dos Aniversariantes do ms, como nas reprodues que se
seguem (figuras 1 e 2). As imagens eram postadas com poucas informaes que
esclarecessem sobre seu desenvolvimento e propsitos, e quase sempre no se seguiam comentrios. Entendeu-se ento que o estudo confirmava as concluses
de outras pesquisas: os anos finais do ensino fundamental geralmente no tm
sido atendidos em suas especificidades6 entre a escolarizao da infncia nos
anos iniciais do ensino fundamental e a profissionalizao e/ou preparao para
o ingresso na universidade, que tm lugar no ensino mdio, a educao escolar
do estudante adolescente no ensino fundamental parecia no estar recebendo a
devida ateno em polticas pblicas ou nas prticas escolares cotidianas. Mas
questionou-se tambm a pertinncia dessa empiria blogs disponibilizados no
portal RioEduca , que pareceu ser de interesse bastante restrito.
Neste momento, o contato com as ferramentas para gerenciamento e manipulao de corpora eletrnicos apareceram como uma alternativa a ser investigada.
Procedeu-se ento compilao de todo o contedo desses blogs, de modo a serem
processados por programas como o Corpgrafo (Sarmento et al. 2004). O corpus
assim construdo contm todas as postagens e comentrios dos 160 blogs, no perodo de janeiro de 2009 a novembro de 2013, alm do contedo da seo Quem
somos, totalizando mais de 4 milhes de palavras7 .
De incio, entre os vrios programas disponveis, optou-se pela utilizao do
Corpgrafo, por razes de ordem prtica, mas que tambm tinham contedo poltico: a opo por um programa gratuito, de uso pblico e em lngua portuguesa,
no apenas facilitava o trabalho, como implicava posicionamento poltico de re[5]
[6]
[7]

Subdiviso administrativo regional da SME/RJ


Como por exemplo em Davis et al. (2013).
A documentao completa e o corpus esto em http://www.ddeej.com
OSLa volume 7(1), 2015

[144]

leite & freitas

figura 1: Reproduo de blog utilizado na pesquisa.

figura 2: Reproduo de blog utilizado na pesquisa.


levo, na medida em que fortalecia iniciativa em prol do acesso livre a recursos
digitais, dados e metadados, e de resistncia hegemonia da lngua inglesa nos
ambientes virtuais. Contudo, traremos para este artigo os dados gerados pelo
programa AntConc (Anthony 2012)(gratuito, de propriedade privada, em lngua
inglesa), posto que, em 2014, o acesso online ao Corpgrafo esteve irregular.
Na compilao dos contedos dos blogs, as fotos foram substitudas pela palavra foto e os vdeos, pela palavra vdeo. Ao ordenarmos as palavras pela
sua frequncia (figura 3), a palavra foto despontou como das mais recorrentes.
Pareciam se confirmar, desse modo, as concluses a que se havia chegado com a
leitura exaustiva da amostra dos blogs em estudo.
OSLa volume 7(1), 2015

perspectivas (qualitativas?) na explorao de grandes corpora

[145]

figura 3: Ordenao de palavras por frequncia no corpus BlogsSME/RJ


Entretanto, apesar de no terem sido localizadas em ocorrncias significativas
quando da leitura inicial, palavras de bvio interesse para a pesquisa apareceram
na ordenao da listagem de palavras por frequncia. Assim, foi possvel acessar
2200 repeties das palavras jovens/jovem, 1940 para adolescentes/adolescente, 270
para juventude/juventudes, 239 para adolescncia, o que evidenciou mais do que a
pertinncia dessa empiria: demonstrou uma riqueza inacessvel sem o auxlio de
recursos das tecnologias digitais.
No caberia aqui trazer todas as reflexes oportunizadas pela problematizao dessas palavras e seus contextos de enunciao. Analisando as linhas de concordncia, pudemos concluir que, no Rio de Janeiro, no se confirmava a tendncia mais geral de no reconhecimento de especificidades dos anos finais do ensino
fundamental. Pelo contrrio, havia clara ateno direcionada a essa faixa etria,
com contedo poltico que valia problematizar. Por exemplo, constatou-se que,
sob a expresso protagonismo juvenil e afins, desenvolviam-se atividades diversas
que trabalhavam pela formao de uma juventude cuja insero social pautada
por uma perspectiva individualista e neoliberal. A partir deste achado, invisvel
na leitura parcial dos blogs, foi concebido novo projeto de pesquisa8 , orientado
discusso de tais opes de formao escolar pblica dos jovens adolescentes.
Muitas vezes, no entanto, palavras com uma nica ocorrncia podem ter valor
para a pesquisa. Nesse caso, o acesso digital integralidade dos textos torna-se
[8]

Pesquisa O grmio e outros espaos-tempos de dilogo poltico na escola: possibilidades contemporneas, contemplada com financiamento pelo Edital Apoio Melhoria do Ensino em Escolas da Rede Pblica Sediadas no
Estado do Rio de Janeiro 2014.
OSLa volume 7(1), 2015

[146]

leite & freitas


ainda mais produtivo, como se argumenta na prxima seo, a partir das concluses do estudo dos corpora ApostilasSME/RJCienc e ApostilasSME/RJMat (Romo
2014).
[3] q u a n d o a a u s n c i a c r i a s e n t i d o

Tambm no contexto da pesquisa Diferena e desigualdade na educao escolar do jovem adolescente: desconstrues, (Romo 2014) desenvolveram estudo sobre as repeties e deslocamentos em torno dos sentidos do feminino presentes nas apostilas
distribudas pela SME/RJ para os anos finais do ensino fundamental 7, 8 e 9 ano
sob o nome Cadernos Pedaggicos. Trata-se de material didtico amplamente utilizado na rede pblica carioca, posto que seu contedo pauta as avaliaes externas municipais e nacionais, condicionando rankings e respectivas recompensas
materiais e subjetivas.
As apostilas dos 4 bimestres letivos de 2013 de todas as disciplinas ficaram
disponveis9 nesse perodo e foram organizadas, por disciplina, de modo a constituir corpora com a ntegra dos contedos dos Cadernos Pedaggicos. Embora no
to extensos quanto em geral se apresentam os corpora dos estudos lingusticos,
sua explorao por meio das ferramentas especficas evidenciou mais uma vez a
potencialidade desse tipo de abordagem.
Entendia-se, com base em proposies da terica feminista Judith Butler (Butler 2003, 1997), que a identidade de gnero se constri performativamente, isto
, no se constitui em decorrncia de marcas biolgicas, mas, sim, pela constante
e difusa repetio do que socialmente se concebe como caracterstico de cada gnero. Interessavam, portanto, no apenas as passagens das apostilas em que a
temtica do gnero era explicitamente tratada, como tambm e sobretudo, aquelas onde, de forma naturalizada, se reafirmavam e/ou se deslocavam os modos do
feminino na nossa sociedade. Desse modo, a explorao do material didtico em
toda a sua extenso parecia especialmente importante. Destacamos, a seguir, duas
das concluses oportunizadas por essa abordagem, que entendemos exemplificar
potencialidades de uma outra maneira de leitura de grandes acervos textuais na
pesquisa do campo educacional.
O primeiro destaque diz respeito ao corpus de Cincias (ApostilasSME/RJCienc).
Na leitura exploratria dessas apostilas, chamou nossa ateno que as palavras
brasileira/brasileiras tinham quase a mesma frequncia de ocorrncia que a sua
variao no masculino. No entanto, quando acessamos os contextos de enunciao dessas palavras, por meio da leitura das linhas de concordncia, identificamos
flagrante desigualdade no valor poltico-cultural dessas referncias.
Enquanto a expresso no feminino qualificava a populao residente no pas,
espcies nativas e prticas culinrias, sua verso no masculino lembrava, na maior
[9]
OSLa volume 7(1), 2015

http://www.rio.rj.gov.br/web/sme/material-pedagogico

perspectivas (qualitativas?) na explorao de grandes corpora

[147]

parte dos casos (7 ocorrncias) feitos de cientistas. Quanto a cientistas brasileiras,


houve uma nica referncia. A seguir listamos alguns dos contextos:
A culinria brasileira bem original e diversificada. (Caderno Pedaggico
de Cincias, 8 ano, 2 bimestre, 2013)
Faa uma pesquisa sobre a variedade de aves brasileiras e seus cantos distintos. (Caderno Pedaggico de Cincias, 9 ano, 4 bimestre, 2013)
Foi a primeira brasileira a fazer o concurso para ser naturalista do Jardim
Botnico e foi aprovada em 2 lugar. (Caderno Pedaggico de Cincias, 7
ano, 3 bimestre, 2013)
MICHAEL NICOLELIS (1961), mdico, esse brasileiro considerado um dos
20 maiores cientistas mundiais da atualidade. (Caderno Pedaggico de Cincias, 8 ano, 1 bimestre, 2013)
O brasileiro Santos Dumont realizou o primeiro voo com o 14 BIS. (Caderno
Pedaggico de Cincias, 9 ano, 1 bimestre, 2013)
A doena de Chagas afeta rgos como o corao e os intestinos e foi descoberta pelo mdico brasileiro em abril de 1909. (Caderno Pedaggico de
Cincias, 7 ano, 2 bimestre, 2013)
A leitura convencional das apostilas, no entanto, talvez ocultasse esta e outras que consideramos importantes reiteraes da invisibilizao da mulher na
Cincia. Observe-se que, na apostila do 8 ano, encontra-se uma seo destinada a
problematizar as relaes de gnero, ali anunciadas como socialmente construdas. Julgamos possvel que a explicitao da problemtica do gnero se destacasse
mais do que suas menes fora dos holofotes textuais ao longo da ntegra do material didtico.
Do mesmo modo, no corpus que reuniu as apostilas de Matemtica, ocorrncias
singulares nos deram importantes pistas para se compreender o papel da educao escolar na perpetuao do sexismo na nossa sociedade. Consultando a lista de
palavras do corpus ordenadas por frequncia, encontramos, nas ltimas posies,
nomes prprios femininos e masculinos, e buscamos seu contexto de enunciao.
Descobrimos que, em geral, se tratava de personagens dos tradicionais problemas
de Matemtica, que reiteravam esteretipos masculinos e femininos:
Miriam quer fazer um bolo grande, aumentando, proporcionalmente, a quantidade de ingredientes. (Cadernos Pedaggicos de Matemtica, 7 ano, 4
bimestre, 2013)
Em uma partida de videogame, Aurlio conseguiu 160 pontos em trs rodadas. (Cadernos Pedaggicos de Matemtica, 8 ano, 2 bimestre, 2013)
OSLa volume 7(1), 2015

[148]

leite & freitas


Conclumos, nesse estudo, pela importncia da ateno s nomeaes cotidianas do gnero, para alm da sua discusso explcita e focalizada. Seu poder de naturalizao considervel, na medida em que, ao trazer tais afirmaes de modo
perifrico ao tema central do texto, encontra um interlocutor desprevenido, que
tende a ponderar menos os enunciados a que se expe, posto que no se colocam
na direo primeira da sua ateno. Mas conclumos tambm que, para acessar
essas repeties do dia a dia, importante assegurar uma leitura mais abrangente
e sistemtica do que o possvel manualmente. De fato, a leitura de textos de interesse para a pesquisa em Educao pode se beneficiar de abordagens que tambm
levam em conta aspectos quantitativos do contedo, apropriando-se das ferramentas e utilizando-as de modo a enriquecer as formas tradicionais de anlise.
[4] a p r o p r i a e s : r i s c o s , l i m i t e s e p e r s p e c t i va s

Para alm do tratamento prioritariamente quantitativo oferecido pelo Corpgrafo


e programas similares, estudos que fazem uso de grandes corpora em reas que
no tematizam diretamente a linguagem comeam a surgir, como indica o crescimento do campo das Humanidades Digitais. Com respeito ao dilogo com o campo
educacional, especificamente, finalizamos com algumas consideraes acerca do
que denominamos como riscos, limites e perspectivas.
Sobre os riscos da pesquisa com corpus em Educao, destacamos que a prtica
da utilizao de corpora eletrnicos no deve ser incorporada ingenuamente, sem
levar em conta discusses a que pode estar associada no campo da linguagem,
dado o risco de fragiliz-la por incoerncia terica.
Como exemplo, podemos citar o alinhamento a abordagens chamadas corpusdriven ou a abordagens corpus-based, que dizem respeito sobretudo ao papel atribudo ao corpus em sua relao com a teoria.
Vale lembrar que, na Lingustica, boa parte dos estudos sobre a linguagem se
sustentava em dados provenientes de pelo menos uma das seguintes fontes: intuio do falante; testes de aceitabilidade/usabilidade; entrevistas com informantes.
Assim, o uso massivo de grandes corpora eletrnicos saudado como recurso capaz de revolucionar o estudo e descrio da lngua, quer propondo novos modelos,
quer validando ou refinando modelos j existentes (Sampson 2001; de Beaugrande
2002).
Em geral, quando se usa o termo corpus-driven (guiado ou conduzido por corpus), assume-se o corpus como espao que viabiliza uma observao neutra dos
fatos da lngua, que, por sua vez, ir promover a criao de hipteses. A lngua
vista como um fenmeno probabilstico (e da a relevncia de corpora grandes),
cabendo explorao com corpus, em ltima anlise, a substituio ou reviso de
teorias de linguagem, porque erguidas sobre bases inadequadas, ou estabelecimento de novas dimenses de descrio.
OSLa volume 7(1), 2015

perspectivas (qualitativas?) na explorao de grandes corpora

[149]

Na viso chamada corpus-based, o corpus o espao para validao, refutao


ou refinamento de hipteses prvias, de perguntas previamente formuladas.
A essa diferente maneira de perceber o corpus, podem corresponder, tambm,
diferentes posicionamentos com relao s possibilidades do fazer cientfico.
Perspectivas corpus-driven costumam estar vinculadas aplicao de testes estatsticos, sobretudo quando se trata da descrio/observao de fenmenos mais
vinculados ao sentido das palavras ou expresses. Tais testes estatsticos seriam
capazes de extrair resultados mais objetivos - porque obtidos sem a interferncia humana e sem as limitaes da intuio. A responsabilidade de responder s
questes de pesquisa transferida para o corpus; o pesquisador apenas informa o
que o corpus revela, o que veio tona por meio da explorao automtica.10
Outra caracterstica comum a essa abordagem aposta na impossibilidade de
atribuio de sentidos das palavras fora de seus contextos de uso, estando esse
contexto refletido no corpus da o destaque para estratgias vinculadas procura
por padres de uso e padres de co-ocorrncia e extrao de n-gramas.
Abordagens corpus-driven podem se associar, ainda que involuntariamente,
aos seguintes pressupostos: (i) crena na objetividade e na neutralidade do pesquisador, que no atua sobre os dados, apenas relata resultados de experimentos; (ii) crena na possibilidade de um sentido estvel, intrnseco s palavras e
expresses, que est no texto (ou contexto), ou seja, no corpus e o corpus confivel. sobre o corpus que o pesquisador atuar, fazendo uso das ferramentas
adequadas, tendo em vista revelar/extrair sentidos.
Tais pressupostos so respaldados pelo que a reflexo desconstrutora chama
de tradio logocntrica, caracterizada por separaes claras e objetivas entre
pares dicotmicos e hierrquicos como sujeito e objeto, leitor e texto, literal e
metafrico, significado imanente e significado acidental, ironia e no-ironia literariedade e no-literariedade, os quais nenhuma teoria da linguagem conseguiu,
at hoje, distinguir de maneira incontroversa (Arrojo 1992).
Quando constatamos que, no dilogo com o campo educacional, a reflexo desconstrutora tem comparecido com alguma frequncia (e com mais frequncia do
que nos estudos da linguagem, como nos lembram Arrojo (1992) e Martins (1999)),
as consideraes sobre o uso de corpus e sua relao com perspectivas de linguagem e de conhecimento no podem ser ignoradas, quando se valoriza a coerncia
e a consistncia da fundamentao terica da atividade de investigao cientfica.
Sabemos que o pesquisador no neutro, tampouco o so as ferramentas.
Sobre os limites, observamos que programas como o Corpgrafo so de grande
valia nas primeiras aproximaes de corpora mais extensos, sendo capazes de indicar pistas e caminhos que sero explorados por meio da leitura convencional.
[10]

No entanto, como obeservamos por Sampson (2001), nem sempre a nfase na objetividade dos dados obtidos com corpus est associada a uma perspectiva corpus-driven, e nem esta ltima est, necessariamente,
vinculada aplicao de testes estatsticos.
OSLa volume 7(1), 2015

[150]

leite & freitas


No estudo do corpus Blogs SME/RJ, foram obtidas 2200 linhas de concordncia para
as palavras jovem/jovens, e 1940 para adolescente/adolescentes, implicando tempo
significativo para o acesso, caso a caso, dessas inscries constatao que nos
leva ao que propomos como perspectivas.
A aproximao com os estudos lingusticos com corpus leva aos trabalhos com
corpora anotados, do qual o servio do AC/DC (Costa et al. 2009) exemplar: voltando pesquisa sobre as questes de gnero, a leitura das linhas de concordncia
para verificar os contextos de brasileiro(s) em oposio a brasileira(s) ganharia
novos contornos com a observao da distribuio dos substantivos modificados
por cada um dos itens mencionados. Do mesmo modo, para os personagens dos
problemas de Matemtica, seria vantajoso poder buscar diretamente por nomes
prprios que se referem a pessoas (e no a lugares ou instituies, por exemplo).
Assim, para alm do tratamento prioritariamente quantitativo oferecido pelo
Corpgrafo e programas similares, entendemos que a anotao lingustica de textos, a partir de questes especficas da pesquisa em Educao, pode viabilizar
o trabalho de discusso sistemtica de grandes volumes textuais (Freitas 2014).
Trata-se de projeto multidisciplinar, que depende da mtua aproximao entre
os Estudos da Linguagem, a Lingustica Computacional e a Educao, o que certamente no se efetiva em curto prazo. Acena, no entanto, com a possibilidade
de ganho que parece valer os custos que coloca: a possibilidade da abordagem
qualitativa de corpora de larga escala.
Como nossas ltimas palavras, lembramos que inquietao e curiosidade fazem parte do perfil do pesquisador, e a apropriao do Corpgrafo que apresentamos aqui ilustra esse aspecto: idealizado por Belinda Maia, foi o primeiro programa com que tivemos contato para verificar as possibilidades de uma abordagem alternativa dos textos da pesquisa em Educao, mesmo tendo sido criado
com o objetivo de auxiliar a traduo e a gesto de terminologias.
No custa portanto imaginar um cenrio ideal para a pesquisa com grandes
corpora que conjugasse as ideias inicialmente concretizadas no Corpgrafo (compilao e gerenciamento dos prprios corpora, de interesse do pesquisador/a) e as
facilidades do AC/DC anotao morfossinttica e semntica, sistema de busca e
servios que a ele vem se associando (Santos 2014). Vale lembrar que se tais servios vm sendo desenvolvidos no contexto dos estudos da lngua, no improvvel
que outros usos surjam da, repetindo o prprio uso de corpora e do Corpgrafo,
situao favorecida quando se tem recursos de qualidade pblicos, abertos e disponveis - novas apropriaes, novos usos.

OSLa volume 7(1), 2015

perspectivas (qualitativas?) na explorao de grandes corpora

[151]

referncias
Anthony, Laurence. 2012. AntConc (version 3.3.5). http://www.antlab.sci.
waseda.ac.jp.
Arrojo, Rosemary (ed.). 1992. O signo desconstrudo. Pontes.
de Beaugrande, Robert. 2002. Descriptive linguistics at the millennium: corpus
data as authentic language. Journal of Language and Linguistics 1(2). 91131.
Brando, Zaia. 2002. Pesquisa em educao: conversas com ps-graduandos Coleo
Teologia e cincias humanas. Editora PUC-Rio.
Butler, Judith. 1997. Excitable speech. A politics of the performative. Routledge.
Butler, Judith. 2003. Problemas de gnero: feminismo e subverso da identidade. Editora Civilizao Brasileira. Traduo de Renato Aguiar.
Costa, Lus, Diana Santos & Paulo Alexandre Rocha. 2009. Estudando o portugus
tal como usado: o servio AC/DC. Em The 7th Brazilian Symposium in Information
and Human Language Technology (STIL 2009), s/pp.
Davis, Claudia Leme Ferreira, Gisela Lobo Baptista Pereira Tartuce, Patrcia C. Albieri de Almeida & Ana Paula Ferreira da Silva. 2013. Os esquecidos anos finais
do ensino fundamental: polticas pblicas e a percepo de seus atores. Em
Anais da 36a Reunio Anual da ANPEd, .
Freitas, Cludia. 2014. Corpus, Lingustica Computacional e as Humanidades Digitais. Em Miriam Leite & Carmen Gabriel (eds.), Linguagem, Discurso, Pesquisa e
Educao, 2251. DP et Alii.
Gatti, Bernardete. 2004. Estudos quantitativos em educao. Educao e Pesquisa
30(1). 1130.
Gatti, Bernardete. 2012. A construo metodolgica da pesquisa em educao:
desafios. Revista Brasileira de Poltica e Administrao da Educao 28(1). 1334.
Leite, Miriam. 2013. Blogs SME/RJ. http://www.ddeej.com.
Leite, Miriam. 2014. Adolescncia e juventude em desconstruo: textos e contextos na educao escolar. Em Miriam Leite & Carmen Gabriel (eds.), Linguagem,
Discurso, Pesquisa e Educao, 281307. DP et Alii.
Leite, Miriam. 2015. Pesquisa em educao e cibercultura: questes de metodologia e poltica. Em Edma Oliveira & Maria Luiza Oswald (eds.), Educao, cibercultura e redes sociais em tempos de mobilidade, no prelo.
OSLa volume 7(1), 2015

[152]

leite & freitas


Ldke, Menga & Marli Andr. 2008. Pesquisa em educao: abordagens qualitativas
Temas bsicos de educao e ensino. EPU.
Martins, Helena. 1999. Metfora e polissemia no estudo das lnguas do mundo: uma
apresentao no representacionista: Universidade Federal do Rio de Janeiro. Tese
de Doutoramento.
Romo, Carla de Oliveira. 2014. Identificaes do feminino em materiais didticos contemporneos: Universidade do Estado do Rio de Janeiro. Tese de Mestrado.
Sampson, Geoffrey. 2001. Empirical linguistics. Continuum.
Santos, Diana. 2014. Podemos contar com as contas? Em Sandra Alusio & Stella
Tagnin (eds.), New language technologies and linguistic research: a two-way road,
194213. Cambridge Scholars Publishing.
Sarmento, Lus, Belinda Maia & Diana Santos. 2004. The Corpgrafo - a Web-based
environment for corpora research. Em Maria Teresa Lino, Maria Francisca Xavier, Ftima Ferreira, Rute Costa & Raquel Silva (eds.), Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC2004), 449452.

c o n ta c t o s
Miriam Soares Leite
Universidade do Estado do Rio de Janeiro
miriamsleite@yahoo.com.br
Cludia Freitas
PUC-Rio
claudiafreitas@puc-rio.br
OSLa volume 7(1), 2015

Simes, Barreiro, Santos, Sousa-Silva & Tagnin (eds.) Lingustica, Informtica e Traduo: Mundos
que se Cruzam, Oslo Studies in Language 7(1), 2015. 153181. (ISSN 1890-9639 / ISBN 978-8291398-12-9)
http://www.journals.uio.no/osla

encadear
encadeamento automtico de notcias
CARLA ABREU, JORGE TEIXEIRA E EUGNIO OLIVEIRA

abstract
This work aims at defining and evaluating different techniques to automatically build temporal news sequences. The approach proposed is composed
by three steps: (i) near duplicate documents detention; (ii) keywords extraction; (iii) news sequences creation. This approach is based on: Natural
Language Processing, Information Extraction, Name Entity Recognition and
supervised learning algorithms. The proposed methodology got a precision
of 93.1% for news chains sequences creation.
[1] i n t r o d u o

Diariamente so publicadas grandes quantidades de notcias online, o que pode


conduzir a uma sobrecarga de informao para o leitor. Para estar informado e
atualizado de um determinado acontecimento, o leitor depara-se com um vasto
conjunto de artigos noticiosos, artigos esses que, em muitos casos, descrevem um
mesmo evento, podendo apresentar apenas pequenas variaes textuais. A situao agrava-se quando o leitor pretende saber mais detalhes sobre uma dada
histria ou sequncia de eventos. Um exemplo concreto o desaparecimento do
avio da Malaysia Airlines a 8 de maro de 2014. Considerando o dia 6 de outubro de
2014 a pergunta (query) avio Malaysia pesquisada no Google News (news.google.pt)
retorna uma lista com mais de 50 notcias relacionadas. Dessas notcias retiramos a informao de que as buscas pelo avio foram retomadas. Como possvel
observar pelos seguintes ttulos: Retomadas buscas pelo avio da Malaysia Airlines
(Renascena, 06/10/2014) e Recomeam as buscas pelo avio desaparecido da Malaysia
Airlines (Jornal de Notcias, 06/10/2014) o evento noticiado o mesmo, mas pelo
facto das notcias serem provenientes de fontes noticiosas diferentes apresentam
variaes textuais.
Este problema da sobrecarga de informao agrava-se quando o leitor quer
perceber a histria do desaparecimento do avio como um todo, e informar-se
sobre todos os eventos que ocorreram relativamente a este acontecimento. A
pergunta (query) desaparecimento Malaysia Airlines sem delimitaes temporais
ao Google News apresenta mais de 4.500 resultados. Neste conjunto de resultados
torna-se complicado ou at mesmo humanamente impossvel no s a deteo de
todos os eventos como apenas os mais relevantes para a histria. Por conseguinte,

[154]

abreu, teixeira & oliveira


o leitor no consegue ter a perceo de toda a histria, descrita em mais de 4.500
notcias diferentes.
O objetivo deste trabalho colmatar este problema: automaticamente detetar
e agrupar notcias similares e automaticamente criar histrias a partir de notcias relacionadas temporalmente. Proporciona-se deste modo ao leitor uma nova
forma de navegao entre eventos relativos a um mesmo acontecimento.
Pretendemos, numa primeira fase, detetar e agrupar notcias duplicadas (ver
Figura 1). Utilizamos mtodos de processamento de linguagem natural, algoritmos de medio de distncia entre strings1 (para o clculo da proximidade entre
notcias) e algoritmos supervisionados de aprendizagem automtica (para a determinao da similaridade entre notcias). Numa segunda fase (ver Figura 2), com
vista formao automtica de cadeias noticiosas, extramos termos relevantes
das notcias como por exemplo o tpico principal da notcia, as entidades, os locais e os nomes das personalidades; e ligamos os grupos de notcias pela medio
da distncia entre os mesmos. Utilizamos algoritmos de aprendizagem supervisionada para ligar notcias de forma sequencial para criar uma histria temporalmente lgica e contextualizada.

figura 1: Deteo e agrupamento de notcias similares


Este artigo encontra-se organizado da seguinte forma: na seco [2] apresentaremos o essencial sobre trabalhos relacionados. Na seco [3] vamos expor detalhadamente todos os passos da metodologia aplicada. Na seco [4] vamos enunciar os recursos lingusticos utilizados. Seguem-se a descrio das experincias
realizadas (seco [5]) e a apresentao e discusso dos resultados na seco [6].
Na seco [7] apresentada a interface grfica desenvolvida como prova de conceito. Por fim so apresentadas as concluses e o trabalho futuro na seco [8].
[1]
OSLa volume 7(1), 2015

Sequncia de carateres.

encadear: encadeamento automtico de notcias

[155]

figura 2: Construo de cadeias noticiosas


[2] t r a b a l h o s r e l a c i o n a d o s

[2.1] Detetar Notcias Duplicadas


Notcias quase duplicadas so notcias publicadas por fontes distintas mas cujo
contedo e data de publicao so muito semelhantes. A publicao deste tipo de
notcias bastante comum mas no traz nenhuma mais valia ao leitor. Adicionalmente, o seu armazenamento tem elevados custos computacionais. Devido a estes
constrangimentos torna-se necessria a deteo deste tipo de notcias (Kumar &
Govindarajulu 2009).
So vrias as abordagens propostas para a resoluo do problema de deteo de notcias quase duplicadas, entre elas encontram-se: a abordagem baseada
no lxico, a abordagem baseada no URL e a abordagem baseada na semntica.
A abordagem baseada no lxico no requer nenhum conhecimento lingustico.
O objetivo perceber a existncia de termos em comum entre documentos. A
abordagem baseada no URL visa detetar notcias duplicadas pela comparao do
endereo URL. Porm esta abordagem continua a no ser suficiente. Isto porque, no existe um padro estabelecido pelas diversas fontes noticiosas de como
criar um URL e, portanto, podendo este conter ou no informao til. A abordagem semntica uma abordagem mais completa, esta inclui a necessidade de prprocessamento implicando: tokenization, stemming e remoo das stop-words. Aps
o pr-processamento do texto, as notcias so comparadas atravs de uma funo
de similaridade. Esta funo tem como objetivo medir o grau de semelhana entre pares de notcias. O valor retornado por esta funo varia entre [0,1], e tanto
maior quanto maior for a semelhana existente entre as notcias.
No trabalho intitulado Duplicate Record Detection: A Survey, Elmagarmid et al.
(2007) explicam todo o fluxo necessrio deteo de documentos duplicados. Este
trabalho refere-se abordagem semntica. As notcias so inicialmente processadas, seguindo-se a determinao dos campos a comparar; , depois, medido o grau
de semelhana entre pares de notcias; e por fim, com base no resultado obtido
determinado se os documentos so ou no similares. Os autores ilustram quatro
OSLa volume 7(1), 2015

[156]

abreu, teixeira & oliveira


mtricas: similaridade de strings baseada em carateres; similaridade baseada em
tokens; similaridade fontica e similaridade numrica.
A similaridade baseada em caracteres foi desenvolvida para detetar erros tipogrficos. Alguns exemplos dessas mtricas so: algoritmos de edio de distncia
(Hamming (He et al. 2004) e Levenshtein (Levenshtein 1965)) que visam calcular
o nmero de adies, substituies e remoes necessrias para converter uma
string numa outra, como por exemplo futebol e futbol; distncia Affine Gap
(Waterman et al. 1976) que consiste em abrir ou estender um espao, para transformar uma string noutra, como: C Ronaldo e Cristiano Ronaldo; a mtrica
de distncia Jaro (Bilenko et al. 2003) que mede a semelhana entre duas strings
tendo em conta o comprimento das mesmas, o nmero de carateres em comum e
o nmero de transposies necessrias; e a mtrica Q-grams (Ullmann 1977) que
consiste na diviso das strings iniciais em substrings de tamanho q, a medio de similaridade entre documentos consiste na medio de substrings em comum entre
as duas notcias.
Para o clculo da similaridade entre pares de notcias utilizamos uma abordagem baseada em algoritmos de aprendizagem automtica.
Infelizmente, existem poucos estudos desenvolvidos no sentido de verificar a
eficincia da utilizao de mtricas de distncia (Elmagarmid et al. 2007). Existem,
por exemplo, alguns estudos que mencionam a eficincia da mtrica de distncia
Jaro (Bilenko et al. 2003; Yancey 2005) na comparao de nomes.
Para a deteo e agrupamento de notcias similares tambm recorrente a
utilizao de abordagens de clustering (Banerjee et al. 2007; Vadrevu et al. 2011).
Nesta abordagem o documento caracterizado por um conjunto de palavras, usualmente representado por um vetor de frequncia da ocorrncia dos termos. A determinao da similaridade entre agrupamentos e respetivo agrupamento efetuase aps a aplicao de um algoritmo de clustering sobre a coleo. Existem duas
abordagens de clustering que podem ser aplicadas: a supervisionada, onde os tpicos so conhecidos, e a no supervisionada, onde no existe conhecimento inicial.
Existem dois grandes problemas associados aplicao de tcnicas de clustering
supervisionado, estes so: definio de categorias, tornam o sistema rudimentar,
pois ao longo do tempo h uma tendncia para o aparecimento de novas categorias; uma categoria abrange no s notcias duplicadas, como abrange tambm
notcias que se referem ao mesmo tema. O problema relacionado com o clustering no supervisionado o de no conhecermos os elementos responsveis pela
elaborao dos agrupamentos.
O nosso contributo, na componente da deteo de notcias quase duplicadas,
diz respeito ao estudo da eficincia de alguns algoritmos de edio de distncia
para textos estruturados de dimenso varivel, pela utilizao de uma abordagem
baseada na semntica. As etapas necessrias para a elaborao deste mdulo pode
ser observada na Figura 1.

OSLa volume 7(1), 2015

encadear: encadeamento automtico de notcias

[157]

[2.2] Gerao Automtica de Histrias


Diversos trabalhos tem sido conduzidos com o objetivo de criarem histrias a partir de vrios documentos como: notcias (Shahaf & Guestrin 2010; Mei & Zhai
2005), blogs (Lin et al. 2012; Qamra et al. 2006) e resultados de pesquisas (Kumar
et al. 2004). Em alguns trabalhos, antes da criao da histria noticiosa o leitor
tem que indicar o tema de pesquisa (Shahaf & Guestrin 2010; Lin et al. 2012). Outros trabalhos porm, visam ser mais abrangentes, e determinar dentro do seu
conjunto de dados todas as histrias existentes (Allan et al. 1998b; McKeown et al.
2002). A primeira abordagem utilizada em estudos relacionados com o tpico
Gerao da Histria sendo que a segunda abordagem mais popular em estudos de Deteo de Tpicos e Monitorizao. Em relao a estes dois tpicos, de
notar que existem poucos estudos sobre o primeiro, mas, no entanto, o segundo
tpico tem vindo a ser extensivamente estudado (Lin & Liang 2008). Segundo Allan et al. (1998b), o conhecimento inicial dado ao sistema para a criao das histrias pode no ser adequado monitorizao das mesmas uma vez que o tema de
discusso associado a um evento muda frequentemente.
Outra rea que visa organizar e estruturar informao a classificao hierrquica (Sun & Lim 2001; Lawrie & Croft 2000; Li et al. 2007). A estrutura hierarquia
impe uma estrutura a um conjunto de dados. Porm, no identificamos nenhum
estudo realizado de forma a perceber se essa estrutura reflete as relaes existentes entre os diversos documentos (Nallapati et al. 2004).
A nossa abordagem para a gerao automtica de histrias a partir das notcias
baseia-se nas etapas utilizadas nos diferentes trabalhos com o mesmo propsito.
As diferentes etapas consideradas, bem com o seu fluxo, podem ser observadas na
Figura 2.
Gerao da Histria
O trabalho intitulado Connecting the Dots Between News (Shahaf & Guestrin 2010)
visa encontrar uma histria coerente num conjunto de artigos noticiosos a partir de um ou mais tpicos indicados pelo utilizador. O mtodo utilizado neste
trabalho aplicvel a outros domnios como: emails, artigos cientficos e inteligncia militar. Neste trabalho os autores introduziram a noo de coerncia, e
feedback do utilizador. A abordagem proposta pelos autores consistiu na identificao de ligaes entre notcias, tendo em conta: palavras omissas, palavras que
esto relacionadas com as palavras do texto embora no apaream no mesmo, e
a importncia das palavras. O problema da formao das cadeias de notcias foi
solucionado recorrendo a uma abordagem de programao linear.
Outro trabalho desenvolvido com o propsito de gerar uma linha temporal de
uma histria o A Graph Teoretic Approach to Extract Storylines from Serach Results
(Kumar et al. 2004). Neste trabalho os resultados de pesquisa so representados
numa estrutura de grafos, onde, os ns representam a informao associada ao
OSLa volume 7(1), 2015

[158]

abreu, teixeira & oliveira


documento, e as ligaes entre os ns, representam o peso de ligao. Para a elaborao das cadeias, os autores recorrem utilizao de um algoritmo de pesquisa
local sobre a estrutura definida.

Deteo de Tpicos e Monitorizao


Existem trs tarefas associadas a deteo de tpicos e monitorizao, so elas:
monitorizao de eventos conhecidos (eventos j detetados pelo sistema), deteo
de novos eventos, e segmentao das notcias em histrias. O grande objetivo dos
estudos de deteo de tpicos e monitorizao o de identificar todas e quaisquer
notcias relacionadas com um dado evento (Allan et al. 1998a).
Para o nosso trabalho, a componente mais interessante deste estudo a forma
como executado o monitoramento de uma histria nas notcias. A abordagem de
monitoramento utilizada em On-line News event detection and tracking (Allan
et al. 1998b) comea por reduzir o contedo noticioso a um conjunto de entre
10 a 20 features. Os autores acreditam que poucas features so necessrias para
o monitoramento de notcias uma vez que o essencial de uma histria tende a
ser descrito por um conjunto pequeno de palavras ou frases. Neste trabalho, as
cadeias so obtidas pelo clculo de semelhana entre as queries que caracterizam
cada notcia.
[3] m e t o d o l o g i a

[3.1] Similaridade
Abordamos a similaridade entre artigos noticiosos em quatro passos distintos: (i)
normalizao do contedo noticioso;(ii) identificao dos elementos a comparar;
(iii) comparao entre pares de notcias; (iv) tomada de deciso.
Normalizao
A normalizao de textos uma etapa tradicional em NLP para simplificar a anlise posterior dos mesmos. Realizamos as seguintes tarefas de normalizao:
1) Remoo de smbolos de pontuao, como: <,>, /, ,, (, ), -;
2) Remoo de padres redundantes e que no mbito deste trabalho, no so informativos, como: Lusa - Esta notcia foi escrita nos termos do Acordo Ortogrfico;
3) Remoo de stop-words, atravs da utilizao de uma lista disponibilizada pelo snowball 2 (para a lngua portuguesa);
4) Reduo das palavras sua raiz atravs da utilizao do Porter Stemmer para lngua
portuguesa, disponibilizado pelo PTStemmer (Oliveira 2008).

Na Tabela 1 apresentamos um exemplo da normalizao, desde a notcia original at sua verso normalizada.
[2]
OSLa volume 7(1), 2015

https://snowball.tartarus.org

encadear: encadeamento automtico de notcias


Operao

Exemplo

Notcia original

Nova Deli, 02 jan (Lusa) - A ndia anunciou que vai permitir a cidados
estrangeiros investirem no seu mercado de aes.

1- Pontuao

Nova Deli 02 jan Lusa A ndia anunciou que vai permitir a cidados
estrangeiros investirem no seu mercado de aes.

2- Padres

A ndia anunciou que vai permitir a cidados estrangeiros investirem


no seu mercado de aes.

3- Stop-words

ndia anunciou vai permitir cidados estrangeiros investirem mercado aes.

4- Stemm

ndi anunc va permit cidad estrangeir invest merc a.

[159]

tabela 1: Exemplo do fluxo da normalizao.

Identificao dos elementos a comparar


Identificamos cinco contedos essenciais nos artigos noticiosos publicados em
formato digital: ttulo, corpo da notcia, data de publicao, URL e metadados
(tags).
URL: provenientes de diferentes domnios tm uma composio distinta. A Tabela 2 apresenta trs pares <ttulo, URL>. O primeiro URL composto pelo ttulo
da notcia; j o segundo d-nos a indicao das reas a que a notcia est associada,
no explicitando em concreto o acontecimento presente; o terceiro exemplo no
nos consegue transmitir nenhuma informao concreta para alm do domnio.
Al Qaeda revindica atentados em quartel militar do Imen
http://visao.sapo.pt/al-qaeda-revindica-atentados-em-quartel-militar-do-iemen=f803958

Plantel empenhado na vitria em Barcelos


http://www.record.xl.pt/Futebol/Nacional/1a_liga/academica/interior.aspx?content_id=
919169

Cidade chinesa gera energia com queima de notas de banco


http://diariodigital.sapo.pt/news.asp?id_news=750321

tabela 2: Exemplos de URL

Corpo da notcia: o ttulo ou corpo da notcia, como componentes isolados, podem no ser suficientes para a determinao da similaridade. Identificamos o cabealho da notcia, tipicamente o primeiro pargrafo, como sendo um elemento
adicional a considerar para o clculo da similaridade entre notcias (ver Figura 3).
Este cabealho corresponde muitas vezes ao resumo da notcia e como tal muito
informativo.
OSLa volume 7(1), 2015

[160]

abreu, teixeira & oliveira

figura 3: Campos da notcia a serem comparados.

Data de publicao: as notcias contm informao temporal importante para a


contextualizao do evento. Assumimos que existe um intervalo de tempo restrito dentro do qual h uma maior tendncia para o aparecimento de notcias duplicadas. Por exemplo, mais provvel a existncia de notcias duplicadas com
intervalo de datas de publicao de 24 horas do que numa semana. Deste modo, o
fator tempo serve como delimitador do intervalo temporal de notcias comparveis.

Comparao de Notcias
Podem ser utilizadas diferentes mtricas para o clculo da similaridade. Neste
trabalho, consideramos as seguintes: Hamming (He et al. 2004), Levensthein (Levenshtein 1965) e Jaro (Bilenko et al. 2003).
De forma a que os resultados destas mtricas possam ser comparveis, necessrio proceder normalizao dos mesmos, aplicamos a seguinte frmula (Expresso 1) aos resultados retornados pelos mtodos de edio de distncia.
D (s, t) = 1

D(s, t)
, D Q|D [0; 1]
max (|s|, |t|)

(1)

Onde:
D(s, t) a distncia obtida pela mtrica de edio de distncia entre a string s e t;
max (|s|, |t|) o comprimento da string de maior dimenso entre s e t;
D (s, t) a distncia normalizada entre s e t.
Para cada par de notcias calculado o D . A deciso sobre a similaridade
decidida no passo posterior.
OSLa volume 7(1), 2015

encadear: encadeamento automtico de notcias

[161]

Deciso da similaridade entre notcias


Usamos diversos mtodos de aprendizagem supervisionada para a classificao de
notcias duplicadas. Os algoritmos usados foram: Support Vector Classifier (SVC),
SVC Linear, Decision Tree e Random Forest. Estes algoritmos esto disponveis,
atravs de bibliotecas python, no scikit learn (Pedregosa et al. 2011).
A partir das distncias calculadas na seco [3.1.3] tiramos partido de algoritmos de aprendizagem supervisionada para classificar pares de notcias como
duplicadas ou no duplicadas.
[3.2] Agrupamento de Notcias
Este mdulo responsvel pela criao de grupos de notcias duplicadas usando
os resultados dos pares de notcias previamente classificadas (ver seco [3.1.4]).
Um exemplo ilustrativo dos passos necessrios desde a receo das notcias
at composio dos agrupamentos pode ser ilustrado pela Figura 1. Neste caso,
estamos perante seis notcias (A,B,C,D,E,F) que formam quinze pares distintos (AB,
AC, AD, AE, AF,BC, BD, BE, BF,CD, CE, BF,DE, DF, EF). Estes pares de notcias so
comparados na seco [3.1] e deste mdulo so considerados como duplicados os
pares AD, AE, BF e DE. Pela observao do exemplo, constatamos que so formados
dois grupos (BF e ADE).
[3.3] Extrao de Termos Chave
Para cada grupo de notcias necessrio e essencial, sintetizar a informao contida nesses grupos.
Na nossa abordagem, vamos representar as notcias por um conjunto de termos chave. Os termos chave podem ser considerados termos que transmitem informao relevante do texto, como: o tpico da notcia, nomes de personalidades,
locais e outros. Consideramos trs tipos de termos chave: (i) palavras isoladas
(uni-grams) (ii) expresses relevantes (n-grams) e (iii) entidades.
Palavras Isoladas
As palavras isoladas correspondem a palavras compostas por um token que aparecem explicitamente no contedo noticioso. De forma a obtermos estas palavras
executamos trs tarefas: POS Tagger, normalizao e anlise da frequncia da palavra.
POS Tagger: visa a identificao das categorias gramaticais das palavras que compe o texto da notcia. Utilizamos nesta tarefa o TreeTagger (Schmid 1994) adaptado para a lngua portuguesa, disponibilizado por Garcia & Gamallo (2013).
Normalizao: corresponde remoo de padres lingusticos e frases recorrentes do corpo da notcia obtidos por inspeo manual, como: expresses de datas
OSLa volume 7(1), 2015

[162]

abreu, teixeira & oliveira


(Porto, 12 Agosto 2014), resultados de futebol (21) e padres jornalsticos (Porto,
12 Agosto 2014 (Lusa)).
Anlise da frequncia da palavra: pela utilizao da mtrica estatstica Term Frequency-Inverse Document Frequency (TF-IDF). No seu clculo, esta mtrica relaciona
o aparecimento de um termo na notcia com o aparecimento do mesmo na coleo
permitindo assim detetar a existncia de termos relevantes.
Da anlise da frequncia de palavras no texto resulta uma lista de palavras
com peso associado. Consideramos como palavras relevantes, aquelas com maior
peso e pertencentes categoria gramatical nome.

Expresses Relevantes
As expresses relevantes correspondem a ngrams que aparecem explicitamente
no contedo noticioso e que de uma forma simplificada podem transmitir informao relevante contida no texto.
Para a extrao deste elemento do texto foi adicionado um passo intermdio
abordagem apresentada na seco [3.3.1]. Para tal, aps a normalizao foi aplicado um filtro de forma a obter expresses do texto. As expresses so ngrams,
que obedecem a certos padres gramaticais, como: sequncias de nomes (Domingos Pacincia), nome e adjetivo (homens encapuzados) entre outros.
A anlise da frequncia neste caso efetuada sobre os padres. O resultado
retornado pela anlise de frequncia indica-nos quais as expresses relevantes
para a notcia em questo. A ltima etapa consiste na atribuio das expresses
relevantes notcia.
Entidades
O reconhecimento de entidades mencionadas, nomeadamente o nome de personalidades, essencial no contexto de extrao de termos e expresses chave das
notcias.
Existem disponveis vrios recursos para o reconhecimento de entidades mencionadas para a lngua portuguesa, como os mencionados pela Linguateca3 . No
entanto e no mbito deste trabalho, estamos perante um domnio muito dinmico, as notcias, onde constantemente aparecem novas entidades (Charlie Hebdon, Fukushima). Optamos por implementar um sistema que se adapta a estas
caractersticas.
Foi implementado um algoritmo com o objetivo de verificar, numa primeira
fase, quais as palavras no texto que se iniciam com um carter maisculo. Das palavras encontradas, se a palavra maiscula estiver posicionada no inicio da frase
verificado se a palavra ou no uma stop-word, e caso seja, ento no considerada. Para as palavras que passarem a fase anterior verificado se so precedidas
[3]
OSLa volume 7(1), 2015

http://www.linguateca.pt/LivroSegundoHAREM/

encadear: encadeamento automtico de notcias

[163]

de outras palavras capitalizadas, sendo permitido uma palavra de ligao entre


termos capitalizados inicializada a minscula. Um exemplo de entidades extradas pelo algoritmo dado pelos seguintes termos: Passos, Paulo Portas.
De forma a enriquecer os termos chave extrados para o conjunto de expresses e entidades extradas de cada noticia tentamos identificar quais desses termos relevantes so nomes de personalidades. Para tal comparamos esses termos
com um recurso externo, o Verbetes4 .

[3.4] Atribuio de termos relevantes aos agrupamentos


Depois da juno de notcias similares em agrupamentos (seco [3.2]) e aps realizada a extrao de termos relevantes de cada notcia (seco [3.3]), possvel
fazer a atribuio dos termos chave aos agrupamentos de notcias.
Os termos chave associados a cada agrupamento correspondem aos termos
relevantes que esto associados a cada uma das notcias do agrupamento. de
referir que cada termo chave tem um peso (w), que est relacionado com a sua
frequncia (f ) no agrupamento. A importncia de um termo dado pela relao
entre o nmero de notcias em que o termo aparece e nmero total de notcias
que compe o agrupamento. Um exemplo de palavras relevantes associadas a um
agrupamento e respetiva importncia dado por:
reclusos[f=9;w=1];presos[f=9;w=1];
crcere[f=7;w=0.78];sudoeste[f=7;w=0.78];
representantes[f=6;w=0.67];
violao[f=6;w=0.67];cadeia[f=5;w=0.56];
quilmetros[f=4;w=0.44];irmos[f=4;w=0.44];
Neste agrupamento, o termo reclusos mais representativo do conjunto do que
o termo irmos. Isto porque, considerando que o agrupamento em questo tem
nove notcias, o primeiro termo aparece associado a todas as notcias do agrupamento (f = 9), tendo um peso de w = 99 , ou seja 1; enquanto o segundo termo s se
encontra associado a 4 notcias do conjunto (f = 4), tendo um peso de w = 0.44.

[3.5] Ligaes entre Agrupamentos


Este mdulo visa identificar as ligaes entre os agrupamentos de notcias duplicadas previamente calculadas com os respetivos termos relevantes associados
(ver Figura 2).
Partimos do pressuposto que as cadeias noticiosas s podem existir para a
mesma categoria de notcias, de forma a simplificar esta tarefa. Para isso, fizemos a atribuio das categorias aos grupos de notcias, atravs de uma fonte de
conhecimento externo que mapeia as tags atribudas pelos jornalistas com a categoria a que a notcia fica associada. As categorias indicam de uma forma geral a
[4]

https://store.services.sapo.pt/pt/Catalog/other/free-api-information-retrieval-verbetes
OSLa volume 7(1), 2015

[164]

abreu, teixeira & oliveira


rea a que a notcia pertence como: desporto, sociedade, poltica, economia, entre
outros.
Detalhamos nas subseces apresentadas de seguida a abordagem utilizada
para o processo de ligao de pontos entre os agrupamentos. Este foi realizado
em duas etapas: clculo da distncia entre termos relevantes e determinao das
ligaes entre agrupamentos.

Similaridade de termos relevantes


Comeamos por fazer a normalizao dos termos relevantes. Para as palavras
isoladas, expresses, entidades e personalidades, o texto convertido para letra
minscula. Para as palavras isoladas que so constitudas apenas por uni-grams
tambm se efetua a reduo ao seu radical. Aps a normalizao do texto, efetuado o clculo da similaridade entre os termos de cada agrupamentos atravs do
clculo da distncia entre: palavras isoladas, expresses, entidades e personalidades.
Para o clculo da similaridade entre palavras isoladas, entidades e personalidades, consideramos o peso de cada palavra individual no agrupamento que
dada pelas Expresses 2 e 3.

D1 (a, b) = 0.3

|ka | |kb |
+ 0.7
max(|ka |, |kb |)

|ka | |kb |
D2 (a, b) =

max(|ka |, |kb |)

|ka | |kb |
i=1 ( j=1aj =bi W ka j W kb i )
|ka | |kb |

|ka | |kb |
i=1 ( j=1aj =bi W ka j W kb i )
|ka | |kb |

(2)

(3)

Onde:
W ka j o peso da palavra-chave j no agrupamento a;
W kb i o peso da palavra-chave i no agrupamento b;
|ka | e |kb | so o nmero de palavras-chave iguais entre os agrupamentos a e b;
max (|ka |, |kb |) o nmero mximo de palavras-chave distintas.
As distncias D1 (a, b) e D2 (a, b) tm em conta a percentagem de termos em
comum entre os dois agrupamentos e a relao dos pesos que os termos em comum tm nos seus agrupamentos. D1 (a, b) estabelece um peso entre as duas parcelas, dando um maior relevo parcela que mede o relacionamento dos pesos das
palavras em comum; em D2 (a, b) no existem pesos associados s parcelas, mas
sim, uma relao entre elas.
Para o clculo da similaridade entre as expresses relevantes a abordagem
utilizada foi distinta. Para este caso, a normalizao incluiu um passo adicional,
OSLa volume 7(1), 2015

encadear: encadeamento automtico de notcias

[165]

remoo das stop-words. Aps esta tarefa foi construda uma string com todas as
expresses pertencentes a cada agrupamento, no considerando para este tipo
de termo relevante o seu peso. O clculo da similaridade entre as expresses foi
baseado num algoritmo de edio de distncia o qgrams (Ullmann 1977) (q = 3).

Determinao das ligaes entre agrupamentos


Esta etapa tem como objetivo determinar a partir dos valores de similaridade calculados anteriormente quais as ligaes mais relevantes. a partir destas ligaes
que se formam as cadeias noticiosas.
Para a ligao de agrupamentos, utilizamos algoritmos de aprendizagem supervisionada. Estes algoritmos recebem um conjunto de treino manualmente
anotado com ligaes relevantes entre agrupamentos, sobre o qual vo inferir
regras para determinar, a existncia de ligaes vlidas e relevantes. Utilizamos
como caractersticas (features) a distncia entre as palavras isoladas, expresses,
entidades e personalidades. Os algoritmos utilizados foram: Support Vector Classifier (SVC), SVC Linear, Decision Tree e o Random Forest.
Ao longo desta seco apresentamos a metodologia utilizada na deteo de
notcias duplicadas e na gerao automtica de cadeias noticiosas.
[4] r e c u r s o s l i n g u s t i c o s

Nesta seco caracterizamos o conjunto de dados e as fontes de conhecimento


externo utilizadas na elaborao deste trabalho.

[4.1] Caracterizao do conjunto de dados


Para a realizao deste trabalho foram utilizadas notcias publicadas online, escritas na lngua portuguesa e provenientes de diversas fontes noticiosas da imprensa
portuguesas. O conjunto de dados compreende mais de 4 milhes de notcias publicadas entre 2008 e 2014.
As notcias so provenientes de 73Nmero de fontes com mais de 100 notcias
publicadas. fontes noticiosas distintas e compostas em mdia5 por: 9 palavras no
ttulo; 204 palavras no contedo; 10 frases no contedo.
Na imprensa portuguesa so publicadas online diariamente aproximadamente
2.500 notcias6 . A Figura 4 representa a distribuio de notcias durante ms de
Maro de 2014. Atravs da observao da mesma possvel constatar que tendencialmente so publicadas menos notcias durante o fim de semana.

[5]
[6]

Anlise de aproximadamente 74000 notcias selecionadas de um ms aleatrio de 2014.


Dados relativos s notcias publicadas na imprensa portuguesa, no formato digital, no ms de Maro de
2014
OSLa volume 7(1), 2015

[166]

abreu, teixeira & oliveira

figura 4: Nmero de notcias publicadas por dia no ms de Maro de 2014.


Estima-se que aproximadamente 45%7 das notcias publicadas diariamente sejam duplicadas ou quase duplicadas. A relao entre o nmero de notcias publicadas mensalmente com o nmero de notcias utilizadas para a criao dos agrupamentos pode ser visualizada na Figura 5. Para os primeiros oito meses de 2014
o nmero mdio de notcias por grupo de 3.8, os dados referentes ao nmero
mdio de notcias por grupo relativo a cada ms pode ser observado na Figura 6.

figura 5: Relao entre o nmero de notcias publicadas por ms com o nmero


de notcias utilizadas na criao dos agrupamentos (Janeiro a Agosto de
2014)

[7]
OSLa volume 7(1), 2015

Nmero mdio de notcias online dirias duplicadas, publicadas na imprensa portuguesa, de 10 a 15 de


Maro de 2014

encadear: encadeamento automtico de notcias

[167]

figura 6: Nmero mdio de notcias por agrupamento (Janeiro a Agosto de 2014)

Na Figura 7 podemos constatar que maioritariamente os grupos so constitudos por 2 notcias similares. possvel observar que o nmero de grupos existentes inversamente proporcional ao nmero de notcias que o compe.

figura 7: Constituio dos agrupamentos (seleo aleatria de 5 dias de 2014)


Definimos nove categorias associadas aos agrupamentos que so as categorias tipicamente usadas nos media digitais para organizar as notcias publicadas
online: poltica, economia, desporto, sade, cincias e tecnologias, sociedade, cultura, local e educao. Dos agrupamentos com apenas uma categoria associada
a distribuio dos mesmos por reas pode ser observado na Figura 8. possvel
observar que a categoria com maior expresso a categoria desporto (54.4%) e
assim sucessivamente.
OSLa volume 7(1), 2015

[168]

abreu, teixeira & oliveira

figura 8: Distribuio dos agrupamentos por categoria

[4.2] Enunciao de fontes de conhecimento externo


No decorrer deste trabalho foram utilizadas as seguintes fontes de conhecimento:
Lista stop-words: Lista de stop-words especfica para a lngua portuguesa disponibilizada pela snowball.
Verbetes: O Verbetes um sistema de recolha automtica de informao a partir das notcias. Para este trabalho utilizamos uma lista de personalidades
extrada deste sistema.
Lista de Tags e Categorias: Lista elaborada manualmente por jornalistas que relaciona a tag associada notcia com a sua categoria principal.
Nesta seco foi caracterizado o conjunto de dados e as fontes de conhecimento externo utilizadas na elaborao deste trabalho.
[5] e x p e r i m e n ta o

Nesta seco so referidas as diferentes mtricas de avaliao utilizadas e descrito


o conjunto de experincias realizadas.

[5.1] Mtricas de Avaliao


Para avaliar o mdulo de similaridade (ver seco [3.1]) e ligaes entre agrupamentos (ver seco [3.5.2]), foram utilizadas quatro mtricas de avaliao: a preciso (precision), a abrangncia (recall), a accuracy e a F-measure (F1 ). No contexto
deste trabalho, a preciso indica a taxa de notcias consideradas similares que realmente o so e a taxa de ligaes efetuadas entre agrupamentos que realmente
OSLa volume 7(1), 2015

encadear: encadeamento automtico de notcias

[169]

existem. A abrangncia (recall) indica-nos, neste contexto, taxa de notcias duplicadas encontradas face s realmente existentes mas que no conseguimos identificar manualmente. A medida F1 estabelece uma relao entre a preciso e a
abrangncia. A accuracy indica-nos a avaliao geral do sistema.
A avaliao aos termos relevantes focou-se em avaliar, dos termos extrados,
quais so de facto realmente representativos da notcia. A avaliao foi realizada
usando a Expresso 4. A avaliao geral do sistema dada pelo somatrio percentagem de termos representativos das notcias analisadas, Expresso 5.
E(ni) =

TermosRepresentativos
TermosAtribudos

(4)

||N ||
Avaliao =

(E(ni ))
||N ||

i=1

(5)

Onde:
TermosRepresentativos corresponde ao nmero de termos relevantes ou entidades atribudos pelo mtodo, que realmente representam o contedo noticioso;
TermosAtribudos corresponde ao nmero total de termos relevantes ou entidades
atribudas ao documento;
||N ||: nmero de notcias da coleo N;
ni : corresponde notcia de ndice i do conjunto de notcias N.

[5.2] Enunciao e definio das experincias


Nesta seco so apresentadas as cinco experincias realizadas. Comeamos por
apresentar trs experincias relativas determinao da similaridade entre notcias. Na primeira experincia pretendemos perceber qual o algoritmo mais adequado ao clculo da similaridade entre notcias. A segunda experincia visa entender qual a influncia do fator tempo neste domnio, ou seja, se as notcias
duplicadas ou quase duplicadas surgem em intervalos temporais longos ou curtos. Por fim a terceira experincia tem como objetivo perceber qual o mtodo
de aprendizagem supervisionado mais apto para a determinao da similaridade
entre notcias.
A quarta experincia enunciada est relacionada com os termos chaves extrados. Por fim a quinta experincia refere-se s ligaes entre agrupamentos.
Ser usado Expi,j para representar a j-sima configurao de parmetros
para a experincia i.

OSLa volume 7(1), 2015

[170]

abreu, teixeira & oliveira

Similaridade - Algoritmos de Edio de Distncia


A similaridade entre notcias obtida atravs do clculo da:
Similaridade do ttulo (ST) que corresponde percentagem de semelhana
entre os ttulos;
Similaridade do 1 pargrafo (SB) que corresponde ao resultado de comparao entre a parte das notcias que foca o evento em si;
Similaridade de contedo noticioso (SC) que corresponde ao resultado da
comparao do corpo das respetivas notcias.

figura 9: rvore de deciso elaborada para verificar se um par de notcias ou


no similar.
Esta experincia Exp1 visou perceber qual o algoritmo com o melhor desempenho para o clculo da similaridade entre pares de notcias. Esta experincia
foi efetuada sobre uma estrutura em forma de rvore de deciso, representada na
Figura 9. Esta foi criada manualmente, onde os valores t, f, c, correspondem aos
valores de deciso para o ttulo, foco e contedo da notcia. L, H, J correspondem respetivamente aos algoritmos Leventshein, Hamming e Jaro. A parametrizao usada nesta experincia encontra-se enunciada na Tabela 3. Por exemplo,
a Exp1,1 efetuada individualmente para os algoritmos Levenshtein, Hamming e
Jaro, com um threshold de 0.6 para t, f e c. As diferentes experincias visam perceber a influncia que os diferentes thresholds tm nos algoritmos.
Para a realizao desta experincia foram comparadas aleatoriamente 124750
notcias, para um dia aleatrio de 2014.

Similaridade - Fator Tempo


A experincia sobre o fator tempo (intervalo temporal) tem como objetivo verificar a influncia do intervalo temporal no que diz respeito identificao e classificao de notcias similares. Para tal, foram considerados cinco intervalos de
OSLa volume 7(1), 2015

encadear: encadeamento automtico de notcias


Exp
1, 1
1, 2
1, 3
1, 4
1, 5
1, 6
1, 7

Algoritmos
LHJ
LHJ
LHJ
LHJ
LHJ
LHJ
LHJ

t
0.60
0,70
0,70
0,70
0,80
0,80
0,80

f
0.60
0,60
0,70
0,70
0,70
0,80
0,80

[171]
c
0.60
0,60
0,60
0,70
0,70
0,70
0,80

tabela 3: Parametrizao para a experincia do clculo da similaridade.


tempo distintos: 3, 6, 12, 24, 48 horas; e foram utilizados quatro mtodos de classificao para a determinao da similaridade: SVC, SVC Linear, Decision Tree e o
Random Forest. Esta experincia foi elaborada utilizando uma tcnica de avaliao
cruzada, o k-fold cross validation (k = 5). O conjunto de dados utilizado resulta da
seleo aleatria de 500 notcias de dois dias distintos e consecutivos, anotadas
manualmente.

Similaridade - Deciso da similaridade entre notcias


Foi efetuada uma experincia com o objetivo de perceber qual o algoritmo de
aprendizagem supervisionada com o melhor desempenho na determinao da similaridade entre pares de notcias. A experincia foi efetuada em 500 notcias
selecionadas de forma aleatria de um dia aleatrio de 2014.
Extrao de Termos relevantes
Esta experincia tem como objetivo testar a abordagem utilizada para a extrao
de termos chave (palavras isoladas, expresses e entidades). Para a realizao
desta experincia foi selecionado aleatoriamente um dia de cada ms do ano 2012.
De cada dia foi selecionado um intervalo de trs horas, e dessas trs horas foram
selecionadas aleatoriamente dez notcias sobre as quais se efetuou a inspeo manual das palavras-chave atribudas.
Ligaes entre agrupamentos
Para a determinao das ligaes entre agrupamentos de notcias, realizado o
clculo da distncia entre: palavras isoladas, expresses, entidades e personalidades.
Esta experincia Exp2 tem como objetivo avaliar qual a abordagem mais
adequada para o clculo da similaridade e qual o mtodo de aprendizagem supervisionado mais eficiente para a determinao das ligaes. Todas as experincias
consideraram o clculo distncia pelo algoritmo Q-grams, para as expresses. A
avaliao resultante das diferentes experincias realizadas entre grupos de notOSLa volume 7(1), 2015

[172]

abreu, teixeira & oliveira


cias ao longo do tempo, para a formao de ligaes entre agrupamentos de notcias, encontra-se na Tabela 4. O conjunto de dados composto por agrupamentos
pertencentes aos meses de maro e abril de 2014. Desses agrupamentos, foram selecionados aleatoriamente 10 cadeias de notcias com tamanho varivel para cada
uma das seguintes categorias: desporto, economia, poltica, cultura e sociedade.
O conjunto de dados compreende, em mdia, 317 comparaes por categoria.
Exp
2, 1
2, 2
2, 3
2, 4

Palavras
D1
D2
D1
D1

Entidades
D2
D2
D1
D2

Personalidades
D1
D1
D1
D2

tabela 4: Descrio das experincias para o clculo das ligaes.


Nesta seco foram apresentadas as diferentes mtricas de avaliao utilizadas e descrito o conjunto de experincias realizadas.
[6] r e s u l ta d o s e a n l i s e

[6.1] Experincias
Similaridade - Algoritmos de Edio de Distncia
Os resultados obtidos nesta experincia Exp1 podem ser observados na Tabela 5. Desta tabela exclumos os resultados obtidos para algoritmo Jaro, devido
ao seu desempenho constante.
Exp
1, 1
1, 2
1, 3
1, 4
1, 5
1, 6
1, 7

Levensthein
P
R
F
0,941 0,761 0,841
0,950 0,655 0,775
0,951 0,645 0,769
0,972 0,637 0,770
0,965 0,507 0,665
0,964 0,483 0,643
0,962 0,463 0,625

P
0,941
0,940
0,940
0,940
0,939
0,939
0,938

Hamming
R
F
0,289 0,442
0,284 0,436
0,284 0,436
0,284 0,436
0,279 0,430
0,279 0,430
0,279 0,430

tabela 5: Resultados dos testes aos algoritmos de edio de distncia.


Da comparao entre o algoritmo Levensthein e o Hamming em Exp1,1 podemos
verificar que os valores da preciso so semelhantes, o que indica que a percentagem de notcias consideradas similares que realmente o so (true positive) igual.
Para o mesmo caso podemos verificar uma melhoria para o algoritmo Levensthein
para o recall.
OSLa volume 7(1), 2015

encadear: encadeamento automtico de notcias

[173]

Similaridade - Fator Tempo


O resultado obtido desta anlise pode ser observado no grfico apresentado na Figura 10. Como podemos constatar pela anlise do grfico, o aumento do intervalo
de tempo faz com que os valores se tornem constantes. Ao alargar o intervalo
de tempo de 24 para 48 horas no h variao nos valores de precision, recall e da
mtrica F1 .

figura 10: Valor da mtrica F1 obtido pelos diferentes algoritmos nos diferentes
intervalos de tempo.

Similaridade - Determinao Semelhana


Os resultados dos algoritmos de aprendizagem supervisionados na determinao
da similaridade podem ser observados na Tabela 6. Pela visualizao da tabela
possvel constatar que apesar do valor do recall ser baixo, o valor obtido pela
precision alto, o que garante a elevada qualidade da informao recolhida. O
algoritmo que apresenta um melhor desempenho o SVC Linear.

Decision Tree
SVC
SVC Linear
Random Forest

P
0,863
0,931
0,938
0,803

R
0,679
0,508
0,561
0,542

F1
0,760
0,657
0,702
0,647

A
0,998
0,997
0,998
0,998

tabela 6: Resultado mdio das mtricas de avaliao obtidas pelo k fold cross validation.

OSLa volume 7(1), 2015

[174]

abreu, teixeira & oliveira

Extrao de Termos Relevantes


Os resultados da extrao de termos relevantes pode ser observado na Tabela 7. A
representatividade das palavras extradas face informao contida nas notcias
de: 73,2% para as palavras isoladas, 76,2% para as expresses e 80.4% para as
entidades.
Palavras
Expresses
Entidades

Avaliao
0,732
0,762
0,804

tabela 7: Avaliao dos termos chave.

Ligaes entre agrupamentos


Na Tabela 8 so apresentados os resultados da preciso para as ligaes entre
agrupamentos. A partir da anlise dos resultados podemos verificar que o mtodo
com um melhor desempenho o SVC Linear e que em 93.3% dos casos analisados
as ligaes entre notcias so verdadeiras.
Exp
2, 1
2, 2
2, 3
2, 4

SVC
0.931
0.921
0.906
0.931

Decision
Tree
0.849
0.821
0.764
0.834

Random
Forest
0.859
0.852
0.824
0.858

tabela 8: Valor da preciso na determinao de ligaes entre agrupamentos de


notcias.

[6.2] Anlise dos resultados obtidos


Similaridade - Algoritmos de Edio de Distncia
Dos resultados obtidos nestas experincias, podemos observar na Tabela 5 que o
algoritmo Jaro o que apresenta a nvel global um pior desempenho. No entanto,
segundo estudos realizados, este algoritmo tem um melhor desempenho aquando
da comparao de pequenas strings (Bilenko et al. 2003), o que no acontece no
domnio das notcias. Os valores da preciso entre a utilizao do algoritmo Levensthein e o Hamming so muito prximos, obtendo o algoritmo Levensthein ao
longo das diferentes experincias um melhor desempenho nesta mtrica. Comparando as restantes mtricas de avaliao, para estes dois algoritmos, possvel
observar que o Levensthein obtm uma melhor performance a nvel da mtrica reOSLa volume 7(1), 2015

encadear: encadeamento automtico de notcias

[175]

call, o que significa que consegue detetar mais casos do que o Hamming. Uma razo
para que isto suceda est relacionado com uma particularidade deste ltimo algoritmo que a comparao de strings do mesmo comprimento; a nvel da mtrica
F1 , tambm o Levensthein obtm um melhor resultado. Atravs da anlise efetuada a estes trs algoritmos possvel concluir que o Levensthein o algoritmo mais
indicado para o clculo da similaridade entre pares de notcias.

Similaridade - Fator Tempo


Um fator importante para a comparao das notcias a sua data de publicao.
Dos resultados apresentados, os algoritmos que apresentam uma melhor preciso
so o SVC e o SVC Linear. Sendo que destes dois, o SVC Linear tem um desempenho superior a nvel do recall e da mtrica F1 . Relativamente questo temporal,
podemos perceber, que todos os algoritmos tm um comportamento semelhante
medida que o intervalo temporal aumenta. Pela anlise do grfico possvel
verificar que no existem variaes dos resultados quando o intervalo de tempo
alargado de 24 para 48 horas. Isto pode indicar que os casos de notcias duplicadas ou quase duplicadas surgem quase sempre num intervalo inferior ou igual
a 24 horas. Com base nos resultados obtidos constatou-se que um intervalo de
tempo de 24 horas era o mais adequado para a comparao de notcias.
Similaridade - Determinao Semelhana
Para a determinao da similaridade das notcias, os algoritmos que apresentam
um melhor desempenho, considerando o T = 24 horas, so: a nvel da preciso
o SVC Linear (93.8%) e SVC (93.1%) ; em relao mtrica recall e a mtrica F1 o
Decision Tree (67.9% e 76.0%) e SVC Linear (56.1% e 70.2%). Comprando o desempenho dos diferentes algoritmos para as diferentes fases de processamento e tendo
em conta as opes escolhidas a nvel de algoritmo de clculo da similaridade e intervalo de tempo considerado, podemos constatar que o algoritmo que apresenta
um melhor desempenho a nvel global o SVC Linear.
Extrao de Termos Relevantes
A avaliao manual relevncia das palavras-chave extradas consistiu em analisar a representatividade dos termos extrados do texto em relao ao contedo
da notcia. O resultado da avaliao a estes elementos pode ser observada na Tabela 7. Os resultados indicam que 73,2% das palavras, 76,2% das expresses e 80,5%
das entidades so representativas do conjunto. Atravs da anlise ao teor dos termos extrados foi possvel constatar que as palavras relevantes dizem respeito a
palavras que descrevem de forma genrica o contedo da notcia; por sua vez, as
expresses relevantes j transmitem com mais especificidade o assunto da notcia.
No exemplo das notcias sobre o desaparecimento do Avio da Malaysia Airlines,
temos como palavra relevante avio e como expresso avio Malaysia Airlines.
OSLa volume 7(1), 2015

[176]

abreu, teixeira & oliveira

Ligaes entre agrupamentos


Da anlise aos resultados obtidos pela comparao da Exp2,1 com a Exp2,2 , em
que o que foi modificada a frmula de clculo da distncia entre as palavras isoladas, possvel observar que todos os algoritmos conseguem um melhor desempenho considerando a frmula de clculo D1; face diferena da preciso entre os
algoritmos: 0.010 no SVC Linear; 0.028 no Decision Tree e 0.007 no Random Forest .
Estabelecendo uma comparao entre as experincias Exp2,1 e a Exp2,3 , que divergem apenas na frmula de clculo da distncia entre as entidades, temos que:
a utilizao da frmula D2 no clculo da proximidade de entidades entre dois conjuntos reflete um aumento de desempenho. Confrontando os valores obtidos para
a experincia Exp2,1 em relao experincia Exp2,3 possvel constatar que independentemente do algoritmo de aprendizagem supervisionada os resultados
da Exp2,1 so os que apresentam um melhor desempenho. Os valores da preciso
obtidos para a experincia Exp2,1 e a Exp2,4 so bastante prximos. Esta experincia difere da primeira na frmula de clculo da distncia entre personalidades.
A partir dos resultados obtidos conclui-se que as personalidades no tm grande
impacto na formao das ligaes comparativamente com as palavras isoladas e
entidades, uma vez que a mudana de clculo para este elemento no reflete uma
variao considervel no resultado. Podemos ainda observar que o melhor desempenho continua a ser o resultante da experincia Exp2,1 . Aps o estudo dos
resultados obtidos, podemos concluir que a frmula mais apta para cada tipo de
palavra-chave a seguinte: D1 personalidades e palavras isolada; D2 entidades; sendo que esta combinao se refere experincia Exp2,1 . Comparando
os resultados obtidos pelos diferentes mtodos de aprendizagem supervisionada
para Exp2,1 podemos observar que o mtodo com um melhor desempenho o
SVC Linear (93.1%).
[7] i n t e r fa c e

Desenvolvemos uma interface web para permitir ao leitor a navegao entre cadeias de notcias. A interface que elaboramos pode ser observada na Figura 11.
A interface composta por cinco seces distintas. A primeira seco permite que o utilizador defina as caractersticas das cadeias de notcias a visualizar. permitido definir o intervalo temporal, a categoria das notcias e ainda as
palavras-chave. A segunda seco, informa o utilizador quais as caractersticas
das histrias que esto representadas na interface.
As histrias so representadas visualmente na terceira seco. O grfico com
a representao das histrias pode ser repartido em trs elementos interconectados. Comeando pela parte inferior do grfico, em 3.3, as linhas representam
os agrupamentos de notcias existentes. O comprimento destas barras varia consoante o nmero de notcias que compe cada agrupamento. Na parte superior
do grfico, em 3.1, os arcos representam as ligaes existentes entre os agrupaOSLa volume 7(1), 2015

encadear: encadeamento automtico de notcias

[177]

figura 11: Interface do sistema.


mentos de notcias (em 3.3). A barra situada em 3.2 posiciona temporalmente a
informao apresentada (em 3.1 e 3.3).
A informao presente na quarta seco varia consoante a interao do utilizador com o grfico. Se o utilizador navegar sobre a parte 3.3 do grfico a informao que aparece nesta seco informa o utilizador das caractersticas do agrupamento. Porm, se o utilizador navegar na parte 3.1 do grfico, a informao
contida na seco quatro informar o utilizador da histria noticiosa. A quinta
seco apresenta a lista de palavras-chave mais relevantes dentro do intervalo
temporal considerado.
A Figura 12 apresenta parte de uma cadeia obtida pelo sistema (para a categoria Cultura de 31 de Janeiro at 17 de Fevereiro de 2014). A interface ser
brevemente lanada ao pblico.
[8] c o n c l u s e s e t r a b a l h o f u t u r o

Este artigo pretende definir e avaliar tcnicas para o encadeamento automtico


de notcias com vista construo de histrias noticiosas temporais. A abordagem
utilizada para a criao das cadeias baseia-se: (i) deteo de notcias (quase) duplicadas e (ii) a criao de ligaes entre notcias relacionadas ao longo do tempo.

OSLa volume 7(1), 2015

[178]

abreu, teixeira & oliveira

figura 12: Parte de uma cadeia obtida pelo sistema.

Para a deteo de notcias duplicadas usamos uma abordagem baseada na semntica para o clculo da similaridade entre notcias. Foi tambm utilizado um algoritmo de aprendizagem supervisionado na determinao da semelhana entre
as mesmas. Adicionalmente, as notcias incluem informao temporal e, tal como
acreditvamos, existe um intervalo onde h uma maior tendncia para o aparecimento de notcias cujo grau de similaridade aponta para a (quase) duplicao.
O nosso estudo indicou que tendencialmente as notcias consideradas duplicadas
aparecem num intervalo inferior a 24 horas. A nossa abordagem, para a determinao de notcias cujo grau de similaridade as classifica como (quse) duplicadas,
num intervalo de tempo de 24 horas, obteve uma preciso de 93.8% quando usado
o par Levenshtein, SVC Linear.
Para a criao de ligaes entre grupos de notcias similares, a nossa abordagem consistiu na medio do grau de semelhana entre os diferentes grupos. Para
esta etapa, sugerimos uma nova forma de medio de distncia que tem em conta
os termos em comum e a expresso de cada termo nos agrupamentos de notcias
similares. Para a determinao das ligaes, foram tambm utilizados algoritmos
de aprendizagem supervisionada. A abordagem proposta para a realizao desta
segunda tarefa apresenta uma preciso de 93.1%. Este resultado, no representa,
no entanto a preciso global do sistema, uma vez que h propagao de erro entre
as vrias etapas.
OSLa volume 7(1), 2015

encadear: encadeamento automtico de notcias

[179]

Como trabalho futuro ser importante criar testes mais exaustivos e objetivos
para as cadeias de notcias. Tais testes, consistiro, entre outros melhoramentos,
na medio da familiaridade do leitor com um tema em especfico antes e depois
da utilizao da plataforma e na medio do erro propagado pelo sistema.
Tambm pretendemos melhorar o sistema atravs da:(i) introduo de sumrios das notcias, (ii) deteo de novos factos e (iii) hierarquizao de notcias.

agradecimentos
Agradecemos a colaborao do Labs SAPO UP pela disponibilizao dos dados utilizados neste trabalho.

referncias
Allan, James, Jaime G. Carbonell, George Doddington, Jonathan Yamron & Yiming
Yang. 1998a. Topic detection and tracking pilot study final report. Em Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop,
194218.
Allan, James, Ron Papka & Victor Lavrenko. 1998b. On-line new event detection
and tracking. Em Proceedings of the 21st annual international ACM SIGIR conference
on research and development in information retrieval, 3745. ACM.
Banerjee, Somnath, Krishnan Ramanathan & Ajay Gupta. 2007. Clustering short
texts using Wikipedia. Em Proceedings of the 30th Annual International ACM SIGIR
Conference on Research and Development in Information Retrieval, SIGIR 07, 787788.
ACM.
Bilenko, Mikhail, Raymond Mooney, William Cohen, Pradeep Ravikumar &
Stephen Fienberg. 2003. Adaptive Name Matching in Information Integration.
IEEE Intelligent Systems 18(5). 1623.
Elmagarmid, Ahmed K., Panagiotis G. Ipeirotis & Vassilios S. Verykios. 2007. Duplicate record detection: A survey. IEEE Transactions on Knowledge and Data Engineering 19(1). 116.
Garcia, Marcos & Pablo Gamallo. 2013. FreeLing e TreeTagger: um estudo
comparativo no mbito do Portugus. Relatrio tcnico. ProLab Technical Report, vol. 01. http://gramatica.usc.es/~gamallo/artigos-web/
PROLNAT_Report_01.pdf.
He, Matthew X., Sergei V. Petoukhov & Paolo E. Ricci. 2004. Genetic code, Hamming distance and stochastic matrices. Bulletin of mathematical biology 66(5).
14051421.
OSLa volume 7(1), 2015

[180]

abreu, teixeira & oliveira


Kumar, J. Prasanna & P. Govindarajulu. 2009. Duplicate and Near Duplicate Documents Detection: A Review. European Journal of Scientific Research 32. 514527.
Kumar, Ravi, Uma Mahadevan & Alan D. Sivakumar. 2004. A Graph-theoretic Approach to Extract Storylines from Search Results. Em Proceedings of the tenth
international conference on knowledge discovery and data mining, 216225.
Lawrie, Dawn & W Bruce Croft. 2000. Discovering and Comparing Topic Hierarchies. Em Proceedings of the RIAO 2000 conference, 314330.
Levenshtein, Vladimir. 1965. Binary Codes Capable of Correcting Deletions, Insertions and Reversals. Doklady Akademii Nauk SSSR 163. 845848.
Li, Tao, Shenghuo Zhu & Mitsunori Ogihara. 2007. Hierarchical document classification using automatically generated hierarchy. Journal of Intelligent Information
Systems 29(2). 211230.
Lin, Chen, Chun Lin, Jingxuan Li, Dingding Wang, Yang Chen & Tao Li. 2012. Generating Event Storylines from Microblogs. Em Proceedings of the 21st ACM International Conference on Information and Knowledge Management, 175184.
Lin, Fu-ren & Chia-Hao Liang. 2008. Storyline-based summarization for news topic
retrospection. Decision Support Systems 45(3). 473490.
McKeown, Kathleen R., Regina Barzilay, David Evans, Vasileios Hatzivassiloglou,
Judith L. Klavans, Ani Nenkova, Carl Sable, Barry Schiffman & Sergey Sigelman.
2002. Tracking and summarizing news on a daily basis with Columbias Newsblaster. Em Proceedings of the second international conference on Human Language
Technology Research, 280285.
Mei, Qiaozhu & ChengXiang Zhai. 2005. Discovering Evolutionary Theme Patterns
from Text: An Exploration of Temporal Text Mining. Em Proceedings of the Eleventh ACM SIGKDD International Conference on Knowledge Discovery in Data Mining,
KDD05, 198207. ACM.
Nallapati, Ramesh, Ao Feng, Fuchun Peng & James Allan. 2004. Event threading
within news topics. Em Proceedings of the thirteenth ACM international conference
on Information and knowledge management, 446453.
Oliveira, Pedro. 2008. Ptstemmer - a stemming toolkit for the portuguese language. Obtido em Maio 2014. http://code.google.com/p/ptstemmer.
Pedregosa, Fabian, Gael Varoquaux, Alexandre. Gramfort, Vicent Michel, Bertrand Thirion, Oliver Grisel, Mathieu Blondel, Peter Prettenhofer, Ron Weiss,
Vicent Dubourg, Jake Vanderplas, Alexandre Passos, David Cournapeau,

OSLa volume 7(1), 2015

encadear: encadeamento automtico de notcias

[181]

Matthieu Brucher, Matthieu Perrot & douard Duchesnay. 2011. Scikit-learn:


Machine learning in Python. Journal of Machine Learning Research 12. 28252830.
Qamra, Arun, Belle Tseng & Edward Y Chang. 2006. Mining blog stories using
community-based and temporal clustering. Em Proceedings of the 15th ACM international conference on Information and knowledge management, 5867. ACM.
Schmid, Helmut. 1994. Probabilistic Part-of-Speech Tagging Using Decision Trees.
Em International Conference on New Methods in Language Processing, 4449.
Shahaf, Dafna & Carlos Guestrin. 2010. Connecting the Dots Between News Articles. Em Proceedings of the 16th International Conference on Knowledge Discovery and
Data Mining, 623632.
Sun, Aixin & Ee-Peng Lim. 2001. Hierarchical text classification and evaluation.
Em Proceedings IEEE International Conference on Data Mining, 521528.
Ullmann, Julian R. 1977. A binary n-gram technique for automatic correction of
substitution, deletion, insertion and reversal errors in words. The Computer
Journal 20(2). 141147.
Vadrevu, Srinivas, Choon Hui Teo, Suju Rajan, Kunal Punera, Byron Dom, Alexander J. Smola, Yi Chang & Zhaohui Zheng. 2011. Scalable clustering of news
search results. Em Proceedings of the fourth ACM International Conference on Web
Search and Data Mining, wsdm11, 675684. ACM.
Waterman, Michael S., Temple F. Smith & William A. Beyer. 1976. Some biological
sequence metrics. Advances in Mathematics 20(3). 367387.
Yancey, William E. 2005. Evaluating string comparator performance for record
linkage. Relatrio tcnico. Statistical Research Division. http://www.census.
gov/srd/papers/pdf/rrs2005-05.pdf.

c o n ta c t o s
Carla Abreu
Faculdade de Engenharia da Universidade do Porto
cfma@fe.up.pt
Jorge Teixeira
Faculdade de Engenharia da Universidade do Porto
jft@fe.up.pt
Eugnio Oliveira
Faculdade de Engenharia da Universidade do Porto
eco@fe.up.pt
OSLa volume 7(1), 2015

Simes, Barreiro, Santos, Sousa-Silva & Tagnin (eds.) Lingustica, Informtica e Traduo: Mundos
que se Cruzam, Oslo Studies in Language 7(1), 2015. 183206. (ISSN 1890-9639 / ISBN 978-8291398-12-9)
http://www.journals.uio.no/osla

affinity mining of documents sets


via network analysis,
keywords and summaries
PAVEL BRAZDIL, LUS TRIGO, JOO CORDEIRO,
RUI SARMENTO AND MOHAMMADREZA VALIZADEH

resumo
Encontrar pessoas com interesses semelhantes dentro de um domnio pode
fornecer um importante auxlio na gesto de centros de investigao. Como
a produo acadmica facilmente obtida em bases de dados bibliogrficas
e acadmicas, estas podem ser usadas para descobrir as afinidades entre os
investigadores que no estejam j evidenciadas pela co-autoria. Este processo de descoberta d-se com a ajuda de tcnicas de anlise de texto, na
base dos termos utilizados nos respectivos documentos. A afinidade pode
ser representada em forma de rede, em que os ns representam os artigos
de cada investigador e as ligaes representam similaridade entre os diferentes investigadores. Cada n pode ser caracterizado atravs de diversas
medidas de centralidade na rede e algoritmos de deteco de comunidades
permitem identificar grupos com interesses semelhantes. Cada n ainda
caracterizado por um conjunto de palavras-chave e resumos descobertos
automaticamente com a ajuda de tcnicas avanadas. Este artigo fornece
mais detalhes sobre os mtodos adoptados e/ou desenvolvidos, alguns dos
quais foram implementados no nosso prottipo. Os mtodos descritos so
gerais e aplicveis a muitos domnios diferentes, incluindo documentos que
descrevem projetos de I&D, documentos associados a legislao, processos
judiciais ou procedimentos mdicos. Acreditamos deste modo que este trabalho pode ser til para um pblico relativamente amplo.
[1] i n t r o d u c t i o n

Researchers seek to discover other researchers with similar interests to follow


their work and plan future collaborations. At management level, this knowledge enables to identify suitable researchers for a given task, which precedes the
implementation of partnerships with other institutions and researchers policies.
Another advantage of this analysis is that it goes beyond the formal hierarchical
framework within the organization, thereby revealing its unknown connections
that can be followed up.
The main scientific contribution is beyond re-using standard techniques of
text mining to bibliographic databases, but rather using these techniques to ob-

[184]

brazdil, trigo, cordeiro, sarmento & valizadeh


tain two kinds of graphs, co-authorship and affinity graphs, and exploring a differential analysis with the aim of identifying new useful knowledge.
Our aim is to focus on affinity analysis between certain R&D centers for various reasons: First, the outcome of the study may be useful to these centers. It
may propose that certain collaborations be initiated. Besides, the outcomes of
automatic analysis may be easily verified by some members of these centers. This
research could be extended later to cover a larger set of centers.
Regarding the particular bibliographic database, we have chosen Authenticus1 ,
as its design is based on Buglas work and was adopted by the University of Porto.
It has the advantage that it retrieves publications from several other bibliographic
databases (incl. e.g. SCOPUS).
Regarding the discovery of similarities between researchers, Price et al. (2010)
developed a methodology for the Web, called SubSift, which enabled to establish
profiles for researchers on the basis of researchers publications. Based on these
profiles, a typical Information Retrieval task is performed aiming to compare the
papers submitted to a scientific conference (playing the role of Query in IR) with
different profiles, in order to optimize the task of distributing articles to review.
A similar idea was followed by Trigo & Brazdil (2014), although the aim in
this work was different to uncover affinity among researchers that are not evidenced by co-authorship. Various researchers have analyzed co-authorship networks (e.g. Bugla 2009; Choobdar et al. 2012), but no one to our best knowledge
has analyzed the differences between the two types of information. To uncover
these we resort to many diverse techniques.
The publications titles are extracted into plain text files, each representing
a particular author. The text files are retrieved and preprocessed in the usual
manner. We use bag-of-words (BoW) and vector representation (Feldman & Sanger
2007), but perform usual preprocessing including removal of numbers, stop-words,
punctuation and other spurious elements. After this task, the list of documents is
transformed into a document-term vector representation with tf-idf weighting.
The vector representation is used to generate the cosine similarity matrix. This
matrix can be visualized in the form of a graph and is used as the basis for further
processing following (Iacobucci 1994).
After transforming the similarity matrix into a graph format, we use the community discovery algorithm. There are many approaches that could be used for
this aim. Here we mention one of them Walktrap (Pons & Latapy 2006). This
technique finds densely connected sub-graphs, also referred to as communities,
through random walks. It assumes that short random walks tend to stay in the
same community.

[1]
OSLa volume 7(1), 2015

Authenticus bibliographic database. https://authenticus.up.pt/.

affinity mining of documents sets via network analysis

[185]

The affinity network enables to calculate certain measures of importance of


the researchers within their affinity group and in the context of different communities. This involves different centrality measures (Wasserman & Faust 1994).
The degree centrality is based on the number of connections to a vertex. The betweenness centrality indicates the number of times a vertex joins two other vertices
on the shortest path. The eigenvector centrality shows the importance of vertices
that connect to a given vertex. Some centrality measures can be computed to
account for different weights of the connections.
Our work is also concerned with the problem of characterizing each individual/subgroup with appropriate keywords or short summaries. This is important, as the user does not only want to identify individual subgroups, but also
see what distinguishes them. In terms of distinction, we can consider techniques
from forensic linguistic analysis (Sousa-Silva et al. 2010) to better shape the subgroup/author textual boundaries. As for automatic keyword generation, there
are really many approaches that could be followed. In our previous studies we
have explored the approach of TextRank (Mihalcea & Tarau 2004), who used a
graph-based language independent key phrase extractor. They explored the fact
that many multi-word units can be identified by looking at relative positions in
which these occur. This is because there is a tendency for a pair of single-words to
co-occur in fixed positions relatively to each other. We plan to evaluate different
approaches in the future and adopt the one that achieves the best results.
Besides keywords, users / documents can also be characterized using automatically generated summaries. Automatic text summarization (ATS) aims at the
transformation of textual information into a more humanly tractable representation. Normally, this transformation involves a reduction of the original text by
eliminating the irrelevant portions, while maintaining the most relevant ones.
In this area, a great number of methods have been experimented throughout
the last twenty years, following mainly extractive approaches (EA) (Erkan & Radev
2004; Wei et al. 2008; Valizadeh & Brazdil 2015, 2014), which basically summarizes
texts by selecting the most relevant sentences. One rather successful approach
uses supervised learning to do this (Valizadeh & Brazdil 2015). It tries to enhance
the coherence of the summary by trying to detect a particular kind of anaphoric
chain actor-object relationship (AOR) between sentences. The sentences that
satisfy this relationship have their importance value enhanced.
Extractive approaches have the disadvantage that they permit the inclusion
of rather long sentences into the summary. We have tried to overcome this by
generating shortened versions of such sentences with the help of machine learning methods (Cordeiro et al. 2013). However, other possible transformations /
reformulations could be considered in the future. We intend to explore them in
collaboration with linguists from the Faculty of Arts of the University of Porto
(FLUP).
OSLa volume 7(1), 2015

[186]

brazdil, trigo, cordeiro, sarmento & valizadeh


[2] m e t h o d o l o g y

This section presents the main steps undertaken to uncover the unknown information regarding affinities. The method involves the following steps:
(i) Identify institutions and obtain researchers names;
(ii) Use web/text mining to process researchers publications;
(iii) Elaboration of similarity matrix and visualization as a graph;
(iv) Discovering potential communities linked by affinities;
(v) Elaboration of a co-authorship graph and differential analysis of graphs;
(vi) Identification of important nodes (researchers) in the graph;
(vii) Characterization of nodes using keywords;
The details about all these steps are given in the following sub-sections. Additional functionalities that are not part of the implemented prototype include:
(i) Characterization of nodes using summaries;
(ii) Learning to generate shortened sentences for summaries.
The details about all these steps are given in the section [3].

[2.1] Identify institutions and obtain researchers names


Our pilot study was carried out in conjunction with a dataset that includes approximately 3000 publications of about 100 researchers belonging to 5 different
R&D centers of INESC Tec (LIAAD, CRACS, CESE, CTM and CEGI). This data was provided by the authors of Authenticus database discussed further on. Therefore we
did not require any sophisticated procedure to obtain this. However, in general,
it may be necessary to retrieve this information from websites and so in the rest
of this section we describe the method.
Each research institution has normally a webpage listing their researchers.
Lists of researchers can be extracted by building an expression in the XPath query
language to obtain their names from the website. Regarding implementation, different languages can be used. We have used R and exploited its tm package for part
of text mining and the XML package for web mining.
Each researchers name can be used in the search through the chosen bibliographic database, such as DBLP, which enables direct access to each researcher
list of publications. The retrieval of publications can be done automatically, using XPath expressions. However, a problem of named entity identification arises
here. Typically, one of the variants will appear on the institution site, which may
OSLa volume 7(1), 2015

affinity mining of documents sets via network analysis

[187]

not match the name used in the bibliographic database. Also, as researchers may
have several variants of their name, several entries may exist in the bibliographic
database for the same researcher. So these issues need to be resolved.
It could be argued that the researchers names might not be retrieved from
the web pages of a particular research institution / R&D center, as these appear
in the articles. This approach has, however, a disadvantage that the set of research institution / R&D centers would grow, as more articles would be encountered and processed. We prefer to restrict the number of R&D centers to a certain
pre-defined set.
Another problem is that we may have several investigators with the same
name in the bibliographic database. One of the techniques used by Bugla (2009)
is the following. To determine whether a given publication of P in some bibliographic database should be attributed to person P on a given site, a check is made
whether both (i.e. P and P ) have the same home institution. Various other researchers have investigated the issue of determining whether several variants of
one name belong to the same author and various methods have been proposed
(e.g. Santos & Ribeiro 2011).
Regarding the particular bibliographic database, we have chosen Authenticus
database, which was developed by the University of Porto, because it retrieves
publications from several other bibliographic databases (incl. SCOPUS, Google
Scholar, ISI Web of Science, DBLP and Orcid). In the work reported here, we were
able to skip many of the Web/Text Mining steps just described, as we were provided with a database that included all relevant information.

[2.2] Use web/text mining to process researchers publications


The publications titles are extracted into plain text files, each representing a particular author. The text files are retrieved and preprocessed in the usual manner.
We have used BoW representation, removed numbers, stop-words, punctuation
and other spurious elements. After this task, the list of documents is transformed
into a document-term vector representation with tf-idf weighting (Feldman &
Sanger 2007).
[2.3] Elaboration of similarity matrix and visualization as a graph
The vector representation described in the previous step is used to generate the
cosine similarity matrix. This matrix can be visualized in the form of a graph and
is used as the basis for further processing following (Iacobucci 1994). Figure 1
shows an example of an affinity graph for the R&D unit LIAAD. Each researcher
is represented by a circle and its size is related to his/her number of publications
in the Authenticus database. The thickness of the edges represents the similarity
value between pairs of researchers. The wider the line, the more similar the two
researchers are joined by this link. For simplicity all links / similarities below a
OSLa volume 7(1), 2015

[188]

brazdil, trigo, cordeiro, sarmento & valizadeh


given threshold have been considered irrelevant and removed. The value of the
threshold was chosen somewhat arbitrarily, but in future the user will be given an
option to adjust it according to his/her needs. Besides, we note that the software
determined the length of each edge automatically. The value of similarity is taken
into account in this process. In general, the nodes with high similarity appear
closer than others.

figure 1: Researcher affinity network for R&D center LIAAD of INESC Tec

Visualization tools
Visualization tools play an important role in data analysis, as visual information
organization enables the analyst/user to interpret and detect patterns or other
relevant information faster and more effectively. This requires developing tools
that show the information in an intuitive and interactive way.
The developed web application prototype Affinity Miner2 is based primarily on R language and an appropriate set of packages. With the data conveniently indexed we used R as a language platform for the implementation and to
represent the data which needs to be conveniently indexed.
For this task we use the shiny package (RStudio, Inc 2014) that is a web application framework. In this way, our web application can react instantly to user
inputs with the goal of changing the output displayed to the user.
[2]
OSLa volume 7(1), 2015

See http://gallicyadas.pt/affinity-miner/.

affinity mining of documents sets via network analysis

[189]

Another requirement is the output availability in remote locations and the use
of standardized frameworks and software (e.g. HTML, JavaScript etc.). The best
way of doing this is by presenting the output, including network graphs, in a web
browser. For this task we chose sigma.js library, a JavaScript library dedicated to
graph drawing (Jacomy 2013). It enables the network display on web pages and
may be used to integrate network exploration in rich web applications.

[2.4] Discovering potential communities linked by affinities


After transforming the similarity matrix into a graph format, we use the community discovery algorithm called Walktrap (Pons & Latapy 2006). This technique
finds densely connected sub-graphs, also defined as communities, through random walks. It assumes that short random walks tend to stay in the same community.
The hierarchical agglomerative approach is based on a measure of distance
between vertices (node to node). An optimal level of modularity of the network,
based on the weighted connections between internal and external community is
used by the algorithm to identify non-hierarchic communities.
Different discovered communities can be identified in the graph in different
ways. In our case we have used color to highlight different communities. In the
example shown in Figure 1 the system discovered three communities. The largest
one on the right (ochre), corresponds to machine learning / data mining subgroup. The one at the bottom of the figure (purple) corresponds the subgroup
working in optimization and operational research. Finally, the one at the top
(black) includes researchers working in mathematical modeling.
The graph elaborated on the basis of the five R&D centers of INESC Tec (Figure 2) is much more complex than the one shown on Figure 1. It includes 13 communities, some larger, others smaller. The machine learning / data mining affinity group is identified by blue color. As can be seen, it includes quite a relatively
high number of researchers belonging not only to LIAAD, but also to CRACS, CESE,
CTM and CESI. This information is available in our prototype.3
The communities discovered may not correspond to the organizational structure of the given institution. Such situation can be analyzed to determine whether
this is desirable, or else what would be the best organization to consider.
[2.5] Elaboration of a co-authorship graph and differential analysis of graphs
The generation of the co-authorship graph is a relatively simple matter. A link
between authors Ai and Aj is introduced, if they are co-authors of at least one of
the papers. After the affinity and co-authorship graphs have been constructed, it
is possible to proceed to carry out a differential analysis, following Trigo & Brazdil
[3]

Available from http://gallicyadas.pt/affinity-miner/.


OSLa volume 7(1), 2015

[190]

brazdil, trigo, cordeiro, sarmento & valizadeh

figure 2: Researcher affinity network for the 5 R&D centers of INESC Tec and identified communities
(2014). This involves constructing a graph that represents basically the difference
between the two graphs.
The following two figures illustrate this. Figure 3 shows a part of co-authorship
graph that includes some researchers of LIAAD. Figure 4 shows a part of differential graph resulting from the differential analysis. It shows all the affinity links
that do not have a corresponding link in the co-authorship graph.
For example, we note that Mrcia Oliveira has just one co-authorship link
with Joo Gama, while the differential graph shows three other affinity links
to Alpio Jorge, Pedro Campos and Pedro Quelhas Brito. These links have been
revealed by the differential analysis. Such links may be of interest firstly to the
researchers involved, but also to the management when creating new teams for
a new project.

[2.6] Identification of important nodes (researchers) in the graph


The affinity network enables to calculate certain measures of importance of the
researchers within their affinity group and in the context of different communities. This involves different centrality measures (Wasserman & Faust 1994). Degree centrality is based on the number of connections to a vertex.
Betweenness centrality indicates the number of times a vertex joins two other
vertices on the shortest path. A node with high betweenness centrality has a large
influence on the transfer of items through the network, provided that the transfer
follows the shortest paths.

OSLa volume 7(1), 2015

affinity mining of documents sets via network analysis

[191]

figure 3: A part of co-authorship graph for LIAAD

figure 4: A part of differential graph (affinity co-authorship) for LIAAD


Eigenvector centrality shows the importance of vertices that connect to a given
vertex. Some centrality measures take into account different weights of the connections.
Closeness can be regarded as a measure of how long it will take to spread information from a given node to all other nodes sequentially. It can be calculated
on the basis of farness of a given node. This measure is defined as the sum of its
distances to all other nodes. Closeness is defined as the reciprocal of the farness.
Currently, our prototype shows two of the centrality measures for a chosen
researcher (betweenness and eigenvector centrality). The centrality values are
not significant in themselves, but need to be compared to other ones. Thus we
can affirm that a particular researcher has rather high betweenness centrality,
when this value is high in relation to others.
OSLa volume 7(1), 2015

[192]

brazdil, trigo, cordeiro, sarmento & valizadeh

[2.7] Characterization of nodes using keywords


In general, it is important to have a concise description for each node that will
provide a quick overview of the content of that node. The issue of characterizing
each node with appropriate keywords enables the user to decide whether to zoom
on this node while searching for relevant information, or otherwise focus on some
other part of the network.
As for automatic keyword generation, there are really many approaches that
could be followed. Up to now we have explored the approach of Mihalcea & Tarau (2004), who used a graph-based key phrase extractor. This approach is incorporated in our prototype. The TextRank is a multi-word unit extraction algorithm that explores the centrality measure of PageRank. The latter algorithm infers the importance of a web page by the number of web pages that have links
to it, while taking also into account their relevance measure. Rather than connected pages, TextRank considers adjacent terms that may also be represented as
a graph. Terms are represented by nodes and undirected edges represent their
co-occurrence. Following the approach of PageRank, the multi-word terms that
are similar to others are used to increment their importance.
The DegExt algorithm (Litvak et al. 2011) is also based on a graph-based representation, but takes into account the order of terms in the process of constructing
directed graphs. It is assumed that the more often the terms appear linked, the
more relevant they are.
Ventura (Ventura 2014; Ventura & Silva 2013) explored the fact that many
multi-word units can be identified by looking at relative positions in which these
occur. This is because there is a tendency for a pair of single words to co-occur
in fixed positions relatively to each other. So, for instance, the multi-word unit
surgical abortion can be identified, as the term surgical co-occurs quite often in 1
position to the left from the term abortion.
We plan to re-evaluate different approaches and adopt the one that achieves
the best results.
Evaluation of keywords generated
The present quality of the characterizing keywords generated by our prototype
is quite reasonable, at least when considering some of the terms generated. So
far, we have performed an informal evaluation, by just comparing the keywords
generated with the keywords extracted from researchers web pages. We plan
to carry out a more thorough quantitative study later using conventional term
overlap metrics (e.g. precision, recall).
Let us consider some examples shown in Table 1, in which we compare the
real profile (R) expressions, characterizing two researchers from LIAAD, with the
list of key words automatically generated (S) by our current prototype.

OSLa volume 7(1), 2015

affinity mining of documents sets via network analysis


Researcher
R

Pavel Brazdil
S

R
S
Joo Gama

[193]

Keywords
Data Mining and Decision Support; Algorithm Selection via Metalearning and Planning; Meta-Learning;
Web Mining, Text Mining and Web Intelligence; Artificial Intelligence.
classification algorithm; logic programming; inductive logic programming; knowledge discovery; data mining; artificial intelligence;
Data Mining and Decision Support; Knowledge Discovery from Data Streams; Artificial intelligence
data stream; decision tree; change detection;
knowledge discovery; data mining; sensor network; artificial intelligence; classification algorithm; computer science; sensor data; decision
support system;

table 1: Comparison of the automatically selected keywords (S) with their real
keywords (R) obtained from web pages
Table 1 shows that several keywords agree well with the real ones, identified by the researchers on their web pages. It appears that the real expressions
are more meaningful and would lead to better thematic assessment. In this area
it is important to avoid both too general keywords (e.g. computer science) and
too specific ones. This reveals the need for further studies in this area, which is
related to the problem of summarization using short sentences or snippets discussed next.
[3] c h a r a c t e r i z at i o n o f n o d e s ( r e s e a r c h e r s ) u s i n g s u m m a r i e s

[3.1]

Extractive summarization of nodes (researchers)

Nodes (representing individuals with associated sets of documents) can also be


characterized using automatically generated summaries. Automatic text summarization (ATS) aims at the transformation of textual information into a more humanly tractable representation. Normally, this transformation involves a reduction of the original text by eliminating the irrelevant portions, while maintaining
the most relevant ones. This approach is referred to as extractive summarization.
An alternative to this is abstractive summarization whose aim is to produce a short
text and the process can include reformulation of the given set of sentences. In
this section we will focus on extractive summarization. The methods can be divided into unsupervised approaches and supervised ones. Both will be discussed
in the following in some detail.
OSLa volume 7(1), 2015

[194]

brazdil, trigo, cordeiro, sarmento & valizadeh

Unsupervised graph-based approaches


One key work in this area is that of Erkan & Radev (2004) who proposed a graphbased method, referred to LexRank, where nodes represented sentences and links
between two sentences the measure of similarity between them. PageRank algorithm was adopted to enhance the importance of nodes (sentences). Thus a node
(sentence) that is similar to many other important nodes (sentences) is likely to
end up with a high score. Sentences were then selected according to the score.
The main steps of this approach are shown in Figure 5.

figure 5: Basis steps in unsupervised graph-based summarization


Otterbacher et al. (2005) adapted LexRank algorithm to topic-sensitive multidocument summarization. This algorithm is known as T-LexRank. Wan et al.
(2006) proposed a topic-sensitive graph-based model that was used for a querybased multi-document summarization. They used two graphs to show inter- and
intra-links in query-oriented multi-document summarization.
Wei et al. (2008) extended the previous work in two aspects: First, by using the
centroid value of words in the algorithm for generic summarization task and second, by exploiting similarity between documents in query-based multi-document
summarization task. They showed that their algorithms, DsR-G and DsR-Q, lead
to better summaries than earlier approaches.
We have improved these algorithms further (Valizadeh & Brazdil 2015). The
improvement was mainly due to the inclusion of the concept of density (as an alternative to centroid) to the sentence ranking method. This was done both for
generic and query-based multi-document summarization. The resulting algorithms, DensGSD and DensQSD lead to further improvements of summaries, as
judged by the ROUGE measure (Lin 2004).

Supervised approaches for summarization


The aim of both unsupervised and supervised approaches is to generate a score
for each sentence. The score is used to rank the given sentences and the sentences
with the highest score are selected for the summary. However, the approaches
differ in the way they calculate the score. The unsupervised graph-based approaches derive the score from a graph. The supervised methods used training
data to construct a model with the help of machine learning (ML) methods. The
model is used to predict the score (Toutanova et al. 2007; Ouyang et al. 2011; Valizadeh & Brazdil 2015).

OSLa volume 7(1), 2015

affinity mining of documents sets via network analysis

[195]

The training data for supervised methods is in the form of a list of sentences
S1 . . . Sm , each characterized by a set of n features and a score, which represents
the target variable.
< S1i , f11i , . . . , f1ni , score1i >
< S2i , f21i , . . . , f2ni , score2i >
..
.
< Smk , fm1k , . . . , fmnk , scoremk >

Machine Learning

Modelu

figure 6: Training data for creating a model for a given document set DS
This scheme is illustrated in Figure 6. The index i (or k) represents a particular
document, index u a particular human summarizer who has supplied the golden
standard summaries.
Various features were proposed in the past. The features of Ouyang et al.
(2011) were sentence length without stop-words, sentence position, average tf-idf, sentence to query similarity, among others.
Valizadeh & Brazdil (2014) enriched this set with some features that were derived from the graph-based representation, such as sum of similarities between current sentence and other sentences, number of nonzero links sentence rank of T-LexRank,
besides others which lead to marked improvements in the quality of summaries.

Enhancing the coherence of summaries by detecting actor-object relationship (AOR) between sentences
Ideally, the sentences selected into the summary based on their scores should
be coherent and supplement each other in their meaning. One method that can
model this is by detecting a special case of direct anaphora, which was studied by
Valizadeh & Brazdil (2015). This occurs when one sentence introduces an object
that plays the role of an actor or a subject in another sentence. This relationship
is referred to shortly as actor-object relationship (AOR). The sentences that satisfy
this relationship have their score value enhanced.
To be able to do this, it is necessary to use a parser. The authors have opted for
the Stanford dependency parser, as it is freely available (de Marneffe et al. 2006).
The parser returns, for each sentence, a set of relations of the type tag(ti , tj ),
where tag characterizes the relationship between the terms ti and tj . The tags
that were exploited in this work were, for instance, dobj, representing the direct
object of the verb, nsubj(tj , tk ), representing a nominal subject/actor of the action. One example of a tag is dobj(seize 47, compound 51). The items 47 and
51 represent identifiers determining where the words seize and compound appear
in the parse tree.
OSLa volume 7(1), 2015

[196]

brazdil, trigo, cordeiro, sarmento & valizadeh


The summary (SS) is generated sentence by sentence from the candidate ranked
list (CS) for the test document set. The sentence with the highest score is selected
for the summary (SS). After this, the combined ranked list (CS) is updated taking
into account the sentence chosen for SS, AOR and MMR. Here, MMR represents the
Maximum Marginal Relevance approach described by others (Carbonell & Goldstein 1998). Figure 7 illustrates how the AOR relationship is detected. It shows
that the object of sentence number 3 in the summary is the nominal subject of sentences number 1 and 4 in the ranked list CS. Consequently, the scores of these
sentences are increased.

figure 7: Detecting certain dependency parser patterns


If the AOR relationship has been detected, the corresponding score of the sentence in the candidate ranked list (CS) is increased by
(Score(Shighscore ) Score(Si ))
where, Score(Si ) denotes the score of sentence Si in the candidate ranked list CS,
Score(Shighscore ) the score of the selected sentence for the summary (i.e. in SS) in
the previous round. Moreover, is a parameter which determines the influence
of this rule. Setting it to a high value means that the user would like AOR to have
a strong effect on the sentence selection. The increased score of sentence Si will
increase the chance that this sentence will be selected into the summary.
After updating the sentence scores, the highest scored sentence in the candidate ranked list CS is selected to be included in the summary. This process is
continued until the length limitation of the summary has been reached.
Valizadeh & Brazdil (2015) confirmed that this approach improves the quality
of summaries significantly, as judged by the ROUGE values. As was shown here,
this method enables to detect certain cases of direct anaphora, enhancing thus
coherence between pairs of sentences in the summary. It is thus not surprising
that this has a positive effect on the ROUGE score. ROUGE compares the generated
OSLa volume 7(1), 2015

affinity mining of documents sets via network analysis

[197]

summary with human summaries and the latter tend to be more coherent than
the ones generated previously by automatic methods.

[3.2] Learning to generate shortened versions of sentences


The art of being concise requires the ability to communicate ideas through a very
short representation. In textual communication, this means not only to use fewer
sentences but also choose the simpler and shortest ones. The aim is to achieve
maximum efficiency. One particular line is concerned with characterizing texts
with short snippets, that is, parts of the original sentences. Snippets are not
so different to multi-word keywords. These can be obtained from the original
sentences through various methods, like sentence decomposition and reduction
(Cordeiro et al. 2013).
In the past decade, a number of works has been carried out in the field of
sentence reduction. There is the work of Knight & Marcu (2002) who applied two
machine-learning methods a Bayesian model (noisy channel) and Decision Tree
based model. This work was taken further by Galley & McKeown (2007) who explored probabilistic synchronous context free grammars (CFG). Clarke & Lapata
(2006) proposed a hybrid system, where the sentence compression task is defined
as an optimization of an integer-programming problem. Despite the fact that it
is an unsupervised approach, it is completely knowledge driven, by a set of handcrafted rules and heuristics that are incorporated to solve the optimization problem.
More recently Cohn & Lapata (2008, 2009) addressed a more complex issue of
abstractive sentence compression/transformation by using a discriminative treeto-tree transduction model, through a supervised learning setting. This work
brings in new directions to the field, but still relies on supervised learning and
deep linguistic analysis.
All of the above approaches rely on supervised learning or inclusion of manual
knowledge. This is obviously a disadvantage. Normally, a training set of sentence
reduction cases, manually selected and/or hand-crafted, is used, which is limiting
in terms of scalability and applicability. Cordeiro et al. (2013) have pioneered a
new approach were the training data is automatically collected from texts available on the web. Their aim was to develop an unsupervised scalable methodology
for learning sentence reduction rules. In this work three important assumptions
were made: (1) Only word deletions are possible and no substitutions or insertions allowed; (2) The word order is fixed; (3) The scope of sentence compression
is limited to isolated sentences and the textual context is not taken into account.
In other words, the compressed sentence must be a subsequence of words of the
source sentence, which should retain the most important information and remain
grammatical.

OSLa volume 7(1), 2015

[198]

brazdil, trigo, cordeiro, sarmento & valizadeh


The methodology is based on a pipeline shown in Figure 6. First, some news
sites are crawled with the aim of retrieving news stories about a certain topic.
The news items are clustered by topic. The next step involves alignment and extraction of paraphrases, using text surface similarity measures (Cordeiro et al.
2007b) and specific alignment algorithms (Cordeiro et al. 2007a). Then pairs of
paraphrases, are transformed into first order logic clauses, additionally enriched
with certain linguistic knowledge. An example of a pair of paraphrases is shown
in Figure 9.

figure 8: The pipeline architecture for learning sentence reduction rules from
web news text.

figure 9: Example of a paraphrasic sentence pair, automatically extracted and


aligned.
The massive corpus of aligned paraphrases is used to generate sentence reduction rules, with the help of a specific machine learning algorithm. The authors have opted for an Inductive Logic Programming (ILP) system Aleph (Srinivasan
2004). In this process, a combination of lexical and syntactical features is exploited: word tokens, part-of-speech tags, and phrase tags. For the syntactical
tags, the Penn Treebank tag set was used. Figure 10 shows a pair of sentence reduction cases enriched by additional tags.

figure 10: Two sentence reduction cases with three kinds of features highlighted.
OSLa volume 7(1), 2015

affinity mining of documents sets via network analysis

[199]

The learning process yields a relatively large set of reduction rules which can
then be applied to new sentences. A combination and even a composition of several reduction rules can be applied to a single sentence. The reduction rules incorporate different conditions, like for example, a restriction on the length of the
eliminated segment. Besides, the reduced version should still maintain its grammaticality. For the former we use statistical lexical and syntactical models, automatically constructed from corpora. Example of two rules generated are shown
in Figure 11.

figure 11: Application of two learned reduction rules on two sentences.


The rules shown in Figure 11 include a conjunction of conditions, representing lexical and syntactical constraints for a given sub-sentence segment. The X
letter represents the candidate elimination segment, while L and R represent the
left and right position relative to X. For instance, in the second example, the rule
expresses the following: Eliminate a noun phrase segment (NP) of length 2 that is preceded by the word the and followed by a singular noun (NN).
An effective automatic summarization system that incorporates sentence reduction can serve as a useful tool for creating small summaries characterizing
the individuals and subgroups in the Affinity Miner. So far, different summarization systems exist as stand-alone prototypes. We plan to incorporate them in the
Affinity Miner.
Summaries can be constructed from a collection of multi-documents, where
a small and representative set of relevant sentences have been selected by the
summarizer and subsequently simplified through our set reduction rules. This
is quite important since the available space for characterizing nodes using summaries is limited, due to visualization space constraints. Therefore, the sentence
reduction process allows us to incorporate a larger number of original sentences
or snippets, yielding summaries with a higher information density.
As an example suppose that our system selects the following four sentences
as the most relevant ones, describing a certain individual (researcher):
S1 : In this work we investigate several new mathematical models for Plagiarism Detection.
OSLa volume 7(1), 2015

[200]

brazdil, trigo, cordeiro, sarmento & valizadeh


S2 : As a conclusion, we have proposed a completely new algorithm on probabilistic topic
modeling.
S3 : Our concern was to prove that LDA is the best-known approach for text segmentation.
S4 : This comparative study sets a new milestone in social network mining.
Let us also assume that in order to satisfy size constraints, a limit of 25 words
has been imposed on the length of the summary. As a consequence, we are only
allowed to include two sentences, due to this limit. However, the use of a sentence reduction rule set could transform the original sentences in their reduced
versions. We note that some of these (S2 , S3 and S4 ) are in the form of snippets.
S1 : We investigate models for Plagiarism Detection.
S2 : A new algorithm on probabilistic topic modeling.
S3 : LDA for text segmentation.
S4 : A milestone in social network mining.
This transformation allows us to display most of the information contained in S1
- S4 , as S1 - S4 does not exceed the limit of 25 words. We note that each item in
this list characterizes one particular area of research.
[4] c o n c l u s i o n s a n d f u t u r e wo r k

Conclusions
We have presented a framework that uncovers research communities, real or potential ones, based on their scientific production. This is done by retrieving publication tiles for a given set of researchers, representing them in corresponding
text files and elaborating a similarity matrix. This in turn can be used to construct
a network of affinities.
Further processing leads to representations in the form of graphs. The community detection algorithms are used to uncover sub-graphs representing real or
potential communities. These can be compared to the formal organization structure.
In our prototype we have devoted a special attention to the visualization of the
graph of communities, as well as the characterization of its nodes (researchers).
For this we have reused existing automatic techniques for selecting relevant keywords from texts.
Further steps involve differential analysis based on the affinity and co-authorship graphs. This analysis enables us to identify people that could potentially
benefit from working together.
OSLa volume 7(1), 2015

affinity mining of documents sets via network analysis

[201]

Future work
In the future we intend to process the abstracts or even full articles. We will
consider also a substantially higher number of research centers and include thus
more researchers. This represents some challenges for the process of elaborating the similarity matrix and the corresponding network. To overcome these, we
plan to use the incremental / data-streaming approaches (Gama 2010).
It would also be interesting / useful to incorporate into our prototype certain techniques of update summarization explored recently by Costa (2014) who is
a member of our group. This would enable to determine in what way a particular
node differs from others.
As was shown earlier our current prototype is capable of characterizing each
node with a set of keywords. In sections [3.1] and [3.2] we have discussed some
aspects of our research in the area of automatic summarization. So far, these
techniques have been implemented in the form of stand-alone programs. We plan
to incorporate them in our prototype (Affinity Miner). This will lead to a more
comprehensive characterization of nodes (researchers), which may be of interest
to users.
A validation step needs to be added to our methodology. We plan to carry out
a survey by questioning some researchers included in our study. We will inquire
about who are the closest colleagues that conduct the most similar research. The
outcome will be compared to the predictions obtained from the graph generated
by our system.
An important issue that could be addressed stems from the fact that different
researchers may use different vocabulary/terminology to describe the same concepts. This happens frequently when the researchers belong to different communities. This problem is difficult to overcome. It is possible to use, as some others
did, Wordnet and DBpedia (Leal et al. 2012) to identify synonyms and related terms.
This may be difficult for some specific domains, which may require the use of specific dictionaries, or the use of techniques that can identify potential synonyms
(e.g. Grigonyt et al. 2010).
Another line of research that will be followed will exploit linguistic knowledge. We note that the sentence reduction can be attained through the transformation of an adverbial finite clause into a prepositional or adverbial phrase or
non-finite clauses. Consider, for instance quando anoiteceu = noite. In this
example, the number of words is the same, the number of characters has been
reduced, yielding a simpler and equivalent expression. Another example is the
transformation of relative clause into a gerundive or participial clause (e.g. as garrafas que continham cerveja = as garrafas contendo cerveja). Since the same relations of meaning can be inferred in different types of structures, it is possible to
use shorter sequences to convey the same meaning as the longer ones. To account
for different semantic values of sentences, we will use a theoretical framework
OSLa volume 7(1), 2015

[202]

brazdil, trigo, cordeiro, sarmento & valizadeh


that includes rhetorical relations (i.e. relations of meaning) (Asher & Lascarides
2003). The work on this line will build on the expertise of linguists from FLUP
described in various publications (Silvano 2010; Leal 2011; Silvano 2012). This is
a new and promising approach, as it joins researchers from two rather different
research areas.
Regarding further management needs, we intend to go beyond similarity analysis with the aim to identify who should be collaborating with whom, considering
their complementary capabilities / skills for a given task.

acknowledgments
This work has been partially funded by FCT/MEC through PIDDAC and ERDF/ON2
within project NORTE-07-0124-FEDER-000059 and through the COMPETE Programme (operational programme for competitiveness) and by National Funds through
the FCT Fundao para a Cincia e a Tecnologia (Portuguese Foundation for
Science and Technology) within project FCOMP-01-0124-FEDER-037281.
We wish to thank Fernando Silva and his collaborators, who are responsible
for the Authenticus bibliographic database, for providing us with data that we
needed for this study titles of publications of INESC Tec researchers.
We wish to thank also the colleagues working from FLUP carrying out research
in the area of linguistics Ftima Oliveira, M. da Purificao Silvano and Antnio
Leal for taking interest in abstractive summarization and their willingness to
contribute. This may open possibilities for interesting new advances in the future.

references
Asher, Nicholas & Alex Lascarides. 2003. Logics of Conversation. Cambridge University Press.
Bugla, Sylwia. 2009. Name identification in scientific publications. University of Porto
MSc thesis.
Carbonell, Jaime & Jade Goldstein. 1998. The Use of MMR, Diversity-based Reranking for Reordering Documents and Producing Summaries. In Proceedings of the
21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 335336.
Choobdar, Sarvenaz, Pedro Ribeiro, Sylwia Bugla & Fernando Silva. 2012. Comparison of Co-authorship Networks Across Scientific Fields Using Motifs. In
Proceedings of the International Conference on Advances in Social Networks Analysis
and Mining (ASONAM), 147152.
Clarke, James & Mirella Lapata. 2006. Constraint-based Sentence Compression an
Integer Programming Approach. In Proceedings of the COLING/ACL, 144151.
OSLa volume 7(1), 2015

affinity mining of documents sets via network analysis

[203]

Cohn, Trevor & Mirella Lapata. 2008. Sentence Compression Beyond Word Deletion. In Proceedings of the 22Nd International Conference on Computational Linguistics, 137144.
Cohn, Trevor & Mirella Lapata. 2009. Sentence Compression As Tree Transduction. Journal on Artificial Intelligence Research 34(1). 637674.
Cordeiro, Joo, Gael Dias & Guillaume Cleuziou. 2007a. Biology Based Alignments
of Paraphrases for Sentence Compression. In Proceedings of the Workshop on Textual Entailment and Paraphrasing, 177184.
Cordeiro, Joo, Gal Dias & Pavel Brazdil. 2007b. New Functions for Unsupervised
Asymmetrical Paraphrase Detection. Journal of Software 2(4). 1223.
Cordeiro, Joo, Gal Dias & Pavel Brazdil. 2013. Rule induction for sentence reduction. In Lus Correia, LusPaulo Reis & Jos Cascalho (eds.), Progress in Artificial
Intelligence, vol. 8154, 528539. Springer.
Costa, Vitor. 2014. Update Summarization. Universidade do Porto MSc thesis.
Erkan, Gnes & Dragomir R. Radev. 2004. LexRank: Graph-based Lexical Centrality As Salience in Text Summarization. Journal on Artificial Intelligence Research
22(1). 457479.
Feldman, Ronen & James Sanger. 2007. Text Mining Handbook: Advanced Approaches
in Analyzing Unstructured Data. Cambridge University Press.
Galley, Michel & Kathleen McKeown. 2007. Lexicalized Markov Grammars for Sentence Compression. In Human Language Technologies 2007: The Conference of the
North American Chapter of the Association for Computational Linguistics, 180187.
Gama, Joo. 2010. Knowledge Discovery from Data Streams. Chapman & Hall/CRC.
Grigonyt, Gintar, Joo Cordeiro, Gal Dias, Rumen Moraliyski & Pavel Brazdil.
2010. Paraphrase Alignment for Synonym Evidence Discovery. In Proceedings of
the 23rd International Conference on Computational Linguistics, 403411.
Iacobucci, Dawn. 1994. Graphs and Matrices. In Social Network Analysis, 92166.
Cambridge University Press.
Jacomy, Alexis. 2013. sigma js. http://sigmajs.org.
Knight, Kevin & Daniel Marcu. 2002. Summarization Beyond Sentence Extraction:
A Probabilistic Approach to Sentence Compression. Artificial Intelligence 139(1).
91107.
OSLa volume 7(1), 2015

[204]

brazdil, trigo, cordeiro, sarmento & valizadeh


Leal, Antnio. 2011. Some Semantic Aspects of Gerundive Clauses in European
Portuguese. Cahiers Chronos 22. 85113.
Leal, Jos Paulo, Vnia Rodrigues & Ricardo Queirs. 2012. Computing Semantic Relatedness using DBPedia. In 1st Symposium on Languages, Applications and
Technologies (SLATE), 133147.
Lin, Chin-Yew. 2004. ROUGE: A Package for Automatic Evaluation of summaries.
In Proceedings of ACL Workshop: Text Summarization Branches Out, 7481.
Litvak, Marina, Mark Last, Hen Aizenman, Inbal Gobits & Abraham Kandel. 2011.
DegExt - A Language-Independent Graph-Based Keyphrase Extractor. In Advances in Intelligent Web Mastering, 121130.
de Marneffe, Marie-Catherine, Bill MacCartney & Christopher D. Manning. 2006.
Generating Typed Dependency Parses from Phrase Structure Parses. In Proceedings of the IEEE / ACL 2006 Workshop on Spoken Language Technology, 449454.
Mihalcea, Rada & Paul Tarau. 2004. TextRank: Bringing Order into Text. In Conference on Empirical Methods in Natural Language Processing, 404411. ACL.
Otterbacher, Jahna, Gnes Erkan & Dragomir R. Radev. 2005. Using Random Walks
for Question-focused Sentence Retrieval. In Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing,
915922.
Ouyang, You, Wenjie Li, Sujian Li & Qin Lu. 2011. Applying Regression Models to
Query-focused Multi-document Summarization. Information Processing & Management 47(2). 227237.
Pons, Pascal & Matthieu Latapy. 2006. Computing Communities in Large Networks
Using Random Walks. Journal of Graph Algorithms and Applications 10(2). 191218.
Price, Simon, Peter A. Flach, Sebastian Spiegler, Christopher Bailey & Nikki
Rogers. 2010. SubSift Web Services and Workflows for Profiling and Comparing
Scientists and Their Published Works. In IEEE Sixth International Conference on
e-Science, 182189.
RStudio, Inc. 2014. Easy web applications in R. http://www.rstudio.com/shiny/.
Santos, Diana & Fernando Ribeiro. 2011. Uma incurso pelo universo das publicaes em Portugal. Linguamtica 3(2). 8598.
Silvano, Purificao. 2010. Temporal and rhetorical relations: the semantics of sentences with adverbial subordination in european portuguese: University of Porto PhD
dissertation.

OSLa volume 7(1), 2015

affinity mining of documents sets via network analysis

[205]

Silvano, Purificao. 2012. The rhetorical Relations in complex sentences with


quando (when) in European Portuguese. Belgian Journal of Linguistics 26.
Sousa-Silva, Rui, Luis Sarmento, Tim Grant, Aston University, Eugnio Oliveira &
Belinda Maia. 2010. Comparing Sentence-Level Features for Authorship Analysis in Portuguese. In International Conference on Computational Processing of the
Portuguese Language (PROPOR 2010), vol. 6001, 5154.
Srinivasan, Ashwin. 2004. The Aleph Manual. Tech. rep. University of Oxford.
http://www.comlab.ox.ac.uk/activities/machinelearning/Aleph/.
Toutanova, Kristina, Chris Brockett, Michael Gamon, Jagadeesh Jagarlamudi,
Hisami Suzuki & Lucy Vanderwende. 2007. The PYTHY Summarization System:
Microsoft Research at DUC 2007. In Proceedings of DUC, s/pp.
Trigo, Lus & Pavel Brazdil. 2014. Affinity Analysis between Researchers using
Text Mining and Differential Analysis of Graphs. In ECML/PKDD 2014 PhD session
Proceedings, 169176.
Valizadeh, Mohammadreza & Pavel Brazdil. 2014. Exploring actorobject relationships for query-focused multi-document summarization. Soft Computing 1
13.
Valizadeh, Mohammadreza & Pavel Brazdil. 2015. Density-Based Graph Model
Summarization: Attaining better Performance and Efficiency. To be published
in IDA Journal.
Ventura, Joo. 2014. Automatic Extraction of Concepts from Texts and Applications:
Universidade Nova de Lisboa PhD dissertation.
Ventura, Joo & Joaquim Silva. 2013. Automatic Extraction of Explicit and Implicit
Keywords to Build Document Descriptors. In Lus Correia, Lus Paulo Reis & Jos
Cascalho (eds.), Progress in Artificial Intelligence, 492503. Springer.
Wan, Xiaojun, Jianwu Yang & Jianguo Xiao. 2006. Using Cross-Document Random Walks for Topic-Focused Multi-Document. In Proceedings of the 2006
IEEE/WIC/ACM International Conference on Web Intelligence, 10121018.
Wasserman, Stanley & Katherine Faust. 1994. Social network analysis: Methods and
Applications. Cambridge University Press.
Wei, Furu, Wenjie Li, Qin Lu & Yanxiang He. 2008. A Cluster-Sensitive Graph Model
for Query-Oriented Multi-document Summarization. In Craig Macdonald, Iadh
Ounis, Vassilis Plachouras, Ian Ruthven & Ryen W. White (eds.), Advances in Information Retrieval, vol. 4956, 446453. Springer.
OSLa volume 7(1), 2015

[206]

brazdil, trigo, cordeiro, sarmento & valizadeh

c o n ta c t s
Pavel Brazdil
LIAAD-INESC Tec; FEP, Univ. of Porto
pbrazdil@inescporto.pt
Lus Trigo
LIAAD-INESC Tec
lptrigo@inescporto.pt
Joo Cordeiro
LIAAD-INESC Tec; Univ. of Beira Interior
jpaulo@di.ubi.pt
Rui Sarmento
LIAAD-INESC Tec
rui_sarmento@hotmail.com
Mohammadreza Valizadeh
LIAAD-INESC Tec; Univ. of Ilan
valizadehmr@gmail.com
OSLa volume 7(1), 2015

Simes, Barreiro, Santos, Sousa-Silva & Tagnin (eds.) Lingustica, Informtica e Traduo: Mundos
que se Cruzam, Oslo Studies in Language 7(1), 2015. 207222. (ISSN 1890-9639 / ISBN 978-8291398-12-9)
http://www.journals.uio.no/osla

traduo automtica, ma non troppo


ANABELA BARREIRO

abstract
This paper describes two machine translation tasks that require language
expertise: (1) paraphrasing as a technique to prepare texts for translation
and a method for linguistic quality assurance, and (2) the evaluation of translation produced by machine translation systems. These tasks will be exemplified through support verb constructions, a subtype of multiword units
that machine translation systems have difficulty translating. The paper raises awareness of the need to integrate enhanced linguistic knowledge in machine translation systems and the need to place the human factor as a core
value in order to ensure translation quality.
[1] i n t r o d u o

A tecnologia de traduo automtica chegou vida do comum dos mortais com


o advento da Internet. Apesar de a qualidade da traduo ainda ficar aqum das
expectativas dos utilizadores linguisticamente mais exigentes, esta uma ferramenta imprescindvel para resolver as necessidades dirias de traduo de milhes de internautas. Por esse motivo, os investigadores e programadores de sistemas de traduo automtica sentem a necessidade de criar sistemas linguisticamente mais robustos e capazes de produzir tradues com qualidade comparvel
s que so produzidas por tradutores humanos. Dcadas de investigao nesta
rea resultaram na inveno e aperfeioamento de mtodos estatsticos que aceleram o processo de traduo, e no desenvolvimento de ferramentas e de recursos
lingusticos de melhor qualidade, em maior quantidade e para mais lnguas. Os
avanos alcanados em diferentes aproximaes e tcnicas de traduo automtica tornam-se um campo frtil para o desenvolvimento de uma nova gerao de
sistemas linguisticamente mais avanados, os sistemas hbridos, que combinam
regras de anlise e aquisio de conhecimento lingustico tpicas dos sistemas de
regras (Scott 2003) com mtodos estatsticos caractersticos dos sistemas baseados em dados (Koehn 2005). A combinao de sistemas conduz geralmente a uma
melhoria da qualidade da traduo, na medida em que sistemas de natureza diferente abordam desafios de traduo diferentes, completando-se na resposta s
dificuldades. No entanto, embora os sistemas hbridos representem uma linha
de investigao promissora, a traduo automtica um problema longe de estar
resolvido. Uma hibridao bem sucedida requer uma compreenso profunda das
diferentes abordagens, dos seus pontos fracos e fortes, tema que tem sido discu-

[208]

anabela barreiro
tido apenas marginalmente na investigao em traduo automtica. A integrao ainda mal explorada dos recursos lingusticos em sistemas essencialmente
estatsticos , em muito, responsvel pelos erros crassos que as tradues produzidas pelos sistemas de traduo automtica online apresentam, impedindo que
estas sejam usadas para fins comerciais na ausncia de um esforo significativo
de ps-edio. No caso dos sistemas de base gramatical, a falta de recursos lingusticos para alimentar as bases de dados destes sistemas tambm cria graves
lacunas de origem maioritariamente lexical. No se sabe ainda que aproximao
hbrida ser a mais eficaz a longo prazo e conduzir a uma qualidade de traduo
superior.
Enquanto os investigadores procuram avanar o estado da arte e melhorar a
tecnologia atravs da criao e desenvolvimento de sistemas que traduzem cada
vez melhor, a traduo automtica representa uma realidade que j no pode ser
ignorada tambm no universo da traduo profissional, fazendo parte da formao e currculo dos tradutores (Maia 2005). Apesar dos resultados ainda pouco
fidedignos, a traduo automtica comea a integrar o quotidiano de um nmero
crescente de clientes e mercados, que colmatam as suas deficincias atravs do
treino de sistemas em domnios especficos usando corpora baseados em textos
traduzidos profissionalmente para esses domnios (Bick & Barreiro 2015) e atravs do uso de ferramentas automticas de ps-edio dos textos traduzidos automaticamente (Vieira & Specia 2011). Por conseguinte, na esfera da traduo profissional, a interveno humana essencial no processo de correo e certificao
do controlo de qualidade lingustica da traduo automtica. Outra forma de interveno e que tem sido menos explorada do ponto de vista do processamento da
linguagem natural a do parafraseamento usado como tcnica de pr-edio do
texto da lngua-fonte, por vezes conduzindo a uma linguagem controlada usada
em textos tcnicos e cientficos. Queremos aqui reforar que uma traduo automtica de qualidade no ser alcanvel sem o fator humano, nomeadamente sem
a interveno de especialistas das lnguas envolvidas na traduo e a sua participao nas tarefas que visam a qualidade do texto a traduzir e do texto traduzido.
Este artigo apresenta duas importantes tarefas da traduo automtica que
requerem a participao de peritos com conhecimentos lingusticos profundos
das lnguas de traduo. A primeira tarefa consiste no parafraseamento como
mtodo de preparao do texto na lngua-fonte, de modo a garantir uma melhor
qualidade de traduo desse texto. A segunda tarefa corresponde avaliao da
traduo produzida pelos sistemas de traduo automtica. As duas tarefas sero
exemplificadas atravs das construes com verbos-suporte, um tipo de unidade
lexical multipalavra que os sistemas de traduo automtica em vigor no conseguem traduzir com qualidade.

OSLa volume 7(1), 2015

traduo automtica, ma non troppo

[209]

[2] c o n s t r u e s c o m v e r b o s - s u p o r t e e m t r a d u o a u t o m t i c a

As construes com verbo-suporte so um tipo de unidade lexical multipalavra


que se caracteriza pela ocorrncia de verbos semanticamente fracos, designados
verbos-suporte, e predicados nominais (fazer um esforo (por)), adjetivais (ser til
(para)) ou adverbiais (ficar aqum (de)). Estas construes desempenham um papel de destaque na comunicao em muitas lnguas, incluindo o portugus. Num
estudo anteriormente realizado por Barreiro (2009), num corpus de 500 frases,
64.2% da ocorrncia dos verbos dar, tomar, pr, fazer e ter, realiza-se em construes com verbos-suporte; i.e., em apenas 33.8% dos casos esses verbos ocorrem
como verbos plenos. A lxico-gramtica, proposta por Gross (1984) e estabelecida no quadro da gramtica transformacional harrissiana, explora uma metodologia sistemtica para o processamento automtico das construes com verbossuporte, contemplando trabalhos para o portugus (Ranchhod 1983, 1990; Baptista 2005; Chacoto 2005) e estudos contrastivos entre o ingls e o francs (Salkoff
1999).
As unidades lexicais multipalavra, nas quais as construes com verbos-suporte se incluem, ocorrem frequentemente quer em textos genricos (Gross & Senellart 1998) quer em textos tcnicos ou de domnios especficos (Ramisch et al.
2010) em muitas lnguas. A integrao eficaz das unidades lexicais multipalavra
em modelos de traduo automtica tem sido assinalada como um fator de impacto na obteno de traduo de qualidade (Chiang 2005; Marcu et al. 2006;
Zollmann & Venugopal 2006). A reforar esta posio, a avaliao da traduo
automtica de construes com verbos-suporte descrita em Barreiro et al. (2013)
comprovou que estas unidades multipalavra constituem um osso duro de roer para
o processamento de linguagem natural, especialmente para a traduo automtica. A maioria dos sistemas no consegue apresentar uma soluo eficaz para o
problema da no composicionalidade das construes com verbos-suporte que,
quando processadas de forma incorreta, provocam um impacto negativo na compreensibilidade e qualidade das tradues.
A ambiguidade dos verbos-suporte, por um lado, e sua leveza semntica, por
outro, representam fatores adversos traduo (humana e automtica) das construes com verbos-suporte, que impedem que estas sejam, em muitos casos, traduzidas literalmente. As suas tradues, por vezes idiomticas e pouco previsveis, devem-se ao facto de nem sempre existir uma expresso equivalente na
lngua-alvo ou, no caso de existir, essa expresso assumir uma forma distinta da
forma da lngua-fonte. Por exemplo, mesmo com proximidade estrutural entre
as duas lnguas, a expresso em portugus dar um passeio traduz-se em ingls por
take a walk ou go for a walk. Uma traduo literal da expresso por *give a walk teria
um efeito nefasto para a qualidade da traduo.
As propriedades morfossintticas das construes com verbos-suporte permitem um certo nmero de variaes formais com a possibilidade de dependncias
OSLa volume 7(1), 2015

[210]

anabela barreiro
entre os elementos mesmo quando esto distantes entre si na frase. Por exemplo, deu [muitos e longos] passeios pela [N] ou no fez [absolutamente nenhum] comentrio sobre [N] representam construes com verbos-suporte no adjacentes que
mantm inseres entre os verbos-suporte dar e fazer e os predicados no verbais passeios e comentrio, respetivamente. Uma insero qualquer palavra que
se encontre entre dois elementos da unidade lexical multipalavra, exceto se essa
palavra for um artigo definido ou indefinido antes de um nome predicativo. Em
geral, quanto mais inseres e variabilidade morfossinttica existir numa construo com verbo-suporte, mais difcil a sua traduo automtica. Os estudos j
referenciados mencionam tambm a variedade lingustica apresentada pelas variantes estilsticas ou parafrsticas (fazer um estudo = realizar/efetuar/desenvolver
um estudo ou fazer um trabalho = elaborar um trabalho, entre outras), que utilizam
verbos-suporte no elementares (Ranchhod 1990). Essas variantes estilsticas podem apresentar diferentes graus de variabilidade, indo desde as construes que
permitem um nmero consideravelmente extenso de inseres entre o verbosuporte e o predicado nominal, at as expresses idiomticas semi- ou totalmente
fixas (dar o brao a torcer = ceder)1 . Construes com verbos-suporte no adjacentes so difceis de processar, alinhar e traduzir, permanecendo um dos maiores
desafios contrastivos para os sistemas de traduo automtica.
[3] fa c t o r h u m a n o n o c o n t r o l o da q u a l i da d e l i n g u s t i c a

Desde que os sistemas de traduo automtica estatstica comearam a ser treinados com grandes quantidades de dados, nomeadamente com milhes e milhes de
corpora paralelos disponveis na internet, que o efeito de erro gramatical se comeou a diluir e a ter um impacto gradualmente menor em tradues cada vez mais
robustas do ponto de vista lexical. Ao nvel da traduo comercial, os menores
custos envolvidos na tarefa da ps-edio justificam o uso da traduo automtica e um papel relevante desempenhado pelos tradutores tem consistido na correo dos erros gramaticais nos textos traduzidos automaticamente. No entanto,
muitos dos problemas lingusticos das tradues automticas tm na sua base a
falta de qualidade do texto na lngua-fonte. Em geral, o controlo da qualidade
lingustica dos textos da lngua-fonte tem sido relegado para segundo plano, no
havendo ferramentas robustas de auxlio edio e reviso de texto que envolvam
parafraseamento. Neste sentido, em trabalho anteriormente realizado, apresentmos uma abordagem cientfica baseada no parafraseamento que tem como objetivo melhorar a traduo automtica (Barreiro 2009), acentuando a necessidade
[1]

OSLa volume 7(1), 2015

Como expresses idiomticas entendem-se expresses no transparentes, no entendidas/traduzidas literalmente, em que o significado da expresso diferente do significado individual das palavras que a
constituem. Podemos considerar a existncia de uma gradao da idiomaticidade, que pode variar entre o ligeiramente no literal e o muito obscuro. Algumas expresses idiomticas assumem um valor
figurativo que se conhece apenas atravs do uso comum, outras acabam por fossilizar-se com o passar
do tempo.

traduo automtica, ma non troppo

[211]

de uma aproximao parafrstica para a resoluo de problemas que levantam no


campo da traduo, tal como descrevemos na seco [3.1]. O controlo da qualidade
lingustica tambm no prescinde de uma avaliao sistemtica, feita por humanos, que permite verificar onde e como que os sistemas falharam. De facto, a
avaliao uma fase importante no desenvolvimento de um sistema de traduo
automtica e dela que depende a qualidade das tradues obtidas pelos tradutores automticos. Tambm nesta rea, apresentmos anteriormente um exerccio
de avaliao humana sistemtica de construes com verbos-suporte que contempla a sua traduo do ingls para vrias lnguas por dois sistemas de traduo
automtica conhecidos (Barreiro et al. 2014). A avaliao realizada prova que os
atuais sistemas de traduo automtica no conseguem traduzir com qualidade
os fenmenos lingusticos representados por estas construes. com base nos
estudos referidos e face aos desafios que as construes com verbos-suporte apresentam para a traduo automtica que reforamos e ilustramos a necessidade de
envolver especialistas lingusticos nas diferentes tarefas da traduo automtica.

[3.1]

Parafraseamento como Tcnica de Pr-Edio

Um dado importante no estudo das construes com verbos-suporte consiste em


estas lhes terem geralmente associadas um verbo semanticamente forte, morfossintaticamente relacionado, que constitui o seu sinnimo. Por exemplo, a construo com verbo-suporte fazer uma apresentao (de) morfossinttica e semanticamente equivalente ao verbo apresentar. Uma das abordagens por ns realizada
anteriormente (Barreiro 2009) consiste no parafraseamento de construes com
verbos-suporte de modo a melhorar a qualidade da traduo automtica. Para
alm da criao de uma ferramenta de parafraseamento, o desafio dessa investigao consistiu em parafrasear expresses nominais predicativas por construes
verbais (fazer uma anlise = analisar), tirando partido das potencialidades parafrsticas da lngua. Em casos particulares, o parafraseamento consistiu em substituir
o verbo-suporte da construo nominal, semanticamente fraco, por uma variante lexical ou estilstica (realizar uma anlise ou efetuar uma anlise), entre outras.
Quando as construes com verbos-suporte foram identificadas e substitudas por
verbos lexicais ou expresses verbais semanticamente equivalentes ou prximas,
numa fase de pr-processamento do texto, obteve-se aproximadamente 21% de
melhoria na qualidade dos resultados avaliados da traduo automtica do portugus para o ingls e aproximadamente 31% na dos resultados avaliados da traduo automtica do ingls para o portugus. A investigao baseou-se numa anlise
lingustica contrastiva, em que as construes com verbos-suporte foram organizadas em subclasses sinttico-semnticas de acordo com os princpios tericos
e metodolgicos da Lxico-Gramtica. Esse estudo incidiu sobre as construes
com verbos-suporte, mas seria interessante aplic-lo a outros tipos de unidades
lexicais multipalavra, nomeadamente a expresses idiomticas, mas tambm a
OSLa volume 7(1), 2015

[212]

anabela barreiro
construes sintticas livres, tais como a coordenao de sintagmas nominais e a
passiva, entre outras. A informao lingustica relevante para a construo das
parfrase que foram geradas (como resultado dessa investigao) foi formalizada
em dicionrios e gramticas desenvolvidos no ambiente lingustico NooJ e utilizados em vrias tarefas de processamento de lngua natural, sob o ponto de vista
monolingue e bilingue. Os recursos bilingues portugus-ingls do Port4NooJ, disponvel em domnio pblico2 , integram a ontologia SAL do modelo OpenLogos e
foram construdos como o alicerce desse estudo. O seguimento desse trabalho
deu origem aos sistemas ReEscreve, ReWriter, ParaMT e eSPERTo apresentados
em (Barreiro 2008, 2009, 2011; Barreiro & Cabral 2009; Barreiro et al. 2011). O
eSPERTo um Sistema de Parafraseamento para Edio e Reviso de Texto, atualmente em fase de desenvolvimento no mbito de um projeto com o mesmo nome3 .
Este projeto tem como objetivo o desenvolvimento de uma plataforma web para
gerao de parfrases linguisticamente complexas. As parfrases sero geradas a
partir da aplicao de uma tcnica hbrida de aquisio de conhecimento lingustico baseada em estatstica e regras gramaticais. A integrao de conhecimento
frsico e de unidades lexicais multipalavra no sistema permitir um mapeamento
otimizado de construes, estruturas e frases semanticamente equivalentes, que
servir de auxlio no ensino de escrita e na produo e reviso de textos em portugus. Este conhecimento lingustico poder ser tambm usado em pr-edio
para a traduo automtica, de modo a garantir uma maior qualidade dos textos
a traduzir e da qualidade da traduo desses textos.

[3.2] Avaliao da Qualidade da Traduo Automtica


A tarefa de avaliao da qualidade da traduo automtica para o portugus ganhou fora no incio da dcada de 2000, com os primeiros esforos direcionados
para uma avaliao conjunta no mbito do projeto Linguateca. Nessa poca, criouse um grupo de interesse na rea, o ARTUR, integrado no AVALON 2003, que deu
origem a diversos trabalhos sobre avaliao da traduo automtica, nomeadamente o desenvolvimento de uma ferramenta automtica de gerao de baterias
de teste e de um programa de categorizao de erros, realizados na Universidade
do Porto (Maia et al. 2003, 2004; Maia & Barreiro 2007; Sarmento et al. 2007). A avaliao desta rea permitiu identificar problemas relacionados com a preservao
de significado no processo de traduo, em particular em no que respeita a usos
no literais, envolvendo construes idiomticas, coloquialismos, usos metafricos, entre outros. Nesta linha de ao, e na tentativa de criar um modelo hbrido
de traduo automtica melhorando a tecnologia atualmente existente, uma anlise humana sistemtica do desempenho de diferentes modelos pareceu-nos um
passo importante a dar. Muito do trabalho de avaliao que se tem feito nos lti[2]
[3]
OSLa volume 7(1), 2015

http://www.linguateca.pt/Repositorio/Port4NooJ/
http://esperto.l2f.inesc-id.pt/

traduo automtica, ma non troppo

[213]

mos anos incide essencialmente sobre a tarefa da ps-edio e contempla aspetos


relacionados com a definio de mtricas de medio do esforo humano e tempo
usados na correo de erros gerados pelos sistemas, tais como contar a quantidade
de teclagem utilizada pelos revisores (Aziz et al. 2012). Foi com base nas lacunas
verificadas ao nvel da avaliao qualitativa dos fenmenos lingusticos em sistemas de traduo automtica com abordagens diferentes, que propusmos, em
Barreiro et al. (2014), uma avaliao humana conjunta dos erros de traduo de
construes com verbos-suporte pelo OpenLogos e pelo Google Translate.
O OpenLogos (Scott 2003; Barreiro et al. 2011) a cpia em cdigo aberto
do sistema comercial Logos, um sistema pioneiro de traduo automtica (19702001). Baseia-se em regras que contemplam a morfologia, a sintaxe e a semntica,
mas assemelha-se em esprito aproximao estatstica na medida em que as regras so aplicadas a padres em contexto. O sistema tem analisadores sintticos
(parsers) robustos, conjuntos de regras semntico-sintticas, terminologia e ferramentas variadas, tais como um construtor automtico de termos (TermBuilder)
e uma ferramenta de aquisio automtica de regras semnticas (Semantha), entre outras. Devido sua nfase na semntica, considerado um sistema de alta
qualidade, que se baseia na anlise da lngua de forma a que esta seja entendida
pelo sistema computacional. O motor que faz girar o sistema consiste numa
linguagem de representao intermdia (SAL) que usada para codificar toda a
informao lingustica e processar texto. O conhecimento lingustico representado nesta linguagem permite aliviar o problema da escassez de dados e colmatar
falhas apresentadas pelos mtodos estatsticos, contribuindo para um aumento
da qualidade das tradues. Devido ao grande investimento de tempo e recursos
humanos no desenvolvimento do sistema OpenLogos, as suas bases de dados de
conhecimento lingustico j no so atualizadas desde 2001.
O Google Translate um dos sistemas de traduo online mais usados na atualidade. um sistema de base estatstica que beneficia de grandes volumes de corpora paralelos existentes na internet. O Google Translate traduz mais de 80 pares
de lnguas, mas a qualidade da traduo varia muito do par de lnguas envolvido,
produzindo melhores resultados para pares de lnguas mais prximas (portugus
e espanhol) e lnguas para as quais existam grandes quantidades de corpora paralelos. A qualidade dos dados tambm pertinente para a traduo, pelo que
quanto melhor for a qualidade dos corpora de um par de lnguas, melhor ser a
qualidade dos textos traduzidos para essas lnguas. As tradues podem variar
de qualidade dependendo do domnio do texto e dos corpora (ou outros recursos)
que foram utilizados para treinar o sistema nesse domnio. O Google Translate
um sistema comercial no se sabendo como funciona, e muito menos se tem algum
mdulo de compreenso semntica.
A avaliao do desempenho dos sistemas OpenLogos e Google Translate relativamente s tradues de construes com verbos-suporte, para alm de nos
OSLa volume 7(1), 2015

[214]

anabela barreiro
ter dado a possibilidade de contrastar um sistema de regras baseadas em padres
com um sistema estatstico, permitiu-nos diagnosticar e avaliar qualitativamente
erros de traduo em fenmenos lingusticos muito especficos.

Corpus e Metodologia de Avaliao


O corpus usado na avaliao contm 100 construes com verbos-suporte que
ocorrem em frases recolhidas de notcias e da internet (textos genricos, de nenhum domnio especfico). Cada construo com verbo-suporte foi anotada no
contexto frsico em que se encontra e classificada de acordo com a tipologia apresentada na Tabela 1. Seguidamente, o corpus foi traduzido para alemo, espanhol,
francs, italiano e portugus pelos sistemas de traduo automtica OpenLogos e
Google Translate. Nenhum dos sistemas foi previamente treinado para esta tarefa de avaliao. Linguistas falantes nativos das lnguas de chegada avaliaram a
qualidade da traduo das construes com verbos-suporte para as suas lnguas
(um avaliador por lngua) e classificaram as tradues de acordo com uma mtrica binria: OK para as tradues corretas e ERR para as tradues erradas. Nas
classificaes marcadas como ERR, respeitantes a tradues semanticamente incorretas ou com problemas sintticos dentro da construo, os linguistas identificaram erros de concordncia (AGREE) e erros de outro tipo (OTHER) para distinguir
erros relacionados com a morfologia da palavra ou outros problemas, tais como o
uso incorreto de preposies, ordem de palavras incorreta dentro da construo,
etc. Por ltimo, os linguistas tambm apresentaram uma avaliao mais detalhada onde descreveram os problemas mais relevantes nas tradues que avaliaram de acordo com os diferentes tipos de construo.
Primeiros Resultados
O objetivo principal da avaliao realizada foi identificar a raiz dos problemas
na traduo das construes com verbos-suporte tendo em conta cinco pares de
lnguas e indicar que direo em que a avaliao qualitativa deve avanar para
que estes desafios lingusticos traduo de qualidade sejam vencidos. Fizemos
isso, tendo em conta dois sistemas de natureza diferente (o OpenLogos e o Google Translate) para podermos verificar, em relao a este fenmeno lingustico
em particular, at que ponto o fracasso de um sistema pode ser colmatado pelo
sucesso do outro. Nesse sentido, verificmos que o desempenho de ambos os sistemas relativamente s construes com verbos-suporte foi globalmente mau por
razes que se prendem natureza intrnseca de cada um destes sistemas. Os problemas de traduo apresentados pelo Google Translate so, em geral, de natureza mais estrutural (cf. exemplo (viii)), enquanto que os problemas de traduo
do sistema OpenLogos so de natureza mais lexical (cf. exemplo (i)). A avaliao
humana sistemtica das tradues das construes com verbos-suporte obtidas
atravs destes sistemas mostrou que, excepo do par de lnguas ingls-alemo,
OSLa volume 7(1), 2015

traduo automtica, ma non troppo

[215]

Construo com verbo-suporte nominal


make a presentation
Nominal no adjacente
have [ADV+ADJ-particularly good] links
Nominal preposicional
give an illustration of
Nominal preposicional no adjacente
be the [ADJ-immediate] cause of
Nominal idiomtica
set in motion, place at risk, go on strike
Nominal preposicional idiomtica
earn an income of
Nominal idiomtica no adjacente
hold [NP-the option] in place
be of [ADJ-practical] value
Nominal preposicional idiomtica no adjacente
give [PRO-us] a [birds-eye] view of
be [ADV-clearly] at odds with
open talks [May 14] with
Construo com verbo-suporte adjectival
be meaningful
Adjetival no adjacente
be [ADV-extremely] selective
Adjetival preposicional
be known as; be involved in
Adjetival preposicional no adjacente
fall [ADV-so far] short of

tabela 1: Categorias principais de construes com verbos-suporte no corpus


o Google Translate traduziu corretamente mais construes com verbos-suporte
do que o OpenLogos, devido larga dimenso da sua base de dados lexical.
Em relao ao par ingls-alemo, o OpenLogos traduziu corretamente 60 construes, enquanto que o Google Translate traduziu corretamente apenas 40. Os
erros, tanto do OpenLogos como do Google Translate dizem respeito escolha
incorreta de palavras, ordem incorreta das palavras dentro da construo, escolha incorreta da forma da palavra (morfologia) e falta de palavras. Os maiores
problemas apresentados pelo Google Translate foram a falta de cobertura lexical
em relao s construes adjacentes e a dificuldade em traduzir bem a separao
do verbo.
No caso da traduo do ingls para as lnguas romnicas, o desempenho do Google Translate foi superior ao do OpenLogos. A maior parte dos erros de traduo
dos dois sistemas correspondem a uma escolha lexical incorreta para alguns dos
elementos da construo (por vezes, no existe traduo de algumas palavras, outras vezes, a traduo literal), erro de concordncia (entre o sujeito e o verbo, ou
entre o sujeito e o adjetivo predicativo), e construes no adjacentes e idiomticas. No caso das construes menos idiomticas, h preposies erradas, traduo
OSLa volume 7(1), 2015

[216]

anabela barreiro
literal do verbo-suporte e escolha lexical errada para o nome predicativo, preposies e determinantes. Estes problemas requerem um esforo pequeno de psedio, j que se tratam de palavras muito curtas. Os resultados quantitativos, os
exemplos ilustrativos, e as avaliaes qualitativas detalhadas para todos os pares
de lnguas podem ser consultados em Barreiro et al. (2014). Passaremos a apresentar com especial pormenor a descrio dos erros de traduo de construes
com verbos-suporte do par inglsportugus, apenas superficialmente referidos
no trabalho anterior.

Anlise Lingustica dos Erros de Ingls-Portugus


Distribumos os erros de traduo das construes com verbos-suporte do par
ingls-portugus entre erros lexicais e erros estruturais. Os erros relacionados
com a falta ou uso incorreto de palavras dentro da construo so caracterizados
como erros de cobertura lexical, incluindo a escolha de verbo-suporte, de predicado no verbal, de preposio ou de qualquer outro elemento inserido. Estes
erros no afetam a estrutura geral da frase. Por outro lado, os erros relacionados com a ordem incorreta das palavras, com a morfologia e com a concordncia
so caracterizados como erros estruturais. Os erros de ordem das palavras dizem
respeito inverso da posio das palavras dentro da construo. Os erros morfolgicos dizem respeito a problemas relacionados com a forma incorreta das palavras, como o tempo verbal errado. Finalmente, os erros de concordncia dizem
respeito falta de concordncia entre os elementos do interior da construo com
verbo-suporte ou entre um ou mais elementos dentro da construo e os elementos exteriores, tal como o sujeito da frase. Os erros estruturais ocorrem no interior
da construo com verbo-suporte ou na relao entre esta e outros elementos da
frase e afetam a sua gramaticalidade. Por exemplo, a falta de concordncia entre
o sujeito da frase e a construo com verbo-suporte um erro que, embora esteja
relacionado com a construo com verbo-suporte, ultrapassa as suas fronteiras.
A grande maioria dos erros de traduo, tanto por parte do Google Translate
como por parte do OpenLogos, diz respeito escolha lexical das palavras dentro da
construo com verbo-suporte. Muitos dos erros dizem respeito a uma traduo
direta de construes com verbos-suporte idiomticas, que tornam o significado
destas incompreensvel. Ambos os sistemas falharam em come to a rest, open talks,
put in place, fall short of e have a spotty record. O Google Translate apresentou erros
nas tradues das construes hold in place, be in charge of, be on guard. O OpenLogos
apresentou erros nas tradues das construes come into the picture, place at risk,
put under the microscope, be on strike, be at odds with, earn an income. O exemplo (i)
ilustra a traduo literal de give a birds-eye view of.
(i)

EN
PT

OSLa volume 7(1), 2015

- It gives us a birds-eye view of the economy.


- D-nos uma *vista de olho de pssaro da economia.

traduo automtica, ma non troppo

[217]

Em alguns casos, ambos os sistemas apresentaram erros na traduo do nome


predicativo com consequncias ao nvel da traduo da preposio por este selecionada. Por exemplo, em (ii), o nome predicativo insight foi traduzido como
viso em vez de perspetiva com um consequente erro no uso da preposio. A preposio into selecionada pelo nome predicativo insight em ingls, mas o nome
predicativo perspetiva em portugus seleciona a preposio de e no para.
(ii)

- These specifications gave insight into the space of possible case-based systems, and elucidated
human interaction properties.
P T - Estas especificaes deu uma *viso *para o espao de possveis sistemas baseados em casos, e
elucidou Propriedades interao humana.
EN

Nos casos de construes menos idiomticas, os erros afetam geralmente apenas um ou dois elementos da construo, como o verbo-suporte ou a preposio.
Por exemplo, em (iii) o verbo-suporte makes foi traduzido literalmente por faz em
vez de torna. Em (iv), a preposio for foi traduzida por para em vez de por. Em (v),
a preposio to foi traduzida pela preposio para em vez de a.
(iii)

(iv)

(v)

- On the one hand, such a rich grammatical theory makes it possible to write grammars that contain very rich linguistic knowledge.
P T - Por um lado, uma teoria tal gramatical rica *faz possvel escrever gramticas que contm o conhecimento lingustico muito rico.

EN

EN - Schafer testified he believed his bureau chief in Beirut, Lester Coleman, was responsible for his
photo appearing as part of the Pan Am affidavit.
P T - Schafer atestou que ele acreditou no seu chefe de escritrio em Beirut, Lester Coleman, foi responsvel *para sua fotografia que aparece enquanto a parte da panela declarao.

- The new Government which came to power in April 1984 has expressed a desire to give priority
to agriculture development and to remove past obstacles.
P T - O governo novo que assumir poder em Abril 1984 exprimiu um desejo de dar *a prioridade *para
o desenvolvimento de agricultura e de retirar-se por obstculos.

EN

O sistema Google Translate apresenta vrios erros de concordncia em construes que o sistema OpenLogos consegue traduzir corretamente. Esses erros
podem ser entre o sujeito da frase e o verbo-suporte (vi), ou entre o sujeito da
frase e o adjetivo predicativo da construo com verbo-suporte ((vii) e (viii)).
(vi)

EN
PT

(vii)

EN
PT

(viii)

- the protests will have no effect on negotiations


- os protestos no *ter nenhum efeito sobre as negociaes
- Descriptive economics and economic theory are both concerned with facts
- Economia descritiva ea teoria econmica *so *tanto *preocupado com os fatos

- To be meaningful, facts must be systematically arranged, interpreted, and generalized upon.


- Para *ser *significativa, os fatos devem ser sistematicamente organizados, interpretados e generalizada sobre.

EN
PT

OSLa volume 7(1), 2015

[218]

anabela barreiro

Tarefas de Avaliao Futuras


As tradues produzidas por sistemas de traduo automtica vastamente utilizados ainda mostram erros lamentveis que requerem um esforo significativo
de ps-edio. As construes com verbos-suporte, entre outras unidades lexicais multipalavra, so responsveis por muitos desses erros de traduo. As atuais mtricas de avaliao da qualidade, concentradas na medio do tempo e esforo de ps-edio, no contemplam este e outro tipo de unidades lingusticas,
mostrando-se ineficazes e insuficientes para avaliar a verdadeira qualidade dos
sistemas e incapazes de identificar problemas que possam ajudar a melhorar a
estrutura sinttica e o significado na traduo. O trabalho de avaliao de sistemas de traduo automtica apenas deu os seus primeiros passos. H um trabalho
ainda muito grande a fazer para colmatar as deficincias na avaliao qualitativa
atual. No existem publicaes sobre uma avaliao lingustica conjunta que tenha como objetivo comparar os pontos fortes e fracos de diferentes abordagens
de traduo automtica, com o objetivo de melhorar a qualidade da traduo. Os
investigadores precisam de desenvolver mtricas para a avaliao peridica sistemtica da qualidade lingustica da traduo automtica, independentemente da
natureza de cada sistema. A avaliao deve incluir tarefas de categorizao de
erros onde fenmenos lingusticos especficos possam ser avaliados individualmente por linguistas especializados em traduo automtica. Esta avaliao deve
ser elaborada por fases, em que cada fase corresponda avaliao de um fenmeno lingustico particular (por exemplo, para as unidades lexicais multipalavra,
avaliar individualmente as construes com verbos-suporte, as unidades compostas, os phrasal verbs do ingls, etc.). A categorizao de erros em unidades menores
do que a frase pode contribuir para tarefas de avaliao mais controladas e sistemticas. A avaliao tem de ser dirigida a grupos de erros lingusticos e identificar
que sistemas tm mais dificuldades em traduzir cada tipo de desafio lingustico
(avaliao paradigmtica). Para alm disso, devem ser construdos corpora especficos ou coletneas de frases que sero usadas para avaliar construes relativas,
passivas, pronomes, determinantes, preposies locativas, etc. Essas mtricas de
avaliao qualitativa devero ser desenvolvidas e validadas por especialistas lingusticos que trabalham na rea da traduo automtica. Estamos convencidos
de que um mtodo eficaz para o avano da investigao em traduo automtica
comparar os resultados de diferentes abordagens e medir que mdulos requerem melhoramento. Uma hibridizao eficaz s ter lugar quando o desempenho
de sistemas com abordagens diferentes for linguisticamente testado. Acreditamos que tal avaliao qualitativa conjunta possa ser valorizada pela comunidade
cientfica.

OSLa volume 7(1), 2015

traduo automtica, ma non troppo

[219]

[4] c o n c l u s o e t r a b a l h o f u t u r o

Estudos realizados anteriormente revelam lacunas importantes ao nvel da anotao, identificao, representao, reconhecimento, processamento e avaliao
das construes com verbos-suporte. Os atuais sistemas de traduo automtica
no conseguem traduzir com qualidade os fenmenos lingusticos apresentados
pelas construes com verbos-suporte. Uma tarefa importante que pode conduzir
a uma melhor traduo das construes com verbos-suporte a do seu parafraseamento. Um sistema que permita mapear construes com verbos-suporte com
os seus equivalentes semnticos, sejam eles variantes estilsticas, variantes parafrsticas ou verbos, constitui uma mais valia para a traduo (humana e automtica). Entre outros aspetos positivos, o parafraseamento tem a vantagem de servir
como ferramenta de auxlio na transformao estilstica de textos, permitindo a
converso de um texto palavroso num texto semanticamente equivalente, mas
utilizando um menor nmero de palavras e uma linguagem mais controlada, e por
conseguinte, mais fcil de traduzir por uma mquina.
Outra tarefa de grande relevo para o aperfeioamento dos sistemas de traduo a da avaliao da traduo das construes com verbos-suporte. Os erros
refletidos na traduo destas construes por dois importantes sistemas de traduo automtica, o OpenLogos e o Google Translate, permitem concluir que as
unidades lexicais multipalavra continuam a ser um problema em aberto na rea da
traduo automtica, independentemente do tipo de aproximao adotada pelo
sistema. Os erros encontrados no interior das construes traduzidas poderiam
ser minimizados se as unidades lexicais multipalavra fossem tratadas como unidades indissociveis. A falta de composicionalidade das unidades lexicais multipalavra, nomeadamente a das construes com verbos-suporte, fica tambm comprometida com a falta de interveno humana qualificada na tarefa de alinhamento
de segmentos bilingues ou multilingues usados para treinar sistemas de aprendizagem automtica. Apesar da grande pertinncia da qualidade dos alinhamentos
dos vrios elementos da frase nos sistemas estatsticos, este tema est ainda pouco
explorado do ponto de vista lingustico e computacional, motivo pelo qual optmos por no o incluir neste artigo. No entanto, no podemos deixar de referir que
a impossibilidade de os sistemas de traduo automtica estatsticos permitirem
alinhar unidades lexicais multipalavra cujos elementos que as compem se encontrarem em situaes de no adjacncia, constitui uma das razes do fracasso dos
sistemas de traduo automtica. Tambm nesta tarefa, o envolvimento de fator
humano especializado ou a especializar-se em traduo ser determinante para
o processo de aprendizagem automtica de conhecimento lingustico que conduzir qualidade da traduo destas expresses, tema que merece ser abordado
com a devida ateno em trabalho futuro.

OSLa volume 7(1), 2015

[220]

anabela barreiro

agradecimentos
Agradeo a Diana Santos e a Stella Tagnin os comentrios pertinentes, que permitiram melhorar este artigo. Este trabalho foi parcialmente financiado pela FCT
atravs de uma bolsa de ps-doutoramento (SFRH/BPD/91446/2012).

referncias
Aziz, Wilker, Sheila Castilho Monteiro de Sousa & Lucia Specia. 2012. PET: a tool
for post-editing and assessing machine translation. Em Eighth International Conference on Language Resources and Evaluation (LREC2012), 39823987.
Baptista, Jorge. 2005. Sintaxe dos nomes predicativos com verbo-suporte SER DE. Fundao para a Cincia e a Tecnologia/Fundao Calouste Gulbenkian.
Barreiro, Anabela. 2008. ParaMT: A paraphraser for Machine Translation. Em
Computational Processing of the Portuguese Language, 8th International Conference,
(PROPOR 2008), 202211.
Barreiro, Anabela. 2009. Make it Simple with Paraphrases: Automated Paraphrasing
for Authoring Aids and Machine Translation: Universidade do Porto. Tese de Doutoramento.
Barreiro, Anabela. 2011. SPIDER: A System for Paraphrasing in Document Editing
and Revision Applicability in Machine Translation Pre-editing. Em Alexander
Gelbukh (ed.), Computational Linguistics and Intelligent Text Processing, vol. 6609
Lecture Notes in Computer Science, 365376. Springer.
Barreiro, Anabela & Lus Miguel Cabral. 2009. ReEscreve: a translator-friendly
multi-purpose paraphrasing software tool. Em Marie-Jose Goulet, Christiane
Melanon, Alain Dsilets & Elliott Macklovitch (eds.), Proceedings of the Workshop
Beyond Translation Memories: New Tools for Translators, The Twelfth Machine Translation Summit, 18.
Barreiro, Anabela, Johanna Monti, Brigitte Orliac & Fernando Batista. 2013. When
Multiwords Go Bad in Machine Translation. Em Proceedings of the Workshop on
Multi-word Units in Machine Translation and Translation Technology, Machine Translation Summit XIV, 2633.
Barreiro, Anabela, Johanna Monti, Brigitte Orliac, Susanne Preu, Kutz Arrieta,
Wang Ling, Fernando Batista & Isabel Trancoso. 2014. Linguistic Evaluation of
Support Verb Constructions by OpenLogos and Google Translate. Em Nicoletta
Calzolari, Khalid Choukri, Thierry Declerck, Hrafn Loftsson, Bente Maegaard,
Joseph Mariani, Asuncion Moreno, Jan Odijk & Stelios Piperidis (eds.), Proceedings of the Ninth International Conference on Language Resources and Evaluation
(LREC14), 3540. ELRA.
OSLa volume 7(1), 2015

traduo automtica, ma non troppo

[221]

Barreiro, Anabela, Bernard Scott, Walter Kasper & Bernd Kiefer. 2011. OpenLogos
Rule-Based Machine Translation: Philosophy, Model, Resources and Customization. Machine Translation 25(2). 107126.
Bick, Eckhard & Anabela Barreiro. 2015. Automatic anonymisation of a new
Portuguese-English parallel corpus in the legal-financial domain. Neste volume.
Chacoto, Luclia. 2005. O Verbo Fazer em Construes Nominais Predicativas: Universidade do Algarve. Tese de Doutoramento.
Chiang, David. 2005. A hierarchical phrase-based model for statistical machine
translation. Em Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, ACL05, 263270. Association for Computational Linguistics.
Gross, Maurice. 1984. Lexicon-grammar and the syntactic analysis of French. Em
10th International Conference on Computational Linguistics and 22nd Annual Meeting
of the Association for Computational Linguistics, Proceedings of COLING , 275282.
Gross, Maurice & Jean Senellart. 1998. Nouvelles bases pour une approche statistique. Em Actes du colloque international JADT-98, .
Koehn, Philipp. 2005. EuroParl: A Parallel Corpus for Statistical Machine Translation. Em Conference Proceedings: the tenth Machine Translation Summit, 7986.
AAMT.
Maia, Belinda. 2005. Machine Translation and Human Translation: using machine
translation engines and parallel corpora for teaching and research. Em International Contrastive Linguistics Conference, 123145.
Maia, Belinda & Anabela Barreiro. 2007. Uma experincia de recolha de exemplos
classificados de traduo automtica de ingls para portugus. Em Diana Santos
(ed.), Avaliao conjunta: um novo paradigma no processamento computacional da
lngua portuguesa, 205216. IST Press.
Maia, Belinda, Anabela Barreiro & Lus Sarmento. 2003. EVAL - Evaluation of
Machine Translation at FLUP. Apresentao em AvalON2003. http://www.
linguateca.pt/documentos/MaiaBarreiroSarmentoEVALAvalon2003.
pdf.
Maia, Belinda, Diana Santos, Lus Sarmento & Anabela Barreiro. 2004. TrAva
- a tool for evaluating Machine Translation - pedagogical and research possibilities. Apresentao na ABRAPT. http://web.letras.up.pt/bhsmaia/
belinda/pres/abrapt-trava.ppt.
OSLa volume 7(1), 2015

[222]

anabela barreiro
Marcu, Daniel, Wei Wang, Abdessamad Echihabi & Kevin Knight. 2006. SPMT: statistical machine translation with syntactified target language phrases. Em Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing,
EMNLP 06, 4452. Association for Computational Linguistics.
Ramisch, Carlos, Aline Villavicencio & Christian Boitet. 2010. Multiword Expressions in the wild? The mwetoolkit comes in handy. Em Proceedings of the 23rd
International Conference on Computational Linguistics (COLING 2010), 5760.
Ranchhod, Elisabete. 1983. On the Support Verbs Ser and Estar in Portuguese.
LingvisticInvestigationes Volume 7. 317 353.
Ranchhod, Elisabete. 1990. Sintaxe dos Predicados Nominais com Estar. Instituto
Nacional de Investigao Cientfica.
Salkoff, M. 1999. A French-English Grammar: A Contrastive Grammar on Translational
Principles Linguisticae investigationes. J. Benjamins.
Sarmento, Lus, Anabela Barreiro, Belinda Maia & Diana Santos. 2007. Avaliao
de Traduo Automtica: alguns conceitos e reflexes. Em Diana Santos (ed.),
Avaliao conjunta: um novo paradigma no processamento computacional da lngua
portuguesa, 181190. IST Press.
Scott, Bernard (Bud). 2003. The Logos Model: An Historical Perspective. Machine
Translation 18(1). 172.
Vieira, Lucas & Lucia Specia. 2011. A review of translation tools from a postediting perspective. Em 3rd joint EM+/CNGL Workshop bringing MT to the user:
Research meets translators (JEC), 3342.
Zollmann, Andreas & Ashish Venugopal. 2006. Syntax augmented machine translation via chart parsing. Em Proceedings of the Workshop on Statistical Machine
Translation, StatMT 06, 138141. Association for Computational Linguistics.

c o n ta c t o s
Anabela Barreiro
INESC-ID
anabela.barreiro@inesc-id.pt
OSLa volume 7(1), 2015

Simes, Barreiro, Santos, Sousa-Silva & Tagnin (eds.) Lingustica, Informtica e Traduo: Mundos
que se Cruzam, Oslo Studies in Language 7(1), 2015. 223234. (ISSN 1890-9639 / ISBN 978-8291398-12-9)
http://www.journals.uio.no/osla

estudos de terminologia no brasil:


dilogos com portugal
MARIA JOS BOCORNY FINATTO

abstract
This paper contrasts some texts that deal with the history of the terminology research in Brazil, especially the research aimed to extract or recognize
terminology in corpora, a widespread practice among us only from the year
2000, with pioneering texts on this topic produced by Portuguese researchers, represented here by Belinda Maia. The intention is to recognize her
role as disseminator of the corpus-based methodologies. The paper follows
showing how the dialogue between the Terminology studies from Brazil and
Portugal is important for the promotion of Portuguese language in the global scenario of scientific and technical communication.
[1] i n t r o d u o

Este texto trata de cotejar algumas publicaes que servem como um exemplo de
testemunhos da trajetria da pesquisa terminlogica no Brasil, especialmente a
pesquisa orientada para a extrao ou reconhecimento de terminologias a partir
de corpora, mtodo de trabalho que s foi nacionalmente disseminado entre ns
a partir dos anos 2.000, e textos pioneiros sobre esse modo de pesquisa apresentados por estudiosos portugueses, representados aqui por Belinda Maia. A inteno
deste trabalho, assim, prestar o devido reconhecimento ao papel de Belinda Maia
como disseminadora da ideia do trabalho com corpus, quando nossos primeiros
estudos sobre Lingustica de Corpus recm conseguiam alguma repercusso e reconhecimento no Brasil (Sardinha 2000). Desde ento, essa metodologia de trabalho, que tem reunido no Brasil a Lingustica de Corpus (LC) e o Processamento
de Linguagem Natural (PLN), permanece como algo altamente desafiador, sobretudo entre a comunidade de pesquisadores linguistas que ainda hoje tm pouco
contato com tcnicas computacionais.
Do lado lusitano, revisamos dois textos de Maia (2003), Using Corpora for
Terminology Extraction: Pedagogical and computational approaches produzido
para um evento de 2001 (PALC) e Maia (2002), Corpora for terminology extraction
the differing perspectives and objectives of researchers, teachers and language
services providers produzido para um evento de 2002 (LREC). Do lado brasileiro,
tratado um texto de minha autoria (Finatto 2003), publicado em um boletim
da Associao Brasileira de Lingustica (ABRALIN), no qual, juntamente com ou-

[224]

maria jos bocorny finatto


tras colegas da Terminologia e Terminografia brasileiras, apresentava o desafio de
tratar manuais de Qumica Geral como corpora em busca de conexes entre suas
terminologias e os gneros textuais e discursivos envolvidos. Por fim, examino,
de modo panormico, em contraponto com os textos de Belinda Maia e esse meu,
o conjunto de ideias postas em um livro brasileiro bastante recente (Tagnin & Bevilacqua 2013) sobre o assunto, cujo ttulo justamente Corpora na Terminologia.
Ao final do texto, mostra-se como o dilogo entre os estudos de Terminologia do Brasil e de Portugal tem sido positivo para a promoo da Lusofonia no
cenrio global da comunicao cientfico-tcnica. Nesse cenrio, os repertrios
terminolgicos, sejam glossrios, dicionrios, bases de dados, mapas conceituais
ou ontologias de domnio, gerados a partir de corpora, tm um destaque especial.
[2] a n o v i da d e d o t r a b a l h o c o m c o r p u s e da s f e r r a m e n ta s c o m -

p u ta c i o n a i s
Para a construo de um corpus, bem sabemos, h todo um conjunto de procedimentos, bastante penosos, mas ao final muito gratificantes, de modo que o acervo,
criteriosamente reunido, realmente sirva para representar, com segurana, um
dado estado de uso de lngua. Maia (1997) j nos apresentava um texto sobre como
se poderia enfrentar essa tarefa de um modo relativamente tranquilo, produtivo e
colaborativo, reunindo-se esforos de diferentes pessoas que tivessem interesses
de pesquisa semelhantes em torno desse trabalho.
Mais tarde, em 2004, conforme apontavam Maia et al. (2004, pg. 45), em um
texto que tratava justamente da cooperao entre brasileiros e portugueses em
torno de corpora para ensino, ensino de traduo, traduo e pesquisa de terminologias, uma vez construdo um corpus, definido, grosso modo, como uma coleo
de textos em formato digital, sendo ele etiquetado ou em cru, havia toda uma
parte de ferramentas para observar e analisar o uso da lngua nesse conjunto de
textos. Essas ferramentas, como vamos quela poca no Brasil, pareciam uma
mgica. Afinal, elas permitiam a observao de muitos dados ao mesmo tempo,
em vez do antigo mas familiar trabalho de se ler uma mesma ocorrncia de
palavra ou de uma dada expresso linha a linha ao longo de um texto ou de vrios
textos disponveis apenas em formato impresso. Eu mesma, em 1998, ainda examinava os textos das mais de centenas de leis brasileiras sobre o meio ambiente
desse modo, com lpis, caneta sinalizadora colorida e papel, para a produo de
um dicionrio da sua terminologia.
Pois aquelas ferramentas computacionais mgicas j ofereciam informao
de natureza estatstica, que poderia, posteriormente, ser analisada para fins especficos. E, conforme ensinavam Maia et al. (2004), os grandes corpora monolngues
traziam a possibilidade de se estudar a lngua no nvel lexical e sinttico, o que
tenderia a auxiliar imensamente quem se interessasse, por exemplo, por identificar terminologias em grandes acervos de textos cientficos ou tcnicos.
OSLa volume 7(1), 2015

estudos de terminologia no brasil: dilogos com portugal

[225]

Infelizmente, ainda hoje no Brasil, em 2015, muitos colegas linguistas desconhecem quaisquer metodologias do trabalho com corpus, embora estejamos em
uma poca de grande informatizao, quando nem mesmo se precisa mais comprar algum software para realizar o papel das ferramentas. Afinal, no faltam opes gratuitas e ferramentas prontas para uso on-line. Conforme j afirmamos em
trabalho recente (Novodvorski & Finatto 2014), a LC no Brasil e por extenso
os trabalhos com corpora e com ferramentas para sua explorao associou-se a
diferentes aventuras de investigao e praticamente nada rejeitou em termos de
parcerias de trabalho. O dilogo tem sido uma marca constante, mesmo com quem
conceba a LC apenas como um modus operandi computacional e quantitativo. A
despeito dessa impresso, deve ter ficado claro, pelo menos nesses primeiros 10
anos de percurso do trabalho com corpora no Brasil comemorados em 2015 com
uma dcada da publicao do artigo de Sardinha (2000) , que fomos muito alm
de apenas contar palavras.
[3] r e c o n h e c i m e n t o d e t e r m i n o l o g i a s e m c o r p o r a

Conforme j assinalava Maia (2002), para alm do trabalho da padronizao de


termos que estabelece os termos corretos de uma dada especialidade, levado a
cabo por especialistas de um domnio, geralmente sem a colaborao de linguistas,
h todo um outro trabalho terminolgico, que inclui uma parte de recuperao de
informao e de obervao de descrio de usos alm dos usos padronizados. Esses
inventrios de termos padronizados geralmente ficam registrados em dicionrios
e glossrios oficiais, publicados como terminologia padronizada e preconizada
por associaes de classe, visando uniformizar denominaes e conceituaes que
lhes paream mais adequadas. Desse modo, trata-se de normatizar usos.
Assim, num outro cenrio, descritivo e no prescritivo, so estudados os diferentes modos e circunstncias de emprego de termos o foco o de descrever
usos (quaisquer usos), independentemente de serem mais ou menos normatizados. O trabalho descritivo, feito dessa forma, geralmente levado a cabo por linguistas, tradutores, professores que lidam com ensino de lnguas para propsitos
especficos. Esse seria o caso, por exemplo, do ensino de escrita cientfica em
ingls para mdicos, ou a situao de profissionais que lidam com recuperao
de informao e representao de conhecimento como cientistas da informao e informatas que trabalham com Processamento de Linguagem Natural (PLN).
Nessa situao, so identificadas todas as realizaes encontradas em diferentes
corpora: os termos corretos, incorretos, desviantes, aceitveis, tolerveis, adaptados (entre outros), desde que empregados em textos produzidos por pesquisadores de diferentes perfis. So observados tambm e especialmente os termos
presentes em diferentes cenrios comunicativos, incluindo a comunicao cientfica, tcnica ou tecnolgica dirigida para leigos e semileigos entrando aqui o
sempre pungente tema da popularizao ou vulgarizao de temas cientficos.
OSLa volume 7(1), 2015

[226]

maria jos bocorny finatto


Desse modo, j que a variao terminolgica um fenmeno natural da lngua em uso, coloca-se a necessidade de se organizar corpora de diferentes perfis
para o reconhecimento de terminologias, pois h muita coisa envolvida, conforme
Belinda, magnificamente, j nos ensinava e resumia (Maia 2002, pg. 2, traduo
minha1 ):
[O trabalho da] Terminologia no a simples acumulao de palavras, seus
equivalentes em outras lnguas, definies e uma certa quantidade de informao gramatical. Tambm no a simples correspondncia de um termo
para um conceito. A pessoa tem que lidar com todos os problemas usuais
da linguagem - sociais, geogrficos, histricos, polticos, e outros aspectos de
estilo e de registro. Ao nvel da padronizao, a pessoa pode at mesmo se
envolver em verdadeiras batalhas entre acadmicos ou sociedades comerciais que querem ver prevalecer as palavras que eles usam para descrever suas
teorias ou produtos especficos.
Esse trabalho descritivo, como normalmente visto e produzido por linguistas, abastece recursos voltados para o uso de tradutores. Mas, claro, h um nmero sem fim de finalidades para ele. Alm disso, ainda que se possa argumentar
que a variao ou variabilidade de formas e de significados dos termos seja um entrave para um ideal de comunicao cientfica unvoca, sem ambiguidades, h que
se descrever a situao, reconhecendo o que ocorre para que se possa, inclusive,
melhor administrar uma situao de padronizao.
Em um outro trabalho, que corresponde a uma comunicao apresentada em
2001, Maia (2003) discutia sobre o uso de corpora menores para a extrao de terminologias, trazendo-nos uma abordagem pedaggica e computacional. Na parte
pedaggica, estava a formao de tradutores que se envolviam, sob a superviso
de seus professors, com o processo de compilar e explorar os seus corpora; e, na
parte computacional, aquilo que ela denominou de terminologia computacional, o que j havia mencionado no seu texto de 2002 antes referido.
O relato da parte pedaggica mostrava que Belinda ento se concentrava em
produzir e usar pequenos corpora para estudar assuntos especializados com mais
profundidade e para a extrao de termos (cf. Ibid, pg. 1). Dessa parte, preciso
salientar a sua seguinte frase aqui reproduzida no original: One of the principal
objectives of our work is to convince the humanities educated translator that the serious
study of specialised language from the text to the term is essential training for future translators. (pg. 2, grifo nosso). O grifo, conforme entendo, reflete uma viso
[1]

OSLa volume 7(1), 2015

No original: Terminology is not the simple accumulation of words, their equivalents in other languages,
definitions and a certain amount of grammatical information. Nor is it the simple matching of term
to concept. One has to deal with all the usual problems of language - social, geographical, historical,
political, and other aspects of style and register. At the level of standardisation, one can even become
involved in authentic battles between academics or commercial companies who want to see the words
they use to describe their particular theories or products prevail.

estudos de terminologia no brasil: dilogos com portugal

[227]

pioneira da perspectiva textual do estudo e do trabalho com as terminologias, com


a qual nos temos alinhado h bastante tempo, o que se confirma nesses trechos
a seguir apresentados de um trabalho nosso produzido em 2001 (Finatto 2003).
Nele j apresentavmos uma proposta diferenciada pelo menos no mbito dos
estudos de Terminologia do Brasil para o enfoque lingustico-terminolgico de
manuais acadmicos de Qumica (Finatto 2003, pg. 186):
O texto especializado (tambm chamado texto tcnico-cientfico) fruto da
ao perceptiva e transformadora de um sujeito enunciador, individual e
mltiplo, sobre um conjunto de conhecimentos e textos com os quais se relaciona. Essa ao, que pode ser vista como um redizer algo ou o recontar a
estruturao de um conhecimento tornando-o acessvel ao outro, est materializada e sobremodalizada (ou particularizada) no amplo conjunto de enunciados que estabelece o texto e tambm envolve relaes de intertextualidade.
Isto , o texto do Manual de Qumica, nosso objeto de observao particular,
construdo pelo enunciador e , igualmente, uma sntese de diversos outros
textos: os que o precedem e o acompanham, compartilhando com ele a constituio scio-histrica de uma rea de conhecimentos, de um continuum de
conhecimentos que a Qumica.
Nesse ponto, ainda vale destacar nossa outra afirmao, colocada naquele trabalho de 2001 (cf. (Ibid, pg. 186)) e que sustentamos como vlida at hoje, de que
no
h como desvincular termos e textos, mesmo que se escolha privilegiar os
aspectos lexicais mais pontuais de uma terminologia. So, assim, esses referenciais elementos muito importantes e que certamente podem contribuir
para os novos desenvolvimentos de uma teoria Terminolgica de base comunicativa voltada compreenso do texto tcnico-cientfico em seus diferentes
tipos.
O artigo de Maia (2003) trazia j, alm dessa postura textual, uma reflexo
sobre o portugus de Portugal e o do Brasil no mbito da comunicao cientfica
posta em textos. Trazia ela um relato, cuja leitura indispensvel para professores de Traduo ou de Terminologia do Brasil, sobre como conduzia, com alunos
de um curso de Traduo em Portugal, as relaes travadas com os especialistas
do domnio em foco e a formao desses futuros profissionais frente ao atravessamento do Portugus do Brasil. Afinal, ao buscarem seus corpora em portugus,
os alunos via de regra deparavam-se com fontes brasileiras e lusitanas.
Conforme explicava Maia (2003, pg. 10), muitas vezes textos em portugus
simplesmente no existiam ou no eram encontrveis para compor os corpora dos
estudantes. Mas, em geral, quando eram encontrados, estavam em Portugus do
Brasil, algo a que as pessoas de Portugal muitas vezes reagiam negativamente
OSLa volume 7(1), 2015

[228]

maria jos bocorny finatto


especialmente os especialistas do domnio e tambm os estudantes, conforme
pude supor. A estrutura do vocabulrio e texto do Portugus do Brasil particularmente em domnios cientficos e tcnicos conforme relatava sofria de uma
influncia considervel do ingls norte-americano o que no ocorria do mesmo
modo no portugus de Portugal. No material brasileiro, termos em ingls eram
muitas vezes adotados e a estrutura de sentena em tais textos tendia a seguir a
ordem SVO dominante de Ingls em detrimento do estilo vernculo.
Anos mais tarde, em 2010, experimentaramos, in vivo, a situao relatada por
Belinda, mas pela via inversa, em relao a corpora de um domnio disponveis
apenas em portugus de Portugal. Com estudantes de Traduo da nossa Universidade, alunos de graduao e de ps-graduao, acompanhados por colegas
mdicos associados nossa Universidade, colaboramos em um trabalho sobre o
tema das pneumopatias ocupacionais (Brasil)/profissionais (Portugal) integrado
por uma equipe brasileira e uma equipe portuguesa, o que registramos nos trabalhos Marcolin et al. (2010) e em Finatto & Goldnadel (2013).
Mais uma vez, ter tido acesso ao relato de experincias de Belinda Maia permitiu que nos entendssemos e nos situssemos em um enquadramento de uma situao geogrfica e temporalmente diferente, mas muito semelhante. Havia, enfim,
o desafio de uma lusofonia a enfrentar e a promover com nossos alunos e com os
especialistas do domnio. Esse percurso, ainda que parcialmente registrado, pode
ser conferido ao acessar-se o nosso Glossrio Experimental de Pneumopatias Ocupacionais.2 Esse um prottipo de glossrio brasileiro, fruto do trabalho comum com
os colegas de Portugal, que estamos construindo ano a ano com nossos estudantes
da disciplina de Terminologia do curso de Traduo. Sua proposta apenas a de
ser um material didtico para nossos alunos de Letras.
Quanto ao modo como lidar com essa lusofonia em meio pedagogia de terminologias para futuros tradutores, nossa opo tem sido a de separar as variantes
de um modo bastante claro. Recomendamos agrupar os dados em blocos distintos, ainda que esses blocos estejam compartilhados em um mesmo trabalho, de
modo a salvaguardar as diferenas importantes entre usos terminolgicos e prticas textuais entre Brasil e Portugal. Incluir essas diferenas ou separar as informaes, em um corpus ou em um glossrio, pode incomodar algumas pessoas; mas
o incmodo tambm demonstra a necessidade de se pensar em um portugus
internacional.
De nossa parte, alertamos que um perigo, para o tradutor brasileiro que
produz um texto em portugus para clientes brasileiros, utilizar uma fonte portuguesa sem dar-se conta de sua procedncia e das potenciais diferenas terminolgicas. Vale mencionar alguns exemplos bastante ilustrativos de diferenas
terminolgicas entre Brasil (BR) e Portugal (PT): AIDS (BR) e SIDA (PT), cidos
[2]

OSLa volume 7(1), 2015

Disponvel gratuitamente em: http://www.ufrgs.br/textecc/pneumopatias/index.php.

estudos de terminologia no brasil: dilogos com portugal

[229]

graxos (BR) e cidos gordos (PT), disbarismo (BR) e embolia gasosa (PT), entre
outros casos concretos que se poderia conferir, por exemplo, no Glossrio Panlatino
de Pneumopatias Ocupacionais/Profissionais.3
Em sntese, recomendamos que corpora portugueses sejam tratados em separado dos corpora brasileiros, sempre muito bem identificados, especialmente se o
uso dos dados extrados servir para abastecer produtos para a traduo. H muitos pontos coincidentes, naturalmente, mas as diferenas no se pode ignorar,
tampouco essas diferenas, devidamente repertoriadas, devem servir para que
se possa pensar na inviabilidade de se escrever tambm em portugus o conhecimento cientfico e tcnico. Em um trabalho que rena as fontes e as terminologias dos dois pases, as denominaes comuns ficariam marcando, assim, um
portugus internacional, ao passo que se assinalam, sempre, os usos diferentes de
Portugal (PT) ou do Brasil (BR).
Uma tal postura, o que discute Santos (2014) quando trata da questo de
diferenas lingusticas entre Portugal e Brasil em seu trabalho intitulado Como
estudar variantes do portugus e, ao mesmo tempo, construir um portugus internacional? A autora entende que importante termos corpora em portugus sem uma
separao de variantes considerando a ideia de um portugus internacional. No
contexto dessa pergunta, pelo menos no mbito da Terminologia, entendo que
importa descrever essas variantes e p-las em contato, em conjunto, ainda que
individualizadas, de modo que todos saibamos uns dos outros e de seus usos especficos.
Sob uma outra tica, igualmente interessante para uma reflexo que abarca e
extrapola o trabalho de Santos (2014), temos o estudo de Coulthard (2005). Nesse
trabalho, o autor j aponta, com base em um extenso estudo em corpus, uma influncia do estilo redacional do artigo em ingls sobre a escrita original de artigos
em portugus por parte de pesquisadores de Pediatria no Brasil. Assim, o estilo
em portugus brasileiro, pelo menos em artigos cientficos de Pediatria, j aparece anglofonizado, talvez at para facilitar a traduo do texto para um ingls
lingua franca. O corpus paralelo de Pediatria reunido por Coulthard (2005), por
ns expandido, encontra-se disponvel para consulta, em diferentes formatos e
recursos.4
[4] corpora na terminologia e nas terminologias

Em 2013, organizado por Tagnin & Bevilacqua (2013), foi publicada no Brasil uma
coletnea de artigos que servem, em tese, para atestar a boa juno e o sucesso
do trabalho terminolgico baseado ou guiado por corpora. O objetivo da obra ,
na verdade, reiterar, para ns do Brasil, que j h uma interface produtiva e pro[3]
[4]

Disponvel
gratuitamente
em
http://www.oqlf.gouv.qc.ca/ressources/bibliotheque/
dictionnaires/panlatin_pneumopathies20130124.pdf.
Consultar em http://www.ufrgs.br/textecc/textped/Dicionarios/DicPed/.
OSLa volume 7(1), 2015

[230]

maria jos bocorny finatto


missora entre Lingustica de Corpus (LC) e Terminologia. Seus textos podem ser
divididos em trs grupos de artigos que tratam: a) da trajetria histrica dessa
inter-relao; b) de situar essa juno no cenrio da formao de tradutores; e,
c) de experincias de elaborao de produtos terminogrficos para tradutores e
redatores.
Entre vrios textos que poderia citar, um trabalho digno de referncia aqui, visando ilustrar a riqueza de perspectivas da obra, o de Maciel (2013). Isso porque
a autora frisa que, embora a LC goze de prestgio no cenrio da pesquisa terminolgica brasileira atual, h muitos trabalhos que, embora lidem com corpora, no
seguem seus princpios terico-metodolgicos. Mais, ainda, ela nos alerta que (op.
cit., pg. 40):
O uso de corpora em formato digital abre mltiplos caminhos e aqueles que
se dedicam aos estudos terminolgicos no conseguem prescindir deles. No
entanto, no raras vezes, o pesquisador levado a acreditar em falcias e a
sonhar com o impossvel. Engana-se com o poder da mquina, busca a mgica de um aplicativo automtico, ilude-se com a velocidade operacional prometida, entrega-se a clculos matemticos e, em clima de entusiasmo pela
evidncia emprica, passa ao largo da reflexo, do estudo e dos fundamentos
tericos do seu trabalho.
A partir disso, importante no perder de vista que a informatizao, mediada pela LC, mostra para a pesquisa em Terminologia que a melhor observao da
linguagem , sim, extensiva. evidente que preciso contrastar padres da linguagem cientfica ou tcnica em diferentes corpora, pois, pela lente de aumento
dos corpora, evidenciam-se as caractersticas dos textos e dos discursos (Finatto
2007). Ainda assim, pelo menos no Brasil, conforme percebo pessoalmente, a pesquisa em Processamento da Linguagem Natural (PLN) no tem dialogado to intensivamente quanto poderia com a pesquisa em LC, visto que a primeira territrio de informatas e a segunda, de linguistas. Apesar dessa percepo negativa,
uma boa integrao entre essas duas reas temos visto em alguns grupos do Brasil e de Portugal, como o Ncleo Interinstitucional de Lingustica Computacional
(NILC) de So Carlos (So Paulo) e a Linguateca (citados em Maia et al. (2004)), que
renem linguistas e informatas. Mas, pelo menos no mbito acadmico brasileiro,
h ainda muito a se avanar rumo a um dilogo produtivo e igualmente positivo
para as partes nele envolvidas.
[5] c o n s i d e r a e s f i n a i s

claro, hoje, entre ns linguistas brasileiros que lidamos com Terminologia e Terminografia, que um termo especializado , antes de tudo, um valor ativado no discurso (o termo discurso, para mim, no exatamente um sinnimo de texto, mas
no cabe aqui essa discusso). Essa concepo devemos principalemente Teoria
OSLa volume 7(1), 2015

estudos de terminologia no brasil: dilogos com portugal

[231]

Comunicativa da Terminologia (TCT), desenvolvida por Maria Teresa Cabr e seus


colaboradores na Espanha.
Em funo desse entendimento de um valor terminolgico ativado no discurso/texto, identificar uma terminologia passa a ser uma tarefa que envolve
tambm reconhecer um texto, um modo de dizer, uma famlia de textos, elementos que se concretizam em diferentes usos de uma lngua. Alm dos textos,
e por causa deles, temos que acessar todo um conjunto de itens de conhecimento
inter-relacionados e apresentados social, cultural e historicamente em um dado
espao-tempo. Portanto, identificar os termos no representa apenas o reconhecimento de um conjunto de palavras de um domnio determinado, tampouco apenas listar as palavras tcnicas que se extraem de um conjunto de
textos.
Um termo, como sabemos, corresponde a um conceito, que uma poro de
conhecimento. E, tal como as palavras comuns, tambm os conhecimentos morrem, nascem ou caem em desuso. Afora isso, a sua utilizao peculiar pode identificar grupos socais, perspectivas nacionais ou internacionais de uma cincia e
correntes de pensamento locais. Afinal, os produtores do pensamento de uma
cincia, de uma tecnologia ou de uma especialidade expressam-se com escolhas
lexicais prprias do seu discurso.
Por outro lado, no cenrio da pesquisa sobre terminologias partindo de corpora, destacam-se hoje os softwares especialmente desenhados ou adaptados para
a localizao semi-automtica de terminologias, de construes, de fraseologias,
de sintagmas e de palavras ou de expresses que seriam potencialmente termos.
Isso sem contarmos os novos recursos de PLN, hoje capazes de gerar automaticamente ontologias a partir de corpora, tal como, por exemplo, j faz a ferramenta
ExATOlp Extrator Automtico de Termos para Ontologias em Lngua Portuguesa. (Lopes 2012).
Neste momento atual, marcado pela intensa informatizao do trabalho, considerando o sempre necessrio e produtivo dilogo entre os estudos de Terminologia do Brasil e de Portugal, importante refletirmos sobre o quanto corpora
gigantes ou pequenos e ferramentas computacionais no so panaceias. Afinal,
ainda h muito trabalho subjetivo envolvido. O apoio computacional e estatstico
d um suporte importantssimo ao terminlogo/termingrafo que segue lidando
com acervos de conhecimento escritos em portugus. Embora a tarefa esteja hoje
muito menos rdua com tal suporte tecnolgico, o pesquisador ainda precisa trabalhar intensamente, sem perder de vista o cenrio, algumas vezes belicoso, da
prescrio versus descrio.
E, em meio a isso, permanecem os desafios para a promoo da lusofonia no
cenrio global da comunicao cientfico-tcnica, de modo que possamos apreciar a nossa propria diversidade, dando-nos conta de que a ideia de um portugus
internacional ou supranacional implica o reconhecimento de um patrimnio coOSLa volume 7(1), 2015

[232]

maria jos bocorny finatto


mum nosso (conforme bem assinala Santos 2014, pg. 21. Nesse cenrio global,
temos um portugus pan-nacional como uma lngua que abarca e subsume as
suas diferentes variantes frente a um ingls lingua franca ou frente a outras lnguas que tambm tm suas variantes nacionais como o francs da Frana ou do
Canad. Esse ingls lingua franca, entretanto, parece a tudo e a todos engolir, pois
o que no estiver publicado em ingls, na prtica, em termos de textos cientficos ou tcnicos, tende a no ser citado ou reconhecido, ignorado, mesmo que a
traduo automtica partindo do portugus para o ingls esteja disposio de
todos. Com o apoio da traduo automtica, apesar dos seus erros mais comuns,
poderia-se ao menos tentar entender os tpicos principais de um trabalho originalmente escrito em portugus. O problema que, em geral, por vrios motivos,
sequer se tenta.
Ser a influncia maior ou menor do ingls uma medida de distanciamento entre as terminologias do Brasil e de Portugal e seus respectivos fazeres cientficos?
Eis aqui um bom tema para pesquisas com base em corpora. Mas, se isso for verdade, qual seria, ento, a medida de aproximao entre elas? Como conduzir um
trabalho terminolgico que acolha e promova a lusofonia em uma poca como a
atual em que o Brasil se abre, intensivamente, internacionalizao e que parece
dominar o cenrio em muitas frentes? Creio que as respostas certas para essas
perguntas no estejam dadas prontas em trabalhos de colegas portugueses como
os de Belinda Maia aqui citados. Apesar disso, qualquer trao de resposta disponvel, legitamente construdo em um percurso de reflexo, em meio profuso de
perguntas e de desafios a equacionar, j pode nos ajudar a encontrar as nossas
quem sabe novas melhores perguntas. O dilogo renovado entre Brasil e Portugal, pelo menos no mbito dos estudos de Terminologia, tende a nos ajudar nessa
direo.

agradecimentos
Agradeo a Diana Santos pela oportunidade de participar desta publicao e tambm FAPERGS, CAPES, no mbito do Programa Stic-AmSud (projeto 047/2013),
FAPERGS e ao CNPq, instituies de apoio pesquisa no Brasil, pelo apoio s
minhas iniciativas de estudo de pesquisa.

referncias
Coulthard, Robert James. 2005. The application of corpus methodology to translation:
the jped parallel corpus and the pediatrics comparable corpus: Universidade Federal
de Santa Catarina. Tese de Mestrado.
Finatto, Maria Jos Bocorny. 2003. Sobre o enfoque lingstico-terminolgico de
manuais acadmicos de Qumica Geral. Em Associao Brasileira de Lingustica ABRALIN (ed.), II congresso internacional da ABRALIN, 2001, 184186.
OSLa volume 7(1), 2015

estudos de terminologia no brasil: dilogos com portugal

[233]

Finatto, Maria Jos Bocorny. 2007. Explorao terminolgica com apoio informatizado: perspectivas, desafios e limites. Em Aparecida Negri Isquerdo & Ieda Maria Alves (eds.), As Cincias do Lxico. Lexicologia, Lexicografia, Terminologia. Volume
III, 447458. Editora da UFMS/Humanitas.
Finatto, Maria Jos Bocorny & Marcos Goldnadel. 2013. Formao de terminlogos: experincia com /corpus/ em uma graduao em traduo. Em Stella
Tagnin & Cleci Bevilacqua (eds.), Corpora na Terminologia , 87112. HUB Editorial.
Lopes, Lucelene. 2012. Extrao automtica de conceitos a partir de textos em lngua
portuguesa: Pontifcia Universidade Catlica do Rio Grande do Sul (PUCRS). Tese
de Doutoramento.
Maciel, Anna Maria Becker. 2013. Terminologia e corpus. Em Stella Tagnn &
Cleci Regina Bavilacqua (eds.), Corpora na terminologia, 2945. HUB Editorial.
Maia, Belinda. 1997. Do it yourself corpora... with a little bit of help from your friends! Em B. Lewandowska-Tomaszczyk & P. J. Melia (eds.), Practical applications
in language corpora, 403410. Lodz: Lodz University Press.
Maia, Belinda. 2002. Do-it-yourself, disposable, specialised mini corpora - where
next? Reflections on teaching translation and terminology through corpora.
Cadernos de Traduo 1(9). 221235.
Maia, Belinda. 2003. Using Corpora for Terminology Extraction: Pedagogical and
computational approaches. Em Barbara Lewandowska-Tomaszczyk (ed.), PALC
2001: practical applications in language corpora, 5668. P. Lang.
Maia, Belinda, Lus Sarmento, Stella E. O. Tagnin & Sandra Maria Alusio. 2004.
Idias que cruzam o Oceano. CROP - Revista da rea de Lngua e Literatura Inglesa
e Norte-Americana 10. 4364.
Marcolin, Paula, Aline Evers, Maria Jos Bocorny Finatto & Marcos Goldnadel.
2010. Pneumopatologias: formao em terminologia em curso de traduo no
Brasil. Em Actas da RiTerm 2010, 254278.
Novodvorski, Ariel & Maria Jos Bocorny Finatto. 2014. Lingustica de Corpus no
Brasil: uma aventura mais do que adequada. Letras & Letras - UFU 30(2). 716.
Santos, Diana. 2014. Como estudar variantes do portugus e, ao mesmo tempo,
construir um portugus internacional? http://www.linguateca.pt/Diana/
download/VariantesPIGSCP.pdf.
Sardinha, Tony Berber. 2000. Lingstica de Corpus: histrico e problemtica.
DELTA 16(2). 323367.
OSLa volume 7(1), 2015

[234]

maria jos bocorny finatto


Tagnin, Stella Esther Ortweiler & Cleci Regina Bevilacqua. 2013. Corpora na terminologia. So Paulo: HUB Editorial.

c o n ta c t o s
Maria Jos Bocorny Finatto
Instituto de Letras, Universidade Federal do Rio Grande do Sul, Brasil
maria.finatto@gmail.com
OSLa volume 7(1), 2015

Simes, Barreiro, Santos, Sousa-Silva & Tagnin (eds.) Lingustica, Informtica e Traduo: Mundos
que se Cruzam, Oslo Studies in Language 7(1), 2015. 235252. (ISSN 1890-9639 / ISBN 978-8291398-12-9)
http://www.journals.uio.no/osla

ensinador paralelo:
alicerces para uma pedagogia nova
DIANA SANTOS E ALBERTO SIMES

abstract
After outlining some of Belinda Maias main ideas of how to use comparable
corpora in translation teaching and learning, we present a new translator
training tool: Ensinador Paralelo. It is an extension of Ensinador, originally
developed for use with monolingual corpora (Simes & Santos 2011). This
new tool produces exercises based on translations (previously done by professional translators or students, as we will see).
In order to make the text more interesting to Belinda Maia we also study
critically four translations of Lewis Carrolls children books.
[1] i n t r o d u o

Como professora de traduo, terminologia e de lngua inglesa para portugueses,


Belinda Maia sempre insistiu na primazia pedaggica dos corpos comparveis em
detrimento dos paralelos, no obstante a fama e a moda que estes ltimos obtiveram a partir dos anos 90. Da a sua variada produo cientfica em prol dos
mesmos, como pode ser apreciado em Maia (2003c,b,a, 2006a); Maia et al. (2005a).
Por questes prticas corpos comparveis necessitam de um ambiente para
corpos monolingues acabou por ser conhecida e reconhecida pela conceo do
Corpgrafo (Maia & Sarmento 2003a, 2005; Maia et al. 2005c; Maia 2008d), que
desde sempre foi sonhado como o ambiente para estudar corpos comparveis,
embora nunca (ou apenas bastante mais tarde) se tenha chegado a implementar
as funes exatamente associadas comparabilidade (Maia & Matos 2008). De
facto, o Corpgrafo ao longo dos anos tornou-se um sistema poderoso e robusto e
as suas vertentes de motor terminolgico ou mesmo ontolgico foram tomando a
primazia (Oliveira et al. 2005; Sarmento et al. 2007; Matos & Maia 2008).
Contudo, o prprio Corpgrafo foi expandido para tambm incorporar corpos
paralelos, como Matos et al. (2008) testemunha.
Mas ns estamos conscientes de que, com a moda dos corpos paralelos, Belinda
Maia sempre tentou equilibrar o fiel da balana para que os alunos (e tradutores)
pudessem apreciar questes de estrutura textual, modos de expresso, que, devidos camisa de foras de uma traduo, sobretudo literria, no apareceriam
com tanta fora no lado traduzido.

[236]

santos & simes


Pois um dos problemas e cavalos de batalha da Belinda como tecnloga da
lngua era contrabalanar o paradigma da traduo literria com todas as outras
formas de traduo, para a qual ela conscienciosa e apaixonadamente treinava os
alunos. E no preciso ser linguista ou literato para saber que existem muitssimo
menos textos (bem) traduzidos no-literrios em corpos paralelos. Alm disso, e
com o advento das ferramentas de traduo automtica, vocacionadas e treinadas sobretudo para a traduo tcnica, pareceu Belinda que a familiarizao dos
alunos com tais ferramentas era fundamental, e que seria mais vantajoso treinar
tradutores que colaborassem com a mquina (como a Belinda diz) do que a ignorassem ou temessem.
Com isto tudo, um leitor que no conhecesse a Belinda no acharia natural
escrever um artigo em honra dela sobre (mais!) um sistema para corpos paralelos.
Contudo, temos duas razes para o fazer:
A Belinda sempre foi uma colega maravilhosa, capaz de apreciar tudo e de
se entusiasmar e ajudar em qualquer projeto, mesmo que fosse completamente fora do domnio das suas mltiplas tarefas: por exemplo, lembramonos do seu entusiasmo perante a infraestrutura do Museu da Pessoa, uma
vez que foi ao Minho.
um sistema prtico que foi pensado para o ensino, e nesse aspeto pode
ser mais til e mais do agrado da Belinda do que o COMPARA (FrankenbergGarcia & Santos 2002) e o CorTrad (Teixeira et al. 2012), que no foram inicialmente desenhados para ensinar e que tinham, ou tm, outras aspiraes.
Esperamos pois, com a descrio do sistema e das suas aplicaes ou mesmo ferramentas de apoio ao ensino, ajudar a convencer a Belinda de que, pelo menos nesta
vertente, tambm pode ser til usar corpos paralelos no ensino, da a pedagogia
nova no ttulo desta contribuio.
No que ela no esteja j ou mesmo sempre convencida disso; a luta dela era
por ir mais alm, e dar mais espao e importncia aos corpos comparveis.
Para que seja mais fcil convenc-la da utilidade da ferramenta ou, quem sabe,
para ainda piorar o efeito, no resto do artigo iremos tentar ilustrar as capacidades
pedaggicas do Ensinador e de corpos paralelos multi-traduousando corpos
literrios.
[2] o e n s i n a d o r p a r a l e l o

A ideia, alis j h muito descrita para o par ingls-portugus (Frankenberg-Garcia


1998, 1999b,a), s foi implementada depois de termos, na Linguateca, desenvolvido o Ensinador (Simes & Santos 2011) para criar exerccios gramaticais sobre
corpos monolingues.
OSLa volume 7(1), 2015

ensinador paralelo: alicerces para uma pedagogia nova

[237]

Mas com o envolvimento de ambos os autores em cada vez mais novos corpos paralelos, como mostraremos no que se segue, pareceu chegada a altura de
expandir a ideia, e a funcionalidade, para os muitos casos j existentes.
Ao contrrio do Ensinador, que foi pensado para se apoiar exclusivamente sobre os corpos do AC/DC dado o seu tamanho e abrangncia, no parecia necessrio ainda usar mais material, o ParaEnsinador (nome do ensinador para
corpos paralelos) pretende poder ser usado pelo menos sobre os corpos da Linguateca e sobre os corpos do Per-fide (Arajo et al. 2010). Isto obrigou-nos a ter
mais cuidado na sua implementao, de modo a permitir a sua fcil instalao em
diferentes sistemas, assim como a possibilidade de configurao, para poder lidar
com vrios corpos, lnguas e diferentes formas de codificao e anotao.

[2.1]

Implementao

Embora o ParaEnsinador no tenha grandes novidades em termos de implementao em relao ao Ensinador monolingue, parece-nos importante realar, neste
documento, a sua tecnologia de base.
Tal como para o Ensinador, os corpos usados pelo ParaEnsinador devem estar,
naturalmente, codificados em Open Corpus Workbench (OCWB)1 . Tendo o OCWB
suporte para corpos paralelos, o ParaEnsinador baseia-se nessa informao para
realizar pesquisas paralelas.
Assim, para que um corpo paralelo possa ser usado pelo ParaEnsinador necessrio que cada uma das lnguas seja codificada de forma independente no OCWB,
seguida da importao de dados de alinhamento (que indicam, para cada segmento de uma lngua qual o segmento da lngua de destino que lhe corresponde)2 .
A interface Web implementada usando o mdulo Perl Dancer23 que pode funcionar sob um qualquer servidor Web, desde Apache a Starman.
A interligao entre a interface Web e o OCWB realizada usando o mdulo
CWB::CQP::More4 que, recentemente, recebeu uma atualizao para corpos paralelos.
Para que fosse possvel a gerao de diferentes tipos de exerccios foi necessrio alterar a sintaxe pr-definida usada pelo Corpus Query Processor do OCWB,
adicionando-lhe alguns atributos extra.
As alteraes sintaxe do OCWB so detalhadas na prxima seco, junta[1]
[2]

[3]
[4]

Ver http://cwb.sourceforge.net/.
Alguns investigadores tm usado ficheiros em formato TMX (Translation Memory eXchange) para armazenar os seus corpos paralelos. Uma TMX pode ser importada facilmente para o OCWB usando a ferramenta
tmx2cwb do mdulo Perl XML::TMX::CWB http://metacpan.org/release/XML-TMX-CWB.
Ver http://metacpan.org/release/Dancer2.
Ver http://metacpan.org/release/CWB-CQP-More.
OSLa volume 7(1), 2015

[238]

santos & simes


mente com alguns exemplos do seu uso5 .
Embora o ParaEnsinador esteja, atualmente, funcional, a verdade que ainda
lhe faltam vrias propriedades do Ensinador original. E, para alm dessas funcionalidades em falta, tambm existem muitas ideias de como tornar esta ferramenta
mais til, nomeadamente a realizao de exerccios validados automaticamente
ou de escolha mltipla (apresentando, por exemplo, diferentes formas geradas
usando um gerador morfolgico, ou um dicionrio bilingue).

[2.2] Exemplos de uso


Passamos a ilustrar o que se pode fazer. Mas, antes, chamamos a ateno de que
esta uma ferramenta para o professor, no para ser usada diretamente pelo
aluno (de traduo ou de lngua). Nesse aspeto, tal como o Ensinador, difere essencialmente dos sistemas Trivial Corpus Pursuit (Ebeling 2006) e Oslo Interactive
English (Ebeling 2009), que so pensados para o utilizador final.
Um primeiro exemplo muito simples d-nos casos de traduo da palavra admirar para ingls, no CorTrad jornalstico para mais informaes sobre este
corpo, veja-se Santos et al. (2012); para a razo do interesse pela palavra admirar, veja-se Santos & Mota (2015a).

figura 1: Procura do lema admirar para escolher concordncias paralelas.


Na figura 2, mostramos o resultado de uma procura para escolher entre as
tradues pedir e perguntar do verbo ingls ask. Como esperamos que seja evidente
[5]

OSLa volume 7(1), 2015

Convm realar que, infelizmente, neste momento ainda no foi possvel tornar a linguagem de pesquisa
flexvel suficiente para as duas lnguas do corpo paralelo. Assim, o utilizador ter de escolher uma lngua para a qual a sintaxe estendida deva ser usada, enquanto que para a outra lngua s poder usar
expresses de pesquisa do OCWB.
Espera-se que, no futuro, ou atravs da incorporao de algumas funcionalidades extra de pesquisa do
lado do OCWB, ou atravs de alguma soluo intermdia, se possa vir a ter a linguagem estendida para
ambas as lnguas.

ensinador paralelo: alicerces para uma pedagogia nova

[239]

para um leitor conhecedor do fenmeno da vagueza contrastiva, ask vago entre


o que em portugus se tem de especificar como ato de fala (pedido de informao)
(perguntar), ou pedido de ao ou objeto (pedir). Mas s quem contata diretamente
com falantes de portugus lngua estrangeira de lnguas germnicas que tenham
verbos vagos a esse respeito pode ter a noo de que no bvia a escolha de qual
verbo utilizar, e que por isso vale a pena fazer este tipo de exerccios para tornar
o aprendiz mais consciente dos diferentes casos.

figura 2: Resultado da procura de casos com pedir e com perguntar.


Pode-se depois escolher os casos que queremos usar na construo de exerccios, como se v na figura 3.
Em relao sintaxe de procura, explicamo-la na Tabela 1, sobretudo visto que
o artigo inicial sobre o Ensinador ainda no apresenta todas as funcionalidades
que foram sendo desenvolvidas e criadas.

.NOME

significa manter no enunciado


indica a classificao (atributo CQP, por exemplo lema
ou pessnum) que se mostra para o aluno poder fazer o exerccio
tabela 1: Informao sobre extenses sintaxe do OCWB

A figura 4 exemplifica o resultado final: o enunciado de um exerccio muito


simples dedicado explorao das possveis tradues da palavra inglesa ball, apenas para tornar claro o tipo de exerccios contrastivos aqui em jogo.
OSLa volume 7(1), 2015

[240]

santos & simes

figura 3: A interface de escolha das unidades de traduo a reter


O estudante teria de puxar pela cabea para escolher livremente qual a melhor palavra em portugus, ou no caso de alunos menos avanados para efetuar
uma escolha entre bola, carretel, bolo e engrenagem. Note-se que este exerccio foi
feito com base nos textos do CorTrad literrio, traduo de contos em ingls australiano e canadiano para portugus do Brasil.
[3] a l i a da s

O texto de Lewis Carroll Alice in Wonderland (Carroll 1865), assim como a sequela
Through the Looking-Glass, and What Alice Found There (Carroll 1871), um clssico
da literatura britnica e mundial, e alm disso um livro de culto at aos nossos
dias. Belinda Maia no esconde o seu entusiasmo por ele, demonstrado pela sua
invocao em lides acadmicas, como em Maia (2008a) por ocasio dos dez anos
da Linguateca. Mas encontra-se em boa companhia: Com efeito, h outros textos
na rea da traduo que tambm invocam, embora de maneira diferente, a genialidade deste matemtico-escritor, como o caso de Chesterman (1998, pgs. 56).
Tambm um dos principais socilogos portugueses, de renome mundial, escolheu
mais uma vez estes livros (ou a sua personagem principal) para denominar vrios
dos seus projetos: veja-se Santos (1994) e o projeto aludido em Santos (2014c).
Aps termos escrito este artigo, descobrimos que j havia pelo menos dois
artigos escritos com base nestes mesmos textos, analisando, felizmente, outras
questes (Silva & Fromm 2011, 2012). Alm disso, a verso inglesa tem sido usada
em vrios livros e artigos de estatstica, como o caso de Baayen (2008), ou simplesmente como referncia ou citao em tudo o que possa ter algo a ver com
OSLa volume 7(1), 2015

ensinador paralelo: alicerces para uma pedagogia nova

[241]

figura 4: Um exerccio sobre possveis tradues de ball


matemtica6 . Citamos tambm a verso anotada por Gardner (1960), um clssico
de interpretaes matemticas e xadrezsticas, e mesmo uma anlise das personagens de Alice como rede social (Agarwal et al. 2012).
Por um lado, isto torna a nossa tentativa aparentemente bastante pretensiosa, ao tentarmos ombrear com tais sumidades na interpretao ou uso da Alice.
Mas, por outro lado, convm chamar a ateno para que o nosso campo de atuao, pelo menos no presente artigo, tem a ver com o ensino de portugus ou
de ingls, a universitrios com ainda menos referncias literrias do que ns (e
que possivelmente apenas conhecem a Alice do Walt Disney). Por isso, esperamos
conseguir ainda encontrar alguns ngulos interessantes, contrastivos, de como
explorar um corpo de tradues pela mo da Alice, e por inspirao da Belinda.
Mais concretamente, temos ao nosso dispor, atravs de trabalho recente no
CorTrad, quatro tradues diferentes dos livros de Lewis Carroll7 .
Atravs da inspeo deste corpo multitradues, tentaremos indicar como os
tradutores conseguiram (ou no) passar as ambiguidades e os jogos de palavras
de Carroll para o portugus. Ao mesmo tempo chamaremos a ateno para alguns
erros de palmatria que so provavelmente resultado da pouca ateno e cuidado
que a literatura infantil, e a literatura traduzida, tm ou tinham em geral. Se isso
especialmente apontado sobre o Brasil por Wyler (2003), a mesma observao
foi feita sobre as tradues portuguesas de literatura infantil por Santos (1997).8
[6]
[7]
[8]

A biografia de Alan Turing (Hodges 1983) est cheia de aluses, e mesmo livros de ensino a nvel universitrio na Noruega (Borge 2008).
Ver
http://dinis.linguateca.pt/dispara/CorTrad/AutoresTradutoresCorTradlit.php#
alice para informao detalhada sobre elas.
Os erros de traduo no foram encontrados de forma sistemtica, mas sim atravs da nossa interao
diria com o corpo. Este artigo no pretende apresentar uma metodologia de deteo ou quantificao
de problemas, limita-se a notar que uma anlise em paralelo permite identificar muitos problemas.
OSLa volume 7(1), 2015

[242]

santos & simes


Vejamos alguns casos flagrantes de erros de traduo encontrados9 .

[3.1] A traduo de likely


Considerem-se as seguintes tradues de likely:
(1)

A likely story indeed! said the Pigeon, in a tone of the deepest contempt.
Uma bela histria, de fato! disse a Pomba com o mais profundo desprezo.
Uma histria promissora, certamente, disse a Pomba, com um tom do
mais profundo desprezo.

(2)

Just then she noticed that the Queen was close behind her, listening: so she
went on likely to win, that its hardly worth while finishing the game.
Justo neste momento, notou que a Rainha estava atrs dela, ouvindo tudo.
Da continuou: ... competente no jogo, que nem sei se vale a pena ir at
o final da partida.
Exatamente neste instante ela percebeu que a Rainha estava bem ao seu
lado, ouvindo, ... boa nesse jogo que vai ser muito difcil chegar ao final
da partida.

No primeiro caso, no conseguimos encontrar uma boa explicao para no usar


os termos provvel ou credvel, excetuando o possvel desconhecimento destes termos da parte das crianas brasileiras da poca. No segundo, podemos aventar a
seguinte explicao: colocar um adjetivo positivo a seguir a ela exprime a maneira de Alice sair da situao complicada em que se encontrava. Existe, contudo,
em portugus uma forma semelhante ao ingls (adjetivo que pede completiva infinitiva) que daria exatamente o mesmo resultado: capaz de, alm de ser mais fiel
ao texto original.
Outro comentrio que ambos os tradutores, embora em teoria independentes, tomaram as mesmas decises, o que leva a suspeitar de que a segunda traduo se inspirou na primeira e lhe absorveu os erros ou escolhas menos felizes.

[3.2] A traduo de English


O outro caso que queremos salientar e que revela uma crassa falta de adaptabilidade ao pblico alvo, neste caso crianas brasileiras ou simplesmente falantes
de portugus, o nome da lngua no ter sido substitudo pela lngua em que a
histria (re)contada, o portugus.
(3)

[9]

OSLa volume 7(1), 2015

Perhaps it doesnt understand English, thought Alice.


Talvez ele no entenda ingls, pensou Alice.
Talvez ele no entenda ingls, pensou Alice.
Pode parecer contraditrio que exemplifiquemos erros de traduo em vez de tradues perfeitas, mas
lembremos que o Ensinador Paralelo para ser usado por professores, que podem ter um fito pedaggico
precisamente na exposio de problemas.

ensinador paralelo: alicerces para uma pedagogia nova

[243]

Este um caso que no raro mas cuja importncia, sobretudo num contexto
didtico, nunca demais salientar.
Vamos agora observar alguns casos de jogos lgico-matemticos clebres dos
livros de Carroll.

[3.3] I mean what I say


Um dos trocadilhos mais clebres de todo o mundo da Alice tem que ver com a
troca dos verbos mean e say e o uso convencional da expresso inglesa I mean what
I say, num sentido que se pode exprimir em portugus como Estou a falar a srio,
como o caso da segunda ocorrncia, em (5).
(4)

Then you should say what you mean, the March Hare went on. I do,
Alice hastily replied; at least... at least I mean what I say... thats the same
thing, you know.
Ento voc deve dizer o que pensa, continuou a Lebre de Maro. Eu digo
o que penso, Alice apressou-se em dizer, ou, pelo menos... pelo menos
eu penso o que digo... a mesma coisa, no ?
Ento voc pode dizer o que acha, a Lebre de Maro continuou. E vou,
Alice replicou rapidamente, pelo menos-pelo menos, eu acho o que digo
o que a mesma coisa, voc sabe.

(5)

I mean what I say, the Mock Turtle replied, in an offended tone.


Quero dizer o que disse, respondeu a Falsa Tartaruga em tom ofendido.
Eu quero dizer o que disse, a Falsa Tartaruga replicou em um tom ofendido.

Mean um verbo ingls notoriamente difcil de traduzir. A sua traduo padro,


querer dizer, mais apropriada descrio de factos ou palavras do que a um emprego na primeira pessoa, em que tradues como achar so igualmente possveis.
J nos referimos ao caso (5), em que a (mesma) traduo escolhida no nos parece
idiomtica. Quanto ao caso (4), ambos os tradutores mantiveram a troca lexical
dos dois verbos e conseguiram, na nossa opinio, o mesmo efeito no portugus,
mas um usou achar e o outro pensar.
No que se refere ao ato de fala, interessante reparar que, enquanto o primeiro tradutor interpreta corretamente, na nossa opinio a fala da Lebre de
Maro como uma admoestao, o segundo transforma-a num conselho para o futuro, ou uma autorizao para as futuras falas de Alice.
Um caso em que no s ambas as tradues diferem como nenhuma delas parece transmitir o sentido original a frase (6).

OSLa volume 7(1), 2015

[244]

santos & simes


(6)

Thats a great deal to make one word mean, Alice said in a thoughtful
tone.
Uma grande coisa fazer uma palavra significar o que a gente quer! murmurou Alice pensativamente.
Isto fazer uma s palavra exprimir muita coisa disse Alice num tom
de voz duvidoso.

Aproveitamos este exemplo para tambm realar aquilo que j foi mencionado
antes por vrios investigadores (veja-se, por exemplo, Caldas-Coulthard (1996)):
o portugus tem consideravelmente maior riqueza no que se refere aos verbos de
expresso, comparada com o quase monoplio do say ingls. Temos pois murmurar neste exemplo, e muitos outros so tradues de say nestes textos. Por outro
lado, a dificuldade em converter o discurso direto ingls, misturando por exemplo as convenes das duas lnguas, tambm notrio em (6), complexidade essa
discutida e exemplificada por Santos (1998b).
Antes de deixar a questo do sentido, fulcral na lingustica, vejamos a clebre
sentena de Humpty Dumpty e como foi atacada pelos dois (novos10 tradutores.
(7)

When I use a word, Humpty Dumpty said, in rather a scornful tone, it


means just what I choose it to mean... neither more nor less.
Quando eu use uma palavra, replicou Humpty com superioridade, ela
significa o que eu quero que signifique e nada mais.
Quando uso uma palavra disse o Gorducho em tom desdenhoso -- ela
passa a ter o sentido que eu escolher, entendeu?

Repare-se que, neste caso, a traduo dos nomes prprios foi diferente, tendo a
segunda tido o cuidado de escolher uma palavra mais apropriada lngua de destino, mas perdendo na nossa opinio a graa do nome ingls. Neste caso a primeira
traduo rigidamente colada ao texto fonte, enquanto a segunda tem a preocupao de falar como se fala na oralidade, e parece-nos bem mais conseguida. No
entanto, adiciona a informao de que as palavras passam a ter outro sentido,
quando o Gorducho (ou Humpty Dumpty) apenas diz, taxativamente, que tem
esse sentido.
Terminamos por um caso, o (8), em que os tradutores discordam na sua interpretao, mas produzem ambos frases pouco inteligveis.
(8)

[10]
OSLa volume 7(1), 2015

What does it mean?


Que quer significar?
Que significa ele?
Os exemplos que se seguem referem-se ao segundo livro de Carroll, que foi traduzido por dois tradutores
diferentes dos que traduziram o primeiro, e que so os que temos estado a analisar at agora.

ensinador paralelo: alicerces para uma pedagogia nova

[245]

[3.4] Negao inesperada e outras no-palavras


Outros casos de criatividade lingustica nas Alices so a negao de palavras cujo
sentido no parece aceitar uma negao. Como a estranheza ser a mesma em
portugus, tal no parece causar problemas aos tradutores.
(9)

They gave it me, Humpty Dumpty continued thoughtfully as he crossed


one knee over the other and clasped his hands round it, they gave it me...
for an un-birthday present.
eles me deram esta gravata como presente de in-aniversrio continuou Humpty amvel, montando uma perna sobre a outra e cruzando as
mos em torno ao joelho.
Gorducho cruzou um joelho sobre o outro, uniu as mos em torno deles e
continuou pensativo: Foi um presente de no-aniversrio...

Mais complicado quando as novas palavras dependem de semelhana fontica,


como em (10), que se poder de facto considerar intraduzvel.
(10)

Un-dish-cover the fish, or dishcover the riddle?


Pergunta: o que mais fcil fazer? destampar a sopeira ou... pedir peixe
assado?
Pois agora, mate essa: mais fcil descobrir a travessa? Ou a charada?

Enquanto o primeiro tradutor produz algo sem ps nem cabea, e que no pode
deixar de ser interpretado pelo leitor como perfeito disparate, o segundo consegue transmitir pelo menos parte da graa, ao usar o mesmo verbo descobrir em
dois sentidos diferentes, embora tenha perdido a parte da negao e da pronncia
no padro.
Em (11) temos outro exemplo de um neologismo negativo que hoje em dia
usado em ingls corrente ao contrrio da traduo portuguesa aqui proposta,
que continua cmica.
(11)

un important, your Majesty means, of course, he said, in a very respectful tone, but frowning and making faces at him as he spoke.
Desimportante o que Vossa Majestade quer dizer, claro, disse em
tom muito respeitoso, embora franzindo as sobrancelhas e fazendo caretas enquanto falava.
Desimportante, o que Vossa Majestade quer dizer, claro, ele disse,
em um tom respeitoso, mas franzindo o cenho e fazendo caretas.

[3.5] Outras surpresas e enigmas


Outra das habilidades carrollianas violar o que os linguistas computacionais chamam restries de seleo, ou seja, aplicar verbos ou substantivos a argumentos
inesperados. Veja-se o exemplo (12).
OSLa volume 7(1), 2015

[246]

santos & simes


(12)

Thats just what I complain of! You should have meant! What do you
suppose is the use of a child without any meaning? Even a joke should
have some meaning... and a childs more important than a joke, I hope.
You couldnt deny that, even if you tried with both hands.
o que me aborrece. Voc vive julgando. Onde se viu uma simples criana julgar? Isso bom para os juzes.
Pois isto o pior! Voc deveria ter a inteno! De que serve uma menina sem intenes? At um passarinho que abre as asas tem inteno
de voar; uma menina deve ter muito mais intenes que um passarinho!
Voc no pode negar isso, nem que tente com as duas mos!

Neste exemplo, mais uma vez difcil de traduzir para portugus dados os dois sentidos de meaning usados (alis, note-se que cada tradutor escolheu uma alternativa
diferente), o primeiro tradutor escolhe dizer algo que completamente contraditrio com o sentido original, criticando que uma criana julgue11 , enquanto o segundo mantm o sentido de reprovao por a criana no ter intenes/opinies,
mas substitui a comparao de uma criana com uma piada (uma comparao que
s faz sentido se se traduzir meaning por sentido, claro) pela introduo espria de
um passarinho com o qual compara uma criana.
A segunda comparao inesperada no mesmo trecho, nomeadamente tentar
negar algo com ambas as mos, mantida satisfatoriamente pelo segundo tradutor, mas omitida completamente pelo primeiro.
Acabamos este artigo, que poderia continuar quase indefinidamente, com a
discusso da adivinha que motiva uma discusso filosfica sobre semelhana em
Chesterman (1998)12 :
(13)

The Hatter opened his eyes very wide on hearing this; but all he said was
Why is a raven like a writing-desk?
O Chapeleiro arregalou os olhos ao ouvir isso, mas tudo o que disse foi:
Por que um corvo se parece com uma escrivaninha?
O Chapeleiro arregalou os olhos ao ouvir isso, mas, tudo que ele disse foi:
Por que um corvo se parece com uma escrivaninha?

A traduo escolhida foi literal claramente, a palavra secretria foi preterida devido a ser uma palavra ambgua entre uma profisso e uma pea de mobilirio
e praticamente igual nos dois casos (apenas uma vrgula e um pronome pessoal
a mais no segundo), o que mostra sem sombra de dvida que os tradutores no
se preocuparam em resolver ou compreender a adivinha. Passaram-na simples[11]
[12]

OSLa volume 7(1), 2015

de tal maneira estranho que podemos at imaginar que a censura na altura vogente no Brasil tenha
algo a ver com isto.
Uma possibilidade de tentar compreender a adivinha seria comparar a sua traduo nas vrias lnguas e
pelo menos tentar ver se algum tradutor teria chegado a uma resposta satisfatria. Chesterman, contudo,
no faz nem sequer prope fazer isso.

ensinador paralelo: alicerces para uma pedagogia nova

[247]

mente igualmente opaca para a lngua de destino provavelmente tornando a sua


resoluo impossvel.
Poder-se- argumentar que o objetivo desta adivinha precisamente ilustrar
perguntas sem sentido, e nesse caso uma traduo literal que no introduza outros
problemas igualmente disparatada e capaz de produzir a mesma situao de
confuso na mente do leitor. Mas, por outro lado, a palavra like no de forma
alguma neutra, e parecer-se com apenas uma das suas interpretaes. Ou seja, He
is like me ou What is he like? seriam traduzidos por Ele como eu e por Como que ele
?, e no fariam qualquer referncia a parecenas, mas sim a essncias.
Isto chama baila a questo da conformidade discursiva: Conforme o tipo de
resposta esperada, existem tipos diferentes de adivinhas em portugus, tal como
a estafada Qual a semelhana entre um mdico e um copo de gua?13 , que levariam a uma traduo mais idiomtica do gnero textual adivinha, se fossem
seguidas: Qual a semelhana entre um corvo e uma escrivaninha?.
Ou seja, uma traduo literal que no mantenha o gnero esperado de lengalenga ou adivinha pode no funcionar no texto de destino. Mais uma vez um
assunto que pode ser interessante levantar num contexto de ensino, por exemplo
pedindo para os alunos sugerirem diversas alternativas e depois compar-las na
sala de aula, sobretudo depois de terem lido o clssico por Hofstader (1997).

[3.6] Atravessando o espelho


O exemplo anterior leva-nos a terminar este artigo com uma adivinha: Qual
coisa qual ela, que sem se ver aumenta a nossa viso? E uma adivinha paralela no
sentido de que a sua resposta tem de obedecer tambm regra quando demais,
sufoca-nos e transforma-nos. Ajuda: A Belinda Maia uma das pessoas que mais
nos ajudou a compreend-la (a soluo da adivinha).
[4] c o m e n t r i o s f i n a i s

Concluindo, pretendemos apresentar uma ferramenta que pode tornar mais fcil
ao professor ser mediador entre duas culturas, duas pocas, dois estilos, duas lnguas mas, se os exemplos da Alice so emocionantes, a mesma riqueza se poder
encontrar em tradues tcnicas ou de livros de outra ndole. Basta que os alunos
sejam dirigidos para os casos mais interessantes e pedaggicos no seu domnio.
O Ensinador Paralelo apenas uma ferramenta para ajudar o professor, que aqui
dedicamos Belinda.

[13]

Um copo de gua mata a secura, um mdico se mata no cura.


OSLa volume 7(1), 2015

[248]

santos & simes

agradecimentos
Agradecemos a Flvia Santos da Silva e a Guilherme Fromm por nos terem facultado os textos da Alice e as suas tradues, e a Jamilly Alvino e a Stella Tagnin pela
reviso do seu alinhamento para o CorTrad. Estamos tambm muito gratos a Signe
Oksefjell e a Brett Drury pelos seus comentrios pertinentes, que nos permitiram
melhorar este captulo.

referncias
Agarwal, Apoorv, Augusto Corvalan, Jacob Jensen & Owen Rambow. 2012. Social
Network Analysis of Alice in Wonderland. Em Proceedings of the NAACL-HLT 2012
Workshop on Computational Linguistics for Literature, 8896. Association for Computational Linguistics.
Arajo, Slvia, Jos Joo Almeida, Alberto Simes & Idalete Dias. 2010. Apresentao do projecto Per-Fide: Paralelizando o Portugus com seis outras lnguas.
Linguamtica 2(2). 7174.
Baayen, R. Harald. 2008. Analyzing Linguistic Data: A practical introduction to Statistics
using R. Cambridge University Press.
Borge, Inger Christin. 2008. Matematisk verktykasse. Universitetsforlaget.
Caldas-Coulthard, Carmen Rosa. 1996. A traduo e os problemas da representao da fala. Em Malcolm Coulthard & Patricia Anne Odber de Baubeta (eds.), Theoretical Issues and Practical Cases in Portuguese-English Translation, 145156. The
Edwin Meilen Press.
Chesterman, Andrew. 1998. Contrastive functional analysis. Benjamins.
Ebeling, Signe Oksefjell. 2006. Trivial Corpus Pursuit: An online game that facilitates autonomous learning. Em Susanne Anette Kjekshus Koch (ed.), Ringer i
vann. Fleksibel lring - Kvalitetsreformen i praksis, 93104. Fleksibel lring, Universitetet i Oslo.
Ebeling, Signe Oksefjell. 2009. Oslo Interactive English: Corpus-driven exercises
on the Web. Em Karin Aijmer (ed.), Corpora and Language Teaching, 6782. John
Benjamins Publishing Company.
Frankenberg-Garcia, Ana. 1998. Using translation traps to sort out portugueseenglish crosslinguistic influence. Em Proceedings of the 1st Brazilian International
Translators Forum, University of So Paulo, 2633.
OSLa volume 7(1), 2015

ensinador paralelo: alicerces para uma pedagogia nova

[249]

Frankenberg-Garcia, Ana. 1999a. Crosslinguistic influence as a key to extracting second language teaching materials for monolingual classes from translation corpora. Apresentao em Workshop Contrastive Linguistics and Translation
Studies: Empirical Approaches. http://www.linguateca.pt/Repositorio/
Frankenberg-Garcia99.pdf.
Frankenberg-Garcia, Ana. 1999b. Using bilingual corpora to produce second language teaching materials. Apresentao em Symposium on contrastive linguistics
and translation studies.
Frankenberg-Garcia, Ana & Diana Santos. 2002. COMPARA, um corpus paralelo de
portugus e de ingls na Web. Cadernos de Traduo IX(1). 6179.
Gardner, Martin. 1960. The Annotated Alice: Alices Adventures in Wonderland [and]
Through the Looking Glass. Bramhall House.
Hodges, Andrew. 1983. Alan Turing: The Enigma. Simon and Schuster.
Hofstader, Douglas R. 1997. Le Ton beau de Marot: In praise of the Music of Language.
Basic Books.
Maia, Belinda. 2003a. Constructing comparable and parallel corpora for terminology extraction - work in progress. Em Dawn Archer, Paul Rayson, Andrew
Wilson & Tony McEnery (eds.), Proceedings of the Corpus Linguistics 2003 conference
(CL2003), 485.
Maia, Belinda. 2003b. The pedagogical and linguistic research implications of the
GC to on-line parallel and comparable corpora. Em Jos Joo Almeida (ed.),
Corpora Paralelos, Aplicaes e Algoritmos Associados (CP3A), 3132. Universidade
do Minho.
Maia, Belinda. 2003c. What are comparable corpora. Em Silvia Hansen-Schirra
& Stella Neumann (eds.), Proceedings of the workshop on Multilingual Corpora: Linguistic Requirements and Technical Perspectives, 2734.
Maia, Belinda. 2006a. Corpora Comparveis. Material de ensino na Primeira Escola de Vero da Linguateca. http://www.linguateca.pt/escolaverao2006/
Corpora/EDV2006Corporacomparaveis.pdf.
Maia, Belinda. 2008a. Alice no Pas das Maravilhas ou as aventuras e desventuras de uma linguista no mundo do PLN. Apresentao no Encontro Linguateca:
10 anos. http://www.linguateca.pt/Linguateca10anos/Apresentacoes/
AprMaiaL10.pdf.
OSLa volume 7(1), 2015

[250]

santos & simes


Maia, Belinda. 2008d. Corpgrafo V4 - Tools for Educating Translators. Em
Elia Yuste Rodrigo (ed.), Topics in Language Resources for Translation and Localisation, 5770. John Benjamins Pub. Co.
Maia, Belinda, Ceclia Fris & Manuel Brito. 2005a. Comparable corpora for
studying the evolution of concepts and terms. Apresentao em International
Contrastive Linguistics Conference.
Maia, Belinda & Srgio Matos. 2008. Corpgrafo V4 - Tools for Researchers and
Teachers using Comparable Corpora. Em Pierre Zweigenbaum, ric Gaussier &
Pascale Fung (eds.), LREC 2008 Workshop on Comparable Corpora (LREC 2008), 7982.
ELRA.
Maia, Belinda & Lus Sarmento. 2003a. GC - Integrated Web Environment for
Corpus Linguistics. Poster na Corpus Linguistics 2003 (CL2003). http://www.
linguateca.pt/documentos/cl2003.pdf.
Maia, Belinda & Lus Sarmento. 2005. The Corpgrafo - an Experiment in Designing a Research and Study Environment for Comparable Corpora Compilation
and Terminology Extraction. Em Proceedings of eCoLoRe / MeLLANGE Workshop,
Resources and Tools for e-Learning in Translation and Localisation, 4548.
Maia, Belinda, Lus Sarmento, Diana Santos, Lus Cabral & Ana Sofia Pinto. 2005c.
The Corpgrafo - a Web-based environment for corpus research. Poster
na Corpus Linguistics Conference. http://www.linguateca.pt/documentos/
poster_cpgf_cl2005.pdf.
Matos, Srgio, Anabela Barreiro & Belinda Maia. 2008. Corpgrafo and NooJ: using
linguistic resources to obtain aligned concordances from corpora. Presentation
at the Workshop on Language Resources for Teaching and Research. http://www.
linguateca.pt/lrtr/MatosLRTR08.pdf.
Matos, Srgio & Belinda Maia. 2008. NooJ and Corpgrafo A New Partnership.
Apresentao na The 2008 International NooJ Conference (NooJ08). http://www.
linguateca.pt/documentos/MatosMaiaNooJ08Slides.pdf.
Oliveira, Dbora, Lus Sarmento, Belinda Maia & Diana Santos. 2005. Corpus analysis for indexing: when corpus-based terminology makes a difference. Em Pernilla Danielsson & Martijn Wagenmakers (eds.), Proceedings from the Corpus Linguistics 2005 Conference Series, vol. 1 1, s/pp.
Santos, Boaventura de Sousa. 1994. Pela mo de Alice: o social e poltico na psmodernidade. Edies Afrontamento.

OSLa volume 7(1), 2015

ensinador paralelo: alicerces para uma pedagogia nova

[251]

Santos, Diana. 1997. O traduts na literatura infantil traduzida em Portugal. Em


Actas do XIII Encontro da Associao Portuguesa de Lingustica (Lisboa, 1-3 de Outubro
de 1997), 25974.
Santos, Diana. 1998b. Punctuation and multilinguality: Reflections from a language engineering perspective. Em Jo Terje Ydstie & Anne C. Wollebk (eds.),
Working Papers in Applied Linguistics, 138160.
Santos, Diana. 2014c. Kulturforskjeller og hvordan de vises i sprk: noen penbare
og ikke s penbare konsekvenser av snakke et annet sprk. Apresentao
na Universidade de Oslo. http://www.linguateca.pt/Diana/download/
KultFor.pdf.
Santos, Diana & Cristina Mota. 2015a. A admirao luz dos corpos. OSLa: Oslo
Studies in Language, Este volume.
Santos, Diana, Stella E. O . Tagnin & Elisa Duarte Teixeira. 2012. CorTrad and
Portuguese-English translation studies: investigating colours. Em Signe Oksefjell Ebeling, Jarle Ebeling & Hilde Hasselgaard (eds.), Aspects of corpus linguistics:
compilation, annotation, analysis Studies in Variation, Contacts and Change in English, University of Helsinki.
Sarmento, Lus, Anabela Barreiro, Belinda Maia & Diana Santos. 2007. Avaliao
de Traduo Automtica: alguns conceitos e reflexes. Em Diana Santos (ed.),
Avaliao conjunta: um novo paradigma no processamento computacional da lngua
portuguesa, 181190. IST Press.
Silva, Flvia Santos da & Guilherme Fromm. 2011. Atravs do lxico maravilhoso
de Alice. Fronteira Digital 2. 1627.
Silva, Flvia Santos da & Guilherme Fromm. 2012. Alice no Pas dos Neologismos:
um estudo luz da Lingustica de Corpus. Scientia Traductionis 11. 293309.
Simes, Alberto & Diana Santos. 2011. Ensinador: corpus-based Portuguese grammar exercises. Procesamiento del Lenguaje Natural 47. 301309.
Teixeira, Elisa D., Diana Santos & Stella E. O. Tagnin. 2012. CorTrad: um novo
corpus paralelo multiverso para o par de lnguas portugus-ingls. Em Tania
Shepherd, Tony Berber Sardinha & Marcia Veirano Pinto (eds.), Caminhos na
Lingustica de Corpus, 151176. Mercado de Letras.
Wyler, Lia. 2003. Lnguas, poetas e bacharis: Uma crnica da traduo no Brasil. Rocco.
OSLa volume 7(1), 2015

[252]

santos & simes

o b r a s l i t e r r i a s m e n c i o n a da s
Carroll, Lewis. 1865. Alice in Wonderland.
Carroll, Lewis. 1871. Through the Looking-Glass, and What Alice Found There.

c o n ta c t o s
Diana Santos
Linguateca e Universidade de Oslo
d.s.m.santos@ilos.uio.no
Alberto Simes
Linguateca e CEHUM, Universidade do Minho
ambs@ilch.uminho.pt
OSLa volume 7(1), 2015

Simes, Barreiro, Santos, Sousa-Silva & Tagnin (eds.) Lingustica, Informtica e Traduo: Mundos
que se Cruzam, Oslo Studies in Language 7(1), 2015. 253281. (ISSN 1890-9639 / ISBN 978-8291398-12-9)
http://www.journals.uio.no/osla

a tool at hand:
gestures and rhythm in listing events
case studies of european and
african portuguese speakers
ISABEL GALHANO RODRIGUES

resumo
Este artigo explora os gestos e os movimentos do corpo na interao face
a face a partir uma perspetiva etnogrfica dos estudos do gesto. A anlise
centra-se na comparao entre os gestos de listar e outros meios usados
para apoiar a atividade de elaborar uma lista. Os aspetos considerados so
as caractersticas formais e o ritmo dos gestos, e a sua coordenao com as
unidades lexicais correlacionadas dos enunciados. O corpus recolhido para
esta anlise consiste em quatro interaes com falantes de diferentes culturas, cuja atividade de listar foi examinada em termos de caractersticas
morfolgicas e padres rtmicos, com o objetivo de detetar tanto regularidades como diferenas (culturais) nos gestos de listar.
[1] i n t r o d u c t i o n

The main question I will explore in this paper is how listing activities, so frequent in face-to-face interaction, are performed in different languages/cultures.
In spite of being aware of the impossibility to generalize the results of these case
studies, this paper offers some examples of different forms of making lists, of how
hand gestures are coordinated with speech and how these modalities work together: not only in making a list, but also in making the list visible for the hearer.
This article is divided into three parts: an overview of the theoretical background
(section [2]), the description of listing gestures, their subdivisions and further aspects related to their use (section [3]), and the micro-analysis of some parts of the
recorded corpus (section [4]). The corpus consists of four interactions: the first between European Portuguese speakers speaking Portuguese, the second between
German speakers speaking German, the third and the fourth between Angolan
speakers speaking Portuguese. The analysis considers speech lexical items and
prosody and co-speech body movements, or kinesic modalities, above all gesture, head and trunk movements and gaze orientation.

[254]

isabel galhano rodrigues


[2] t h e o r e t i c a l p r e l i m i n a r i e s

This linguistic approach of speech and gesture involves an interdisciplinary theoretical background: 1) several orientations of Conversation and Discourse Analysis (e.g. Sachs et al. (1974); Henne & Rehbock (1982); Roulet et al. (1985)) and
Contextualization Theory (e.g. Gumperz (1982a, 1992)); 2) Interactional Linguistics (cf. Selting & Couper-Kuhlen (2000)); 3) and Gesture Studies (Ekman & Friesen
(1969); Goodwin (1981); Hall (1974); Kendon (2004); McClave (2000, 2001); McNeill
(1992, 2000); Mller et al. (2013, 2014)).
The first group allowed to consider face-to-face interaction (a) as an activity
that is reciprocally and simultaneously constructed by speaker and hearer; and
(b) as a phenomenon comprising different levels: the level of thematic development, the level of structural relations between units, the level of emotion and
modalization, and the level of the interpersonal relations between speaker and
listener regarding their interactional roles (Galhano Rodrigues (1998, 2007). The
second group offers the framework for the analysis of prosody. Its principles,
developed from the Contextualization Theory of Gumperz (1982b), view prosodic
phenomena as important contextualization cues for the codification and decodification of speech. The categories of analysis within these theories were conceived to access prosody from a pragmatic point of view, so that they are flexible
enough to explain prosodic variations caused by different kinds of spontaneous
phenomena in the interactional context. Gesture Studies, on its turn, represents
the background for the description of gestures and other body movements in their
relation to speech.
The following units and their subdivision were taken into account for speech
segmentation: the turn-taking system (Sachs et al. 1974), which corresponds to
the exchange in Discourse Analysis theory (Sinclair & Coulthard 1975; Moeschler
1987, 1994); the turn (Goffman 1974, pg. 201); the conversational acts (Henne &
Rehbock 1982, pg. 17); and the conversational signals (Galhano Rodrigues 1998).
For the description of the prosody, were considered the following categories
and phenomena: intonational unit, pitch, intensity, quantity, beat-clashes and
rhythm (e.g. Auer & Couper-Kuhlen (1994)), silent pauses, full pauses and sound
elongations (e.g. Boomer & Dittman (1962); Goldman-Eisler (1972); Selting (1988);
Uhmann (1992)).
Regarding gestures, a fundamental concept for their identification is the gesture unit, which is composed of gesture phrases (gestures) that can be divided into
different phases: preparation, stroke and retraction ((Kendon 1980, pg. 214) (McNeill 1992, pg. 83)). The identification of units in other body movements is more
complex, as the various body parts have very different (and sometimes very subtle) features when it comes to movement shape and direction. The trunk is the
body part that makes the least complex movements: it can only move forwards,
backwards, and to both sides, according to two axes. Eye movements are slightly
OSLa volume 7(1), 2015

a tool at hand: gestures and rhythm in listing events

[255]

more complex, because they involve the direction one is looking at, as well as
the position of the eyes in the ocular globe, eye-lid movements and the degree of
eye opening. Linked to eye movement is eyebrow-raising, here included in the
group of facial expressions. Due to technical constraints, only the movements of
the mouth and eye region were taken into account, while the micro-movements
of the face had to be left aside. Thus, in the case of less defined or more complex
movements, movement units as I called the units considered for the other parts
of the body are limited by the points of the greatest amplitude (which can, in
fact, be minute) of its trajectory. Another unit is, for instance, the period of time a
gaze is kept in a certain direction. In this case, we cannot talk about a movement,
but about a movement-freezing, in other words, a static unit.
[3] l i s t i n g g e s t u r e s

It is common knowledge that when people make lists of items, be they objects,
feelings, problems, situations, theories, etc., they tend to use some cues to inform
the interaction partner(s) that they are listing a certain number of items. This
quantity of items is supposed to be small enough to be counted with the fingers
(from 5 to 10), or big enough to justify the use of a support that helps speakers
organize their speech, so that the hearers know which elements of the utterance
belong together and constitute a listing unit. This structuring support is given by
different kinds of tools. One of these tools is prosody: prosodic cues like pitch,
intensity and speech rate, as well as voice quality, are important discourse markers. They can show which parts of the utterances belong together. The asides,
which are generally performed at a higher speech rate, a lower and constant pitch
and a lower voice quality, are a good illustration of this. Prosodic cues are also
important for the creation of rhythmic patterns and rhythm. A rhythmic pattern
is established after the repetition of three similar prosodic patterns. Rhythm creates expectations in the hearers (cf. (Auer & Couper-Kuhlen 1994, 82 segs) (Galhano Rodrigues 2007, pg. 175)), since after each unit in a rhythmic sequence the
hearers expect to hear another unit with the same rhythmic pattern. In the case
of listing lists, the prosodic pattern is characterized by an ascending pitch at the
end of the intonational unit (in this case, the intonational unit coincides with the
listing unit). This ascending pitch also indicates that something else is going to
be said; in other words, its function is to keep the hearers attention and to focus this attention on what is going to be said next (this ascending pitch can also
be described as a conversational opening signal, cf. Galhano Rodrigues (2007,
pg. 509)). Most of the times, prosodic prominence coincides with the countable
item, i.e., the most important topic. According to Erickson (1992), listing events
are characterized by the fact that each new item of information is introduced at a
regular rhythm, with identical time intervals between the information units. As
a rule, the primary accents fall on the most important topics of the listing list and
OSLa volume 7(1), 2015

[256]

isabel galhano rodrigues


they build up the rhythmic beats. In order to maintain the regular time intervals, some adaptations are made during speech production by resorting to both
a strategic choice of syntactic structures and variations in speech rate (Erickson
1992, pg. 389). Thus, we could talk of an ideal listing activity composed of several listing units. Each of these units contains a single important idea or topic; it
is accompanied by a listing gesture, and it has typical prosodic properties, namely,
typical prosodic boundaries in relation to the other units. In sum, the listing units
coincide with the intonational units.
Another tool at hand (figuratively and literally), which conveys visible cues
to the hearer(s) and proves very efficient for both speaker and hearer/observer,
consists in the use of the hands and fingers. Due to its morphological features, this
physical (bodily) tool allows to allocate different items to different parts (fingers),
helping to organize speech and functioning as a kind of mnemothechnical and
structuring means. Given that it fulfils this function so efficiently, it is no wonder
that listing gestures are used in many different cultures. The question, however,
is whether their use and function can be regarded as universal, and whether there
is a great discrepancy between this ideal form and the empirical evidences.
In the Portuguese culture as well as in many southern European cultures, the
listing gesture unit is composed of several gesture phrases. In each of these gesture phrases (I shall call them gestures here), one finger of one hand is touched or
pressed by the pointing finger of the other hand, or even grasped and shaken with
the other hand, depending on the speakers intensity, involvement and emotion.
The listing action also has its order: it begins with the little finger and ends with
the thumb and, whenever necessary, the same procedure is repeated with the
same or with the other hand. The listing gesture and the way the listing activity
proceeds can vary not only within the same culture, but also across cultures: it
can be performed with one or both hands. In the second case, several features
can differ: the trajectory and the position of the active hand, i.e., the hand whose
index finger touches the fingers of the other hand; the sequence of the listing fingers, i.e., one can start listing with the number one on the little finger or on the
thumb. For instance, in Northern European countries, people generally use one
hand and list the first topic by stretching their thumb out and upwards (while
keeping the other fingers closed), the second topic, by stretching out the index
finger, the third topic, by stretching out the middle finger, and so forth. Sometimes both hands are used, and the list fingers (the fingers used embodying the
topic) are touched with the index of the other hand. In Southern Europe, the
Portuguese listing gesture described above dominates: that is, people use both
hands, one as the listing hand, and the other as the listable hand and they start
listing with the number one on the little finger. However, in some cases, the listing gesture is performed with one hand only, where the thumb functions as active
listing finger successively touching the other fingers, and starting the little fin-

OSLa volume 7(1), 2015

a tool at hand: gestures and rhythm in listing events

[257]

ger. When number five is reached (i.e., when the thumb of one hand touches the
thumb of the other hand) the thumb bends against the palm of the hand (and the
hand is closed). It is important to note that these remarks are not the result of a
systematic study, but some general empirical observations and annotations I have
collected in these past few years. In fact, when listing is explored in a systematic
way, other interesting details can be found such as, for instance, the regularity,
intensity and amplitude of the movements in relation to the listed items, which,
in their turn, are correlated to the speakers emotions and motivation in communicating.
To facilitate the description of listing gestures and account for their precise
synchronization with speech and prosodic prominence, it is essential to distinguish between the different phases of a listing gesture. Here the listing gesture
is defined as a gesture-unit composed of several gesture-phrases whose function
is to enumerate instances, objects, events, etc. Each gesture accompanies a listing
act; in other words, its function is to accompany the verbalization of one element
within the set of elements to be counted. This act coincides with the listing unit,
as mentioned above. According to the subdivisions of the gesture-units, these
gestures are also composed of preparation, stroke and retraction. But in the case
of two-hand listing gestures, the part of the stroke with more amplitude is the
moment when the index finger touches the finger of the other hand. For this
reason, I use the term touch instead of stroke.
In the case of Portuguese, we may say that the most current form consists in
the following phases:
Preparation one hand is open, with the palm almost turned upwards
(listable hand); the other (listing hand) is raised, with palms downwards, index finger stretched, the other fingers relaxed or closed.
Touch the index finger of the listing hand touches/presses/grasps the
little finger of the listable hand, positioned with the palm upwards.
Retraction the listing hand lets go of the finger and moves slightly upwards (together with the arm).
This sequence is repeated starting with the little finger, followed by the ring
finger, the middle finger, the index and the thumb; then, the same procedure can
be repeated with the same hand or the other way round, i.e., the listable hand becomes the listing hand. In an ideal listing activity, each topic or listed element is
isolated from the others and iconically located on one finger only. Therefore, the
fingers become markers for parts of speech and actively support discourse organization. Sometimes, when each topic involves more than one act (for instance a
longer sequence, with side sequences), fingers may be pressed and held down for
the entire period of time during which these acts are verbalized. Furthermore,
OSLa volume 7(1), 2015

[258]

isabel galhano rodrigues


the very first gesture already signals the beginning of a listing activity. Thus,
from this moment onwards, the hearers will expect the speaker to keep his/her
turn at least for the time it takes to finish the listing activity. Irrespective of the
number of listed topics, the information related to them, or of whether the list
is complete or not, this first gesture functions as an announcement1 , giving instructions about what is going to happen next. Finally, if we compare prosody
and listing gestures in terms of their efficiency in supporting discourse organization, we identify an interesting pragmatic difference: whereas the listing gesture
immediately provides clues about the kind of activity which is going to follow, the
prosodic pattern of a first listing unit alone cannot be said to have the same effect,
and may not be recognized as the first item in a listing list. This is explained by the
fact that, as mentioned earlier on, a rhythmic pattern is achieved and perceived
only after the repetition of, at least, three units with the same prosodic pattern. A
further point can also be considered in this cultural approach: it has to do with
the distance between interaction partners, gesture space, movement forms, body
postures, and gesture morphology (i.e., the way arms move, their direction and
trajectory, the shape of the hands, the angles at the articulation points) (Galhano
Rodrigues 2010).
[4] c a s e s t u d i e s : l i s t i n g g e s t u r e s i n s e v e r a l c u l t u r e s

This part presents a micro-analysis of listing activities in different cultures. Each


section within this part examines a single case. Thus, Case One (section [4.1])
describes a listing activity performed by European Portuguese native speakers;
Case Two (section [4.2]) analyses a listing activity performed by German speakers;
and Case Three (section [4.3]) and Case Four (section [4.4]) examine two examples
of listing activity by Angolan speakers speaking Portuguese.

[4.1]

Case One: European Portuguese native speakers

Three Portuguese female students talk about gender roles giving the example of
their own parents. In the interaction interval transcribed below, the speaker, LV,
the student sitting in the middle, is saying that women come home from work and
have to do all the housework, while men come home from work and do nothing.2

[1]

[2]
OSLa volume 7(1), 2015

Announcements are the metacommunicative preparatory and focusing acts as the topographic opening signals (Galhano Rodrigues 2007, pgs. 200203, 490491, 502504), one kind of conversational signals
(Galhano Rodrigues 2001, pgs. 448449). The conversational signals are polisemic and polifunctional and
can, in different proportions, assume interactive, topographic, modal and turn-taking functions (Galhano Rodrigues 1998, 70 sec). Conversational act is the communicative unit produced simultaneously by
speaker and hearer (Galhano Rodrigues 2007, pg. 222).
Prosodic transcription after the GAT system (Selting et al. 1998).

a tool at hand: gestures and rhythm in listing events

[259]

Prosodic transcription / movements description


1-38

LV: !`-NO!=-::`fA-zem:- `fA`ZEM


no!

really,

they do

`tu`do;

do

everything

|_______________________________|
|
looks at VB, raises her head slightly

1-39

looks up and then down to her hands

(0,115) -dE:sde=AlmOos
from

|_________
|

lunches

`jan-tares em `CA::-:sa-

and

dinners

at

home

_____| |________________| |__| |_______________________|


|
|
|
touches left little finger
with thumb of other hand

1-40

raises hand
(retraction)

touches left ring finger and holds


it backwards;
at 'casa' lets go of left ring finger

`desde -arru`mAr as`CA::`sas.


from

tiding up

the

houses

|______________________________|
|
touches middle finger with right thumb and pressures it backwards; at 'casas' looks at VB

1-41

desde- ah'
from

ah

|_____________|
|
always looking at VB, touches left index finger with right thumb, and holds it down;
looks upwards; lowers hands, always holding right index.

1-42

(0,485)`fAzem `mEsmo=MUIto MA`IS;


they really

do

much

more

|____________________| |_____________|
|
|
looks ahead, continues pressing left
index with right thumb; head and gaze
towards VB.

1-43

parts her hands, palms up;


turns head to the front, looks in front.

elas `vm de`trabalhar;


they

come

from work

|________________________|
|
moves hands to the front of the trunk; raises right hand at 'tra-',
raises left hand at '-lhar'; turns head to the right and looks again at VB.

1-44

<<all> a minha -me vem


my mother

comes

do`tra`balho>=s `SEte,
from

work

at seven

|_____________________| |__________________________
|
|
turns head to the front, looks to the front;
moves left arm to the left side

leans head slightly to the front, looks down;


puts hands together in front of the trunk,
back of the right hand against palm of left hand.
OSLa volume 7(1), 2015

[260]

isabel galhano rodrigues


1-45

(0,538)`chE-ga a casa tem`que fa`zer o jan`TAR::;


she

gets

home

has

to

make

the dinner

____________________||______| |__________________|
|
|
raises head
moves hands
apart

1-46

`depois-a`caba defa`zer
then

she finishes

making

at 'fazer' touches left ring finger with


right index holding it backwards; maintains
position; after 'jantar' turns head and
looks at VB; moves hands apart.

o-jantar=`arrumar-TU::dodinner

tidies everything up

|_______________________| |__________________________|
|
|
turns head to the front
looks down, brings
right hand close to left hand.

1-47

VB:

touches middle finger with right index,


holding it backwards; at 'tudo' starts moving
head to the left.

<<p>-e o seu pai [senta-se,>]


and

your father

sits down

|___________________________|
|
LV looks at VB, parts her hands and inspires

1-48

LV:

[-o meu `pAI=ali


my

father there

sen`ta dI::`nho,]
sitting

|_________________| |___________________|
|
|
turns head to the front; leans trunk
backwards and moves arms apart to
both sides, hands with palms down

raises right arm, elbow supported by


left hand; left arm on the lap; leans
head slightly forwards (pantomime:
imitating her father)

Listing units: topics and gestures


On line 38, speaker LV takes the turn with the lexical item no, a linguistic signal
with the functions of closing her preceding turn and opening a new turn, attracting the hearers attention to what is going to be said. Afterwards, she summarizes
what VB has just said, and, at the same time, expresses her agreement with the
last speaker and announces the topic for the next turn. In this segment of interaction, two sequences of listing activities can be found. In the first one, (between
lines 139141), LV raises her head slightly, although always looking down and,
with the right thumb (other fingers closed), she
a) touches and holds back/down her little finger at almoos, and then lets it go
(line 139);
b) touches and holds back/down her ring finger at jantares, and then lets it go
after casa (line 139);
c) touches and holds back/down her middle finger at desde, then lets it go and
looks at the hearer after casas (line 140);
OSLa volume 7(1), 2015

a tool at hand: gestures and rhythm in listing events

[261]

d) touches and holds back/down her index finger at desde, turns her head to
the front, looks up, lowers her hands, always holding the index finger down;
she then lets go of it at muito (line 142);
Act d) is the beginning of a listing act on the index finger. However, the
speaker could not remember more items to list. Her gaze orientation upwards
and the lowering of the hands (a normal reaction during a hesitation) reveal a
moment of increasing cognitive effort, when the speaker is trying to remember
other items to list. The strategy to overcome this obstacle in speech production
consists in summarizing the content of all these listing acts together in a single
one: fazem mesmo muito mais (they really do much more). The prosodic features
of this unit typical of an emphatic speech style focus on act 142, the solution for this problem, drawing the hearers attention to it and, consequently, distracting them from the incomplete preceding listing act. Afterwards she goes on
enumerating further activities by women in general. To introduce this sequence
she makes opening gestures, raising first the right and then the left hand, with
palms up, focusing on the verbalized act: elas vm de trabalhar (line 143). This act
(line 143) is composed of a false start. To go on speaking, and again distracting
hearers from this moment and drawing their attention to what is going to be said
next, she makes another gesture with focusing/opening properties: she moves
her arm slightly apart and gesticulates with one hand marking the noun phrase:
a minha me (my mother). In this case, these elements function as the repair element of the repairable elas form (Schegloff et al. 1977). After having overcome
this difficult moment, she puts her hands on her lap in a resting position, and goes
on verbalizing the elements needed to contextualize a narration. The actions in
the narration begin at 7 p.m., when her mother comes home from work. At this
point, to announce the many things her mother does, which she is preparing to
enumerate, she makes a new listing gesture. This time, however, she does not use
her thumb but her right index as listing finger. Her right index:
e) touches and holds back/down the ring finger at fazer and lets go of it after
jantar (line 144);
f) touches and hands back/down the middle finger at jantar and lets go of it
after tudo (line 145).
We can see that the left hand finger is held down with the right index during
the whole verbalization of the sequences: fazer o jantar (make dinner), [fazer o]
jantar arrumar tudo ([prepare] dinner, tidy everything). We may ask if the fact
that she started listing on the ring finger has a logical explanation. In my opinion,
the speaker perceives the preceding syntactic cluster ela chega a casa as a first
countable topic, though she fails to accompany it with a listing gesture. The use of
the ring finger to accompany the verbalization of the next topic/cluster tem que
OSLa volume 7(1), 2015

[262]

isabel galhano rodrigues


fazer o jantar shows that this is already the second topic in a list and functions
as a repair mechanism.
Comparing these two groups of listing sequences, we notice, first of all, a formal difference regarding the listing finger. It is interesting to note that the very
same person uses different listing fingers within the span of only a few seconds
of speech, so that we could say that she does differentiate between the use of one
or the other finger. The only variation in significance could be that, in the second
case, she is more assertive than in the first case, when she was still starting her
turn. We may conclude that the use of the index finger shows more determination than the use of the thumb with the rest of the hand closed. Secondly we see
that, in the first case, the listing gesture consisting of finger touch and holding
back coincides with syntax: these sequences correspond to phrases:
almoos / jantares em casa // desde arrumar as casas // desde
On the contrary, the elements corresponding to the touch and maintain pressure
do not coincide exactly with the syntactic units:
fazer o jantar // jantar arrumar tudo
In f) touch was anticipated: it coincides not with the word arrumar, maintaining a parallelism with the preceding sequence, but with the word jantar, which
belongs to the preceding phrase fazer o jantar. To investigate these irregularities,
which are so typical of orality, it is important to examine the prosodic features of
these listing acts and the way rhythm is created. Thus, synchronization between
the moment of touch, the moment of prosodic prominence and the relevant lexical elements of the utterance will be the focus of the next section.

Listing units: prosody, topics and gestures


Figure 1 is a graphic representation of the acoustic signal corresponding to the
segment of speech analyzed in the previous section. The black dashes correspond
to the intonational units. The second dash is prosodically the first listing unit
it ends with an ascending-descending pitch. In this single unit we can find two
touches marked with the white short dashes; in other words, two listing gestures. The same happens with the second intonational unit. The gestures accompany the lexical elements almoos and jantares respectively in the first unit, and
desde and desde in the second unit.
The spotted dash marks acts 142 and 143, and the overcoming of the hesitation in 141, which introduces a new listing activity. We can see that the pitch
variations are different from the preceding intonational unit. In the next listing
activity, which prosodically begins at 144, there is no listing gesture. In the second intonational unit, we find a listing gesture accompanying the lexical elements
fazer o jantar and, in the next unit, another gesture accompanying arrumar tudo. At
OSLa volume 7(1), 2015

a tool at hand: gestures and rhythm in listing events

[263]

figure 1: Representation of the acoustic signal (138148).

this point we could ask whether the listing gesture is more linked to prosody or to
the topics expressed by words. It seems that, in this case, the modalities gesture
and prosody are responsible for establishing a kind of hierarchical structure: the
largest unit is structured by prosody, whereas the smaller units within this larger
unit, which correspond to two topics, are accompanied by gestures. The morphological features of the listing gestures confirm what was said in Section [3]. in
relation to the sequential use of the listable fingers. As for the trajectory of movements, their reduced amplitude could be attributed to both personality, gender
and context but could also be determined by cultural habits. Only a quantitative
research of this phenomenon could provide reliable data on the individual and
cultural features of the listing gestures. Nevertheless, some more easily observable aspects can be anticipated, i.e., the fingers used to list, the preferred order
of the fingers and the kind of information allocated to the fingers.

[4.2]

Case Two: German native speakers

Three German students, a man and two women, talk about adoption. The speaker
in this segment of interaction humorously narrates a recent event involving a
child, which illustrates his position regarding the theme.

Prosodic transcription
2-01 FH ich Habe dann ein NachmI have (spent) the afternoon-

|_______________________|
|
sitting leaning backwards, hands on the lap, palms on the belly, head turned to the front.
turns head to the left, and raises left arm up and to the front, hand with palm up, thumb
stretched out
OSLa volume 7(1), 2015

[264]

isabel galhano rodrigues


2-02

ich war den ganzen nachmittag

IM `CAso`lare`JA.

I was the whole afternoon

at casolare

right

|_____________________________| |__________________|
|
|
continues the movement to the left,
simultaneously going up and down with the arm.

keeps hand configuration and position,


makes some head nods, a stronger and
circular head movement accompanying 'ja'.

[
2-03 ST

]
kinder
children

2-04 FH ich musste auf `diesesMON`ster von `DA`vid ja aufpAssen'


I had to (look after) this monster

of

david

right

look after

|_____________________________| |___| |___________________|


|
|
|
draws his arm back, maintaining a 90 angle,
maintains hand configuration; at monster
looks, turns head and looks to the left

2-05

turns head and


looks again to
the front; closes
hand, thumb upwards

touches thumb with right


index and holds it
backwards; keeps
it so

(--)
|___|
|
Looks to the left to ST and again to the front; maintains finger pressured.

[
]
2-06 AF ((laughter))
2-07 FH dAnn will ER immer
then he wants

`SPIE:::len ja

always

to play, right

|__________________|
|

|_______________|
|

Lets go of thumb and raises


right hand slightly, head shaking
head leaning backwards and eyes closed.

touches left thumb with


right index again, continues shaking
head with the same head position.

[
2-08 ST

]
((laughter))

[
2-09 AF

]
((laughter))

2-10 FH -und er will


and he

wants to throw

KAR`ten

`wErfen;

the cards

|____________________________________|
|
keeping left hand configuration (hand closed, thumb upwards) and posture (head and trunk leaning
backwards) makes a gesture with right hand depicting the act of throwing forwards. Afterwards prepares
the following gesture: lowers right hand, touches relaxed the index finger of the left hand.

OSLa volume 7(1), 2015

a tool at hand: gestures and rhythm in listing events


[

[265]

2-11 ST

((laughter))
[

2-12 AF

((laughter))

2-13 FH -und dann will er wieder GELD?


and then he wants money again

|______________________________|
|
raises the right hand slightly, moves left hand upwards, thumb and index finger
stretched out, and touches left index with right index. Makes a kind of head shake.

[
2-14 ST

]
((laughter))

2-15 FH `dann will er `Sssig`KEITen gehAbt=Haben;


then he wants to have sweets

|_______________________|
|
raises hand looks to his hand and touches again the left index with the right index making
a head shake; at sssigkeiten he leans head backwards, turned to the left, holding finger down.

[
2-16 ST

]
((laughter))

2-17 FH -ECHT

`die schnauze

Really

|_____|
|

fed up

with children

|_____________| |_________________|
|
|

moves head to the front, leaning


backwards, eyes closed; raises
right arm, hand with palms downwards.

2-18 ST

voll von kindern.

moves open hand with palms


downwards from the left to
the right against his neck.

lowers hand, shaking


head looking at ST
and raises trunk

[
]
((laughter)) von kindern
[

2-19 AF
2-20 FH

((laughter))
|__________|
|

sits with erect trunk, lookind


at the hearers, right hand and
arm still raised at chest level

2-21 ST

[
((laughter)]

]
((laughter))

-ECHT `die schnauze voll JA?.


|______________________________|
|
moves hand again a little higher to the neck.
at 'ja' he leans again backwards and continues laughing.

OSLa volume 7(1), 2015

[266]

isabel galhano rodrigues

Listing units: topics and gestures


On line 204, at the same time as the speaker says the word david, he touches his
left thumb with his right index and holds his thumb back while waiting for the
hearers reactions (their laughter). He lets go of his thumb only at the beginning
of the next act (207). The next touch coincides with the verbalization of the
lexical item spielen.
Against all expectations, he then uses his thumb a second time (and not the
index finger) to count on.
On line 210, the next intonational unit, an expected listing gesture is replaced
by an iconic gesture depicting Davids enervating activity of throwing cards around.
It seems that this depicting performance is more important than the simple listing gesture, which indicates only another important item of the list. The speaker
was clearly more interested in showing his hearers how utterly irritating David
was. Nevertheless, as will be shown later, there are other cues that enable the
hearers to recognize this act as yet another listing act.
On line 213, the following intonational unit/listing act, the speaker makes
another listing gesture; this time he touches his left index finger with his right
index while simultaneously shaking his head. This head movement not only reinforces the idea conveyed by the utterance, but also reveals the speakers attitude
of rejection/disapproval in relation to the content of the utterance. The moment
of touch coincides with the verbalization of the lexical item geld.
The next listing unit (215) is accompanied by a touch on the same finger,
happening at the same time as the verbalization of the lexical element sssigkeiten.
Here, the speaker leans his head backwards and to the left, looking at ST and
monitoring her reaction, while holding his index finger down.
Afterwards, on 217, he utters the conclusion of his arguments (lines 202
215), expressing his feelings on the topic of adoption: he is fed up with children
(217 and 220). Both utterances are accompanied by an emblematic gesture, precisely conveying the meaning of being fed up with something (die Nase/Schnauze
voll haben).
To sum up, the listing gestures follow a different sequence than the ones described in the first example. As was to be expected of a German native speaker, the
listing activity starts with the thumb and goes on with the index finger, middle
finger, ring finger and little finger. In the present case, the gestures accompany
a) the verbalization of david and spielen, located on the thumb;
b) the verbalization of geld and sssigkeiten, located on the index finger.
In the first example, on [4.1] (lines 138141), we can identify two touches in
one intonational unit; in this case we find two intonational units, two touches,
but two subsequent allocations on the same finger. The listing activity is not long
OSLa volume 7(1), 2015

a tool at hand: gestures and rhythm in listing events

[267]

enough to be able to yield a logical reason for such distribution, but what matters
is the regularity observed as well as the interruption of this regularity in order to
make another type of gesture capable of transmitting the speakers emotions and
intentions in a more convincing way: he wants to justify why he is not interested
in having children by resorting to the efficient example of David.

figure 2: Representation of the acoustic signal (201221).

Listing units: prosody, topics and gestures


From the representation of the acoustic signal in Figure 2, we can see that the intonational units have different lengths, so that a prosodic rhythmic pattern cannot be detected. In spite of this, the listing activity is recognized as such. In fact,
there are other cues besides prosody and gestures, namely syntax. There is a clear
parallelism in sentence construction: the identical lexical elements und dann will
er are used to introduce most of the listing units (207, 210, 213, 215). Thus, it
is safe to assume that speakers have so many codification means/tools to choose
from when contextualizing a listing list that, even if one of them is not used, there
are others that will support the organization and identification of items in a list.
In this case, the morpho-syntactic means play the main role in the organization
of the listing list; gestures and prosody, although taking on their normal form and
function in the listing activity, are used irregularly and do not create a rhythmic
pattern, a typical indicator for making a list. One interesting aspect is the first
touch and holding down of the thumb, which continues after the end of the utterance, during the silent pause between the acts. How should this listing unit be
segmented? Should it correspond only to the verbalized utterance, or go on also
during the silent pause? In my opinion, it could be described as being composed
of a speech-gesture compound, where gesture lasts longer than speech, in frozen
position.
OSLa volume 7(1), 2015

[268]

isabel galhano rodrigues

[4.3] Case Three: Angolan Portuguese speakers


This example was taken from an interaction between three Angolan students talking about their experiences during their first contact with the Portuguese culture.
The speaker talks about some historical and socio-cultural facts he had never
heard about in Angola and that he learned in Portugal.
Prosodic transcription
3-01 DS -fiquei a saber
I learned that

-qu'existia o -VASco da

GA:ma'

there was Vasco da Gama

|______________| |________________________________|
|
|
preparation phase of gesture

3-02

(XXX)

with right hand index touches and holds down little finger
of the left hand, raising hands to the chest and lowering
them again to the waist, turning thumb upwards

jogar BASquete'
play

basket

|______________| |________________________________|
|
|
lowers right hand and moves it
to the right, stretching index
finger upwards;

3-03

-fiquEI=a

touches left little finger with right index and raises hands;
lowers and moves hands apart at 'banquete', smiling and
looking at hearers.

a sabEr

I learned

that there was

|__________|
|
raises and streches out
right arm,pointing with
the index at hearer on
the right.

3-04

-qu'exisTIA=A

|________|
|

raises left arm to chest


height and touches ring
finger with right index

(nA:::::me)'
(name)

|____________| |___________|
|
|
holds ring finger
down and raises
hand almost to the
chest

moves right hand apart,


stretches right arm out
and points at on
on the right; slowly
lowers left hand,returns
to rest position.

<<a>> `de resto no `sabia nada dEste mun `do; (--)


besides that

I did not know anything about this world

|_______________________________________________| |____|
|
|
beats four times with palm of one hand against back of the other hand, making
trajectories of considerable amplitude.

one identical
beat and back
to rest position

[
3-05 GF

]
ai ?
really?

3-06 DS `yah'
yes

|_____|
|
hand at rest position, always looking at the hearers
OSLa volume 7(1), 2015

a tool at hand: gestures and rhythm in listing events

[269]

3-07 GF ((laughter))
[
]
3-08 NP ((laughter))

Listing units: topics and gestures


Similarly to the Portuguese, these Angolans speakers locate the listing acts/topics
on their fingers, starting with the little finger. In the first listing gesture of this
example, the speaker touches the little finger of his left hand with the index finger
of the right hand when he verbalizes the lexical item existia; he keeps holding the
finger down, while raising and lowering his hands, during the production of the
lexical items o vasco da gama, with an elongation of the first phoneme /a:/ at gama.
These items correspond to the rest of the listing act/intonational unit (cf. line 3
02). During the production of the first part of the second listing unit, he moves
his hands wide apart, with his index raised, almost pointing at the hearer on the
right. The second part of this unit, the item to be listed, is accompanied by the
finger touch the little finger, once more and the same choreography as in the
preceding unit: he raises and lowers both hands, holding his finger down. At the
next unit, line 303, the whole choreography is repeated: the first part of the unit
is accompanied by a pointing gesture, directed towards the hearer on the right,
the second part, containing the listing item, is accompanied by a finger touch, this
time the ring finger. At the end of this unit, accompanying the vowel elongation
/a:::/, the speaker points to his right again. Although the syntactic structure of
this unit is parallel to the unit on line 301, the coordination with the gesture
trajectories is not the same: while in the first unit, the touch coincides with the
verbalization of existia, the holding down of the finger with o vasco da gama, and
the movement apart with the subsequent unit, in the act on line 303, the touch
is anticipated: it is simultaneous to the production of saber, the holding down to
que existia, and the pointing gesture to the last part of this unit (na:::me). The next
unit is composed of a verbal part (from de resto to mundo) and of a nonverbal part:
a gesture signifying indifference, a repeated and alternated beating of the palm
of one hand against the back of the other hand. This gesture lasts longer than the
verbal unit it accompanies (line 304305).
Summing up, the listing gesture is characterized by a stroke composed of
touch and holding down, and of an up-and-down waving movement of both hands,
intensifying the gesture. This stroke is anticipated by a deictic gesture, integrated
in the preparation phase, with the function of attracting the hearers attention
(pointing at them) and orienting it towards a point, virtually located by the index
finger, and corresponding to the lexical elements conveying an important item of
information, which the speaker is going to verbalize. As regards the coordination
of the topics/syntactic regularities and gesture regularities, syntax and gestures
are clearly not synchronized.
OSLa volume 7(1), 2015

[270]

isabel galhano rodrigues

figure 3: Representation of the acoustic signal (301308).

Listing units: prosody, topics and gestures


The end intonational contour of the three units (301, 302 and 303) is identical
and pitch is ascending and slightly descending. Therefore, in the second unit
(which does not display a syntactic parallelism with the first unit of the listing
activity) prosody and gesture contribute to the creation of a specific rhythm. In
the first and the third units there is a redundancy of rhythmic cues, although
their synchronization is not regular.
[4.4] Case Four: Angolan Portuguese speakers
In this last example, another Angolan student is commenting on how his habits
and personality have changed since he moved to Porto. More specifically, he mentions the fact that he was a DJ in Luanda and that he had a huge stereo at home.
His friends in Porto cannot imagine that he was DJ back home in Angola.
Prosodic transcription
4-01 GF EU no `era assim
I was not like this

|________________|
|
moves arms to both sides, palms turned upwards,
turns head to DS and moves arms again to the front,
to rest position, hands relaxed between his legs.

4-02 DS FA`la=a `Srio `(XXX);


really (XXX)

|______________________|
|
leaning backwards, head turned to the speaker, arms relaxed, dangling
on both sides of the chair.
OSLa volume 7(1), 2015

a tool at hand: gestures and rhythm in listing events


4-03 GF `JUro=eu

-euFUI-

I sware

[271]

DiJEI:::-

I have been

dj

|_________| |_________| |__________|


|
|
|
turns head to
the front

4-04

raises hands,
left hand palm upwards,
stretches right index out
(preparation)

touches left index with right index and holds it down


moving both hands down movement of big amplitude
(stroke and post-stroke hold); declines head down, looks
down, then moves head to the left, largest amplitude at
DJ, lowering hand, head accompanying this movement

eu fui di `JEI:::
I was a

dj

|__________________|
|
repetition of gesture touches the same finger and head movement

4-05

em minh`A casa-

`tenho

at home

I have

|_______________|
|

|_______|
|

raises right hand, index finger stretched


out to chest height (preparation), turns
head to the left

4-06

touches and holds ring finger down

`tinha `TEnho
I had

I have

|_____________|
|
moves both hands to the right, turning
head to the left and looking down.

4-07

um aparelho

GRAN:::`de `pa CARAmba

a sound system (stereo)

damned

|_____________|
|
turns head to the front;
opens wide arms to both sides,
depicting size.

big

|_____________|
|
brings hands together in front of the chest,
maintaining elbows raised, at shoulder height

Listing units: topics and gestures


On line 401, the speaker displays an attitude of resignation which can be paraphrased as I cant help it, I dont know how to explain this, but it is like this. The means
used to express this attitude are an opening gesture, hands and arms to both sides,
overlapping the territory of his interaction partners, palms turned to the front;
to capture his partners reaction or to address them more directly, he also turns
his head and looks at the partner to his left side, raising his eyebrows. The hearer
reacts to the confession addressed to him (line 402). Afterwards the speaker
turns his head to the front, looks down, and raises his hands. At this point, his
hand configuration announces a listing activity (left palm upwards, right index
stretched out) and the hearers understand that the speaker is about to make a
list of a few countable items. This moment coincides with the verbalization of the
OSLa volume 7(1), 2015

[272]

isabel galhano rodrigues


lexical items eu fui (line 403). The next listing act or intonational unit is a repetition of the first listing unit, a means of overcoming a delay in the organization
of discourse/ideas. Repeating the first listing act, the speaker gains some more
time to structure the next utterance and to find the best way to present further
ideas according to his intentions. The performance of this act (404) involves the
listing gesture on the little finger once again as well as a head movement from the
left to the right, which accompanies the gesture trajectory. This strategy, known
as repair (Schegloff et al. 1977), consists in a repetition of both gesture and words.
The next act/intonational unit (line 405) is nonverbally accompanied by a gesture similar to the preceding unit. The first part of the act em minha casa
corresponds to the preparation phase of the gesture; the second part tenho is
accompanied by the gesture of touching and holding down the ring finger. There
is also a head movement (first to the left and then to the right) accompanying the
gesture trajectory. On line 406 there is a second and third repair: the first lexical
element tinha replaces the preceding verbal element tenho. The speaker
seems to suddenly realize or remember that what hes talking about actually belongs to a past period of his life, and so he shifts from the present to the past form
of the verb. The next correction, the replacement of tinha by tenho (shift from past
to present tense), shows that he is now admitting that his house still exists and
his sound system is still there. The second repair is achieved only through verbal
means (and not through gestures and/or prosody). The speaker now abandons
the listing gestures and begins another gesture unit: he raises his arms and opens
them to both sides during the verbalization of aparelho, giving additional information about the aparelho. The formal features of the gesture convey the meaning
of big size, huge. Thus, this gesture anticipates the verbalization of the lexical
elements with the same meaning grande pa caramba. This anticipation is a strategy of reinforcement and focalization on the lexical element aparelho. Similarly
to what was described in example [4.2], the speakers emotional involvement in
the content of his utterance and the need to reinforce and depict certain details
in a more realistic way (attracting the hearers attention and drawing them into
the narration) leads to the performance of other gestures apart from the simple
discourse structuring and more objective listing gestures.
A closer look at the movements of other body parts shows that the arms, the
trunk and the head move in synchrony, as if the whole body were following the
same rhythm or choreography. Each movement to the left with one part of the
body involves movements of other body parts accordingly. As in the preceding
case (example [4.3]) the listing gestures are of a considerable amplitude: the listing index, stretched out upwards, draws a trajectory from a point at shoulder
height to the waist, touching the countable finger in the middle of this trajectory
and holding it and the hand down until the end of the trajectory.

OSLa volume 7(1), 2015

a tool at hand: gestures and rhythm in listing events

[273]

Listing units: prosody, topics and gestures


As we can see on Figure [4] (black dash corresponds to the intonational unit, grey
dash to finger touch and holding back), the first two units are prosodically identical, the second being a repetition of the first. The third listing unit, although
located on the next listable finger the ring finger does share the same features. This is maybe due to the sequence of repairs that give this unit a different
length. This is also the moment when the listing activity changes into a narration.
Indeed, if there were no repairs, the end of this listing unit would coincide with
the lexical element caramba, produced with a light ascending pitch.

figure 4: Representation of the acoustic signal (401407).

[5] d i s c u s s i o n

The conclusions that can be drawn from the above analysis are the following:
(i) An ideal and complete listing activity is not to be found in these examples
of spontaneous interactions.
(ii) Listing activities are structured and marked as such by morphosyntactic,
prosodic, and nonverbal means. These means help the speaker structure
and organize his/her discourse and provide the listeners with interpretation cues that allow them to decode without effort the information conveyed by the speaker.
(iii) The nonverbal cues found are listing gestures, accompanied or not by head
movements.
(iv) The listing activities described are performed with both hands: the listing
hand, whose index finger or thumb are used to list on the fingers of the
other hand, which has been called the listable hand (with listable fingers).
OSLa volume 7(1), 2015

[274]

isabel galhano rodrigues


(v) The most obvious differences in the listing gestures are:
(a) the finger that starts and ends the listing activity;
(b) the trajectory and amplitude of the movement.
(vi) There are idiosyncratic variations within not only the same culture (case
study), but also the same person, e.g., hand configuration of the listable
hand and the listing finger used (both the index and the thumb) (example
from section [4.1]);
(vii) The synchronization between all these different cues is not always perfect:
sometimes morphosyntax and gestures are not synchronized.
(viii) One intonational listing unit can encompass two syntactic units and two
listing gestures.
(ix) Listing gestures sometimes last longer than verbalization (verbal turns/acts),
as illustrated by the fact that a countable finger is held down for a longer
period of time than it takes to utter the lexical elements.
(x) Gestures can be used to emphasize speakers emotions and involvement in
the listing activity (e.g., grasping and holding the countable fingers down,
or raising and lowering the hands while holding the countable fingers).
(xi) If the speaker feels the need to give more realism to an aspect of the narration, s/he abandons the listing gestures in order to use an iconic gesture,
depicting actions or qualities related to the topics being discussed.
The analysis of listing gestures in a more extensive and diversified corpus coupled with the consideration of other variables such as gender, age, social-status,
state of mind, and nationality can certainly contribute to a better understanding
of this common strategy in spoken language and interaction. More importantly,
the focus on this single phenomenon does not imply the non-consideration of
other psycholinguistic and ethnographic aspects of body movements and speech.
On the contrary, a detailed and rigorous description of listing gestures forces the
observer to take into account all the social, psychological and relational aspects
that can be detected in a face-to-face interaction.

OSLa volume 7(1), 2015

a tool at hand: gestures and rhythm in listing events

[275]

appendix
[5.1]

Case Study 1

OSLa volume 7(1), 2015

[276]

isabel galhano rodrigues

[5.2]

OSLa volume 7(1), 2015

Case Study 2

a tool at hand: gestures and rhythm in listing events

[277]

OSLa volume 7(1), 2015

[278]

isabel galhano rodrigues

[5.3]

Case Study 3

[5.4]

Case Study 4

OSLa volume 7(1), 2015

a tool at hand: gestures and rhythm in listing events

[279]

references
Auer, Peter & Elisabeth Couper-Kuhlen. 1994. Rhythmus und tempo konversationeller alltagssprache. Zeitschrift fr Literaturwissenschaft und Linguistik 96.
78106.
Boomer, Dieter & Allen T. Dittman. 1962. Hesitation pauses and juncture pauses
in speech. Language and Speech 5(4). 215220.
Ekman, Paul & Wallace Friesen. 1969. The repertoire of nonverbal behavior: categories, origins, usage and coding. Semiotica 1(1). 4998.
Erickson, Frederick. 1992. They know all the lines: Rhythmic organization and
contextualization in a conversational listing routine. In Peter Auer & Aldo Di
Luzio (eds.), The Contextualization of Language, 365397. John Benjamins.
Galhano Rodrigues, Isabel (ed.). 1998. Os sinais conversacionais de alternncia de vez.
Granito Editores e Livreiros.
Galhano Rodrigues, Isabel. 2001. O papel da entoao na alternncia de vez. In
Actas do XVI Encontro Nacional da APL, 447458.
Galhano Rodrigues, Isabel (ed.). 2007. O corpo e a fala. Sinais verbais e no-verbais na
interaco face a face. FCG/FCT.
Galhano Rodrigues, Isabel. 2010. Gesture space and gesture choreography in European Portuguese and African Portuguese interactions: a pilot study of two
cases. In Stephan Koop & Ipke Wachsmuth (eds.), International Gesture Workshop
2009, 2333. Springer.
Goffman, Erving (ed.). 1974. Frame Analysis. An Essay on the organization of experience.
Harper Colephon Books.
Goldman-Eisler, Frieda. 1972. Pauses, clauses, sentences. Language and Speech
15(2). 103113.
Goodwin, Charles (ed.). 1981. Conversational Organization. Interaction between speakers and hearers. Academic Press.
Gumperz, John (ed.). 1982a. Discourse Strategies. Cambridge University Press.
OSLa volume 7(1), 2015

[280]

isabel galhano rodrigues


Gumperz, John (ed.). 1982b. Discourse Strategies. Cambridge University Press.
Gumperz, John. 1992. Contextualization revisited. In Peter Auer & Aldo di Luzio
(eds.), The Contextualization of Language, 3953. John Benjamins.
Hall, Edward. 1974. Proxemics. In Shirley Weitz (ed.), Nonverbal Communication,
205229. Oxford University Press.
Henne, Helmut & Helmut Rehbock (eds.). 1982. Einfhrung in die Gesprchsanalayse.
Walter de Gruyter.
Kendon, Adam. 1980. Gesticulation and Speech: two aspects of the process of
utterance. In Mary Ritchie Key (ed.), The relationship of verbal and nonverbal communication, 208227. Mouton.
Kendon, Adam (ed.). 2004. Gesture. Visible action as utterance. Cambridge University
Press.
McClave, Evelyn. 2000. Linguistic functions of head movements in the context of
speech. Journal of Pragmatics 32. 855878.
McClave, Evelyn. 2001. Head movements in Arabic, Bulgarian, Korean and African
Amercian English: Whats cognitive and whats cultural? In Charles Cav, Isabelle Guatella & Serge Santi (eds.), Oralit et Gestualit. Interactions et comportements multimodeaux dans la communication. Actes du colloque ORAGE 2001, vol. 3960,
560564.
McNeill, David (ed.). 1992. Hand and Mind. Chicago University Press.
McNeill, David. 2000. Catchments and context: non-modular factors in speech
and gesture production. In David McNeill (ed.), Language and Gesture, 312328.
Cambridge University Press.
Moeschler, Jacques. 1987. Structure, dynamique e compltude conversationnelles. In Lanalyse des interactions verbales. La dame de Caluire: une consultation.
Actes du Colloque , 123156. Peter Lang.
Moeschler, Jacques. 1994. Das Genfer Modell der Gesprchsanalyse. In Gerd Fritz
& Franz Hundsnurscher (eds.), Ethnometodologische Konversationsanalyse, 6994.
Niemeyer.
Mller, Cornelia, Alan Cienki, Ellen Fricke, Silva Ladewig, David McNeill & Sedinha
Tessendorf (eds.). 2013. Body-Language-Communication. An International Handbook
on Multimodality in Human Interaction, vol. 1. de Gruyter Mouton.

OSLa volume 7(1), 2015

a tool at hand: gestures and rhythm in listing events

[281]

Mller, Cornelia, Alan Cienki, Ellen Fricke, Silva Ladewig, David McNeill & Sedinha
Tessendorf (eds.). 2014. Body-Language-Communication. An International Handbook
on Multimodality in Human Interaction, vol. 2. de Gruyter Mouton.
Roulet, Eddy, Antoine Auchlin, Jacques Moeschler, Christian Rubattel & Marianne
Schelling (eds.). 1985. Larticulation du discours en franais contemporain. Peter
Lang.
Sachs, Harvey, Emanuel Schegloff & Gail Jefferson. 1974. A simplest systematics
for the organization of turn-taking for conversation. Language 50. 696735.
Schegloff, Emanuel, Gail Jefferson & Harvey Sachs. 1977. The preference for self
correction in the organization of repair in conversation. Language 53. 361382.
Selting, Margret. 1988. The role of intonation in the organization of repair and
problem handling sequences in conversation. Journal of Pragmatics 12. 293322.
Selting, Margret, Peter Auer, Brigit Barden, Jrg Bergmann, Elisabeth CouperKuhlen, Susanne Gnthner, Christoph Meier, Uta Quasthoff, Peter Schlobinski
& Susanne Uhmann. 1998. Gesprchsanalytisches Transkriptionssystem (GAT).
Linguistische Berichte 173. 91122.
Selting, Margret & Elisabeth Couper-Kuhlen. 2000. Argumente fr die entwicklung einer interaktionalen linguistik. Gesprchsforschung - On-line-Zeitschrift zur
verbalen Interaktion 1. 7695.
Sinclair, John & Malcom Coulthard (eds.). 1975. Towards an Analysis of Discourse.
The English used by teachers and pupils. Oxford University Press.
Uhmann, Susanne. 1992. Contextualizing Relevance: On some forms and functions of speech rate changes in everyday conversation. In Peter Auer & Aldo
di Luzio (eds.), The Contextualization of Language, 297336. John Benjamins.

c o n ta c t s
Isabel Galhano Rodrigues
Faculdade de Letras da Universidade do Porto
irodrig@letras.up.pt
OSLa volume 7(1), 2015

Simes, Barreiro, Santos, Sousa-Silva & Tagnin (eds.) Lingustica, Informtica e Traduo: Mundos
que se Cruzam, Oslo Studies in Language 7(1), 2015. 283300. (ISSN 1890-9639 / ISBN 978-8291398-12-9)
http://www.journals.uio.no/osla

traduo automtica na
interao com mquinas
ANTNIO TEIXEIRA, JOS CASIMIRO PEREIRA,
PEDRO FRANCISCO E NUNO ALMEIDA

abstract
Automatic translation is usually related to conversion between human languages. Nevertheless, in human-machine interaction scenarios new forms
of translation emerged. This work presents two examples. First, from the
area of Natural Language Generation, is presented a data-to-text system,
where data stored in a database regarding a medication plan is translated
to Portuguese. As second example, is presented a system addressing the
transmission of information from humans to computers, showing that automatic translation can be useful in the development of systems that use
voice commands for interaction and having multilingualism as a requirement. The examples presented, part of our recent work, demonstrate the
increase of application areas for automatic translation, area that received
many and valuable contributions from Belinda Maia.
[1] i n t r o d u o

A traduo automtica de linguagem , em geral, associada converso entre lnguas humanas. No entanto, sendo a interao com computadores (ou sistemas
integrando estes, como os robs), no essencial, a transmisso de informao e
sendo as linguagens naturais a melhor forma, at hoje, criada pelo Homem para
codificar informao - como defende, por exemplo, Santos (1992) Natural language is so far the most comprehensive tool for (humans to) encode and reason
with knowledge - natural que a traduo automtica tenha papis a desempenhar na nossa interao com as mquinas (e das mquinas connosco).
A nossa interao com as mquinas , em geral, bidirecional. Tomemos como
exemplo uma aplicao simples para nos informar sobre a previso do tempo, a
correr num dos cada vez mais omnipresentes Smartphones (que no nos atrevemos a traduzir...). A linguagem natural passvel de utilizao na transmisso de
informao da previso para a semana, sob a forma de um texto ou mesmo pela
leitura desse texto, usando um sintetizador de voz (dois exemplos do que se designa habitualmente como modalidades de sada). Outra utilizao na interao
consiste em navegar nas vrias informaes disponveis utilizando comandos de
voz, dizendo, por exemplo, quero saber a previso para os prximos dias (exem-

[284]

teixeira, pereira, francisco & almeida


plo de uma modalidade de entrada). Para tornar possveis funcionalidades como
as dos exemplos, torna-se necessrio tecnologias capazes de:
(i) traduzir o sinal acstico da voz em comandos com um significado preciso
para a aplicao.
(ii) traduzir (uma pequena provocao na utilizao da palavra!) em frases, ou
textos, informao que existe internamente nas mquinas;

[1.1] Controlo por voz de aplicaes multilingue


A tecnologia atual da rea do processamento de fala e de linguagem natural permite o controlo de aplicaes e a procura de informao com um razovel desempenho. Permite tambm ditar mensagens, como o contedo de um email ou
qualquer outro documento. Por forma a se conseguir utilizar a linguagem falada
como modalidade/forma de entrada de informao ou controle de uma aplicao
de computador, necessrio efetuar pelo menos duas tarefas1 :
Primeiro, converter o sinal acstico numa sequncia de palavras. Tarefa que
desempenhada pelos denominados reconhecedores de fala. De seguida, a sequncia de palavras processada por um sistema de Compreenso de Fala (em ingls,
Spoken Language Understanding SLU) responsvel por extrair informao semntica significado.
Para que possam efetuar a sua tarefa, os reconhecedores necessitam de informao sobre as palavras e frases que devem considerar no seu processo de reconhecimento. Em geral, para aplicaes de controlo de aplicaes, esta informao
fornecida por gramticas.
Para a compreenso da linguagem foram propostos vrios tipos de abordagens
(ver Tur & De Mori 2011) com graus diferentes de complexidade. Um dos mtodos
mais utilizados baseia-se na utilizao de gramticas semnticas (Tur & De Mori
2011, p. 51), sendo o sistema mais conhecido o Phoenix (Ward 1990).
Estas gramticas so dependentes da lngua e so criadas com base no contexto de uma aplicao, sendo necessrio traduzir as gramticas de cada aplicativo para cada idioma que a aplicao deve suportar. Atendendo a que, em geral,
os programadores no possuem conhecimentos num conjunto alargado de lnguas, e a traduo das gramticas algo custoso, mesmo por tradutores formados
segundo a filosofia defendida pela Belinda de serem capazes de colaborar com a
mquina (Santos & Simes 2015), torna-se pertinente explorar as capacidades
da traduo automtica nestes contextos, o que os autores tm vindo a fazer (Teixeira et al. 2014a).
[1]
OSLa volume 7(1), 2015

Pelo menos com a tecnologia mais comum. Existem propostas recentes de sistemas que integram estas
duas partes.

traduo automtica na interao com mquinas

[285]

[1.2] Converso de dados em frases


Os sistemas de Gerao de Linguagem Natural precisam de mapear alguma fonte
de informao (como uma base de dados, por exemplo) em algum tipo de mensagem gerada automaticamente (Bateman & Zock 2003). Esse mapeamento pode
ser feito recorrendo a diferentes tipos de sistemas, desde os baseados em modelos pr-definidos (templates) at aos sistemas baseados em aprendizagem automtica. A escolha do tipo de sistema depende da aplicao, recursos e conhecimentos
disponveis. Para uma utilizao em interao essencial que as frases geradas
apresentem variabilidade e que o desenvolvimento seja possvel sem grandes conhecimentos de Lingustica.
Se por um lado, a opo por modelos pr-definidos proporciona resultados rpidos, por outro verifica-se uma uniformidade nas respostas produzidas pelo sistema. Esta uniformidade torna este mtodo desadequado para sistemas que pretendam um grau elevado de naturalidade na interao com o ser humano, como
os que estamos interessados.
Os sistemas convencionais, no usando templates, profusamente descritos em
(Reiter & Dale 2000), efetuam este mapeamento em 3 fases: (1) Planificao do Documento; (2)Planeamento Fino, incluindo Lexicalizao (escolha das palavras que
melhor descrevem o que foi definido na planificao do documento), Agregao e
Gerao de Expresses Relacionadas; (3) Realizao de superfcie, que concretiza
todas as decises tomadas nas fases anteriores.
Estes sistemas utilizam, frequentemente, regras bastante especficas, relacionadas com o domnio do problema que desejam solucionar, sendo fortemente
dependentes da experincia e conhecimento do seu desenvolvedor. A sua adaptao a novos requisitos , em geral, bastante difcil (Lemon 2010).
Tentando dar resposta a estas limitaes, foram propostos, mais recentemente,
sistemas usando aprendizagem automtica. O objetivo treinar/ensinar um sistema com base em informaes previamente conhecidas. Depois, com este conhecimento adquirido, possvel inferir novas expresses. Expresses que, em geral,
no fazem parte do conjunto de treino.
Diversas abordagens tm sido seguidas. Algumas utilizam ontologias como estrutura para recolher o corpus e posteriormente gerar as novas expresses (Stent
et al. 2004; Stent & Molina 2009; Vogiatzis et al. 2008); outras formulam o processo de gerao como um processo de traduo entre uma linguagem interna e
uma lngua natural (Langner & Black 2009; Langner 2010) e utilizam ferramentas
de traduo automtica como o MOSES (Koehn et al. 2007).
A gerao de linguagem para converso de dados (internos a um sistema) em
texto (Data2Text em ingls), em que se pode incluir a gerao para sistemas de dilogo, apresenta algumas diferenas importantes relativamente a outros sistemas
de gerao de linguagem natural (Langner 2010). Neste caso, a gerao consiste
quase exclusivamente na ltima fase, a realizao de superfcie.
OSLa volume 7(1), 2015

[286]

teixeira, pereira, francisco & almeida


As abordagens usando aprendizagem automtica so particularmente interessantes para este cenrio de gerao simplificado.
Alguns exemplos de sistemas orientados converso de dados em texto:
BabyTalk - Este sistema (Portet et al. 2009; Hunter et al. 2011) surgiu com o
objetivo de apoiar os profissionais de sade (enfermeiros e mdicos) de uma
Unidade de Cuidados Intensivos Neonatais, na sua necessidade de assimilar
uma grande quantidade de informao, em muito pouco tempo, sobre os
bebs a internados.
Mountain - Foi desenvolvido por Langner, como parte da sua tese de doutoramento e utiliza, igualmente, um corpus alinhado (Langner & Black 2009;
Langner 2010). Utiliza o MOSES (Koehn et al. 2007; Koehn 2014) como forma
de gerar as frases. A sua linguagem de entrada corresponde a uma sequncia de cdigos que representam a disponibilidade de um court de tnis. A
linguagem de sada corresponde traduo desse cdigo em ingls.

figura 1: Exemplo do corpus do Mountain (retirado de Langner (2010)).


SINotas - Apresentado em (Arajo et al. 2010; Novais et al. 2009), um dos
poucos exemplos, de que tenhamos conhecimento, de sistemas deste gnero, orientados para uso da lngua portuguesa. Desenvolvido no Brasil,
destina-se a dar suporte a uma aplicao de divulgao de notas de alunos,
numa universidade. O SINotas utiliza um corpus alinhado, onde a cada nota
possvel de um aluno associa uma descrio para essa nota.

[1.3] O que se segue ...


Neste artigo apresenta-se trabalho recente nestas duas aplicaes das tecnologias
da traduo automtica - converso de dados para texto e suporte interao por
voz multilingue - descrevendo as abordagens, trabalho recente e apresentando
exemplos para o Portugus.
OSLa volume 7(1), 2015

traduo automtica na interao com mquinas

[287]

[2] t r a d u o n a c o n v e r s o e n t r e da d o s e t e x t o p a r a p o r t u g u s

Os autores tm vindo a trabalhar num sistema de gerao de linguagem natural


para utilizao em aplicaes necessitando de transformar informao interna em
frases passveis de ser lidas pelo utilizador, ou mesmo convertidas em fala sinttica atravs de um sintetizador. Este sistema, que se pretende seja de fcil aplicao a novos domnios, baseia-se na utilizao de corpora paralelos para treino de
um sistema de traduo.
O cenrio escolhido para os primeiros testes a este sistema de gerao foi o da
informao sobre medicao a ser tomada (Ferreira et al. 2014; Pereira et al. 2012).
Numa primeira fase, o problema foi simplificado, recorrendo apenas gerao de
uma frase relativa a um nico medicamento. Neste cenrio, a informao relativa
a cada um dos medicamentos a tomar, em determinada altura, pode ser visualizada sob a forma de uma frase, complementando outras formas de apresentao,
como listas e imagens.

[2.1] Implementao
Em linhas gerais, o funcionamento do sistema ilustrado na Figura 2):
Moses
Variante
baseada em
sintagmas

Base de
Dados com
Informao
sobre
medicao

Variante
baseada em
sintaxe

Gerador de Frases

Aplicao

figura 2: Funcionamento do sistema de converso de informao de medicao


em frases.
A parte central deste sistema o mdulo capaz de criar uma frase em resposta
a um vetor com dados, fornecido como entrada. Para se alcanar este objetivo so
necessrios trs componentes:
A base de dados com informao relativa aos planos de medicao, que
designaremos por BD, o componente responsvel por armazenar informao
sobre o plano(s) de medicao.
O componente Moses responsvel pela traduo para portugus das frases,
enviadas pelo mdulo gerador de frases. Para efetuar a traduo, o Moses tem
de ser treinado com um corpus paralelo. A cada frase na linguagem de entrada
deve corresponder uma frase na linguagem de sada, respeitando o ordenamento
OSLa volume 7(1), 2015

[288]

teixeira, pereira, francisco & almeida


dos ficheiros. A linguagem de entrada ser constituda por valores correspondentes aos fornecidos pelo mdulo BD. Na linguagem de sada esto as expresses,
em portugus, que se deseja que o Moses seja capaz de gerar.
O mdulo gerador de frases responsvel por receber os pedidos dos utilizadores e interagir com a base de dados. tambm sua responsabilidade enviar
mensagens escritas na linguagem de entrada para o mdulo Moses e receber a
resposta na linguagem de sada. Por ltimo, compete-lhe processar as respostas
e apresent-las ao utilizador, atravs da respetiva Aplicao.
Como referido anteriormente, foi utilizado um corpus constitudo por duas
linguagens, alinhadas.
A linguagem de entrada reflete os dados que so obtidos por consulta, na
base de dados, tendo sido selecionados 9 tipos de dados: Nome e Apelido do utilizador, Mensagem de cortesia, Nome do medicamento a tomar, Tipo do medicamento, Forma de tomar o medicamento, Cor do medicamento, Dose a tomar e
Frequncia da toma.
Correspondentemente, na linguagem de sada surge uma frase que exprime
o mesmo tipo de informao da linguagem de entrada, mas em portugus. A
Tabela 1 apresenta exemplos destas duas linguagens.
Linguagem interna
pessoa32n saudacao_0 pessoa0a medicamento21 tipo0 tomar0 cor00 dose0 freqtoma00
pessoa0n saudacao_0 pessoa0a medicamento14 tipo1 tomar2 cor00 dose4 freqtoma02
pessoa0n saudacao_m pessoa12a medicamento0 tipo8 tomar3 cor00 dose0 freqtoma02
pessoa78n saudacao_f pessoa0a medicamento3 tipo1 tomar2 cor00 dose3 freqtoma04

Frase correspondente
Helena pode tomar agora o Seretaide.
Vai-se deitar ento tome quatro comprimidos Primperan.
Antes de deitar senhor Lima no se esquea da bomba de inalao.
Dona Teresinha est na hora de almoo
tome os trs comprimidos Ibuprofeno.

tabela 1: Excerto do corpus alinhado utilizado nas experincias.


Foram criadas duas verses do sistema, diferindo apenas no mtodo de traduo: um baseado em sintagmas (phrase-based), outro adoptando a chamada traduo baseada em sintaxe (syntax-based). O corpus utilizado constitudo por 643
frases, obtidas pela expanso de 126 frases produzidas por voluntrios. Os dados
presentes na base de dados correspondem a medicamentos e prescries reais.
OSLa volume 7(1), 2015

traduo automtica na interao com mquinas

[289]

[2.2] Exemplos de resultados


Nesta seco apresentam-se vrios exemplos selecionados de forma a ilustrar os
vrios tipos de resultados obtidos. Pretende-se familiarizar o leitor com o que de
facto foi possvel obter usando os dois tipos de sistemas.
Ilustrando as capacidades do sistema e a disparidade de qualidade das frases
obtidas, comeamos por apresentar exemplos de gerao produzidos por diferentes entradas.
Usando como entrada o vetor
< pessoa45n saudacao0 ... medicamento17 ... cor00 dose0 freqtoma00 >

que se refere ao medicamento 17 (Pulmicort) e contm informao sobre dose,


tipo, ..., obteve-se a no frase (1).
(1)

Lus Pulmicort de tomar agora o.

Para outra entrada,


< pessoa61n ... medicamento4 tipo0 tomar0 cor00 dose2 freqtoma00 >

os resultados so muito mais aceitveis (2).


(2)

Senhor Paulo tome dois comprimidos de Maltofer.

Os resultados (1) e (2) e outros anlogos podem ser comparados com os gerados
por humanos, e que integram o corpus. Apresentam-se de seguida dois exemplos
de sada do sistema (assinalados com S antes) alinhados com frases produzidas
por humanos (com H antes). Estes exemplos mostram o alinhamento entre as frases criadas pelos humanos, e que servem de referncia, e as geradas pelo sistema,
para uma mesma entrada. As frases so, aqui, apresentadas em minsculas para
que seja possvel evidenciar as suas diferenas, como a seguir explicado. Nos alinhamentos, a falha do sistema em incluir uma palavra na frase marcada com
***. Quando ocorrer troca de palavras, ou quando houver adio de palavras,
estas diferenas so evidenciadas atravs de maisculas. Esta evidenciao especialmente direcionada para os casos em que haja marcao com ***.
(3)

H: dona denise assim que se levantar no se esquea de tomar OS COMPRIMIDOS nicotibine


S: dona denise assim que se levantar no se esquea de tomar O COMPRIMIDO nicotibine

(4)

H: DEVE TOMAR AGORA ao acordar *** a bomba de inalao DE pulmicort


AUGUSTO
S:*** *** AUGUSTO ao acordar APLIQUE a bomba de inalao *** pulmicort
***

Em (3) a grande diferena resulta do sistema usar o singular para OS COMPRIMIDOS. Num cenrio em que a frase gerada a nica informao que transOSLa volume 7(1), 2015

[290]

teixeira, pereira, francisco & almeida


mitida ao utilizador esta falha pode ter consequncias muito graves ao potenciar
a toma de uma dose errada. No entanto, em cenrios multimodais em que a frase
complementa outra informao clarificando o nmero de comprimidos a tomar,
como o caso dos que interessam aos autores, esta diferena pode no ter grandes consequncias. No exemplo (4) existem vrias diferenas, mas no se pode
dizer que o sistema se tenha sado muito mal: APLIQUE a bomba ser at mais
adequado do que TOMAR... a bomba; bomba de inalao pulmicort tem a sua
lgica. De referir que nesta fase optmos por no incluir vrgulas e outra pontuao na gerao, devido a problemas com o analisador sinttico (parser) utilizado.
Sendo claramente uma limitao, foi j iniciada a explorao de parsers alternativos.
A diferena entre as frases geradas pelo sistema e as produzidas por humanos
pode ser ainda maior. Os exemplos (5) e (6) mostram frases geradas inteligveis
e que se podem considerar boas em termos de naturalidade, mas que so completamente diferentes das produzidas por humanos. Este tipo de frases constitui
um grande desafio para a avaliao, sendo normalmente consideradas como erros
pelas mtricas automticas de avaliao, mas constituem, na opinio dos autores,
uma das mais valias destes sistemas, afastando-os da monotonia dos sistemas de
gerao baseados em templates.
(5)

H: HORA DE ALMOAR marcos no se esquea de tomar *** quatro gotas


de guttalax *** ***
S:*** *** *** *** marcos no se esquea de tomar AS quatro gotas de guttalax AO ALMOO

(6)

H: *** *** MEIO-DIA TOME AS trs gotas de zaditen *** PATRCIA


S:PATRCIA NO SE ESQUEA DE TOMAR trs gotas de zaditen AO MEIO-DIA

Em (7) e (8) exemplifica-se a diferena entre os resultados obtidos pelos 2 tipos


de sistema. Utilizou-se a mesma informao de entrada na gerao das frases. Notamos por F a gerao baseada em sintagmas (phrase-based) e por S a gerao
baseada em sintaxe.
(7)

F: Patrcia no se esquea de tomar trs gotas de Zaditen ao meio-dia


S: Patrcia ao Zaditen gotas tome de trs meio-dia

(8)

F: Senhora Carvalho aps o seu almoo tome cinco comprimidos de Duphaston


S: Senhora Carvalho Duphaston comprimido branco cinco almoo

Destes exemplos transparece uma pior capacidade da variante do sistema baseada em sintaxe. Possivelmente, pelo tamanho bastante limitado do corpus utilizado e pelo facto de no se ter ainda conseguido um bom desempenho da anotao sinttica. Estes resultados esto a ser encarados pelos autores no como uma
OSLa volume 7(1), 2015

traduo automtica na interao com mquinas

[291]

prova de que esta variante do sistema tem menor potencial, mas como um desafio
para melhorar o desempenho dos processos adicionais que envolve.
[3] t r a d u o n o s u p o r t e i n t e r a o p o r vo z m u l t i l i n g u e

Como referido na introduo, uma forma de configurar o conhecimento e compreenso de fala atravs de gramticas, definidas para a aplicao em vista. Adoptamos essa abordagem para o desenvolvimento de diversas aplicaes suportando
a interao por voz, destacando-se o assistente AALFred (Saldanha et al. 2013;
Teixeira et al. 2014b) do projeto AAL PaeLife. Para que a interao possa ser efetuada em mltiplas linguagens - o AALFred suporta atualmente Ingls, Portugus,
Francs, Hngaro e Polaco - definida uma gramtica semntica de base e as gramticas para as outras lnguas so obtidas por traduo, seguida de verificao
manual durante o desenvolvimento. As gramticas necessrias para o reconhecedor de fala so tambm derivadas automaticamente.

[3.1] Implementao
Por forma a dar resposta s necessidades de desenvolvimento distribudo de aplicaes e facilitar a verificao manual, o sistema foi implementado como um servio web (webservice) e um portal web associado.
O sistema (Figura 3) dual na funcionalidade. Suporta o desenvolvimento
e o uso em contextos de interao real, altura em que as gramticas nas vrias
lnguas ficam disponveis para utilizao, sendo selecionadas em funo da lngua
em utilizao.
Em contextos de interao, o sistema responsvel pela compreenso da linguagem natural, aproveitando as gramticas enviadas para o servio em fase de
desenvolvimento. Recebe a sada de reconhecimento de fala e retorna as informaes semnticas extradas. Tambm retorna, a pedido, as informaes necessrias
sobre as palavras e frases necessrias para configurar o reconhecedor de fala.
Dadas as limitaes das tradues automticas, o servio tambm oferece suporte a reviso manual e atualizao subsequente de gramticas. Esta utilizao
particularmente adequada quando se est na fase de desenvolvimento de uma
aplicao, como o AALFred, ao permitir que cada parceiro envolvido no projeto
possa rever e corrigir as gramticas geradas automaticamente.
Todas as operaes so feitas atravs do acesso a APIs2 , garantindo um controlo de operao consistente e completo.
Para permitir a introduo de novas gramticas, uma interface especfica
necessria para o desenvolvedor. Esta interface permite submeter uma gramtica
e verificar os resultados da sua traduo, tanto em termos de gramtica gerada
como de frases geradas por ela.
[2]

Application Programming Interface (em portugus: Interface de Programao de Aplicaes)


OSLa volume 7(1), 2015

[292]

teixeira, pereira, francisco & almeida

figura 3: Sistema de anlise semntica multilingue, baseado na traduo de gramticas semnticas.

[3.2]

Gramticas semnticas e parser

O Phoenix (Ward 1990) foi escolhido como o analisador (parser) tendo sido tambm
adoptado o seu formato de especificao de gramticas. A escolha teve por base
a robustez do Phoenix a erros no reconhecimento e desempenho e versatilidade
que demonstrou em variadssimas aplicaes.
O sistema de anlise semntica Phoenix (Ward 1990) modela diretamente a
semntica de um domnio especfico usando gramticas semnticas baseadas em
quadros (frames) e slots. Cada slot tem uma gramtica livre de contexto associado,
que especifica padres de sequncias de palavras que coincidem com o slot e
compilada como uma rede de transio recursiva (RTN). So preenchidos atravs
da comparao entre a sequncia de palavras das frases em anlise com estas redes
recursivas (Tur & De Mori 2011, p. 51).
O objetivo do analisador (parser) extrair as anotaes semnticas (tags), conforme definido na gramtica semntica. Esta operao efetuada sobre a lista
de palavras que foi fornecida pelo sistema de reconhecimento de fala. Aps esta
tarefa, o texto juntamente com as respetivas anotaes enviado para processamento pelo Gestor de Interao. Por ltimo, o resultado final usado pela aplicao.
As gramticas do Phoenix contm as regras livres de contexto que especificam
os padres da palavra. Uma pequena gramtica exemplo apresentada em (9).
OSLa volume 7(1), 2015

traduo automtica na interao com mquinas

[293]

Trata-se de um exemplo muito simples que servir para a explicao do processo


de traduo apresentado na prxima subseco que permite transformar
sequncias de palavras como show this contacts pictures numa interpretao
do que o utilizador pretende: que lhe seja mostrada a foto do contacto atualmente
selecionado:
(9)

[Main]
([AGENDA])
([CONTACTS])
;
[CONTACTS]
(show this contact's [PHOTOS])
;
[PHOTOS]
(photographies)
(photos)
(pictures)
;

As regras, uma por linha, aparecem entre parntesis curvos. Nomes entre parntesis rectos indicam no-terminais. Palavras em minsculas indicam smbolos
terminais. possvel indicar que algo opcional utilizando o * ou que pode ter
uma ou mais ocorrncias usando o +.

[3.3] Processo de traduo das gramticas


O principal objetivo deste processo gerar automaticamente uma gramtica derivada em outros idiomas de destino. Isso conseguido atravs da preservao,
tanto quanto possvel, da estrutura da gramtica, gerando frases coerentes na
lngua-alvo e tendo em considerao o processo de reordenao de palavras.
O objetivo traduzir para uma lngua-alvo todas as palavras terminais preservando as anotaes (tags) semnticas. A traduo tambm deve produzir uma
lista completa das frases definidas pela gramtica.
O processo adotado e implementado composto por trs etapas: 1) expanso
completa da gramtica; 2) traduo; e 3) reconstruo de gramtica.
Expanso da gramtica
Com o objetivo de manipular as gramticas do Phoenix, uma de duas abordagens
teria de ser seguida: alterar o Phoenix ou ter um analisador separado. Foi decidido implementar um analisador separado e contar com o analisador de Phoenix
apenas para a sua funo j especificada e bem testada: anlise de texto de entrada
com base em uma gramtica definida.
OSLa volume 7(1), 2015

[294]

teixeira, pereira, francisco & almeida


Para traduzir corretamente a gramtica, necessrio apresentar frases completas ao tradutor, para assim ter forma de avaliar adequadamente qual a traduo mais plausvel. Para obter essas frases, o algoritmo desenvolvido faz uso de
duas estruturas de dados: uma pilha em andamento e uma fila feito at agora.
Na primeira, o algoritmo armazena a regra atual, enquanto no segundo armazena
as palavras traduzidas. A expanso de todas as regras feita mantendo o histrico
das regras visitadas ao longo da expanso.
O nosso exemplo ser expandido como em (10).
(10)

show this contacts photographies


show this contacts photos
show this contacts pictures

Traduo
O processo de traduo consiste em submeter o resultado da expanso (palavras
mais as suas regras gramaticais/histria) e receber as frases traduzidas resultantes (emparelhamento de palavras na traduo com as palavras correspondentes
na fonte).
Para a traduo, a escolha recaiu sobre o tradutor Bing (Microsoft 2014), utilizado atravs da Microsoft Translator API (Microsoft 2015), devido sua capacidade de fornecer informao sobre a reordenao das palavras. Esta informao facilita a correspondncia das palavras da traduo com palavras de origem,
essencial para a reordenao das palavras aquando da reconstruo das regras.
Alm disso, este tradutor tambm permite obter mltiplas tradues por pedido,
o que permite a expanso de uma gramtica existente para oferecer suporte a vrias frases semelhantes, sem a necessidade de entrada adicional. Podemos, assim,
aumentar a cobertura da nossa gramtica de forma automtica e sem esforo.
Em (11) apresentam-se as frases resultantes da traduo da expanso apresentada anteriormente, em (10).
(11)

mostrar fotos deste contacto


mostrar fotografias deste contacto

Reconstruo da gramtica
Quando a gramtica analisada (a fim de expandi-la depois), um objeto diferente
criado para cada instncia de qualquer regra. Como tal, para cada palavra terminal presente na instruo resultante da expanso da gramtica, podemos determinar exatamente qual a regra que deu origem ao caminho que leva a ela, aps
a traduo. Como temos informao relativa reordenao disponvel, sabemos
quais as regras que geraram o texto resultante da traduo.
OSLa volume 7(1), 2015

traduo automtica na interao com mquinas

[295]

O algoritmo desenvolvido utiliza a histria de expanso da gramtica e as frases traduzidas. Consiste em analisar informaes de histrico dos antepassados
para refazer a gramtica. Isto feito atravs da fuso de no-terminais, do mesmo
nvel, em toda a gramtica numa abordagem de cima para baixo. As Figuras 4 e 5
ilustram as fases inicial e final deste processo.
[M ain]
[CON T ACT S]
mostrar

[M ain]
[CON T ACT S]
[P HOT OS]
fotos

[M ain]
[CON T ACT S]
deste

[M ain]
[CON T ACT S]
contacto

figura 4: Representao da informao na fase inicial do processo de reconstruo da gramtica.


[M ain]
[CON T ACT S]
mostrar

[P HOT OS]
fotos

deste

contacto

figura 5: Representao da informao na fase final do processo de reconstruo


da gramtica.

[3.4] Exemplo de utilizao


Este sistema foi adoptado pelo assistente pessoal AALFred (Saldanha et al. 2013;
Teixeira et al. 2014b) desenvolvido no projeto AAL PaeLife. O AALFred uma aplicao com interao multimodal (voz, toque, gestos, teclado, rato) que facilita a
utilizao das redes sociais, das mltiplas formas de comunicao (email, twitter,
Skype) e acesso a informao (meteorologia, notcias, ) assim como a gesto
da agenda e contactos.
As gramticas semnticas e as suas tradues atrs descritas suportam toda
a interao por voz do AALFred. A ttulo de exemplo, apresenta-se, a seguir, a
subgramtica referente a funcionalidades da agenda, na verso inicial em ingls
(12) e o resultado do processo de traduo atrs descrito em (13).
(12)

[AGENDA]
(agenda)
([CHANGEDATE])
(go to my agenda)
(*go *to [NEXT] [DATEELEMENT])
(*go *to [PREVIOUS] [DATEELEMENT])
OSLa volume 7(1), 2015

[296]

teixeira, pereira, francisco & almeida


(i want to see my agenda)
(*open [WEEKDAYS])
(show my agenda)
;
(13)

[AGENDA]
(abre a minha agenda)
(abre [WEEKDAYS])
(abrir *a agenda)
(abrir a minha agenda)
(*abrir [WEEKDAYS])
(agenda)
([CHANGEDATE])
(*eu quero ver a minha agenda)
(ir para a minha agenda)
(ir para *a [NEXT] [DATEELEMENT])
(ir para *a [PREVIOUS] [DATEELEMENT])
(ir para [WEEKDAYS])
(mostra-me a minha agenda)
(mostra-me [WEEKDAYS])
(mostra a minha agenda)
(mostrar a minha agenda)
(mostrar [WEEKDAYS])
([NEXT] [DATEELEMENT])
([PREVIOUS] [DATEELEMENT])
(quero ver [WEEKDAYS])
;

[4] c o n c l u s e s

Neste artigo apresentam-se dois exemplos de aplicao de traduo automtica


na rea da interao entre humanos e mquinas em que existe trabalho recente
para o portugus.
O primeiro exemplo, na rea da gerao de linguagem, faz uso de um sistema
de traduo automtica, o MOSES, para a converso de informao relativa a planos de medicao em frases em portugus.
O segundo, do lado oposto da interao - transmisso de informao entre humanos e mquinas por oposio transmisso entre as mquinas e os humanos
do primeiro exemplo -, mostra quo til pode ser a traduo no desenvolvimento
de aplicaes que incluam comando por voz e que tenham por objetivo suportar
mltiplas lnguas. Atendendo s limitaes atuais dos sitemas de reconhecimento
e de compreenso, a tarefa de traduo ainda simples. No entanto, com o evoluir
OSLa volume 7(1), 2015

traduo automtica na interao com mquinas

[297]

destas tecnologias e a adoo de sistemas capazes de dialogar com o utilizador, tero de ser contempladas as diferenas entre as lnguas e culturas. Por exemplo3 ,
em algumas lnguas h mais preliminares o que dever implicar dimenses diferentes para cada bloco ou mesmo a necessidade de adicionar blocos inexistentes
na lngua original. Consideramos que o prottipo existente pode desempenhar
um papel relevante na criao de corpos comparveis, ao permitir recolha das
interaes em situaes similares para diferentes lnguas.
Estes dois exemplos mostram a utilidade crescente dos sistemas de traduo
automtica, mesmo para a nossa comunicao com as mquinas. Estas possibilidades s se tornaram possveis com o trabalho de muitos, em que se inclui e
destaca a Belinda, para que a traduo, automtica ou no, evolusse.
Para terminar, consideramos que a relao entre mquinas, humanos e traduo vem acrescentar ainda mais riqueza relao que Belinda Maia sempre tem
considerado ser benfica entre tradutores (humanos) e mquinas, em que as mquinas podem ajudar humanos na traduo. Nos exemplos apresentados, a traduo ajuda comunicao/interao entre esses mesmos humanos e as mesmas,
ou outras, mquinas.

agradecimentos
Os autores agradecem a todos os que contriburam para a criao do corpus e a todos os que participaram na avaliao das frases que tornaram possvel o trabalho
na gerao de frases. Um agradecimento especial ao Mrio Rodrigues pela ajuda
na obteno e utilizao do analisador sinttico para o portugus.
Relativamente ao trabalho na traduo das gramticas semnticas, os autores
no podem deixar de agradecer a todos os parceiros do projeto AAL PaeLife, e
em especial ao Microsoft Language Development Center (MLDC), pela ajuda na
definio de requisitos, pelo retorno que nos forneceram, e pela adopo deste
componente no AALFred.
Os autores agradecem a preciosa ajuda na reviso do texto de Samuel Silva.
O trabalho mencionado neste artigo foi parcialmente financiado pelo FEDER,
COMPETE and FCT atravs dos projetos AAL/0015/2009, AAL PaeLife, QREN AAL4ALL
e financiamento unidade de investigao IEETA (PEst-OE/EEI/UI0127/2014).
Os nossos agradecimentos, tambm, aos Editores deste volume pelo convite que muito nos honra -, pela ajuda, comentrios, disponibilidade em todo o processo e, muito mais importante, por se dedicarem a esta nobre iniciativa.

[3]

Agradecemos Diana Santos pela ideia.


OSLa volume 7(1), 2015

[298]

teixeira, pereira, francisco & almeida

referncias
Arajo, Roberto, Rafael Oliveira, Eder Novais, Thiago Tadeu, Daniel Pereira &
Ivandr Paraboni. 2010. SINotas: the Evaluation of a NLG Application. Em Proceedings of the Seventh International Conference on Language Resources and Evaluation
(LREC), 23882391.
Bateman, John & Michael Zock. 2003. Natural language generation. Em Ruslan
Mitkov (ed.), The Oxford Handbook of Computational Linguistics, 284304. Oxford
University Press.
Ferreira, Flvio, Nuno Almeida, Ana Filipa Rosa, Andr Oliveira, Jos Casimiro Pereira, Samuel Silva & Antnio Teixeira. 2014. Elderly centered design for interaction - the case of the S4S medication assistant. Em Procedia Computer Science,
vol. 27, 398408.
Hunter, James, Yvonne Freer, Albert Gatt, Ehud Reiter, Somayajulu Sripada, Cindy
Sykes & Dave Westwater. 2011. BT-Nurse: computer generation of natural language shift summaries from complex heterogeneous medical data. Journal of
the American Medical Informatics Association (JAMIA) 18. 621624.
Koehn, Philipp. 2014. MOSES: Statistical Machine Translation System - User Manual
and Code Guide. http://www.statmt.org/moses/manual/manual.pdf.
Koehn, Philipp, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Wade Shen, Christine Moran, Richard Zens, Ondej Bojar, Alexandra
Constantin & Evan Herbst. 2007. Moses: Open source toolkit for statistical machine translation. Em 45th annual meeting of the association for computational linguistics (demo and poster sessions), 177180.
Langner, Brian. 2010. Data-driven Natural Language Generation: Making Machines
Talk Like Humans Using Natural Corpora: Carnegie Mellon University. Tese de
Doutoramento.
Langner, Brian & Alan W. Black. 2009. MOUNTAIN: A Translation-based Approach to Natural Language Generation for Dialog Systems. Em First International
Workshop on Spoken Dialogue Systems Techology (IWSDS), s/pp.
Lemon, Oliver. 2010. Learning what to say and how to say it: joint optimization
of spoken dialogue management and natural language generation. Computer
Speech & Language 25. 210221.
Microsoft. 2014. Bing translator. http://www.bing.com/translator/.
Microsoft. 2015. Microsoft translator API.
translator/translator-api.aspx.
OSLa volume 7(1), 2015

http://www.microsoft.com/

traduo automtica na interao com mquinas

[299]

Novais, Eder, Rafael Oliveira, Daniel Pereira & Thiago Tadeu. 2009. A Testbed for
Portuguese Natural Language Generation. Em Seventh Brazilian Symposium in
Information and Human Language Technology, 154 157.
Pereira, Jos Casimiro, Antnio Teixeira & Joaquim Sousa Pinto. 2012. Natural
Language Generation in the context of Multimodal Interaction in Portuguese.
Electrnica e Telecomunicaes 5. 400409.
Portet, Franois, Ehud Reiter, Alberto Gatt, Jim Hunter, Somayajulu Sripada,
Yvonne Freer & Cindy Sykes. 2009. Automatic generation of textual summaries from neonatal intensive care data. Artificial Intelligence 173. 789816.
Reiter, Ehud & Robert Dale. 2000. Building natural language generation systems. Cambridge University Press.
Saldanha, Nuno, Jairo Avelar, Miguel Dias, Antnio Teixeira, Daniel Gonalves,
Emmanuel Bonnet, Karine Lan, Nmeth Gza, Petra Csobanka & Artur Kolesinski. 2013. A Personal Life Assistant for natural interaction: the PaeLife
project. Em AAL Forum, poster presentation.
Santos, Diana. 1992. Natural Language and Knowledge Representation. Em Proceedings of the ERCIM Workshop on Theoretical and Experimental Aspects of Knowledge
Representation, 195197.
Santos, Diana & Alberto Simes. 2015. Ensinador paralelo: Alicerces para uma
pedagogia nova. Neste volume.
Stent, Amanda & Martin Molina. 2009. Evaluating automatic extraction of rules
for sentence plan construction. Em Proceedings of the SIGDIAL 2009 Conference:
10th Annual Meeting of the Special Interest Group on Discourse and Dialogue, 290297.
Stent, Amanda, Rashmi Prasad & Marilyn Walker. 2004. Trainable sentence planning for complex information presentation in spoken dialog systems. Em Proceedings of the 42nd annual meeting on association for computational linguistics, 7986.
Teixeira, Antnio, Pedro Francisco, Nuno Almeida, Carlos Pereira & Samuel Silva.
2014a. Services to support use and development of speech input for multilingual multimodal applications for mobile scenarios. Em The Ninth International
Conference on Internet and Web Applications and Services (ICIW), Track Web Servicesbased Systems and Applications, 4146.
Teixeira, Antnio, Annika Hmlinen, Jairo Avelar, Nuno Almeida, Gza Nmeth, Tibor Fegy, Csaba Zaink, Tams Csap, Blint Tth, Andr Oliveira &
Miguel Sales Dias. 2014b. Speech-centric multimodal interaction for easy-toaccess online services. Em Procedia computer science, vol. 27, 389397.
OSLa