Você está na página 1de 39

A LINGUÍSTICA DE CORPUSNA E PARA A TRADUÇÃO

Sfella E. O. Zagnilz (USP)

ABSTRACT: This chapter aims at giving an overview of how Corpus Linguistics can
be usedin and for translation. After a short introduction, Section2 discusseswhat
a corpus is and presentevarious types of corpora suitable for translation purposes-
The nexosection describes, in detail, the steps to be followed in arder to compile a
corpus- Various kinds of annotation ofa corpus are the topic ofSection 4, and Section 5
addressescomputational tools available for investigating it. Section 6 discussesdiHerent
studiesLhatcan be conducted using corpora. Plenty of examplesare given throughout
the chapter to ensure that all the topics addressedhere are clear to a readership of
novices in Corpus Linguistics.

KETWORDS:Corpus Linguisücs; Translation;Corpus compilation; Corpus annotation;


Corpus tools.

1)Introdução
A Linguística de Corpus é uma abordagem empírica para o estudo da
língua, em suasdiversas dimensões, como, por exemplo, na sintaxe, no léxico
e no discurso. Por essa razão, é especialmente útil no estudo da Tradução
(OLOHAN, 2004; ZANETTIN, 2012). Essa abordagem parte da observação
de uma grande quantidade de textos, reunidos em corpora (plural de corpus),
para, a partir deles, fazer inferências a respeito de como a língua é usada. A
observação é feita por meio de ferramentas computacionais, que fornecem
dados quantitativos, mas que também permitem análisesqualitativas.
Este capítulo constará de uma seção dedicada aos corpora (Seção 2),
apresentando seusdiversos tipos e os objetivos a que se destinam, seguida de
uma seçãosobre a compilação (Seção 3) e outra sobre a anotação de corpora
(Seção4). A Seção 5 tratará das ferramentas computacionais de que se vale a
Linguística de Corpus. Na Seção 6, será discutido como os diversos tipos de
corpora podem oferecer uma contribuição relevante às várias áreasda tradução
A seçãofinal é dedicada à conclusão.
20 I STELLA E. O. TAGNIN (USP)

2) O que é um corpus?

Os corpora são bancos de textos de linguagem autêntica,


criteriosamente construídos, destinados à pesquisa e legíveis por computador.
Existem corpora que podem ser consultados orz-/íne,e corpora que podem
ser consultadoso#=-/íne.Muitos dessesúltimos são, em geral, corpora
especializadoscompilados por pesquisadoresconforme seusobjetivos (vede
Seção3). Quando for esseo caso os chamaremos de corpora personalizados.
Na Linguística de Corpus, enfatiza-se sempre a linguagem autêntica,
pois a língua é tida como um sistemaprobabilístico (HALLIDAy, 1961),
ou seja, um sistema em que, embora muitas construções sejam possíveis,
algumas delas têm probabilidade maior de ocorrer. Em outras palavras, nem
tudo o que é possívelou gramatical numa língua de fato ocorre. Assim, por
exemplo, apesar de apego próximo ser uma combinação possível em português
brasileiro, a colocação mais provável, mais comum é amigo ínfimo. Isso pode
ser confirmado no Corpus do Portuguêsiz em que amei próximo totaliza 2
ocorrências somente no Português Europeu (PE), e amigo ílzfimo resulta em 46
ocorrências ao todo, isto é, no PE e no Português Brasileiro (PB).
Os corpora devem ser criteriosamente construídos, de acordo com
o objetivo a que se destinam, isto é, deve-se ter a certeza de que os textos
compilados são representativos do campo que se deseja pesquisar e são de
fonte conniável,caso contrário os resultadospodem não ser.Essetópico será
discutido em detalhe na Seção 3.
Finalmente, os textos devem estar em formato digital para poderem
ser lidos por ferramentas computacionais.

2.1) Tipos de corpora


Numa visão geral, há corpora disponíveis para consulta orz-/urze
ou
c#/urze. Os corpora podem ainda ser monolíngues e bi- ou multilíngues,
paralelos e comparáveis. Vejamos cada um dessestipos.

l
Todos os corpora mencionados neste capítulo sãodetalhados em Viana (2014), neste
volume

' Corpzís do Porhguês: http://www.corpusdoportugues.org.


A I,rNGUÍSnCA DE CORPUS NA E PARA 'L TRAOUÇÃO I 21

2.1.1) Corpora disponíveis on-fine e corpora (!#;-líne


:m autêntica, Em geral, os corpora disponíveis on-líne podem ser consultados
diretamente na Internet e costumam disponibilizar ferramentas embutidas que
r computador.
ra que podem produzem resultados em vários formatos. Em contraste, os corpora o#:-Zune,
geral, corpora como dissemosacima, são, em geral, compilados por pesquisadoresou
tradutores para um objetivo específico e necessitam de ferramentas externas
)bjetivos (vede
rsonalizados. paraseremexplorados.

gem autêntica,
HDAY, 1961), 2.1.2) Corpora monolíngues
:jam possíveis, Há vários corpora monolíngues on-fine, a maioria deles para a língua
palavras, nem inglesa (lide o capítulo de Viana neste livro). Podem ser compostos pelo que
re. Assim, por se denomina 'língua geral: ou por textos de 'língua de especialidades Os de
l em português língua geral contêm textos jornalísticos, acadêmicos,literários, científicos e,
ímo. Isso pode por vezes,também transcrições de textos falados. Costumam ter uma interface
rima totaliza 2 bastante amigável, muitas vezes com tutoriais para orientar seu uso. Um desses
o resulta em 46 corpora é o Corpus do Português, com 45 milhões de palavras, cobrindo o
). período do século XIV ao xx, com textos do PB e PE. Foi compilado por Mark
le acordo com Davies da Brigham Young University e Michael J. Ferreira da Universidade de
Georgetown. A tela abaixo mostra uma busca pela palavra 'implicar' (Seta l)
que os textos
apenas em textos dos séculos xlX e XX (Seta 2), o número de ocorrências no
luisar e são de
corpus 88 (Seta 3) e os respectivos exemplos (Seta 4).
.ssetópico será
CORPU PORTUGUÊS

!
ooo.o l.AVRASf sXll xx
VERCG)n!)a9:
para poderem l.íCQl!»'ÂRAq
Ç

alta on-/íne ou

] multilíngues,
quis uiH ono i [?]

ana(2014),neste
Figural
Tela do Corpus do Português
22 I STELLAE. O. TAGNIN(USP)

Dentre os corpora de língua geral disponíveis on-/íne para o português


brasileiro, temosainda o Lácio-Ref. dentro do prometoLácio-Web' (AI,uíslO
et alii, 2003), o Corpus Brasileiro,' além dos corpora disponibilizados pela
Linguateca, como o NILC/São Carloss e o ECl-EBR.ó Cromo cada corpus tem
uma interface distinta, cabe ao usuário familiarizar-se com cada uma delas.

Dentre os corpora de língua de especialidade,ou seja, corpora


especializados,podemos citar os corpora que compõem o CorTec, tanto em
inglês quanto em português.

2.1.3) Corpora bi- ou multilíngues


Sãocorpora em duas ou mais línguas, como o próprio nome já diz.
São essesos mais usados nos estudos relativos à Tradução, pois permitem a
comparação entre línguas. Podem ser de dois tipos: paralelos e comparáveis.

2.1.3.1) Corpora paralelos


Corpora paralelos são compostos por textos originais em determinada
língua e suas respectivastraduçõesem uma ou mais línguas. Podem ser
unidirecionais,ou seja,originais numa língua A e traduçõesna língua B;
ou bidirecionais, com originais tanto na língua A quanto na B e, portanto,
respectivastraduçõestambém nas duas línguas.Há três corporczparalelos
disponíveis on /íne que lidam exclusivamentecom o par inglês-português,
todosbi-direcionais:
o COMPARA',
o CorTrad'
e o COPA-TRADP.
O
COMPARA é composto por extratos de obras literárias de quatro variantes do
português (Ango[a, Brasi], Moçambique e Portugal) e três do inglês (África
do Sul, Estados Unidos e Reino Unido). Permite uma grande variedade de

' Lácio-Web:http://wwwnilc.icmc.usp.br/lacioweb/.

" CorpusBrasileiro;http://corpusbrasileiro.pucsp.br.

' NILC/SãoCarlos:http;//vnrw.linguateca.pt/acesso/corpus.php?corpus=SAocARLOS
' ECl-EBR: httP://www.linguateca.pt/acesso/corpus.php?corpus=ECl-EBR.
' COMPARA: http;//www.linguateca.pt/COMPARA.

8 CorTrad: http://comer.mch.usp.br/cortrad

' COPA-TRAD: http://copa-trad.ufsc.br/


A LINGUÍSTIC..\ OE CORPUS NA E PARA A TRAOUÇÃO I 23

arao português pesquisas,de simples a urra-avançadas.A tela abaixo mostra uma pesquisa
Veb' (ALUÍSIO simples, na direção português-inglês para a palavra 'feijão:

iibilizados pela
ada corpus tem PRRn
a uma delas. Pesquisa simples

- seja, corpora As pesquisa siinpln pemiReat-l» c«isuR« a totalidade do COP4PARA{l) de poítugués para inglês ou (2)de inglês pan p«tuguês.
Os resiAadosserãoapresedadosem lbmu decoK«dàttcíaspaíddas
)rTec, tanto em t DePmW-H paa ÜVB

Esaen uma palma ou

io nome já diz. }loüclas [19 d+ Set. de 200e]

ois permitem a
comparáveis. lgKB jl pode eleduer pnqvüu sh9bs niocomPARA díednede B paB de Frei« 2w de l+md E»brn

Figura 2
Tela do COMPARA
m determinada
las. Podem ser
O COPA-TRAD, sediado na Universidade Federal de Santa Catarina,
:s na língua B;
LB e, portanto, é composto por cinco corpora distintos: (1) COPA-LIJ (Corpus Paralelo de
Literatu ra Infantil eJuvenil) ,(2) Copa-MDT(Corpt4s ParalelodeMeta-Discurso
rpora paralelos
em Tradução, (3) COPA-RAC (Corpus Paralelo de ResumosAcadêmicos), (4)
iglês-português,
)PA TRAI)s. 0
COPA-TEJ (Corpus Paralelo de Textos Jurídicos, e (5) COPA-TEL (Corpus

tro variantes do Paralelode TextosLiterários).

) inglês (África Uma das formas de apresentação dos resultados é denominada


le variedade de concordância, que apresenta, em contexto, todas as ocorrências da palavra
de busca no corpus. No casode um corpus paralelo como o COMPARA, a
concordância é exibida de forma alinhada, ou seja,os exemplos aparecemlado
a lado nasduaslínguas (lide Figura 3).

ls=SAOCARLOS

:l-EBR.
24 I STELLA E. O. 7XGNIN (USPJ

PBO1,1(506): Pelas manhãs, depois In the morning, after


que o marido, negociante her husband, a cereal
de feijão e milho, vai para merchant, goes to work,
o trabalho, se debruça à she leans out of the green
janela pintada de verde. window

paon(847): O negociantede milho e In the morning, after


de feijão, felizmente, não her husband, a cereal
quis acompanha-la em merchant, goes to work,
seu lamentado começo de she Jeans out of the green
viagem; meus pais não me window
deixariam andar na rua,
sem vigilância, depois das
oito horas

PPJsi(1603): Tu tens feijão em casa,que have we got enough beans


chegue para nós? in the house for all of us? '

pplst(t628) Estava preparando She was painstakingly


afanosamente o almoço. preparinglunch and, with
e, com o mais juvenil dos a girlish smile directed me
sorrisos, chamoume a to peer inside a pan from
que olhasse o interior de which she removed the lid:
uma panela que destapou: beans.
era feijão.

Figura 3
Algumas linhas de concordância para 'feijão' no COMPARA

Além de concordâncias, o COMPARA, na opção urra-avançada,


também apresenta resultados por categoria gramatical (substantivo, adjetivo
etc.),campo semântico (cor, roupa etc.), tempo verbal (presente,pretérito etc.),
fonte do texto, autor, entre outras

O CorTrad é um corPz4s multiversão, pois apresenta, sempre que


possível, o original e várias versões da tradução desse texto. É composto por
um subcorpusJornalístico, um Literário e um Técnico-científico.
A I,INGUÍSTICA OE CORPUS NA E PARA A TRAOUÇÃO I 25

ning, after
a cereal
:s to work, C«Tm Í b. } Pw;"Çn { C..P«O''h'

)f the green
CorTrad

ning, after CorTrad técnico.cientifico cullnáíi

a cereal O CaTr3d étm c«pus õbUa, suje4o a a:tpraçõesVeja dada qnrllarns pxa iümõçóes #udzadu sobre ocone\ide do capuz

país wlin&rfe do CorTnd cariz &udrnerte cam ocaHei3d8i8egrd de ui\ bKOd+359 pághu.em qHpo VBr3&B.oteH ) a$nd. esa«o em
po:tugdlsb.z$+h. a;adoça pna o ing%.Ha pordlasbaüüorzsb'zsfens. a,mb re.iãb dwa t'aduçh. Ha W .xnaHne .i&a doi"dts
aws3ü 6i\d. pubScada ns pílparaçio-Cboe aqc4Fanletais
ir4lm\açêesA igspQnbüação
do CaTtad
n8 ride é im projelo
cor$fdoH
:s to work, ce!.!:T. ztziguãKa e o ra.c. uaaró)'osiü«ba DISPARA

)f the green O.#a '0 p'inc+d


PxüRdn iíadoçb U prüx+d

Iradoçãa
rf«ada D prir\c+d

Q' lgnoumüisculu'ítiíiúKüu

RFqnh3da
Coíiced3rich Ois:r-Wçh dn

Figura4
lough beans Tela inicial do CorTrad mostrando uma busca pela palavra 'doure'
r allofus?

ainstakingly Uma busca pela palavra 'doure: no subcorpus Técnico-cientí6lco,


h and, with composto,por ora, por um livro de culinária, originalmente escrito em
directedme português, traz 94 ocorrências, como indicado na Figura 5.
a pan from [. i
)ved the lid:

l
!

CorTrad

CorTrad técnico.científico culinária


dnn
enfado sccliido; concordàncla em cometi
Coípi3 pesqündo. odglnb betslo 2 3)

tra-avançada,
ltivo, adjetivo O.fgh\al "'P Plb'-.ha e.-S-pçb Tnduç&o t..,bda }.!
Aqueçatmbét eietx ubi B gra ee }!e8adrüzhafeS+oíhala'ptyr4pnnd Hera.&izz efoÉ»od alar)e&ynJHna ii
llo ;bgeini teacebdx ' ' l-gH&b,çmtHaion. Wybn&nÜ aíwc [l

)retérito etc.), Pxa al dínü}4tgas. doure bgebaneHe os F« tlK ín#b3Ss. W7 tQnt pk nds h a dr7 Fer a+ ÍNdb8b. bglillyteast Fn l XS ii ady
pb#íwubi+.];rõ
euerÚ«» t riHpnnd« ;.ei t)n] pnar«sd sU l
largue.açieçaim 6o devede wa Fa tlutalUO savce.l a übzle deh+ ol h Fütl» tortHOs8K+.luH a4iab dÚ e ol n a B
paga n\ó4ia+ douresgeín)e«e a cebda, ameóunsaxepn aM b#itlybrçmt» aüon meóumFd nd bglib brBmue aüu- . {.l

:=?=T==:-"-''' == -,''«''''''''''''- ==1:':1ã\ ! :omwh33 pm il

sempre que ctin són\as 2 co2wts d+sna a:+4e na


iiãna {g.,lü.i;;malte pK;'usar iw el#pn
Retno+d bd 2 1õblespnns
eyiq pn (3'.+ 'n'a'w--.g
afere o4tçn
d h' neH «qps):. .
Rert'n+ a9b«2 tablnpomsbebe ol tomtyáng !:l
»i (sne wuiniB ub' ne !twl .sm+ }.l
segáns} doure aababrnha 9 íes++ caa a sa4 : odüü ]ndtrarls&{ lo trR bQHwutBnü zunciw» auiwsw tpui+ Don wt npq :J

:omposto por
Figura5
Concordância parcial para 'doure' no stibcorpus Técnico-científico do CorTrad
26 I STELLAE. O. TAGNIN(USP)

Observe-seque a palavra de busca, 'doure: aparece em negrito


na primeira coluna. As outras duas colunas não apresentama tradução
dessa palavra em negrito, mas exibem as sentenças nas versões traduzidas
correspondentes às sentenças no texto original. Assim, cabe ao pesquisador
identificar essastraduções. Por exemplo, na primeira ocorrência, pode-se
afirmar que"doure ligeiramentea cebola"foi traduzido por "lightly brown the
onion" nas duas versões da tradução.
Outro tipo de corpus bi- ou multilíngue é o corpus comparável, que
veremos a seguir.

2.1.3.2) Corpora comparáveis


Na realidade, essa terminologia pode gerar certa confusão por
ser empregada
paravários tipos de corpora.Em primeiro lugar, pode ser
empregada,num sentido bastanteamplo, para quaisquercorpora que se
queira comparar. Neste volume, no entanto, corpora comparáveis devem ser
entendidos como aqueles com textos originais em duas (ou mais) línguas,
numa determinada área de domínio. Para efeitos de comparação, os corpora
devem ser constituídos por textos de mesma tipologia, de temática semelhante
e cobrindo períodos similares. A esseprocesso denominamos balanceamento
do corpus.Por serem textos autênticos nas duas línguas, são comumente usados
para a extração de terminologia especializada ou mesmo para certi6lcar se do
termo correio empregadoem determinado contexto (BOWKER e PEARSON,
2002). O CorTec'' é um corpustécnico dessetipo, em inglês e português,
com cercade 20 subcorpora de distintas áreasde especialidade,dentre elas:
Autoclaves, Culinária, Futebol, Hipertensão, Informática, Insuficiência Renal,
Medidores Eletromagnéticosde Vazão,e Prostodontia. O CorTec como
um todo é um corpus dinâmico, de modo que novos subcorpora podem ser
incorporados sempreque disponíveis. Possuiferramentas embutidas, dentre as
quais um concordanciador, um gerador de n-gramas (sequência de palavras)
e um gerador de lista de palavras, que elenca todas as palavras contidas no
corpus, conforme se vê, parcialmente, na Figura 6.

'' CorTec;http://comet.mch.usp.br/cortec
A I,rNGUfSTICA OE CORPUSNA E PURAA 71UOUÇÃO I 27

:e em negrito TABELA DE FREQUÊNCIA

m a tradução Pos. Palavra Frei.


ões traduzidas l de 13662
2 a 6747
3 e 5742
lo pesquisador 4 0 5089
ência, pode-se 5 Ü 3580
6 3232
htly brown the 7 em 29«
8 que 2856
9 da 2S78
!0 cam 2520
)mparável, que lí esteriliza 2280
!2 os 2082
13 ser 1928
14 ou 1662
não 1452
16 Dor 1342
17 é 1330
18 as 1269
1245
confusão por 20 se 1206
igar, pode ser
Figura6
9rpora que se As 20 palavras mais frequentes no st/bcorpus de Autoclaves do CorTec
reis devem ser

mais) línguas, É interessante notar, na Figura 6, que as primeiras palavras são palavras
ao, os corpora gramaticais,como preposições e artigos. Aliás, isso ocorrerá em qualquer
lca semelhante corpus, pois são sempre as palavras mais frequentes A primeira palavra de
)alanceamento conteúdo, "esterilização': aparece na posição ll e já dá alguma indicação do
imente usados teor desse subcorpus.
:erti6icar-se do As várias ferramentas empregadasna análise de corpora serão
!ePEARSON, apresentadasna Seção 5. A seguir discutimos os passospara a compilação de
; e português, um corpus.

.e, dentre elas:


lciência Renal, 3) Compilação de um corpus
CorTec como O primeiro passopara a compilaçãode um corpusé definir seus
)ra podem ser objetivos, isto é, para quê servirá o corpus:para consulta do tradutor? Para
idas, dentre as extração de terminologia de determinada área? Para estudar estratégias de
.a de palavras) tradução? Para comparar diversas traduções de um mesmo original? Uma vez
IS contidas no definido o objetivo, devem ser estabelecidosos parâmetros de sua composição.
Porexemplo:
a. será um corpus estático (i.e. fechado) ou dinâmico (i.e. com
atualizações)?
b. incluirá apenas textos escritos ou também língua falada?
c. será monolíngue ou multilíngue?
d. se for multilíngue, será paralelo ou comparável?
28 I SrEUA E. O. TAGN/N (USP)

e. que tipos de textos serão incluídos: jornalísticos, manuais, artigos


acadêmicos, teses e dissertações etc.?
f. qual será a proporção entre os diversos tipos?
g. quais domínios abrangerá?Por exemplo, natação, sustentabilidade.
segurança bancária, obras de determinado autor, obras de
determinada época etc.

h. qual será a fonte dos textos a serem compilados: Internet ou material


impresso?No caso de material impresso, é preciso lembrar que esse
deverá ser escaneado ou, na pior das hipóteses, digitado.
i. os textos serão completos ou apenas fragmentos? Por exemplo, os
textos que compõem o Brown Corpus são constituídos de trechos
de 2.000 palavras, enquanto o Band oÍ Eng/lsb abriga textos
completos. Já o COMPARA é constituído, no geral, de 30% das obras
contempladas.

j. como será estabelecido o tamanho do corpus, pelo número de


textos ou pelo número de palavras?Essa decisão muitas vezes
terá de ser modificada durante o processo de compilação devido à
especintcidade dos textos. Essetópico é discutido abaixo.

Embora essesitens devam ser estabelecidos antesde se começar a coleta

dos textos, alguns podem sofrer ajustes ao longo do processo de compilação


Por exemplo, no caso de um corpusde contratos em inglês e português
(CARVAI.HO, 2007), em que inicialmente se determinou o número de 500.000

palavras para cada língua, logo seobservou que isso produziria dois corpora com
conteúdos bastante diversos uma vez que essesdocumentos tinham extensões

distintas nas duas línguas. Enquanto os contratos em português eram sucintos


por fazerem apenas referência à legislação vigente, os contratos em inglês eram
muito maislongospor explicitarem a legislaçãopertinente.Assim, essecritério
foi alterado para incluir 28 tipos contratuais com 5 exemplaresde cada
Outro problema que pode surgir refere-seà disponibilidade de textos
nas várias línguas. Como o inglês é a língua mais representada na Internet. a
coleta de textos nessalíngua costuma ser bem mais fácil do que nas outras,
o que acabademandando,por vezes,um tempo maior para a realizaçãoda
tarefa. Em determinados casos pode ser necessário recorrer a textos impressos
para se obter um corpus balanceado, isto é, um corpus bilíngue com conteúdo
equiparável nas duas línguas.
A J,INGUÍSrrC.40E CORPUSNA E PRR'!A TR'10UÇÃOI 29

anuais, artigos Um fator frequentemente discutido na literatura (e.g. LEECH 1991,


BIBER 1993, MCENERY et al., 2006) diz respeito à representatividade de um
corpus, ou seja, o fato de que um corpus deve ser representativo daquilo que
stentabilidade, se pretende investigar, contendo uma amostragem significativa do universo
or, obras de a ser estudado.Quando isso é alcançado,os resultadosobtidos podem ser
generalizados para todo o universo em estudo (LEECH, 1991). No entanto,
iet ou material
o que seria uma amostragem significativa? SegundoBiber (1993, p. 243), a
nbrar que esse
representatividade diz respeito ao quanto uma amostra inclui toda a gama de
do.
variabilidade da produção linguística que se pretende investigar. Dessa forma,
)r exemplo, os
um corpus geral, por exemplo, deve incluir o maior número de gêneros e tipos
ios de trechos
textuais para assegurarsua representatividade. Apesar disso, Leech (1991, p.
abriga textos
27) adverte que toda representatividade "deve ser encarada como um ato de
30% das obras
fé':ii uma vezque ainda não há métodos científicos que mensurem esseaspecto.
Uma vez coletados os textos, eles devem ser salvos no formato .txt para
lo número de
muitas vezes poderem ser lidos pelas ferramentas computacionais. Para tanto, devem antes
ser limpos de todos os elementos que não sejam de interesse para a pesquisa
caçãodevido à
xo. linguística como, por exemplo, tabelas, URLS etc. Em seguida, cada arquivo
deve ser nomeado de forma a deixar claro seu conteúdo. O nome pode incluir
)meçar a coleta a área (por exemplo, "derm" para dermatologia, "inf" para informática, "cul:
le compilação. para culinária), o tipo de texto ("jor" para jornalístico, "aca"para acadêmico,
$ e português 'rec" para receita), a língua ("pt" para português, "in" para inglês), e quaisquer
ero de 500.000 outras informações que sejam consideradas relevantes. Assim, por exemplo,

is corpora com um arquivo denominado: culrecmaspt01.txt deixa claro tratar-se de um texto

ham extensões de culinária ("cul"), mais especificamentede uma receita ("rec") de massa
eram sucintos ("mas") em português ("pt"). O número indica ser a primeira receita de várias
outras de massa
:m inglês eram
Os arquivos devidamente nomeados devem ser armazenadosem
n, essecritério
pastas.No exemplo acima, pode-se ter uma pasta denominada "Culinária" e
.ecada.
uma subpasta indicando a língua, no caso "Português'l
dade de textos
Feito isso, os textos estão basicamente prontos para serem explorados
na Internet, a
por ferramentas computacionais. Porém, eles ainda podem ser enriquecidos
ue nas outras,
com vários tipos de anotação.
realização da
xtos impressos
com conteúdo
11 No original: "At present, an assumptionof representativeness
must be regarded
largely as an act of faith"(tradução da autora).
30 I STELLA E. O. 7XGNTN (USPJ

4) Anotação de corpora

A anotaçãode corpora mais comu m é a morHossf/zfáfica


(POS em inglês,
de pari-of-speec/z),em que cada palavra recebe uma etiqueta correspondente
a sua categoria gramatical naquele contexto. Uma anotação /exige/ permite
identinlcar, por exemplo, estrangeirismos,entidades nomeadas (nomes
próprios), termos técnicos etc. Campos semánflcoscomo cor, roupa, sentimentos,
modalidade (e.g. obrigação e possibilidade) também podem etiquetados. Por
exemplo, no COMPARA, as cores são etiquetadas semanticamente. Assim.
uma busca pela palavra 'branco' retorna 200 ocorrências em que essapalavra
de fato denota uma cor, 96 em que se refere a raça, 9 em que é usada de forma
metafóricaou idiomática, e 8 em que se refere a vinho. Finalmente,temos
etiquetasdísc rsívas,que indicam asvárias partes de um texto, por exemplo,
num texto acadêmico: resumo, introdução, materiais e métodos; ou numa
receita: ingredientes, modo de fazer etc. Na realidade, cada pesquisador pode
criar asetiquetasque forem mais relevantesà suapesquisa.
Essasanotaçõespossibilitam pesquisasbastanteelaboradas.O CorTrad.
um corpusde originais e respectivastraduções, tem anotação para cor e roupa.
Assim, pode-se investigar, por exemplo, como são traduzidas as diversas cores
em qualquer um dos subcorporaque o compõem (i.e. jornalístico, literário,
técnico-científico). Santoset al. (2012), por exemplo, estudaram o uso de cores
nessessubcorpora e suas respectivas traduções. Concluíram que, contrariando
expectativas, as cores são muito empregadas na terminologia técnica, mas
variam de uma língua para outra, aumentando, assim, as possibilidades de
erros tradutórios

A seguir veremos as principais ferramentas que permitem a exploração


de um corpus.

5) Ferramentas de investigação
Os corpora que não possuem ferramentas embutidas necessitam de
ferramentas externas para serem investigados. Os programas mais conhecidos
que contêm essasferramentas são o AnfConc (ANTHONY, 2004, 2012'') e o

' ' AntConc; http://www.antlab.sci.waseda.ac.jp/antconc.index.html


.4 1,INGUfSnCA OE CORPUS NA E PARA A TRADUÇÃO I 3Z

l«ordSmlf;z TooZs(doravante WST) (SCOTT, 1996") . O primeiro, desenvolvido

:a (POS em inglês, por Laurence Anthony da Universidade deWaseda, no Japão,pode ser baixado
a correspondente gratuitamente; o segundo, desenvolvido por Mike Scott, é um programa
lo /exíca/ permite comercial e pode ser adquirido on-fine. Ambos apresentam astrês ferramentas
)meadas (nomes básicas para a análise de um corpi4s:lista de palavras, lista de palavras-chave e
)upa,sentimentos, concordâncias.

letiquetados. Por
icamente. Assim,
5.1) Lista de palavras
l que essapalavra
Já vimos, na Figura 6, um exemplo de lista de palavras do CorTec. A
é usada de forma
seguir apresentamosuma lista de palavras gerada pelo ArztConc e outra pela
inalmente, temos
VTST- ambaspara um corpus de Culinária."
xto, por exemplo,
F An«=onc3.Z.4w(WindawS)a)ll
étodos; ou numa Fle GbbdSdtings Tod Refaeocw AbcKA

pesquisador pode
!=!!!!E. i«-n"'ll'-::i'- l:f,'ea 1.-«;; Í=iu;;l««-« l

radas. O CorTrad, 8ÀS0004P . IXT


7832
sa.sooosp.lxTl ll llt
lsxsoo06p.Tsa UI il2 4109
-para cor e roupa. laxsooozP.TXT ! l :la
axsoooep.lln l il . 60
$ as diversas cores Bàó0009P .IXT l ll
628
BÀS0010P.IXT l lla
IBa.sootip.Txr i l llc len
ialístico, literário,
.S83

BXS0012P-lXT ' l jl'Z 1266


IBà$0013P.Tln l :l. 027 lüi
am o uso de cores IB;óO014P
.T}(T 977
3XS00iSP.TlcTl ll'
lsâ.sooiõp.lxT l isto
que, contrariando IBÀSOOiVP.T)(T l tlii 927
IBàS0018P.TXT
: l lIXa 879
)gia técnica, mas 13ÀSO019P .TXT
IBà.SO020P.TXT
l ll''
l }l . . 867

IBXso02tP .TXT l :l'' 863


possibilidades de laa.so02zp.'rxl l leis 846
BXS0023P.TXTi. l llt6 689
aà.SO024P.TXT l lli7 681 xS.c
BAS 002 SP . Tj<T
IBÀSOOZ6P.TXTl 11'' 627 l-4
citema exploração IBà.SO02'ZP.TXT
l ilis 618
'}
IBÀS0028P.TlCTl }l20

Figura7
Primeiras vinte palavras mais frequentes para um corpus
de Culinária em português listadas pelo AnfConc
las necessitam de
; mais conhecidos
2004, 2012") e o

i3 WordSmith Tools:http://www.lexicallynet/wordsmith/index.html

nl 14 Essecorpusestádisponibilizado no CorTece foi compilado por Teixeira (2008)


32 IS E A E. O. TAGNIN (USP)

#
iiDWordL[.tH##]ÚFê # :!! +:::.ja: V"'ã. :H + +]
file Edit Êyiew.ü ComputeiiãSetting{. Winclows. IHelp

Wordj] Freq
Freq. %: Texto
%i:Texto;{. % LemmasjS

' # 1218.a'l 1213i l Í.ial''ÕÕH'l'


fl '
'l i'?mr'õmi
: i'13'i"'ími'3mi
?1
? """"' t'lar7ml'iü:iii
FOR l 24.516 l il3ã l i.iiiÍI''iÕIÍi'l'
;l ' I'lzi'Ími'»:R
'1 1
I':l ' F'õB'l'imi''imi
'14 .. t''õB'i'Bmi''imi
':l "" I''õB'l'imi'?mi'
11 '
':i'iiml''õB'i'imi'imi
';l ' I''õB'i'i:m i'imi
'?lF'õB'i'imi'imi
l:l .
''li''õs'i'imr'imi
I'l ' t''õB'i'imi'7@i
"I ' F'õa'i'gml'imi
Figura 8
Primeiras vinte palawas mais frequentes para um corpus
de Culinária em inglês listadas pelo WST

Como vemos, a lista de palavras exibe todas as palavras do corpus


(ou texto) que está sendo investigado por ordem de frequência, como nos
exemplos acima, ou alfabética. No .AnfCorzc,os totais aparecem no topo da
tela, subdivididos em topes (palavras distintas ou formas) - 5.451 - e fokerzs
(número total de palavras ou ocorrências) 94.627. O WS7' exibe o número
total de formas no final da tela - no caso, 11.141. Pela alta frequência das
palavras gramaticais em qualquer tipo de texto, são elas que vão encabeçar a
lista. As primeiras palavras de conteúdo geralmente indicam o tema do corpus.
Pelas[istas acima, bica fácil identificar ambos os corpora como sendo da área
da culinária, pois em português sobressaemcol, c/zá,sopa,sa/, xíc, mfnufos,
A I,/NGUÍSTICA DE CORPUSNA E PARAA TRAOUÇÀO I 33

enquanto em inglês temos minutas, time, add, fbsp, oíZ,oz, milzs. Ao 6mal da
lista, constam as palavras com uma única ocorrência, denominadas /zapax
regomerza(vede Figura 9).
% Lemmas:,}S

q' 99,zli Gi3WordUst


l l 90,91 l File Edit View Compute Settings Windows Help
09,411 N
Text
96,72 l O.QI
11.407
92,681 11.408 AAHMER l l 0.01

92,061 11.409 AALT l l 0.01

a9,411 ABANDON l l 0,01


11,410
ABER=NS l l 0.01
11,411
87,40 11.412 ABERRAUON l l 0.01

11.413 ABERRAnONAL l l 0.01

ABERRATIONS: l l 0.01
77,081 11.414
ABERYSTV\fY'm l l 0.01
r1.961 11,415
70.69 11.416 ABOMINAnON l l 0.01

ABONDANCE l l 0.01
M,96 11.417
ABORIGINAL l l
60,95 11.418
AMOU'nOWNGUIDE l l 0.01
67,17 11.419
ABRIDGED l l 0.01
45,75 11,420
ABRIR l l 0.01
11.421
s3.2il l
11.422 ABSENCE l 0.01
ro.zzl l l 0.01
11.423 ABSORBANT
65,661 l 0.01
11.424 ABSORBENCY l
ABS'EMIOUS l l 0.01
11,425
?us
11.426 l l 0.01

Figura9
lavras do corpus Algumas das palavras com uma única ocorrência no
corpus de Culinária em inglês listadas pelo }yST
:ncia, como nos

cem no topo da
5.451 - e tome/zs As palavras com uma única ocorrência podem indicar tanto termos de

exibe o número uma áreaespecializada quanto vocábulos usadoscriativamente.

l frequência das
vão encabeçar a 5.2) Lista de palavras-chave
tema do corpus. O AnfConc e o WST também podem produzir listas de palavras-chave
lo ,sendo da área (em inglês, ke7word Zísf).As palavras-chaveresultam da comparação de duas
al. xÍc, minutos, listas de palavras, uma do corpus de estudo e outra de um corpus que serve de
34 I STE[LAE. O. TAGN/N(USP)

comparação,geralmente denominado corpus de referência, mas pode também


ser chamado de corpus de contraste ou mesmo de comparação
Para fazer essa comparação, os programas recorrem a testes estatísticos:

/og-/fke/íbood (teste estatístico de máxima verossimilhança), T-score (encore-T)

ou mufua/ f/!áormaffo/z (informação mútua). Nesse processo, as palavras que


tem frequências estatisticamente similares desaparecem, restando apenas as
que são peculiaresao corpus de estudo. Assim, uma lista de palavras-chave
para um corpusde culinária em portuguêsis apresentará os itens indicados na
Figura lO
+ Ai\Cone 32.4w 0Mnchnid 2011

Fie GlobalSenti)gs Tod Prefaences Abata

""" p.m 'l Íl3WI ««---««.l .-"«l m l ««ul ««ÚI':-.;MQI


l illlll$ ul
?P??"p.'": lill tl: l-:« ll,3;:.," [:i
üüü ü
;=:::;;:= ul 11: 1:«, 1;«..«: R::;
BÀsoo08p.lxT l l3 llSZ'Z llS33Z.S7i jjsopa

:=::::::= lil; l::f il::;;:::í l:;:


1:11111;g
aÀsooi4p.lxr
ll; l:; l::::!; l
l le lls'7s llzsaz.'zzz
:::'
lla-inuc03
B.Rso015P.TXT l is ll43{ llzs34.87s llrnç:edientes

gllilll:l l lll 1111


11111:llí
ll:::::'
1:=::Í:;: l il:: l:;; llÍ:::::!: rgo
B-'oo:zp.l"' l lts jjaa, lli,a-.oz, jprepa:c
=::Í:;.= 1il-f l,« l""."' jpanela
'*sooz5p.l,' l lt? llsi6 llt"7.sos l-olh.
.nha
uu.::
::
"""'p''"
ll.l«:l:: l::i
l«;
l:::;: ::
ll-«-.«,
jlei.e

Figura lO
Primeiras vinte palavras-chavepara um corplrs de
culinária em português geradas pelo .4nfCo/ic

Como se pode observar, a lista geradapelo ÁnfConc contém apenas


as palavras peculiares ao corpus de culinária com suas respectivas frequências
brutas (Freq). Além disso, indica também a chavicidade (Keyness),uma medida
que indica o quão típica é a palavra naquele corpus.
A lista apresentada pelo WST (vede Figura 11) apresenta, além dessas
informações,também a frequência no corpusde referência (RC. Freq.), além

Esse corpus está disponibilizado no CorTec e foi compilado por Teixeira (2008)
A I,[NGUÍSrICA OE CORPUS NA E PAR'\ A TRAOUÇÃO I 35

ts pode também das frequências relativas, em termos percentuais, tanto do corpus que está
sendo investigado (%) quanto do corpus de referência (RC. %).

stes estatísticos:
View Compute Settings Windows
score(escore-T)
Wi Text .e

as palavras que
}io1.650 12.99 7,367 99.93
ando apenas as THE 102,953 6.63 7.312 99.19
palavras-chave 66,776 7,329 99-42
4.30

nsindicados na A 37,440 7.142 96.88


2.41
T0 31,446 2.03 6,830 92.65
IN 23,860 1.« 6.837 92.74
22,M4 1.46 6,603 89.57
WIN 19,HO 1.25 6,430 87.a
OF 18,940 1.22 5,728 77.70
12,408 0 80 5.628 76-3
ll.n8 0.76 5,689 n.17
nME 11,299 0.73 5,392 73.14
'BSP l0,9 3 0.71 5,0M 68-69
11«0 10,659 0.69 5,217 70.77
ADD I0,203 0.66 4,n6 M.79
OIL 9,870 0.M 3,372 45.74
9,368 0.60 4,455 60.43
0Z 9,216 0.59 3.988 M.lO
MINS 9.139 0.59 5,015 68-03
8,379 0.54 5.262 71.38

Figurall
Primeiras vinte palavras-chave para um corpus de
culinária em inglês geradaspelo WST

A ferramenta Ke7words do wsT apresenta primeiramente as


palavras-chave positivas, que acabamos de ver (vede Figura 1 1). Mas, apresenta
também - em vermelho -, ao final, as palavras-chavenegativas,ou seja,aquelas
contém apenas que são mais frequentesno corpusde referênciado que no corpusde estudo.
ovasfrequências Se contrastarmos um corpus de receitas brasileiras (como corpus de estudo)
is), uma medida com um corpusde receitas portuguesas (como corpus de referência) (TAGNIN
e TEIXEIRA 2004), por exemplo, teremos como palavras-chave positivas as
lta, além dessas do corpusbrasileiro e como negativas as do corpusportuguês (vide Figura 12).
IC. Freq.), além

ixeira (2008)
3Ó I SrE[LA E. O. TAGNIN (USPJ

©-d nc.'q 4)H$:1 ... .q


hJ6TtJKE
N 9 i2 340««q
» Ü

33 C 13 t
REGER\a 021 N U00:CE®
t43 0 2.i 3z.i300»}14
N 3s 26000:.}q
}

37 4
3i 4soo:ol?4
n 970@n3i

26 8300ni3{
2
e}.1
GOSTO 78
2S820G)371]
FARPlttA .z
?:
24 920 s«4
.\% 7 2a200a$%3{
24 }800n?q
CE8Ctvêtü
ESPERE
?39no %?4
23s900s%?4
Pera e07 Q
23s9000K74
9 0
5
8 Q03
E 31 i;oHs$t7g
Ce!)(;R €6 3s seo©xoi4
g:0«3CQtl
145
» 60«»:«4
Q 24 1? ilomb04
l 38 1100:«0d
F'e».E 8 0 Q3 .5

[8 3eoHtcHod
6 .i3 CEDO»;04
5
3
2
l
?owow:«q
$

Pb . LBIJ211.J.«.+nl +«w, !ÀÜ

g
Figura 12 t
Palavras-chave positivas (até a linha 46) e negativas (linhas 47-60)
!

Na Seção6, discutiremos as possibilidades de análise proporcionadas #

pelas palavras-chave. $

l
l
A I,INGUfSTICA OECORPUS NA E PARAA TRADUÇÃO I37

5.3) Concordanciador
Uma das ferramentas mais importantes para a Linguística de Corpus
são os concordanciadores,que geram linhas de concordância. Essaslinhas
apresentamtodas as ocorrências de uma palavra ou expressãode busca em
contexto. No geral, a palawa é apresentada no centro, isto é, com uma parte
do contexto à direita e outro à esquerda.Muitos concordanciadores permitem
reordenar os resultados pela ordem alfabética das palavras que ocorrem à
direita ou à esquerdada palavra de busca. Esseprocessofacilita sobremaneira a
identificação de padrões recorrentes, como podemos ver na Figura 13.

1 a) demanteiga 1/2xíc. (chá) depinolisal a gosto Modo de fazer: Refogue a c


2 asfinas 1 1/2 col. (sopa) de manteiga sal a gostoPreparo Disponha a fininha

3 da l pitadadepáprica2gemas3clarassal a gosto Preparo Lave as batatas, f

4 depurêdetomates l col. (chá) demelsal a gosto Preparo Misture todos os i


zq
«?4 5 abalo, abadejo etc.) em pedaços grandes sal a gosto Preparo Tempere o peixe e
«71
6 nteiga,mexendo para mistumr. Acerte o sal e a pimenta. Disponha o risoto nos

7 Junteos cubinhosdetomatee acerteo sal e a pimenta. Disponha os 6ilésno

8 te aáguaparaocozimento,tempere
com sal e a pimenta e deixe a panela semit

9 queaparecem.
Reserve.Junteaágua,osal
e o açúcarnuma firma de alumínio
10 coloqueosalsão,amanteiga,oaçúcar,sale pimenta e acrescentea água até
c«q
11 batataralada à manteiga e tempere com sal e pimenta. Faça panquecas, apertan

12 12ftescos, descascados e cozidos al dente sal e pimenta-do-reino moída l col.(s

13 tas médias descascadas e raladas grosso sal e pimenta-do-reino moída a gosto l

14 da 4 col. (chá) de ímelo de pão branco sal e pimenta-do-reino moída a gosto P

15 asa)picadaPreparoTempereos
6]éscomsale pimenta-do-reino moída a gosto.
16 a salinha e asazeitonase temperecom sal e pimenta-do-reino moída a gosto

17 mente)l col (sopa)de salinha picadasal epimenta-do-reino moída agostoP


ls47-60)
18 ol. (chá) de pápricadoce l ovo,batido sal epimenta-do-reino moída agosto P

proporcionadas 19 sopa)de óleo2 col (sopa)de manteigasal epimenta-do-reino moída agosto P


20 icada 3 col. (sopa) de salsinha,picada sal epimenta-do-reino moídaagosto P

Figura13
Linhas de concordância para sal, ordenadaspela I' e 2 palavrasà direita
38 I STELL,4E. O. TAGNIN (USP)

A Figura 13 apresentauma seleçãodas 845 linhas de concordância


geradaspelo WST para a palavra sa/ num corpusde culinária, em que podemos
identificar os seguintes padrões à direita da palavra de busca: sa/ a gosto, o sa/ e
a pimenta, sal epimenta-do-reino moída a gosto.

6) Tipos de pesquisa e o que revelam


Sãovários os tipos de pesquisaque podemosdesenvolvercom o
uso de corpora, tanto comparáveis quanto paralelos. Alguns dessestipos são
discutidosa seguir.

6.1) Corpora comparáveis - busca por equivalentes


Os corpora comparáveis, com textos originalmente escritos em
cada língua, são extremamente úteis para a tradução por atestarem o uso
autêntico de palavras, termos ou expressões.Dessa forma, prestam-se para a
busca de equivalentes (TAGNIN, 2007; PHILIP, 2009). Assim, se o tradutor
estiver em dúvida se pode traduzir para o inglês, num texto sobre hotelaria,
um apartamentonum hotel por aparfmenf,ele pode recorrera um corpus
especializado e veri6lcar a ocorrência de aparfmenf. A Figura 14 apresentaos
primeiros 5 resultados do subcorpus de Turismo-Hotelaria no Corpus Técnico
(CorTec)do Prometo
CoMEr.

l
u by adding an extra bed The Apartment Wehaveone2bedroomsuite
2
ast home is simple; A private apartment to caUyour homewhen visita
3
nueplace.GARDENCOTTAGEAPARTMENT Algo,ourGardenCottageApa
4
ENT Algo, our Garden Cottage Apartment sleeps up to six (queen bed i
5
house,the one-bedroom luxury apartment, the two bedroom cabin, or on

Figura 14
Algumas linhas de concordância para apara/nelzfno
síJbcorpus Turismo-Hotelariaió do CorTec

A partir da leitura das linhas de concordância na Figura 14, é fácil


notar que não se trata de apartamentoem hotel, masde apartamentoem

'' Essecorpusfoi compilado por Navarro (2012) para sua dissertaçãode mestrado.
A LINGUÍSnCA DE CORPUS NA E PARA A TRAOUÇÃO I j9

s de concordância prédio. Nesse caso, cabe uma nova busca, dessavez no corpus em português
em que podemos para identinlcar os contextos em que apartamento ocorre (Figura 15).
sal a gosto,o sal e
1 partamentosBuáix:s center}-b Novo Apartamento Piemium você enconüa 31m: 3

2 (pecívd. Núlxias White * Dláiia em apartamentoluxo superior't Café da manhã


3 uxosupeiior*Cafédamanhãservkbnoaparhmento *02botõesderosasvermelhas

4 o) BuledecaÉda manhãCaléechá no apartamento Balcãode concieRe Câmbi(x na


esenvolver com o
5 t quente e Êio l vaga de garagem por apartamento Ampla sala com varanda C
is desses tipos são
6 ack)lamento/desli@mento
de eneigjano apartamentoCampainha,olhomágicoeRota

7 as at, 31/12/2011. TMa Balcão Apartamento StandardSingle Double Thplo

8 rd SingleDoubleTriploTârih AooidoApartamentoStandardSingle Double Thpl


ente escritosem 9 de até 12 anos éíiee, quando no mesmo apartamento dos pais, sendo o máximo de l

atestarem o uso 10 s
prestam se para a
Figura15
sim, se o tradutor
Algumas linhas de concordância para.aparfalnenfo no
to sobre hotelaria, subcorptisTurismo-Hotelaria do Cortei
)rrer a um corpus
ra 14 apresenta os Nas linhas 7 e 8 da Figura 15, aparece a palavra single, como um tipo
10 Corpus Técnico de apartamento. Buscando essapalavra no corpus em inglês encontramos nas
linhas 1, 2 e 5 (vede Figura 16), a palavra roam.

ie2bedroom suite 1 bati. + Rooms have a Queenbed and 2 single beds inthebedroom and apuEout

come when visita 2 eKitchens. CouplesRoomOptions:- 2Single beds or l KingbedÊSpeaalWeekl

ardenCottageApa 3 Square Inn was built in the 1860sas a single ílnllilyhome, and today its integrity

osix(queen bedi 4 ekCorporate rates are available for single business üavelersSunday-Thun;day

Iroom cabin, or on 5 t petsat the Inn. Room ratesare for single or dêle occupanc»$30.00
br ea(h
6 yXm BAm00MS: Rales& tmes applySiní$e/Ihutieoccl4)anca(aüceptGank:nCott

rno 7 es in San Antonio are available 6or the single business tmveler, starting at$117

8 of your day. Corporate rates 6or the single weekday business tmveler. Staying
!

t 9 KeyWestguest roam ratesarebasedon single or double occupancyand an subject


Figura 14, é fácil
apartamento em 10 o (2) for one (1) spa servic

Figura16
Algumas linhas de concordância para single no
subcorpus Turismo-Hotelaria do Cortei
;ão de mestrado.

L
}
40 I Sm.[A E. O. TAGN/N ('USP)

Embora sine/e não se coloque com zoom,ou sqa, não ocorre sfng/e
zoom, observa-seque corresponde, no contexto, a 'apartamento' em português,
pois encontramos, por exemplo, nas linhas 5, 6, e 9 da Figura 16 uma referência
a sina/eor doub/e occuPancy,ou seja,apartamentos para ocupação por uma ou
duas pessoas.Dessa forma, o tradutor se assegura de que a melhor tradução de
aparfamerzfo para o inglês é roam.

Outra forma de averiguar equivalências é pela frequência da palavra no


corpus Uma busca no mesmo subcorpus de Turismo-Hotelaria em português,
no CorTec, mostra que a palavra aparfamenfosaparecena 31' posição, com
3.044 ocorrências.

Já no corpus em inglês, a primeira palavra de conteúdo é zoom, na 16'


posição, com 5.920 ocorrências.

Pos. Palavra Freq.


l and 40699
2
the 38540
3
a 24787
4 of 21234
5
to 20020
6 with 14526
7 m 13984
8 6or 12720
9 IS 9924
10
your 9532
11 our 9108
12 or 7500
13
you 7354
14 are 6608
15 at 6580
16 room 5920
17 on 5300
18 from 4772
19 an 4194
20 wiU 3786

Figura 17
Lista parcial de palavras do subcolpus de Turismo Hotelaria do Cortei
.'! LINGUÍSTICA DE CORPUSNA E PHRA .4 TRAOUÇÃO I 41

não ocorre single Áparfmelzfapareceapenas64 vezesno singular e 52 no plural, num


:nto' em português, total de 116 ocorrências, o que já é indicativo de que não pode ser equivalente
l 16 uma referência a aparfamenfo em português.
tpaçao por uma ou Vejamos outro exemplo com o subcorpusde Insuficiência Renal. A
melhor tradução de palavra renal aparece na 15' posição com 1.267 ocorrências, enquanto rf?zse
rim aparecem 148 e 124 vezes, respectivamente.
:ncia da palawa no No corpus em inglês, renal aparece 1.726 vezes, kídlzey e kidneys, 383 e
Iria em português, 55 vezes,respectivamente.
31' posição, com Essasemelhançano número de ocorrênciasde rena/ em português e
em inglês pode, entretanto, induzir-nos a conclusões apressadas,fazendo-nos
Ido é zoom, na 16- supor que sejam equivalentes.De fato, em alguns contextos as palavras são
equivalentes, como, por exemplo, 'doença renal' e rerzaZdlsease,como se vê na

Figura18.
Freq.
40699
1 ogia Assunto específico: ]nsuâciência rena] aânknD]S]]iIBU]ÇAO llExl Impieso
38540
24787 2 ente nem sempe o tratamento da doençarenal, quando elds© resultaem imersão com

21234 3 podem determinar a naturezadadoença renal EventualmenEmétodosalick)naus,aom


20020
14526 1 General Considerations Patients with renal diseasecan piuent in a varietyofway
13984 2 s on urinalysis. Once it is clear that renal diseaseis present,the primary goals a
12720
3 oftherena]damage.Themajortypesofrena] diseasecan be grouped accoi(]ing to the
9924
9532 Figura 18
Algumas linhas de concordância atestando a equivalência
9108
de 'doença renal crónica' e renal dísease
7500

7354
Vejamos agora uma concordância para kfdney na Figura 19
6608
6580
1 -dosemethotiexãe Chmnic Pk)lycystic
Iddney disease, medullary sponge kidney,
5920
2 cystickidneydisease,
me(hiHarysponK kidn($ medullary cystic kidney disease
5300
4772 3 dullary sponge kidne» meduHary cysüc kidney disease Interstitial Disease Acute:

4194 4 erstitial disorders,such aspolycystickidney disease,in which multiple bilateral


3786
5 rtension, and analguic abuse Mydoma kdnW in whkh uiüiary immunoyobulin li#lt

Figura19
do Cortei Primeiras cinco linhas da concordância para kfdney no
szibcorpus de Insuficiência Renal no CorTec
42 I STELLA E. O. TAGN/N (USP)

Podemos observar, na Figura 19, duas ocorrências depoZyqsfjc kídrze7


dlsease (linhas l e 4), uma de medra//ary cysf/c kfdney dfsease (linha 3), uma de
mean//ar), SPongekfd/zey (linha 2) e uma de mye/oma kidfzey (linha 5). Embora
rema/dfseaseseja uma colocaçãofrequente, quando se trata de uma doença
:specífica (polycystic kidriey disease e medullary cystic kidney disease), temos
kídney em vez de rena/. Além disso, kfdney é usado para se referir ao órgão,
como em mean//ary SPongekíd/zey e m7e/oma kídne7, que é também como são
usados rfm e ri/zs em português, como vemos na Figura 20.

1 ções de Emeravaliações estrutumis do rim com detalhes anos, como dimensões de c

2 Na estenosetuülateral, a presençado rün contralateral íntegro exerce um efeito

3 Naestenosebilateral,naestenosedorim único ou transplantado


ou na coailüção
4 ocedimentol
1.Nasituaçãoparticulardo
rim contraídounlateral,a decisãoentrer

5 u eventualmentetentarrevascularizaro rim pequeno deve levar em conta adosagem d

l lítica com disfiJnÇãorenal importante e rins --e---ente nom)ais, podando diWlo


2), que nomlalmenteáo eliminados pelosfins Embora contlovetms, adstem evidênda

3 is de patên(ituma pda ulüa sonogra6auRins menonu do que 7an, hipeíecogêniax, se

4 atogastmintestinal
e excretadas
pela rins.Na insuficiência renal crónica(l
5 iiirns são nomlalmente e<cleta(hs pelos iin$ níveis elevados dessas moléculas s

Figura20
Algumas linhas de concordância para 'rim' e 'rins' no
sríbcorpusde Insuficiência Renal no Cortei

Voltando à Figura 19, observamos,nas linhas l e 4 , a ocorrência


de po/yqsfíc kfdney dfsease.Para chegarmos ao equivalente dessetermo em
português, podemos fazer uma busca, no CorTec, usando a opção "Começando
com policístic': para obter resultados nos dois gêneros (masculino e feminino)
e números (singular e plural)
A Z,INGUÍSnCA DE CORPUS NA E PARA A TRAOUÇÃO I 43

idas de po/7c7sffc kfdney


1 paciente selecionado tinha doença renal policística bilateral como doença primária
rfsease (linha 3), uma de
2 cas e tardia ou ausente na doença renal policística do adulto. À semehança do que
:ídney(linha 5). Embora
;e trata de uma doença 3 istos renaissimples ou da doença renalpolicística do adulto,4 desenvolvendo-se, s

kfdrzeydfsease),temos 4 os pacientesportadores de doença renal policística, os bineftectomizados e aqueles


)arase referir ao órgão, 5 pena osgru
lue é também como são
a 20. Figura 21
Algumas linhas de concordância para polícísfic't no
' subcorpus de Insuficiência Renal no CorTec
nos, como dimensões de c

ntegro exerce um efeito Os resultados apresentados na Figura 21 confirmam 'doença renal


policística' como equivalente de polycysfíc kídney dlsease.Em outras palavras,
plantadoou na coalüação
nessecaso,renal em português corresponde a kídney e não a rerzaZem inglês.
atenü, a decisão entre r
Outro termo que chama a atençãona Figura 18, é 'insuficiência
:var eín conta a dosWem d renal crónica' (linha 1). Será que 'insuficiência' deve ser traduzida como
insu#icfency?Supondo que 'crónica' corresponda a chronic, podemos gerar
no««b p"'M'b 'bWO
uma concordância para essapalavra, que fornece, entre outros, os seguintes
wersa$ edstem evidência
exemplosreproduzidosna Figura 22.
7an, hipen:c(Euucos,
se
loa renal crónica (l 1 ]y amminaHons
ievealsttK pitserw of dlmnk penaldisease.Timing maybe partic

)s dessasmoléculas s 2 a paHent
with suco6ndingswho hm d)ionic final insuf6iciency, for example, th
3 , then the most ]ikely causesofchronic renalinsufüiciency in a patient wit

rins'no 4 atpãientswih most bm)s ofacue or duonic final failure may be oliguric(urine
rTec 5 AS:Measurement
ofrenalftinctionin (tlronicanal disease.Kidney Int 38:167, 19

6 ion late detemlinationin paüentswith duonic nnaldisease. JAMA 199:252, 1967


s l e 4 , a ocorrência
7 Vascular calcification in chronic renalfailure. i
llente dessetermo em
8 desc:;'bead">
Vãscularcalci6cationinduonic
final faliu re. The prevalence
o a opção "Começando
masculino e feminino) 9 tory indudedtape2 diabetes
meHitu$duonic renalfàilure requiring hemodialysis
10 ithearlierstudiesshowing

Figura22
Seleção de linhas de concordância para chronic no
subcorptis de Insuficiência Renal no CorTec
k
!

#-

44 I STELJ,AE. O. TAGN/N(USP)
{

Temos, nesse excerto, duas ocorrências de chroníc rena/ /lzsze#7clenc7


(linhas 2 e 3) e cinco de c/zro/zfc rena/Jaí/ re (linhas 4, 7, 8, 9 e 10). Cabe-nos
decidir qual a forma mais usual. Um levantamentode todas as ocorrências
apresenta os resultados reportados na Tabela l

Faitttre
Ocorrências /nsu#iclenc] Ocorrências
Clhronic renaljailure \ 89 Chronic rena! insu#iciency 25
Renallailure 387 Renalinsu#iciency 77
Total 576 Total 102

Tabela l
Ocorrências de rerzaljal/ure e rena/ ínslt#7cíenc7 no
corpus de Insuâlciência Renal no CorTec

Em face disso podemos, com segurança, optar por caro?zicrena/Jaf/ure


como a melhor tradução de fnsz{/iciê/iria rena/ crófzica.

Salientando a utilidade e con6iabilidade dos corpora comparáveis para


o fazer tradutório, Bernardini et al (2013) advogam a incorporação dessetipo
de corpuse de programas computacionais para sua exploração ao conjunto de
ferramentas que os tradutores já usam, no intuito de garantir um trabalho de
menor qualidade.

Os exemplos que apresentamos referem-se todos a linguagens


técnicas. Uma vez estabelecidos os equivalentes, essespodem vir a constituir
glossários dessas áreas, como foi feito, por exemplo, em Perrotti-Garcia
e Rebechi(2007), peixeira e Tagnin (2008) e Tagnin (2013).'7 A busca Dor
equivalentesé também abordada nos capítulos de Moraes, Pagara et al. e
Rebechi, incluídos nestevolume.

6.2) Corpora paralelos

Corpora paralelos, como já vimos, são compostos por textos originais e


suasrespectivastraduções. Essaspodem ser várias traduções na mesma língua
ou em várias línguas. Podem até consistir de várias versõesintermediárias de um
mesmo texto até o texto nmal, o que permite acompanhar o processode revisão.

Bevilacqua (2013).que abordam o uso de corpora no fazer terminológico, ver Tagnin e


A I,INGU/SACA OE CORPUS NA E PARA A TRAOUÇÃO I 45

Contamos com dois corpora paralelos que contemplam exclusivamente


enat insu#iciency
) e 10). Cabe-nos o par português-inglês: o COMPARA e o CorTrad, do Projeto CoMET.
as as ocorrencias Apresentamos, a seguir, algumas possibilidades de explorar essetipo
de corpus.

Ocorrências
6.2.1) Possibilidadesde tradução
!cy 25
77 Talvez o uso mais frequente que se faz de corpora paralelos é verificar
102 como determinada palavra ou expressãojá foi traduzida.
Vejamos, por exemplo, algumas traduções para o verbo modal can no
COMPARA.i8

1.That's another thing Isso é mais uma coisa que pode


thatcan happento youthat's acontecer com você que é pior
worse than a pain in the knee. do que uma dor no joeho.
O problema é que, como um terapeuta
2. The trouble is, ascognitive de comportamentocognitivo
comparáveis para behaviour therapistspoint out,
faz questãode esclarecer,leva-se
oração desse tipo it can take forever to discover the
muito tempo para descobrir uma
lo ao conjunto de suppressedtraumatic experience, experiência traumática suprimida,
r um trabalho de even supposing there was one.
supondo:sequehaja.uma:
Quero dizer, quer coisa mais
3. 1 mean, how trivial can you get? banaldo queessa?
os a linguagens
n vir a constituir Dá um ar meio de andarilho, mas não
4. It looks a bit tramp-like, but
l Perrotti Garcia l can hardly bear to have it cut, posso suportar a idéia de vê-la cortada
each strand is se precious. pois cada mecha é preciosa demais.
}).'' A busca por
5. My hands are quite small too, Minhas mãos são pequenas,mas com
Paganoet al. e
but with lona,shapely6mgers;
like dedos longos, esbeltoscomo os de um
a pianigt's, not that l can play any pianista, se bem que o único teclado
keyboard except an IBM one. que eu saiba usar seja o de meu IBM.
6. There's no difference between
Não há diferença entre um ou
one 6irst-class stamp and another, outro selo de primeira classe, e
textos originais e and there's a very limited number há um número muito limitado de
na mesma língua of ways in which you can tear maneiras de destaca-los das folhas
rmediárias de um them off the sheets and shove
e passa-los pelajanela do guichê.
them across the counter.
ocessode revisão.
Figura23
Algumas linhas de concordância para can no COMPARA

ógico, ver Tagnin e


18 Todos os exemplos do COMPARA são extraídos da versão 13. 1.22
46 I S7'EL[AE. O. TAGNINrUSP)

Como se vê, nem sempre o modal can é traduzido pelo verbo rodei
em português. Com exceção das linhas l e 4, nas outras ocorrências o verbo é
praticamenteomitido:

2. íl can falteJoreverfo dfscol,er..-) leva-semuito tempo para


descobrir.. .

3. bow frfvía/ ca/zyou gef? '9 quer coisa mais banal do que essa?
5. nof f/zaf .r can p/ay any keyboard -) se bem que o único teclado que
eu saiba usar...

i. there\ a verá [imited rtumber ofways in which you can tear trem oa
f/zes/zeefs... -) há um número muito limitado de maneiras de destaca .los das
folhas

Com essetipo de pesquisa, o tradutor pode enriquecer seu arsenal de


possibilidades de tradução e certamente encontrará opçõesque não Ihe teriam
ocorrido.

Uma área em que corpora paralelos são um recurso inestimável é a


da tradução automática. O capítulo de Caseli neste volume discorre sobre o
treinamento de sistemas de tradução automática a partir de corpora dessetipo.

6.2.2) Tradução de nomes próprios, palavras estrangeiras e termos


culturalmente marcados

Outra possibilidade é verificar estratégias empregadas para a tradução


de itens por vezesproblemáticos, como nomes próprios, palavras estrangeiras
e termos Culturalmente marcados. '

Um exemplo emblemático de palavra culturalmente marcada é a


nossa'cachaça;que recebe as mais variadas traduções. Entre elas,destacamos
algumasna Figura 24.
A I,rNGU/ÉTICA OE CORPUS NH E PHRA A TR.AOUÇÃO I 47

)elo verbo poder


ências o verbo é 1. Januário tirou a rolhas @ Januario pulled the cornlcob
PSAD2(770): de sabugo com os dentes, $ ::stopper out with his teeth
deixou a cachaça cair l bandpoured the spirit
ito tempo para quente goela abaixo. hot down his throat

2. -- Seme permite, senhor {í]fyou']] permit me, Mr.


que essa? Holmes, o melhor remédio Holmes, the best medicine for
PBJsl(106):
fico teclado que para esta sensação matutina this morning-ater sensation
é uma boa cachaça. is a good dose ofcac/faça.)>
3. Watson emborcou Watson gulped another
ltt tear trem oÍ
PBJSI(1322): outra garrafa de cachaça e bottle of rum and
destaca-los das desandou a rir: burstintolaughter.
4. Um ano depois da A year after the tragedy,
seu arsenal de tragédia, eu substituía l had replaced whiskey
não Ihe teriam o uísque pelo ninalõ, with brandy and water.
PBMKI(1622):
imediatamente substituído
which was immediately
pelo gim e mesmo supplanted bygin,andthen
nestimável é a
pela cachaça com limão. by sugarcane rum with time.
;corre sobre o
Figura 24
ora desse tipo. Algumas linhas de concordância para 'cachaça'no COMPARA

as e termos No primeiro exemplo, cachaça é traduzida por spíríf; no terceiro, por


rum; e no quarto, por sugarcanerum. Apenasno segundoé mantida a forma
original. Além disso, observe se que os exemplos 2 e 3 são da mesma obra
ra atradução
(PBJSI'P),mas a tradução não é padronizada. Temos aqui dois problemas: o
; estrangeiras
emprego de rum, que é um produto diferente da nossa'cachaça;:oe a falta de
padronização(ver REBECHI, 2012 para um estudo detalhado dessastraduções).
marcada é a
Na Figura 25, temos uma ocorrência de expressãocultural (i.e. festa
destacamos
de São João) e uma de nome de local, mais especinlcamente,de um cemitério
no Rio de Janeiro,o SãoJoão Batista.

19

PBJSI significa Português Brasileiro JÕSoareme o número l refere-seà primeira


( bra desseautor no corpus.Trata-se do romance O Xangõ de Bater Sfreef, traduzido por

20

Costa(2006) salienta as altas tarifas alfandegáriasa que a cachaçaestavasujeita por


ser traduzida como rum nos documentos de exportação. Desde2009, "]o] nome cachaça
estáprotegido por leiIDecreto 6871/2009] e a sua produção está restrita ao Brasil" (http://
www.mapadacachaca.com.br/artigos/as-diferencas-entre-rum-e-cachaca/).
Com isso. a
cachaçatambém recebeutariíação própria. Além disso,já está dicionarizada(http://www
merriam-webster.com/dictionary/cachaça), havendo, assim, uma tendência de se manter
a denominação "cachaça"nos temos traduzidos
48 I STELLAE. O. TAGN/N (USP)

g
#

Virgília
-uÕma tinh
uiuia agora a oeleza Virgilia now had the beautv #

da velhice, um ar austero ofage, an austere,maternal


#

PBMA2(139): : Paternal;estavamenos :l look Shewaslesathin ã


magra do que quando a vi, $ than when l sawhere the
pela última vez, numa besta last time at a Saint John's
de São João, na Tijuca-. . .festival in Tijuca. ..

Disponível era receber suas wming to take orders, sign


ordens, assinar cheques, checks, turn the lights oa.
desligar as luzes, pagar o pay the real estate taxes.
PBKP2(685): imposto predial, veri6lcar a check to seethe doors are
fechadura antes de dormir, locked before bed, willing
providenciar o segurode to makearrangements6or
vida e o jazigo perpétuo bifeinsurance and the íamily
no São Jogo Batista. Plot at São João Batista.

Figura 25
Linhas de concordância para 'São Jogo' no COMPARA

Podemos observar que, no primeiro caso, o nome da festa foi


simplesmente traduzido por Saf/zf /obrzk Jesffva/. Embora exista um Salnf
/o&/zklesfiva/em outros países,em geral com um denominador comum - a
construção de uma fogueira -, a forma de celebrar varia de lugar para lugar e,
certamente, nenhuma dessasse assemelha à brasileira. Cabe perguntar, será essa
a melhor tradução parajesfa de São/oão? A tradução de termos culturalmente
marcados é sempre um problema e não há um procedimento Ruo para tal. A
opção dependerá da posição do tradutor. Se quiser manter a especificidade da
referência, aproximando o leitor à cultura de partida (no caso, a brasileira),
pode manter o termo na língua original e, eventualmente,acrescentaruma
pequena explicação, em nota de rodapé ou mesmo no próprio texto, como
um aposto. Se o tradutor preferir facilitar a leitura para seu público-alvo, pode
traduzir o termo ou mesmo empregar um termo que designealgo similar na
cultura de chegada.:' Nesse último caso,justinlca se a tradução de "festa de São
João"por Saizzf/a/znklesflva/.Jáno segundoexemplo,o nome do cemitério foi
Ê

i
}

É
}
A I,INGUfSnCA DE CORPUSNA E PARAA TRADUÇÃOI 49

mantido na língua original, o que denota uma intenção, por parte do tradutor,
ihadthe beauty
lstere, maternal de 'levar' o leitor para a cultura brasileira.
asleis thin Uma visão mais ampla sobre a tradução de marcadoresculturais é
[ saw here the
apresentadapor Zavaglia et al. (2012), em que os autores analisam as versões
a Saint John's
alemã,francesa,brasileira eportuguesa deum manual derefrigerador. Discutem,
iyuca::;
entre vários outros aspectos,como a cortesia é expressaem cadalíngua-cultura.
ke orders, sign
No alemão e no francês, os manuais sedirigem ao destinatário de maneira mais
the lights off.
estate taxes, formal, Síee voas, respectivamente; enquanto os manuais brasileiros usam você.
the doors are Em contrapartida,os manuaisportuguesesevitam dirigir-se ao destinatário
e bed, wilhng por meio de um pronome. Além disso, o alemão, francês e português brasileiro
ingements for
empregamformas de cortesia como biffe, veu;//ez/s.v.p.,
e porlavor, ao passa
:e and the family
)ão Batista. que no português europeu não se encontram expressõessimilares. Segundo
os autores, essaestratégia reflete as expectativas dos destinatários portugueses,
)ARA que considerariam as formas de cortesia um obstáculo, desviando a atenção
do conteúdo instrucional do manual. Dessa forma, caso se fosse traduzir um
ome da festafoi manual alemão para o público português, essaformas deveriam ser eliminadas,
l exista um Saí/zf
ao passoque, na direção inversa, fórmulas de cortesia teriam de ser incluídas.
fiador comum - a

lugar para lugar e,


6.2.3) Comparação de diferentes versões de uma tradução
)erguntar, será essa
nos culturalmente Para alguns textos, o COMPARA oferece duas traduções, em geral
uma portuguesa e uma brasileira. Na Figura 26, temos algumas linhas de
to Huo para tal. A
concordância das duas traduções de Therap7, de David Lodge.::
l especínicidade da
caso, a brasileira),
acrescentar uma
5prio texto, como
)úblico-alvo,pode
]e algo similar na
io de "festa de São
e do cemitério foi

ão, e a segunda de 22 David Lodge. 77zerap/.Londres; Secker e Warburg, pp. 3-97. 1995.
13, em sua palestra EBOLITl: Terapia. Tradução de Mana do Calmo Figueira. Lisboa: Gradiva, pp. 11-88
iginal e respectiva 1995
;er encontrados em EBDLIT2: Terapia. Tradução de Lídia Cavalcante-Luther. São Paulo: Scipione
PP. 11-115,1997.
50 I STE 4 E. O. TAGNIN (USP)

EBDtiVI(900):%i«And hoWs the Angsf?)o -- E (j ÁnFsf,como irai?


EBDtiTZ(900): <CAndhow's the Ángsf?>> -- E como anda a .4ngsf?
EBDI.iT1(903): Don't pretendyou don't Não nulas que não
know what .Angsf is.
sabeso que é o 4ngsf.
EBnLaT2(903): Don't pretend you don't não queira dar uma de que
know what 4ngsf is.
nãosabe o queé,4ngsf.
Reading through that
Ao reler a entrada de ontem,
last entry reminded me lembrei-me da estranha
EnDI,iT1(1358): ofAmy's odd question, pergunta da Amy -- <Ccomo
{Çliow's your .Angsf?)}and estáo teu .4ngsf?»-- e fui
l ]ooked the word up àprocuradapalavra.

Reading through that Ao ler aquela última


last entry reminded me passagem,lembrei-me
EBDtiTZ(1358): ofAmy's odd question, daquela pergunta esquisita
«How's your Ázzgsf?>>
and de Amy: «Como vai a

l looked the word up sua Angsf?» e fui checar a


palavra no dicionário.

Figura 26
Excertos de duas traduções de Thenzpy, de David Lodge, no COMPARA

n$1 1R#ü&
6.2.4) Revisões de texto traduzido

O CorTrad apresentauma ou mais versõesda tradução de um texto.


Isso permite acompanhar o processo de revisão pelo qual passaa tradução. Na
,4 1,rNGU/STIC.4 0E CORPUS NA E PARA A TRADUÇÃO I 51

como vai?

nda a .Angsf? Figura 27, temos alguns exemplos em que houve alterações de uma versão para
outra, em geral de vocabulário.
ue nao
o Aplgsf. Original Primeira versão Seaundaversão Versão publicada
ar uma de que l strikeit come Golpeio o ponto Golpeío o ponto Golpeio o alvo
ue é.Angsf. and regam de origem e de origem e e recupero o
.trada de ontem, equilibrium. recupero o recupero o equilíbrio.
ia estranha equilíbrio. equilíbrio.
Amy -- {Ccomo My father died a Meu pai teve com Meu pai teve uma Meu pai teve uma
gsf?l>T e fui uma morte lenta, morte lenta e morte lenta e
lingering,painful
palawa. deathofcancer dolorosa por causa dolorosa por causa dolorosa porcausa
l última -- in a Catholic do câncer, em um do câncer. em um do câncer, em um
nbrei-me old men'shome. asilo católico. asilo católico. asilo católico.
unta esquisita Bill waited for
mo vai a Billesperou por BiU esperoupor Billesperou por
[oe cear the Joe, perto da vala, roe,perto da vala, Joe perto do
fui checar a
gap,and walked para voltarem para voltarem des6Hadeiro para
cionario.
home with him. )untos para casa. juntos para casa. voltarem juntos.
Bill sawit but Bill observoumas Bill observoumas Bill viu tudo, mas
COMPARA
raid nothing, não dissenada,e, não dissenada,e, não dissenada;
and, seeingtheir vendo o paivoltar vendoo paivoltar ao alistarem
; que a tradutora Eathercoming do trabalho, ele e do trabalho, ele e o paivoltando
gsf, uma palavra home from work. o irmão correram. o irmão correram. dotrabalho,
lna, enquanto a they hurried on. correram.
feminina. Outra
Figura 27
ssoado singular Algumas linhas de concordância para hoflzeno si/bcorpus literário do CorTrad
) queira dar").
)nçalves (2006) Notamos,na Figura 27, /fomeempregadacom váriossentidos.Na
e James Joyce, e primeira linha, tem o sentido de "alvo'l que é recuperadona última revisão.
rto O'Shea para Na segunda, refere-se a "asilo': sentido mantido em todas as versões. Já nas
duas últimas, refere-se a "casa': que está presente nas duas primeiras versões
nbém compara da terceira linha, mas 6lca implícita na última, ou seja, "voltarem juntos para
ao estilo de seis
casa" dá lugar a apenas "voltarem juntos': Na quarta linha, a palavra /fome não
quena amostra é traduzida em nenhuma das versões.
)ode gerar. Apesar de a busca ter sido feita para homo,a observaçãodas várias
versões revela outras mudanças. Na segunda linha, por exemplo, podemos ver
que a "/irzgerfng,
paírlfa/ deaf;z"foi primeiramentetraduzidopor "uma morte
:o de um texto. lenta, dolorosa"e já na primeira revisãoalteradopara "uma morte lenta e
a tradução.Na dolorosa': com o acréscimo do conectivo "e': produzindo, assim, uma forma
mais natural de se expressar em português.
52 I STE[LA E. O. TAGNIN (USPJ

6.3) Corpora personalizados

Quando podemos manipular os corpora inteiros, como no caso de


construirmos nossos próprios corpora, temos acesso,com o ÁnfCo/zc ou o
WST,por exemplo,a uma tabelacom vários dadosestatísticos,a partir dos
quais podemos tirar algumas conclusões.

6.3.1) Diferença de extensão entre texto original e texto traduzido

Uma das aHimlaçõesconentes sobre traduções é que essascostumam


ser mais longas do que seus originais. Por exemplo, em um estudo de corpus
acerca de originais e traduções de obras literárias canónicas e populares, Viana
et alii(2008) mostramque as traduçõessão maioresdo que os respectivos
textos originais. Contudo, apesar de o número de palavras crescer nos textos
literários traduzidos, o número de palavras distintas é maior em português não
obstante o fato de a obra ser original ou traduzida. A Figura 28 mostra os
resultados para o primeiro capítulo do romance Be/Z/amln,de Chico Buarque,

nglorigna10em.português (Ben01Po.txt) e em sua versão traduzida para o

file Edil View


Compute Settings Windows Help
.

text fil( Overall Ben01Po.txt Ben011t.txt


file sizl
59,492 28,566 30,926
tokens (running words) in teH l0,568 5,038 5,530
tokens used for word lisa l0,528 5,018 5,510
sum of entríe:
................Jipes(distinct words] 3,555 1,863 1,747
--------...J)CP!!!!bçn ratio (rrR] 33.77 37.13 31.71
standardísedTn 48.97 50.78 47.16

Figura28
Estatísticas da ferramenta moral,fsf do WST

Os números parecem confirmar que as traduções costumam ser mais


longas do que os originais: há 5.038 palavras (fokerzs(run/zing wordsJ frz fexf)
em português em comparação a 5.530 na tradução em inglês.
A I,INGUÍSnCA DE CORPUS NA E PAR'\ A TR.{DUÇÂO I 53

6.3.2) Densidadelexical
como no caso de Outra informação que pode ser extraída da Figura 28 é a densidade
l o .AnfConcou o lexical, ou seja, a riqueza de vocabulário das duas versões.Quanto maior o
ricos, a partir dos índice, maior a diversidade lexical. A tabela apresenta 1.863 palavras distintas
(topes(dfsfírzcfHoras» para o português e 1.747 para o inglês, o que corresponde
a um índice item/ocorrência (f7pe/foken ratio) de 37,13%para o português e

aduzido 31,71% para o inglês, corroborando os achadosde Viana et alia(2008) de que


e essascostumam textos em português têm uma diversidade vocabular maior do que aqueles em
inglês. Porém, tratando-se de textos de tamanhos diferentes, deve-se utilizar
estudode coppz/i
o índice padronizado (sfandardízed TTR), que dá 50,78% para o português e
populares,Viana
47,16% para o inglês, confirmando a maior diversidade lexical do português.
ue os respectivos
crescernos textos
7) Conclusão
emportuguêsnão
O objetivo deste capítulo foi apresentar um panorama das
üra 28 mostra os
possibilidades oferecidas pelo uso de corpora nos Estudos da Tradução, sempre
e Chibo Buarque,
com farta exemplificação. Começamos com uma definição de corpus no âmbito
traduzida para o
da Linguística de Corpus e passamosa descreveralguns dos tipos decorpora que
mais seprestam à pesquisa e ao fazer tradutório. Além dos corpora disponíveis
orz-lirze,descrevemosos passospara a compilação de um corpus que se adeque
Help
aos objetivos de pesquisa do investigador. Posteriormente, discutimos alguns
tipos de anotação que enriquecem os corpora. Na seçãoseguinte, abordamos as
Ben01it.txt
principais ferramentas para a pesquisa com corpora: lista de palavras, lista de
30.926
5,530 palavras-chavee concordanciador. Por nim, discutimos alguns tipos de pesquisa
5,510 possíveiscom corpora, com ilustração de trabalhos já realizados.
Obviamente,
o capítulonão pretendeucobrir o assuntode forma
1,747
exaustiva, pois muito dependerá do tópico que o pesquisador pretende
31.71
47.16
estudar e de sua criatividade na exploração de corpora. Uma área que não foi
aqui abordada foi a da compilação e exploração de corpora de aprendizes de
tradução,:' o que requereria um capítulo por si só. Outra áreafoi a da Tradução
Audio-Visual, em que o uso de corpora ainda é bastante incipiente. Enfim,
estecapítulo pretendeu estimular o leitor a enveredar por essecaminho ainda
stumam ser mais
pouco explorado e descobrir o quanto essametodologia pode revelar coisas
lg Horas) in fexf)
que jamais poderiam ser descobertasde outra forma.

23 Vide Oliveira (2012) sobre o emprego de um editor de planilhas eletrânicas para o


alinhamento de textos em um corpus de aprendizes de tradução.
ê
g

.!
54 I STEL[A E. O. TAGN/N (USP)

Referências bibliográficas

==='::;. ProceedflXgs-.

;àEn;hl::l
IÜS:
BEBER, D. Representativeness in corpus design. [,]ferar, and [fn !r:-';'
Co/npuflng, v. 8, n. 4, p. 243-257, 1993. ",' '5"''"'

BOWKER, L. & PEARSON, J. Working wífA specía/fzed/anguage:.A pracffca/


gufde fo usi/zg corpora. London/New York: Routledge, 2002.
Á I,JNGUÍSTICA OE CORPUS NA E PARA A TRADUÇ'IO I 55

HALLIDAY, M. A. K. Categories ofthe theory ofgrammar. Word, v. 17, n. 3,

l issuesin Brazilian P.241-292,1961

, P.; WILSON, A.; HEIDERMANN, W. (Ed.). C/ássicosda feria da tradução. Vol. 1: Alemão/
cs 2003 colláerefzce. Português. 2a. ed. revisada e ampliada. Florianópolis: UFSC, 2010.
//ucrel.lance.ac.uk/
LEECH, G. The skateof the art in corpus linguistics. In: AIJMER, K. &
iria2014.
ALTENBERG,B. (Eds.).Englishcorpuslinguistics:Studiesin honour of Jan
Ince improvements Svartvik. London/New York: Longman, 1991. p. 8-29
NGLISH CORPUS
MCENERY, T., XIAO, R. & TONO, Y. Corpus-basca /angzzagesfudíes.London/
saka. Proceedíngs...
New York: Routledge, 2006.

NAyARRO, S. L. M. G/ossárfo bilíngue de co/orações de hofeZaria: m modelo


Iti-platform corpus
ON LANGUAGE à luz da l,inguísfica de Corpus. 2012. 233 f. Dissertação (Mestrado em Estudos
Lingüísticos e Literários em Inglês) Faculdade de Filosofia, Letras e Ciências
)nível em: <https://
Humanas, Universidade de São Paulo, São Paulo.
pdf>. Acessoem
OLlyEIRA, J. A linguística de corpus na formação de tradutores: Compilação

new solutions. e análisede um corpusde aprendizes


de tradução.In: ENCONTRODE
LINGUÍSTICA DE CORPUS, 11., 2012, São Cardos.Anais-. São Carlos:
)FF, S.; RAPO R.;
USPI 2012. Disponível em: <http://nilc.icmc.sc.uspbr/elc-ebralc2012/anais/
omparable corpora,
andamento/1 02956.pdf>. Acesso em 26 jan. 2015.

ric OLOHAN, M. Infrodz4cíng corpora írz frarzslafíorz sfudfes. Oxford: Roudedge,


zry and
2004
$

'R PERROTTl-GARCIA, A. J. & REBECHI, R. R. Vocabu/árío para Químíca=


nguage: A practical
Inglês/portugzzês portzzgtlés/Inglês.Série Mil & Um Termos. São Paulo: SBS
Editora,2007.
de common Zawà
strado em Estudos PHILIP, G. Arriving at equivalence:Making a casefor comparablegeneral
a,Letrase Ciências referencecorpora in translation studies. In: BEEBY, A., INÉS, P. R. &
sÁNcnKz-GIJ(5N, p. (Eds.). Corpus use arzd frans/afffzg:Corpus useJor
learrzíngfo transZafearzd /earnírlg corpus use to trens/afe. Amsterdam: John
adução no maferla/
Benjamins, 2009. p. 59-73
233 f. Dissertação
nguas Estrangeiras REBECHI, R.R. 'Cachaça' na tradução de obras literárias brasileiras para a
língua inglesa. TradTerm, v. 20, p. 95-1 10, dez. 2012.

l de corpus: Uma SANTOS, D., TAGNIN, S. E. O. & TEIXEIRA, E. D. CorTrad and Portuguese-
H.2006.327f. Tese English translation studies: Investigatingcolours. vnRIENG, v. 12, 2012.
:s) - Faculdade de Disponível em: <http://wvrw.helsinki.61/varieng/series/volumes/12/santos.
Paulo,SãoPaulo. tagnin.teixeira/>. Acessoem 26 jan. 2015.
56 I STELL.4 E. O. TAGN/N (USP)

SCOTT, MI. WordSmlfb Zoo/s. Oxford: Oxford University Press, 1996.

H
TAGNIN, S. E. O. (org.). Uocaóu/(írfopara áoíogra/ia:
Ing/é.s/norfzínzíês
Série
Mil & Um Termos. São Paulo: SBS Editora, 2013. ' '-ó'" -"-'-'

HUB Editorial 2013.LACQUA, C. (Orgs.). Corpora na fermí/zo/ogfa.SãoPaulo:

TEIXEIRA, E. D. & TAGNIN, S. E. O. Uoca&u/(iria


para cu/ínárfa- Ing/és/
português. Série Mil & Um Termos. São Paulo: SBS Editora, 2008.

VENUTI, 1«97'he frans/afora InvfsÍÓÍ/ify: .'! /zísfory of frans/czffon.London:

ZANETTIN, F. 2012. Trens/afia/z-drive/zcorpora: Corpus resourcesJor


descr@fíve a/zd app/íed frans/af/on sflzdfes. Manchester: St. Jerome, 20]2.

LHB[[:!H] U
}

Corpora na Tradução

© HUB Editorial 2015

HUBEDITORIAL
Rua Marechal Hermes da Fonseca, 365
02020-000 Santana São Paulo SP
Brasil
Tel.:55-11-3661-1150
contato@hubeditorial .com .br
www.hubeditorial.com.br

Todosos direitos reservados.Nenhuma parte deste manual pode ser reproduzidaou


usada sob qualquer forma ou meio. sem consentimento por escrito por parte dos Eailores.

Coordenação Editorial
Ana Carolina Montecinos

Prometo
Gráfico/Editoração
Cia. de Desenho

ISBN978-8&807&271-6

15-00777

Corpora na tradução / organização Vander Viana e Stella E.O.Tagnin


l.ed.- São Paulo: Hub Editorial, 2015

Váriosautores

1. Corpora (Linguística) 2. Língua estrangeira 3. Linguagem e línguas 4. Linguística


computacional 5. .Tradução e interpretação l.Tagnin.Stella E.O. ll.Viana.Vender

418.02
l.Tradução:Linguística

CDD-418.02

Você também pode gostar