Escolar Documentos
Profissional Documentos
Cultura Documentos
ABSTRACT: This chapter aims at giving an overview of how Corpus Linguistics can be used in and for
translation. After a short introduction, Section 2 discusses what a corpus is and presents various types of corpora
suitable for translation purposes. The next section describes, in detail, the steps to be followed in order to
compile a corpus. Various kinds of annotation of a corpus are the topic of Section 4, and Section 5 addresses
computational tools available for investigating it. Section 6 discusses different studies that can be conducted
using corpora. Plenty of examples are given throughout the chapter to ensure that all the topics addressed here
are clear to a readership of novices in Corpus Linguistics.
KEYWORDS: Corpus Linguistics, Translation, Corpus compilation, Corpus annotation, Corpus tools.
1) Introdução
A Linguística de Corpus é uma abordagem empírica para o estudo da língua, em suas
diversas dimensões, como, por exemplo, na sintaxe, no léxico e no discurso. Por essa razão, é
especialmente útil no estudo da Tradução (OLOHAN, 2004; ZANETTIN, 2012). Essa
abordagem parte da observação de uma grande quantidade de textos, reunidos em corpora
(plural de corpus), para, a partir deles, fazer inferências a respeito de como a língua é usada.
A observação é feita por meio de ferramentas computacionais, que fornecem dados
quantitativos, mas que também permitem análises qualitativas.
Este capítulo constará de uma seção dedicada aos corpora (Seção 2), apresentando
seus diversos tipos e os objetivos a que se destinam, seguida de uma seção sobre a compilação
(Seção 3) e outra sobre a anotação de corpora (Seção 4). A Seção 5 tratará das ferramentas
computacionais de que se vale a Linguística de Corpus. Na Seção 6, será discutido como os
diversos tipos de corpora podem oferecer uma contribuição relevante às várias áreas da
tradução. A seção final é dedicada à conclusão.
2) O que é um corpus?
Os corpora são bancos de textos de linguagem autêntica, criteriosamente construídos,
destinados à pesquisa e legíveis por computador. Existem corpora que podem ser
consultados on-line, e corpora que podem ser consultados off-line. Muitos desses últimos são,
em geral, corpora especializados compilados por pesquisadores conforme seus objetivos (vide
Seção 3). Quando for esse o caso os chamaremos de corpora personalizados.
Na Linguística de Corpus, enfatiza-se sempre a linguagem autêntica, pois a língua é
tida como um sistema probabilístico (HALLIDAY, 1961), ou seja, um sistema em que,
embora muitas construções sejam possíveis, algumas delas têm probabilidade maior de
ocorrer. Em outras palavras, nem tudo o que é possível ou gramatical numa língua de fato
ocorre. Assim, por exemplo, apesar de amigo próximo ser uma combinação possível em
português brasileiro, a colocação mais provável, mais comum é amigo íntimo. Isso pode ser
confirmado no Corpus do Português12 em que amigo próximo totaliza 2 ocorrências somente
no Português Europeu (PE), e amigo íntimo resulta em 46 ocorrências ao todo, isto é, no PE e
no Português Brasileiro (PB).
Os corpora devem ser criteriosamente construídos, de acordo com o objetivo a que se
destinam, isto é, deve-se ter a certeza de que os textos compilados são representativos do
campo que se deseja pesquisar e são de fonte confiável, caso contrário os resultados podem
não ser. Esse tópico será discutido em detalhe na Seção 3.
Finalmente, os textos devem estar em formato digital para poderem ser lidos por
ferramentas computacionais.
1
Todos os corpora mencionados neste capítulo são detalhados em Viana (2014), neste volume.
2
Corpus do Português: http://www.corpusdoportugues.org.
período do século XIV ao XX, com textos do PB e PE. Foi compilado por Mark Davies da
Brigham Young University e Michael J. Ferreira da Universidade de Georgetown. A tela
abaixo mostra uma busca pela palavra ‘implicar’ (Seta 1) apenas em textos dos séculos XIX e
XX (Seta 2), o número de ocorrências no corpus – 88 (Seta 3) e os respectivos exemplos (Seta
4).
2 4
3
Lácio-Web: http://www.nilc.icmc.usp.br/lacioweb/.
4
Corpus Brasileiro: http://corpusbrasileiro.pucsp.br.
5
NILC/São Carlos: http://www.linguateca.pt/acesso/corpus.php?corpus=SAOCARLOS.
6
ECI-EBR: http://www.linguateca.pt/acesso/corpus.php?corpus=ECI-EBR.
2.1.3) Corpora bi- ou multilíngues
São corpora em duas ou mais línguas, como o próprio nome já diz. São esses os mais
usados nos estudos relativos à Tradução, pois permitem a comparação entre línguas. Podem
ser de dois tipos: paralelos e comparáveis.
7 COMPARA: http://www.linguateca.pt/COMPARA.
8
CorTrad: http://www.fflch.usp.br/dlm/comet/consulta_cortrad.html.
9
COPA-TRAD: http://copa-trad.ufsc.br/
O COPA-TRAD, sediado na Universidade Federal de Santa Catarina, é composto por
cinco corpora distintos: (1) COPA-LIJ (Corpus Paralelo de Literatura Infantil e Juvenil), (2)
COPA-MDT (Corpus Paralelo de Meta-Discurso em Tradução, (3) COPA-RAC (Corpus
Paralelo de Resumos Acadêmicos), (4) COPA-TEJ (Corpus Paralelo de Textos Jurídicos, e
(5) COPA-TEL (Corpus Paralelo de Textos Literários).
Uma das formas de apresentação dos resultados é denominada concordância, que
apresenta, em contexto, todas as ocorrências da palavra de busca no corpus. No caso de um
corpus paralelo como o COMPARA, a concordância é exibida de forma alinhada, ou seja, os
exemplos aparecem lado a lado nas duas línguas (vide Figura 3).
Figura 4: Tela inicial do CorTrad mostrando uma busca pela palavra ‘doure’
Uma busca pela palavra ‘doure’, no subcorpus Técnico-científico, composto, por ora,
por um livro de culinária, originalmente escrito em português, traz 94 ocorrências, como
indicado na Figura 5.
Figura 5: Concordância parcial para ‘doure’ no subcorpus Técnico-científico do
CorTrad
10
CorTec: http://www.fflch.usp.br/dlm/comet/consulta_cortec.html.
Figura 6: As 22 palavras mais frequentes no subcorpus de Autoclaves do CorTec
3) Compilação de um corpus
O primeiro passo para a compilação de um corpus é definir seus objetivos, isto é, para
quê servirá o corpus: para consulta do tradutor? Para extração de terminologia de determinada
área? Para estudar estratégias de tradução? Para comparar diversas traduções de um mesmo
original? Uma vez definido o objetivo, devem ser estabelecidos os parâmetros de sua
composição. Por exemplo:
a. será um corpus estático (i.e. fechado) ou dinâmico (i.e. com atualizações)?
b. incluirá apenas textos escritos ou também língua falada?
c. será monolíngue ou multilíngue?
d. se for multilíngue, será paralelo ou comparável?
e. que tipos de textos serão incluídos: jornalísticos, manuais, artigos acadêmicos,
teses e dissertações, etc.?
f. qual será a proporção entre os diversos tipos?
g. quais domínios abrangerá? Por exemplo, natação, sustentabilidade, segurança
bancária, obras de determinado autor, obras de determinada época, etc.
h. qual será a fonte dos textos a serem compilados: Internet ou material impresso?
No caso de material impresso, é preciso lembrar que esse deverá ser escaneado ou, na pior das
hipóteses, digitado.
i. os textos serão completos ou apenas fragmentos? Por exemplo, os textos que
compõem o Brown Corpus são constituídos de trechos de 2.000 palavras, enquanto o Bank of
English abriga textos completos. Já o COMPARA é constituído, no geral, de 30% das obras
contempladas.
j. como será estabelecido o tamanho do corpus, pelo número de textos ou pelo
número de palavras? Essa decisão muitas vezes terá de ser modificada durante o processo de
compilação devido à especificidade dos textos. Esse tópico é discutido abaixo.
Embora esses itens devam ser estabelecidos antes de se começar a coleta dos textos,
alguns podem sofrer ajustes ao longo do processo de compilação. Por exemplo, no caso de um
corpus de contratos em inglês e português (CARVALHO, 2007), em que inicialmente se
determinou o número de 500.000 palavras para cada língua, logo se observou que isso
produziria dois corpora com conteúdos bastante diversos uma vez que esses documentos
tinham extensões distintas nas duas línguas. Enquanto os contratos em português eram
sucintos por fazerem apenas referência à legislação vigente, os contratos em inglês eram
muito mais longos por explicitarem a legislação pertinente. Assim, esse critério foi alterado
para incluir 28 tipos contratuais com 5 exemplares de cada.
Outro problema que pode surgir refere-se à disponibilidade de textos nas várias
línguas. Como o inglês é a língua mais representada na Internet, a coleta de textos nessa
língua costuma ser bem mais fácil do que nas outras, o que acaba demandando, por vezes, um
tempo maior para a realização da tarefa. Em determinados casos pode ser necessário recorrer
a textos impressos para se obter um corpus balanceado, isto é, um corpus bilíngue com
conteúdo equiparável nas duas línguas.
Um fator frequentemente discutido na literatura (e.g. LEECH 1991, BIBER 1993,
McENERY et al., 2006) diz respeito à representatividade de um corpus, ou seja, o fato de que
um corpus deve ser representativo daquilo que se pretende investigar, contendo uma
amostragem significativa do universo a ser estudado. Quando isso é alcançado, os resultados
obtidos podem ser generalizados para todo o universo em estudo (LEECH, 1991). No
entanto, o que seria uma amostragem significativa? Segundo Biber (1993, p. 243), a
representatividade diz respeito ao quanto uma amostra inclui toda a gama de variabilidade da
produção linguística que se pretende investigar. Dessa forma, um corpus geral, por exemplo,
deve incluir o maior número de gêneros e tipos textuais para assegurar sua representatividade.
Apesar disso, Leech (1991, p. 27) adverte que toda representatividade “deve ser encarada
como um ato de fé”,11 uma vez que ainda não há métodos científicos que mensurem esse
aspecto.
Uma vez coletados os textos, eles devem ser salvos no formato .txt para poderem ser
lidos pelas ferramentas computacionais. Para tanto, devem antes ser limpos de todos os
elementos que não sejam de interesse para a pesquisa linguística como, por exemplo, tabelas,
URLs, etc. Em seguida, cada arquivo deve ser nomeado de forma a deixar claro seu conteúdo.
O nome pode incluir a área (por exemplo, “derm” para dermatologia, “inf” para informática,
“cul” para culinária), o tipo de texto (“jor” para jornalístico, “aca” para acadêmico, “rec” para
receita), a língua (“pt” para português, “in” para inglês), e quaisquer outras informações que
sejam consideradas relevantes. Assim, por exemplo, um arquivo denominado:
culrecmaspt01.txt deixa claro tratar-se de um texto de culinária (“cul”), mais especificamente
de uma receita (“rec”) de massa (“mas”) em português (“pt”). O número indica ser a primeira
receita de várias outras de massa.
Os arquivos devidamente nomeados devem ser armazenados em pastas. No exemplo
acima, pode-se ter uma pasta denominada “Culinária” e uma subpasta indicando a língua, no
caso “Português”.
Feito isso, os textos estão basicamente prontos para serem explorados por ferramentas
computacionais. Porém, eles ainda podem ser enriquecidos com vários tipos de anotação.
4) Anotação de corpora
A anotação de corpora mais comum é a morfossintática (POS em inglês, de part-of-
speech), em que cada palavra recebe uma etiqueta correspondente a sua categoria gramatical
naquele contexto. Uma anotação lexical permite identificar, por exemplo, estrangeirismos,
entidades nomeadas (nomes próprios), termos técnicos, etc. Campos semânticos como cor,
roupa, sentimentos, modalidade (e.g. obrigação e possibilidade) também podem etiquetados.
Por exemplo, no COMPARA, as cores são etiquetadas semanticamente. Assim, uma busca
pela palavra ‘branco’ retorna 200 ocorrências em que essa palavra de fato denota uma cor, 96
em que se refere a raça, 9 em que é usada de forma metafórica ou idiomática, e 8 em que se
refere a vinho. Finalmente, temos etiquetas discursivas, que indicam as várias partes de um
texto, por exemplo, num texto acadêmico: resumo, introdução, materiais e métodos; ou numa
11
No original: “At present, an assumption of representativeness must be regarded largely as an act of faith”
(tradução da autora).
receita: ingredientes, modo de fazer, etc. Na realidade, cada pesquisador pode criar as
etiquetas que forem mais relevantes à sua pesquisa.
Essas anotações possibilitam pesquisas bastante elaboradas. O CorTrad, um corpus de
originais e respectivas traduções, tem anotação para cor e roupa. Assim, pode-se investigar,
por exemplo, como são traduzidas as diversas cores em qualquer um dos subcorpora que o
compõem (i.e. jornalístico, literário, técnico-científico). Santos et al. (2012), por exemplo,
estudaram o uso de cores nesses subcorpora e suas respectivas traduções. Concluíram que,
contrariando expectativas, as cores são muito empregadas na terminologia técnica, mas
variam de uma língua para outra, aumentando, assim, as possibilidades de erros tradutórios.
A seguir veremos as principais ferramentas que permitem a exploração de um corpus.
5) Ferramentas de investigação
Os corpora que não possuem ferramentas embutidas necessitam de ferramentas
externas para serem investigados. Os programas mais conhecidos que contêm essas
ferramentas são o AntConc (ANTHONY, 2004, 201212) e o WordSmith Tools (doravante
WST) (SCOTT, 199613) . O primeiro, desenvolvido por Laurence Anthony da Universidade
de Waseda, no Japão, pode ser baixado gratuitamente; o segundo, desenvolvido por Mike
Scott, é um programa comercial e pode ser adquirido on-line. Ambos apresentam as três
ferramentas básicas para a análise de um corpus: lista de palavras, lista de palavras-chave e
concordâncias.
12
AntConc: http://www.antlab.sci.waseda.ac.jp/antconc_index.html.
13
WordSmith Tools: http://www.lexically.net/wordsmith/index.html.
14
Esse corpus está disponibilizado no CorTec e foi compilado por Teixeira (2008).
Figura 7: Primeiras vinte palavras mais frequentes para um corpus de Culinária em
português listadas pelo AntConc
Como vemos, a lista de palavras exibe todas as palavras do corpus (ou texto) que está
sendo investigado por ordem de frequência, como nos exemplos acima, ou alfabética. No
AntConc, os totais aparecem no topo da tela, subdivididos em types (palavras distintas ou
formas) – 5.451 – e tokens (número total de palavras ou ocorrências) – 94.627. O WST exibe o
número total de formas no final da tela – no caso, 11.141. Pela alta frequência das palavras
gramaticais em qualquer tipo de texto, são elas que vão encabeçar a lista. As primeiras
palavras de conteúdo geralmente indicam o tema do corpus. Pelas listas acima, fica fácil
identificar ambos os corpora como sendo da área da culinária, pois em português sobressaem
col, chá, sopa, sal, xíc, minutos, enquanto em inglês temos minutes, time, add, tbsp, oil, oz,
mins. Ao final da lista, constam as palavras com uma única ocorrência, denominadas hapax
legomena (vide Figura 9).
Figura 9: Algumas das palavras com uma única ocorrência no corpus de Culinária em
inglês listadas pelo WST
As palavras com uma única ocorrência podem indicar tanto termos de uma área
especializada quanto vocábulos usados criativamente.
Como se pode observar, a lista gerada pelo AntConc contém apenas as palavras
peculiares ao corpus de culinária com suas respectivas frequências brutas (Freq). Além disso,
indica também a chavicidade (Keyness), uma medida que indica o quão típica é a palavra
naquele corpus.
A lista apresentada pelo WST (vide Figura 11) apresenta, além dessas informações,
também a frequência no corpus de referência (RC. Freq.), além das frequências relativas, em
termos percentuais, tanto do corpus que está sendo investigado (%) quanto do corpus de
referência (RC. %).
15
Esse corpus está disponibilizado no CorTec e foi compilado por Teixeira (2008).
Figura 11: Primeiras vinte palavras-chave para um corpus de culinária em inglês
geradas pelo WST
5.3 Concordanciador
Uma das ferramentas mais importantes para a Linguística de Corpus são os
concordanciadores, que geram linhas de concordância. Essas linhas apresentam todas as
ocorrências de uma palavra ou expressão de busca em contexto. No geral, a palavra é
apresentada no centro, isto é, com uma parte do contexto à direita e outro à esquerda. Muitos
concordanciadores permitem reordenar os resultados pela ordem alfabética das palavras que
ocorrem à direita ou à esquerda da palavra de busca. Esse processo facilita sobremaneira a
identificação de padrões recorrentes, como podemos ver na Figura 13.
1 a) de manteiga 1/2 xíc. (chá) de pinoli sal a gosto Modo de fazer: Refogue a c
2 as finas 1 1/2 col. (sopa) de manteiga sal a gosto Preparo Disponha a farinha
3 da 1 pitada de páprica 2 gemas 3 claras sal a gosto Preparo Lave as batatas, f
4 de purê de tomates 1 col. (chá) de mel sal a gosto Preparo Misture todos os i
5 obalo, abadejo etc.) em pedaços grandes sal a gosto Preparo Tempere o peixe e
6 nteiga, mexendo para misturar. Acerte o sal e a pimenta. Disponha o risoto nos
7 Junte os cubinhos de tomate e acerte o sal e a pimenta. Disponha os filés no
8 te a água para o cozimento, tempere com sal e a pimenta e deixe a panela semit
9 que aparecem. Reserve. Junte a água, o sal e o açúcar numa fôrma de alumínio
10 coloque o salsão, a manteiga, o açúcar, sal e pimenta e acrescente a água até
11 batata ralada à manteiga e tempere com sal e pimenta. Faça panquecas, apertan
12frescos, descascados e cozidos al dente sal e pimenta-do-reino moída 1 col. (s
13 tas médias descascadas e raladas grosso sal e pimenta-do-reino moída a gosto 1
14 da 4 col. (chá) de farelo de pão branco sal e pimenta-do-reino moída a gosto P
15 sa) picada Preparo Tempere os filés com sal e pimenta-do-reino moída a gosto.
16a salsinha e as azeitonas e tempere com sal e pimenta-do-reino moída a gosto
17mente) 1 col. (sopa) de salsinha picada sal e pimenta-do-reino moída a gosto P
18 ol. (chá) de páprica doce 1 ovo, batido sal e pimenta-do-reino moída a gosto P
19 sopa) de óleo 2 col. (sopa) de manteiga sal e pimenta-do-reino moída a gosto P
20 icada 3 col. (sopa) de salsinha, picada sal e pimenta-do-reino moída a gosto P
Figura 13: Linhas de concordância para sal, ordenadas pela 1ª e 2ª palavras à direita
A Figura 13 apresenta uma seleção das 845 linhas de concordância geradas pelo WST
para a palavra sal num corpus de culinária, em que podemos identificar os seguintes padrões à
direita da palavra de busca: sal a gosto, o sal e a pimenta, sal e pimenta-do-reino moída a
gosto.
A partir da leitura das linhas de concordância na Figura 14, é fácil notar que não se
trata de apartamento em hotel, mas de apartamento em prédio. Nesse caso, cabe uma nova
busca, dessa vez no corpus em português para identificar os contextos em que apartamento
ocorre (cf. Figura 15).
Nas linhas 7 e 8 da Figura 15, aparece a palavra single, como um tipo de apartamento.
Buscando essa palavra no corpus em inglês encontramos nas linhas 1, 2 e 5 (vide Figura 16),
a palavra room.
1 bath. * Rooms have a Queen bed and 2 single beds in the bedroom and a pull out
2 e Kitchens. Couples Room Options:- 2 Single beds or 1 King bedÊ Special Weekl
3 Square Inn was built in the 1860s as a single family home, and today its integrity
4 ek. Corporate rates are available for single business travelers Sunday-Thursday.
5 t pets at the Inn. Room rates are for single or double occupancy, $30.00 for each
6 VATE BATHROOMS: Rates & taxes apply Single/Double occupancy (except Garden Cott
7 es in San Antonio are available for the single business traveler, starting at $117
8 of your day. Corporate rates for the single weekday business traveler. Staying
9 Key West guest room rates are based on single or double occupancy and are subject
10 o (2) for one (1) spa service: book any single spa service and get another of equal
16
Esse corpus foi compilado por Navarro (2012) para sua dissertação de mestrado.
Embora single não se coloque com room, ou seja, não ocorre single room, observa-se
que corresponde, no contexto, a ‘apartamento’ em português, pois encontramos, por exemplo,
nas linhas 5, 6, e 9 da Figura 16 uma referência a single or double occupancy, ou seja,
apartamentos para ocupação por uma ou duas pessoas. Dessa forma, o tradutor se assegura de
que a melhor tradução de apartamento para o inglês é room.
Outra forma de averiguar equivalências é pela frequência da palavra no corpus. Uma
busca no mesmo subcorpus de Turismo-Hotelaria em português, no CorTec, mostra que a
palavra apartamentos aparece na 31ª posição, com 3.044 ocorrências.
Já no corpus em inglês, a primeira palavra de conteúdo é room, na 16ª posição, com
5.920 ocorrências.
1 General Considerations Patients with renal disease can present in a variety of way
2 s on urinalysis. Once it is clear that renal disease is present, the primary goals a
3 of the renal damage. The major types of renal disease can be grouped according to the
Podemos observar, na Figura 19, duas ocorrências de polycystic kidney disease (linhas
1 e 4), uma de medullary cystic kidney disease (linha 3), uma de medullary sponge kidney
(linha 2) e uma de myeloma kidney (linha 5). Embora renal disease seja uma colocação
frequente, quando se trata de uma doença específica (polycystic kidney disease e medullary
cystic kidney disease), temos kidney em vez de renal. Além disso, kidney é usado para se
referir ao órgão, como em medullary sponge kidney e myeloma kidney, que é também como
são usados rim e rins em português, como vemos na Figura 20.
1 ções de fazer avaliações estruturais do rim com detalhes finos, como dimensões de c
2 . Na estenose unilateral, a presença do rim contralateral íntegro exerce um efeito
3 . Na estenose bilateral, na estenose do rim único ou transplantado ou na coarctação
4 ocedimento11. Na situação particular do rim contraído unilateral, a decisão entre r
5 u eventualmente tentar revascularizar o rim pequeno deve levar em conta a dosagem d
1 rítica com disfunção renal importante e rins ecograficamente normais, podendo diagno
2 ), que normalmente são eliminados pelos rins. Embora controversas, existem evidência
3 is de parênquima pela ultra-sonografia. Rins menores do que 7cm, hiperecogênicos, se
4 ato gastrointestinal e excretados pelos rins. Na insuficiência renal crônica (I
5 irinas são normalmente excretadas pelos rins, níveis elevados dessas moléculas s
1 paciente selecionado tinha doença renal policística bilateral como doença primária
2 cas e tardia ou ausente na doença renal policística do adulto. À semelhança do que
3 istos renais simples ou da doença renal policística do adulto,4 desenvolvendo-se, s
4 os pacientes portadores de doença renal policística, os binefrectomizados e aqueles
5 penas os grupos de portadores de doença policística ou com diagnóstico indeterminad
1 ly examinations reveals the presence of chronic renal disease. Timing may be partic
2 a patient with such findings who has chronic renal insufficiency, for example, th
3 , then the most likely causes of chronic renal insufficiency in a patient wit
4 at patients with most forms of acute or chronic renal failure may be oliguric (urine
5 AS: Measurement of renal function in chronic renal disease. Kidney Int 38:167, 19
6 ion rate determination in patients with chronic renal disease. JAMA 199:252, 1967
7 Vascular calcification in chronic renal failure. i
8 desc="head"> Vascular calcification in chronic renal failure. The prevalence
9 tory included type 2 diabetes mellitus, chronic renal failure requiring hemodialysis
10 ith earlier studies showing that stable chronic renal failure patients adjust their
Em face disso podemos, com segurança, optar por chronic renal failure como a
melhor tradução de insuficiência renal crônica.
Salientando a utilidade e confiabilidade dos corpora comparáveis para o fazer
tradutório, Bernardini et al (2013) advogam a incorporação desse tipo de corpus e de
programas computacionais para sua exploração ao conjunto de ferramentas que os tradutores
já usam, no intuito de garantir um trabalho de melhor qualidade.
Os exemplos que apresentamos referem-se todos a linguagens técnicas. Uma vez
estabelecidos os equivalentes, esses podem vir a constituir glossários dessas áreas, como foi
feito, por exemplo, em Perrotti-Garcia & Rebechi (2007), Teixeira & Tagnin (2008) e Tagnin
(2013).17 A busca por equivalentes é também abordada nos capítulos de Moraes, Pagano et al.
e Rebechi, incluídos neste volume.
1. That’s another thing that can happen Isso é mais uma coisa que pode acontecer
to you that’s worse than a pain in the knee. com você que é pior do que uma dor no
joelho.
3. I mean, how trivial can you get? Quero dizer, quer coisa mais banal do que
essa?
5. My hands are quite small too, but Minhas mãos são pequenas, mas com dedos
with long, shapely fingers; like a pianist’s, longos, esbeltos como os de um pianista, se
not that I can play any keyboard except an bem que o único teclado que eu saiba usar
IBM one. seja o de meu IBM.
Virgília tinha agora a beleza da Virgília now had the beauty of age,
velhice, um ar austero e maternal; an austere, maternal look. She was
PBMA2(139): estava menos magra do que quando less thin than when I saw here the last
a vi, pela última vez, numa festa time at a Saint John’s festival in
de São João, na Tijuca... Tijuca…
Disponível era receber suas ordens, willing to take orders, sign checks,
assinar cheques, desligar as luzes, turn the lights off, pay the real estate
pagar o imposto predial, verificar a taxes, check to see the doors are
PBRF2(685): fechadura antes de dormir, locked before bed, willing to make
providenciar o seguro de vida e o arrangements for life insurance and
jazigo perpétuo no São the family plot at São João Batista.
João Batista.
Figura 25: Linhas de concordância para ‘São João’ no COMPARA
Podemos observar que, no primeiro caso, o nome da festa foi simplesmente traduzido
por Saint John’s festival. Embora exista um Saint John’s festival em outros países, em geral
com um denominador comum – a construção de uma fogueira –, a forma de celebrar varia de
19
PBJS1 significa Português Brasileiro Jô Soares e o número 1 refere-se à primeira obra desse autor no corpus.
Trata-se do romance O Xangô de Baker Street, traduzido por Clifford Landers.
20
Costa (2006) salienta as altas tarifas alfandegárias a que a cachaça estava sujeita por ser traduzida como rum
nos documentos de exportação. Desde 2009, “[o] nome “Mapa da Cachaça está protegido por lei [Decreto
6871/2009] e a sua produção está restrita ao Brasil” (http://www.mapadacachaca.com.br/artigos/as-
diferencas-entre-rum-e-cachaca/). Com isso, a cachaça também recebeu tarifação própria. Além disso, já está
dicionarizada (http://www.merriam-webster.com/dictionary/cachaça), havendo, assim, uma tendência de se
manter a denominação “cachaça” nos textos traduzidos.
lugar para lugar e, certamente, nenhuma dessas se assemelha à brasileira. Cabe perguntar, será
essa a melhor tradução para festa de São João? A tradução de termos culturalmente marcados
é sempre um problema e não há um procedimento fixo para tal. A opção dependerá da posição
do tradutor. Se quiser manter a especificidade da referência, aproximando o leitor à cultura de
partida (no caso, a brasileira), pode manter o termo na língua original e, eventualmente,
acrescentar uma pequena explicação, em nota de rodapé ou mesmo no próprio texto, como um
aposto. Se o tradutor preferir facilitar a leitura para seu público-alvo, pode traduzir o termo ou
mesmo empregar um termo que designe algo similar na cultura de chegada. 21 Nesse último
caso, justifica-se a tradução de “festa de São João” por Saint John’s festival. Já no segundo
exemplo, o nome do cemitério foi mantido na língua original, o que denota uma intenção, por
parte do tradutor, de ‘levar’ o leitor para a cultura brasileira.
Uma visão mais ampla sobre a tradução de marcadores culturais é apresentada por
Zavaglia et al. (2012), em que os autores analisam as versões alemã, francesa, brasileira e
portuguesa de um manual de refrigerador. Discutem, entre vários outros aspectos, como a
cortesia é expressa em cada língua-cultura. No alemão e no francês, os manuais se dirigem ao
destinatário de maneira mais formal, Sie e vous, respectivamente; enquanto os manuais
brasileiros usam você. Em contrapartida, os manuais portugueses evitam dirigir-se ao
destinatário por meio de um pronome. Além disso, o alemão, francês e português brasileiro
empregam formas de cortesia como bitte, veuillez/s.v.p., e por favor, ao passo que no
português europeu não se encontram expressões similares. Segundo os autores, essa estratégia
reflete as expectativas dos destinatários portugueses, que considerariam as formas de cortesia
um obstáculo, desviando a atenção do conteúdo instrucional do manual. Dessa forma, caso se
fosse traduzir um manual alemão para o público português, essa formas deveriam ser
eliminadas, ao passo que, na direção inversa, fórmulas de cortesia teria de ser incluídas.
21
Venuti (1995) chama a primeira estratégia de estrangeirização, e a segunda de domesticação. Schleiermacher
já apresentava essa dicotomia em 1813, em sua palestra Ueber die verschiedenen Methoden des Uebersezens. O
texto original e respectiva tradução para o português, realizada por Celso R. Braida, podem ser encontrados em
Heidermann (2010, p. 38-101).
22
David Lodge. Therapy. Londres: Secker & Warburg, pp. 3-97. 1995.
EBDL1T1: Terapia. Tradução de Maria do Carmo Figueira. Lisboa: Gradiva, pp. 11-88. 1995.
EBDL1T2: Terapia. Tradução de Lídia Cavalcante-Luther. São Paulo: Scipione, pp. 11-115, 1997.
EBDL1T1(900): «And how's the Angst ?» -- E o Angst , como vai?
Don't pretend you don't know Não finjas que não sabes o que é
EBDL1T1(903):
what Angst is. o Angst .
Don't pretend you don't know não queira dar uma de que não sabe
EBDL1T2(903):
what Angst is. o que é Angst .
Nas duas primeiras e nas duas últimas linhas notamos que a tradutora portuguesa,
responsável pela obra EBDL1T1, decidiu que Angst, uma palavra em alemão que significa
‘medo’, seria uma palavra masculina, enquanto a tradutora brasileira (vide EBDL1T2) optou
por considerá-la feminina. Outra diferença que se nota é que a tradução portuguesa usa a 2a.
pessoa do singular (“Não finjas”) enquanto a brasileira emprega a 3a. pessoa (“não queira
dar”).
Uma pesquisa que comparou traduções foi a de Gonçalves (2006) que construiu um
corpus paralelo com os contos Dubliners, de James Joyce, e suas respectivas traduções por
Hamilton Trevisan e José Roberto O’Shea para estudar as diferenças de abordagem dos dois
tradutores.
Neste volume, contamos com um capítulo que também compara traduções: Magalhães
e Blauth analisam alguns aspectos relativos ao estilo de seis tradutores da obra Heart of
Darkness, de Joseph Conrad. Essa pequena amostra já indica a gama de possibilidades que
esse tipo de comparação pode gerar.
Notamos, na Figura 27, home empregada com vários sentidos. Na primeira linha, tem
o sentido de “alvo”, que é recuperado na última revisão. Na segunda, refere-se a “asilo”,
sentido mantido em todas as versões. Já nas duas últimas, refere-se a “casa”, que está presente
nas duas primeiras versões da terceira linha, mas fica implícita na última, ou seja, “voltarem
juntos para casa” dá lugar a apenas “voltarem juntos”. Na quarta linha, a palavra home não é
traduzida em nenhuma das versões.
Apesar de a busca ter sido feita para home, a observação das várias versões revela
outras mudanças. Na segunda linha, por exemplo, podemos ver que a “lingering, painful
death” foi primeiramente traduzida por “uma morte lenta, dolorosa” e já na primeira revisão
alterado para “uma morte lenta e dolorosa”, com o acréscimo do conectivo “e”, produzindo,
assim, uma forma mais natural de se expressar em português.
6.3) Corpora personalizados
Quando podemos manipular os corpora inteiros, como no caso de construirmos nossos
próprios corpora, temos acesso, com o AntConc ou o WST, por exemplo, a uma tabela com
vários dados estatísticos, a partir dos quais podemos tirar algumas conclusões.
Os números parecem confirmar que as traduções costumam ser mais longas do que os
originais: há 5.038 palavras (tokens (running words) in text) em português em comparação a
5.528 na tradução em inglês.
7) Conclusão
O objetivo deste capítulo foi apresentar um panorama das possibilidades oferecidas
pelo uso de corpora nos Estudos da Tradução, sempre com farta exemplificação. Começamos
com uma definição de corpus no âmbito da Linguística de Corpus e passamos a descrever
alguns dos tipos de corpora que mais se prestam à pesquisa e ao fazer tradutório. Além dos
corpora disponíveis on-line, descrevemos os passos para a compilação de um corpus que se
adeque aos objetivos de pesquisa do investigador. Posteriormente, discutimos alguns tipos de
anotação que enriquecem os corpora. Na seção seguinte, abordamos as principais ferramentas
para a pesquisa com corpora: lista de palavras, lista de palavras-chave e concordanciador. Por
fim, discutimos alguns tipos de pesquisa possíveis com corpora, com ilustração de trabalhos
já realizados.
Obviamente, o capítulo não pretendeu cobrir o assunto de forma exaustiva, pois muito
dependerá do tópico que o pesquisador pretende estudar e de sua criatividade na exploração
de corpora. Uma área que não foi aqui abordada foi a da compilação e exploração de corpora
de aprendizes de tradução,23 o que requereria um capítulo por si só. Outra área foi a da
Tradução Audio-Visual, em que o uso de corpora ainda é bastante incipiente. Enfim, este
capítulo pretendeu estimular o leitor a enveredar por esse caminho ainda pouco explorado e
descobrir o quanto essa metodologia pode revelar – coisas que jamais poderiam ser
descobertas de outra forma.
8) Referências bibliográficas
ALUÍSIO, S. et alii. The Lacio-Web Project: overview and issues in Brazilian Portuguese
corpora creation. In: ARCHER, D.; RAYSON, P.; WILSON, A.; MCENERY, T. (Eds.).
Proceedings of the Corpus Linguistics 2003 conference. Lancaster: UCREL, 2003, p. 14-21.
Disponível em: <http://ucrel.lancs.ac.uk/publications/CL2003/papers/aluisio.pdf>. Acesso
em: 16 abril 2014.
23
Vide Oliveira (2012) sobre o emprego de um editor de planilhas eletrônicas para o alinhamento de textos em
um corpus de aprendizes de tradução.
ANTHONY, L. Advancing AntConc: Design and Performance Improvements for Multi-
Language. Japan Association for English Corpus Studies (JAECS) Annual Conference, Sept.
29, 2012, Osaka University, Osaka, Japan, 2012.
_____ AntConc: A Learner and Classroom Friendly, Multi-Platform Corpus Analysis Toolkit.
In Proceedings of IWLeL 2004: An Interactive Workshop on Language e-Learning
pp. 7-13, 2004.
BERNARDINI, S. & FERRARESI, A. Old needs, new solutions. Comparable corpora for
language professionals. In SHAROFF, S.; RAPP, R.; ZWEIGENBAUM, P.; FUNG, P. (eds.)
Building and Using Comparable Corpora, Springer, 2013.
GONÇALVES, L.B. Dubliners sob a lupa da lingüística de corpus: uma contribuição para a
análise e a avaliação da tradução literária. Tese de doutorado. USP – FFLCH, 2006.
HALLIDAY, M.A.K. “Categories of the theory of grammar”. Word, Vol. 17, No. 3, pp. 241-
292, 1961.
LEECH, G. “The State of the Art in Corpus Linguistics”. In: English Corpus Linguistics:
Studies in Honour of Jan Svartvik. Ed. by AIJMER, K. & ALTENBERG, B., London & New
York: Longman. 8–29, 1991.
MCENERY, T., XIAO, R. & TONO, Y. Corpus-based language studies. London & New
York: Routledge, 2006.
NAVARRO, S. L. M. Glossário bilíngue de colocações de hotelaria: um modelo à luz da
Linguística de Corpus. Dissertação de mestrado. USP - FFLCH, 2012.
PHILIP, G. 2009. Arriving at equivalence: Making a case for comparable general reference
corpora in translation studies. In: BEEBY, A., INÉS, P. R. & SÁNCHEZ-GIJÓN, P.
(eds.), Corpus Use and Translating: Corpus use for learning to translate and learning corpus
use to translate. Amsterdam: John Benjamins, 59-73. Disponível em
http://amsacta.cib.unibo.it/2124/1/ComparableCorpora.pdf
REBECHI, R.R. ‘Cachaça’ na tradução de obras literárias brasileiras para a língua inglesa.
TradTerm, São Paulo, v. 20, dezembro/2012, p. 95-110.
SANTOS, D., TAGNIN, S.E.O. & TEIXEIRA, E.D. CorTrad and Portuguese-English
translation studies: investigating colours. VARIENG, vol 12, 2012. Disponível em:
http://www.helsinki.fi/varieng/series/volumes/12/santos_tagnin_teixeira/
TAGNIN, S.E.O. (org.). Vocabulário para Fotografia – inglês/português. Série Mil & Um
Termos. São Paulo: SBS Editora, 2013.
TAGNIN, S. E. O. & TEIXEIRA, e. D. British vs. American English, Brazilian vs. European
Portuguese: how close or how far apart? - a corpus-driven study. In Lodz Studies in
Language 9, Frankfurt am Main. 2004, p. 193-208.
TEIXEIRA, E.D. A lingüística de corpus a serviço do tradutor: proposta de um dicionário de
culinária voltado para a produção textual. 2008. Tese (Doutorado em Estudos Linguísticos e
Literários em Inglês), Faculdade de Filosofia, Letras e Ci~encias Humanas, Universidade de
São Paulo, São Paulo
TEIXEIRA, E.D. & TAGNIN, S.E.O. Vocabulário para Culinária – inglês/português. Série
Mil & Um Termos. São Paulo: SBS Editora, 2008.
ZAVAGLIA, A.; AZENHA, JR., J.; REICHMANN, T. Cultural markers in LSP Translation.
In: BAUMANN, K.-D. (Ed.). Fach Translat Kultur. Interdisziplinäre Aspekte der vernetzten
Vielfalt. Berlim: Frank & Timme, 2012. p. 785-808.