TCC - Lívia Monteiro Silva

LÍVIA MONTEIRO SILVA
UNIVERSIDADE CATÓLICA DE SANTOS
O USO DE CORPORA NO ATO TRADUTÓRIO
Trabalho de Conclusão de Curso apresentado

como exigência parcial para obtenção do grau
de Bacharel em Tradução e Interpretação à
Universidade Católica de Santos.
Orientador: Prof. Me. José Martinho Gomes.
SANTOS – 2007
PDF Creator - PDF4Free v2.0 http://www.pdf4free.com

2
LÍVIA MONTEIRO SILVA
UNIVERSIDADE CATÓLICA DE SANTOS
O USO DE CORPORA NO ATO TRADUTÓRIO
Banca Examinadora:
Prof. Me. José Martinho Gomes, Universidade Católica de Santos
Prof. M.Sc. Carlota Frances Williams Lopes, Universidade Católica de Santos
SANTOS – 2007

3
SILVA, Lívia Monteiro. O uso de corpora no ato tradutório. Santos, 2007, 58 f.

(Trabalho de Conclusão de Curso) Universidade Católica de Santos.
Resumo: O propósito desse trabalho de pesquisa é o de ilustrar como os corpora

eletrônicos e programas de software dedicados aos tradutores podem se tornar
ferramentas que auxiliam na pesquisa em busca de adequação tradutória, de modo a
tornar a tradução um texto fluente aos seus leitores. De acordo com os conceitos de Nida
e Newmark, ou o foco do texto recai sobre a estrutura ou sobre o leitor. Além disso, há
três fatores que devem ser levados em consideração: as funções da linguagem, o tipo e a
finalidade do texto. Para cada tipo de corpus, paralelo ou comparável, pronto ou
customizado, há funções, características e vantagens diversas. A partir de exemplos
práticos é possível identificar qual tipo de corpus apresenta mais benefícios a
determinada pesquisa específica.
Palavras-chave: benefícios, corpus, corpora, pesquisa, tradução, ETC.

4
SILVA, Lívia Monteiro. The use of corpora in the translation process. Santos, 2007, 58
f. (Trabalho de Conclusão de Curso) Universidade Católica de Santos.
Abstract: This paper aims to demonstrate how online corpora and software programs
designed for translators can be used as tools that help in the search of translational
adequacy, in order to produce fluent translation for readers. According to the concepts of
Nida and Newmark, the focus of the text is either on the structure or on the reader.
Besides, three aspects must be taken into consideration: language functions, text type and
purpose. Each type of corpus, be it parallel or comparable, ready-to-use or manually
developed, has different functions, characteristics and advantages. By observing practical
examples, it is therefore possible to identify which corpus offers the most advantages to
each translation.
Keywords: advantages, corpus, corpora, search, translation, CTS.

5
Sumário
Introdução ................................................................................................................................. 06
I. Histórico do Corpus Lingüístico ........................................................................................ 08
1. Definição e origem ................................................................................................ 08

2. Lingüística de Corpus, Estudos Descritivos da Tradução
e Estudos da Tradução baseados em Corpora ...................................................... 09
3. Compilação de dicionários........................................................................................ 11
II. Tipologia dos Corpora: vantagens e características...................................................... 13
1. Corpus comparável e corpus paralelo.................................................................... 13

2. Internet e os sites de busca: Google....................................................................... 14
3. Corpus pronto.......................................................................................................... 17
3.1. WebCorp .......................................................................................................... 17
3.2. BNC.................................................................................................................. 22
3.3. Bank of English ............................................................................................... 24
3.4. COMPARA ..................................................................................................... 25
4. Corpus customizado................................................................................................ 28
4.1. Corpógrafo....................................................................................................... 28
4.2. CAT tools ......................................................................................................... 32
4.2.1. Memórias de tradução: Wordfast....................................................... 32
4.2.2. Concordancers: WordSmith Tools .................................................... 35
III. Equivalência e as Modalidades Tradutórias................................................................. 38
1. A equivalência segundo Nida.................................................................................. 38

2. A contribuição de Newmark nos modelos de tradução ......................................... 39
IV. Exemplos: metodologias de uso e usos diversos............................................................ 43
1. Tradutores e aprendizes ........................................................................................... 43

2. Metodologias de uso ................................................................................................ 44
3. As convenções sociais entre línguas e
suas equivalências baseadas em corpus................................................................... 46
4. Casos ilustrativos ..................................................................................................... 48
Conclusão................................................................................................................................... 54
Referências Bibliográficas....................................................................................................... 56
Bibliografía Consultada .......................................................................................................... 58
Eventos ....................................................................................................................................... 60
Apêndice 1: tabela de corpora online.................................................................................... 61
Apêndice 2: glossário .............................................................................................................. 62

6
Introdução
Este trabalho visa apresentar um meio de pesquisa eletrônico que garante uma
melhor adequação tradutória aos textos produzidos por tradutores e otimiza nossas
traduções em qualidade, quantidade e tempo: o corpus lingüístico. Essa coleção de textos
transforma a investigação terminológica do tradutor em algo mais palpável, resultando
em uma tradução fluente.
Como a língua vive em constante mudança, pretendemos demonstrar, no presente
trabalho, que os meios de pesquisa utilizados pelo tradutor necessitam de atualização a
todo o momento. Com a Internet e a possibilidade de se armazenar textos, coletar
informações pertinentes ao objeto e otimizar, em tempo e qualidade, as traduções
produzidas, já existem websites e programas de software especializados em satisfazer as
necessidades dos tradutores.
No primeiro capítulo, abordaremos, de forma concisa, o desenvolvimento dos
estudos baseados em corpus desde suas origens. Os Estudos Descritivos da Tradução, de
Toury, aliados à Lingüística de Corpus, tiveram uma grande importância para o avanço
dos estudos tradutológicos e serviram como base para os Estudos da Tradução baseados
em Corpus, iniciados por Baker. Esses últimos são relativamente novos, pois tiveram
início nos anos noventa, e extremamente relevantes à compilação de dicionários
modernos. Neste trabalho, consideraremos somente as propostas dessas correntes
teóricas, não nos aprofundando em teoria, posto que demandaria um trabalho de pesquisa
à parte.
Em seguida, no segundo capítulo, analisaremos detalhadamente a tipologia dos
corpora, suas principais características e vantagens. Dentre seus tipos, discorreremos
sobre as memórias de tradução, como é o caso do programa de software Wordfast.
Optamos por investigar somente este por ser de fácil manuseio e de menor custo
comparado aos outros programas. Outros tipos de corpora como os prontos, por exemplo
WebCorp, e customizados, no caso do Corpógrafo, serão detalhadamente explorados.
Para fins de ampliação do trabalho de pesquisa, anexamos uma tabela com os diversos
tipos de corpora (apêndice 1) e também um glossário com os termos de maior relevância
mencionados no decorrer do trabalho (apêndice 2). Os sites de busca também podem ser

7
vistos como um grande corpus, porém há muitas limitações, conforme apontaremos. É

importante ter em mente que, em qualquer meio de pesquisa, sejam eles livros,
dicionários, internet de forma geral, especialistas, ou a própria intuição, é necessário ter
bom senso e sempre se certificar da escolha.
No terceiro capítulo, concentrar-nos-emos em dois teóricos de modalidades
tradutórias, Nida e Newmark. O primeiro discorre sobre os tipos de equivalência, e o
segundo, sobre a importância das funções da linguagem, público-alvo e finalidade do
texto. Esses são uns dos principais aspectos que devem ser levados em consideração, ao
se produzir uma tradução de qualquer natureza. São também fatores que merecem
atenção especial na coleta de textos para a customização de um corpus e na busca por
expressões em corpora prontos, conforme abordaremos.
Por fim, no quarto capítulo, sugerimos as técnicas e programas a serem utilizados
para solucionar as dúvidas, sejam elas de cunho lingüístico, terminológico, sintático ou
estilístico, que muitas vezes atrasam o trabalho do tradutor, ou ainda tornam sua
produção inadequada, incorreta ou desatualizada.
O presente trabalho não abarca todas as teorias, tampouco todos os programas e
tipos de usuários, porém fornece as informações necessárias para se construir e também
propor novas e mais aprofundadas pesquisas.

8
I. Histórico do Corpus Lingüístico
1. Definição e origem
Antes de darmos início a um breve histórico do corpus lingüístico e da sua

importância para a compilação de dicionários, veremos o que é corpus. Segundo David
Crystal em A Dictionary of Linguistics and Phonetics:
[Corpus é] um acervo de dados lingüísticos, sejam textos escritos ou uma

transcrição de fala gravada, que podem ser utilizados como ponto de partida
para a descrição lingüística ou como um meio de verificar hipóteses
concernentes a uma língua. (1991 apud KRISHNAMURTHY, 2003, p. 11,
tradução nossa) 1
John Sinclair em Corpus, Concordance, Collocation define corpus como sendo

uma “coleção de textos cuja linguagem ocorre naturalmente, escolhidos para caracterizar
um estado ou variedade de uma língua” (1991 apud KRISNAMURTHY, 2003, p. 10,
tradução nossa)2.
Mona Baker define o termo de uma maneira mais específica, como sendo “uma
coleção ou textos corridos (o oposto de frases ou exemplos) dentro de um formato
eletrônico, podendo ser analisada automatica ou semi-automaticamente (não
manualmente)” (1995 apud TAGNIN, 2002, p. 83, tradução nossa)3.
Os primeiros estudos baseados em corpora4 lingüísticos de que se tem
conhecimento são os relativos à Bíblia, segundo Tony Berber Sardinha em entrevista
concedida à revista online Revel. Talvez não possam ser chamados de estudos, mas
foram, certamente, compilações de citações e concordâncias feitas por monges. Sardinha
(2004) acrescenta que é interessante entender por que se fazia esse tipo de trabalho: “A
razão é bem simples - não se pode 'inventar' ou adaptar a palavra de Deus - ela devia ser
1
“a collection of linguistic data, either written texts or a transcription of recorded speech, which can be
used as a starting point of linguistic description or as a means of verifying hypotheses about a language”.
2
“a collection of naturally occurring language text, chosen to characterize a state or variety of a language”.
3
“[…] any collection of running texts (as opposed to examples/sentences), held in electronic form and
analyzable automatically or semi-automatically (rather than manually)”.
4
Corpora é o plural de corpus. Corpi caiu em desuso e não consta nos dicionários modernos.

9
transcrita tal qual aparecia no texto original. Não se cogitava alguém ter 'intuição' da
palavra de Deus”.
Nos anos sessenta, lingüistas faziam suas pesquisas em pequenos corpora sem o
auxílio de um computador. Chomsky (apud MAIA, 2002, p. 222) julgou-os de natureza
restrita, distorcida, e que seria mais seguro confiar nas intuições de um falante nativo. É
fácil imaginar a dificuldade em se fazer uma busca entre 11 milhões de palavras usando
simplesmente os olhos. Naquela época, era justo pensar dessa forma; porém, com o
avanço da tecnologia e o maior acesso à Internet, os corpora atuais representam as
variedades da língua em tempo real e chegam a ser instrumentos de maior confiabilidade
do que um ser humano, já que na velocidade em que obtemos novas informações, torna-
se difícil para a intuição humana acompanhá-las, enfatiza Krishnamurthy (2003, p. 10).
2. Lingüística de Corpus, Estudos Descritivos da Tradução

e Estudos da Tradução baseados em Corpora
A Lingüística de Corpus (LC)5 refere-se ao estudo de amostras da língua, ou seja,

de corpora. De acordo com Laviosa (2004), muitas áreas foram influenciadas pela LC
como: a lexicografia, a lingüística educacional, a tradução computadorizada e assistida
por computador, a análise contrastiva e a terminologia, entre outras.
Porém, a LC ainda não havia sido incorporada aos Estudos da Tradução.
Entretanto, o uso de corpora não era totalmente desconhecido, visto que em 1986, na
Universidade de Lund, na Suécia, já havia sido compilado o primeiro corpus monolíngüe
comparável, isto é, textos originais e textos traduzidos da mesma área, e nesse caso,
mesmo idioma. A pesquisa em corpus era feita como um auxílio para melhorar a prática
tradutória, explorar o idioma ou compilar dicionários. Esse foi o caso do dicionário
American Heritage Dictionary, o primeiro a ser compilado baseado em LC.
Paralelos à LC, os Estudos Descritivos da Tradução, os EDT6, partem da teoria
dos teóricos Itamar Even-Zohar, Andrè Lefevere e Gideon Toury (1980 apud LAVIOSA,
2004). Alguns pontos em comum entre LC e EDT são a investigação de exemplos reais
5
Optamos por utilizar doravante a sigla de Lingüística de Corpus, LC, por já ser consagrada.
6
Optamos por utilizar doravante a sigla de Estudos Descritivos da Tradução, EDT, por já ser consagrada.

10
da língua, as regularidades lingüísticas como normas de um comportamento, e não como

norma prescritiva, e os padrões lingüísticos relacionados a fatores sócio-culturais. Ambos
adotam um modelo de pesquisa comparativa, e, ao examinar os corpora, são comparadas
as variedades lingüísticas dentro dos textos originais e suas próprias traduções, gêneros e
modalidades.
Porém, podemos também observar uma polarização entre EDT de um lado e LC
de outro. Os primeiros partem dos universais da tradução (cf. SARDINHA, 2002, p. 25-
26), que consistem em:
• Normalização: o uso em excesso das características da língua da

tradução em detrimento dos aspectos criativos ou menos comuns da
língua original;
• Simplificação: talvez para facilitar o entendimento, a linguagem das
traduções são muitas vezes mais simples do que a dos textos originais;
• Explicitação: freqüentemente, as traduções explicitam informações
que originalmente possuem aspectos implícitos;
• Padronização ou estabilização: é possível perceber maior semelhança
lingüística entre textos traduzidos do que entre originais.
Por outro lado, em LC, o princípio idiomático de John Sinclair (1991 apud
LAVIOSA, 2004) trata da atração entre palavras e dos padrões colocacionais
determinados por ‘blocos’ correspondentes.
A proposta dos estudos baseados em corpus nos anos noventa teve como ponto de
partida os EDT. A partir de Toury (1995 apud LAVIOSA, 2004), os EDT exerceram um
papel primordial na evolução dos Estudos da Tradução como uma disciplina prática e
acabou por contribuir com os Estudos da Tradução baseados em Corpora de Mona Baker,
os ETC7, por meio dos universais, de modo que ambos salientavam a importância de se
desenvolver uma metodologia descritiva para a comparação de resultados.
7
Optamos por utilizar doravante a sigla de Estudos da Tradução baseados em Corpora, ETC, por já ser
consagrada.

11
Em termos gerais, consoante Basil Hatim (1999 apud LAVIOSA, 2004, p. 42,
tradução nossa)8, “ ‘os Estudos da Tradução baseados em Corpus são certamente uma
nova corrente de pesquisa’, que não se limita somente a estudar o que está ‘no’ texto
traduzido, mas também ‘sobre a natureza da’ tradução, isto é, seu impacto ideológico”.
Em 1993, Mona Baker (1993 apud LAVIOSA, 2004) publicou sua obra Corpus
Linguistics and Translation Studies: Implications and Applications. Dois anos depois,
Corpora in Translation Studies: An Overview and Some Suggestions for Future Research
já apresentava uma abordagem mais promissora do uso de corpus nos estudos da
tradução, sem distinguir a LC dos Estudos de Tradução. A partir dessa fusão, os ETC
começaram a se desenvolver.
Na Internet, foram compilados corpora imensos de língua inglesa como o BNC
(British National Corpus) com 100 milhões de palavras e o Bank of English com 500
milhões de palavras. Ambos incluem não somente textos escritos, mas também gravações
e transcrições de fala como o Corpus of Spoken American English.
3. Compilação de dicionários
Conforme a criação de corpora eletrônicos avançava, muitos deles começaram a

ser compilados para uso em dicionários, inicialmente monolíngües, e, dessa forma, deu-
se início a uma nova fase.
Varantola (2002, p. 172) selecionou três das principais razões da frustração dos
tradutores com os dicionários de forma geral:
• Os exemplos dados pelos dicionários estão fora de contexto, porém,

toda vez que um tradutor precisa solucionar uma dúvida, ele(a) é
dependente do contexto;
• Os tradutores devem ter certeza sobre o uso de um equivalente, mas os
dicionários não indicam o uso de cada um;
8
“ ‘Corpus-Based Translation Studies is a truly new wave of research’ providing it did not limit itself to
studying only what is ‘in’ translated text but also is ‘of’ translation, that is its ideological impact”.

12
• Os trechos dos exemplos precisam ser mais longos, pois somente uma
palavra, duas ou três não são o bastante.
De acordo com Michael Hoey (2003, p. 7), consultor-chefe do Macmillan

Dictionary of English for Advanced Learners, os dicionários que são compilados com
pesquisa em corpus abrangem os pontos essenciais que devem aparecer acompanhando o
verbete: significado, gramática, pronúncia, gênero e contexto, colocações, expressões
idiomáticas, associação semântica, coligações e coligação textual. Em contrapartida, os
dicionários que não são compilados por meio de corpus, apresentam somente os três
primeiros quesitos, o que torna a pesquisa do tradutor insuficiente.
Por essa razão, dá-se importância à compilação de dicionários baseados em
corpus, já que assegura o uso de definições atuais e mais usuais, ou seja, os verbetes
tornam-se autênticos, afirma Krishnamurthy (2003, p. 11), consultor de Collins
Dictionaries, que é compilado pelo Bank of English.
Muitos dos dicionários modernos, como o Common Errors (LONGMAN...), já
trazem a informação de que foram compilados através de um corpus, nesse caso o BNC, e
são nitidamente mais satisfatórios para pesquisa.
De qualquer maneira, é conveniente lembrar que o dicionário – seja ele mono- ou
bilíngüe, específico ou geral – não é o único, mas apenas um dos instrumentos de auxílio
ao tradutor. Sendo assim, tradutores recorrem à Internet e a programas de software para
se certificarem do uso da palavra ou segmento em questão. Um número cada vez maior
de tradutores monta o seu próprio acervo tradutológico, assunto que discutiremos no
próximo capítulo.

13
II. Tipologia dos Corpora: vantagens e características
A pesquisa baseada em corpus apresenta inúmeras vantagens, não só para o

tradutor profissional, como também para o aprendiz de tradução. A partir de uma análise
específica feita em corpus, o processo tradutório torna-se muito mais fiel, em relação à
linguagem natural.
O lingüista de corpus Hunston enfatiza a importância do uso de corpora na
tradução:
Corpora ... têm mais a oferecer aos tradutores do que pode parecer à primeira
vista. Os corpora não somente fornecem evidências no que tange à maneira
com que as palavras são usadas e as possibilidades tradutórias de uma palavra,
frase ou sentença, mas também fornecem um insight para a natureza e o
processo da tradução em si. (2002 apud SARDINHA, 2002, p. 15, tradução
nossa) 9
Em busca de adequação tradutória e terminologia de uso freqüente e atual, muitos

tradutores vêm utilizando corpora eletrônicos, sejam eles CAT tools10, corpus pronto ou
customizado. Além disso, eles revelam grande abrangência, visto que podem ser
paralelos ou comparáveis, monolíngües ou bilíngües, como fonte de pesquisa ou estudo.
1. Corpus comparável e corpus paralelo
De acordo com Baker (1995 apud MAGALHÃES; BATISTA, 2002, p. 83), pode-
se dividir corpus em: comparável, compondo-se de textos originais e textos traduzidos,
ambos da mesma área de conhecimento, mas não necessariamente correlatos; e paralelo,
consistindo em texto original e sua respectiva tradução.
Tagnin (2004), em seu artigo Um corpus multilíngüe para ensino e tradução,
ressalta que o uso de corpus comparável permite ao tradutor observar o uso natural da
9
“Corpora … have more to offer translators than might at first sight be apparent. Not only can they provide
evidence for how words are used and what translations for a given word or phrase are possible, they also
provide an insight into the process and nature of translation itself”.
10
Acrônimo de Computer Assisted Translation tools traduzido como ferramentas de Tradução Assistida
por Computador. Nesse trabalho, optaremos por utilizar a sigla em inglês por questão de praticidade.

14
linguagem a fim de produzir uma tradução fluente, além de avaliar a equivalência de

significado e de uso de um termo dentro de contexto, podendo até produzir seus próprios
glossários. Bowker (2004, p. 216), comenta que com o corpus comparável, é possível
analisar os universais, como a simplificação.
Já o corpus paralelo, por conter o texto original e sua respectiva tradução, permite
que o tradutor analise os processos e estratégias de tradução em todas as suas áreas sejam
elas no âmbito morfológico, sintático, lexical e até textual. Uma outra vantagem do
corpus paralelo é a possibilidade de se analisar as traduções de profissionais mais
experientes.
2. Internet e os sites de busca: Google
A internet é, atualmente, a principal fonte de pesquisa para os tradutores, seja por

meio de sites específicos, dicionários online, glossários online, programas de busca ou
um software. E cada vez mais esse universo eletrônico vai se expandindo.
Além disso, podemos considerá-la como o maior corpus que existe, tendo por
interfaces seus mecanismos de busca. Um dos mais conhecidos mundialmente é o
domínio Google11. Ele possui algumas ferramentas que auxiliam o tradutor a pesquisar,
navegar na web, enviar e-mails, criar, organizar e compartilhar documentos pessoais, e
possui também alguns campos de preenchimento específico para uma pesquisa avançada
e/ou preferência de idioma. Apesar disso, o site não tem um propósito estritamente
lingüístico. Exibe, muitas vezes, conteúdo pouco afeito a pesquisas concernentes a
língua. Talvez, o Google Acadêmico forneça, contudo, uma pesquisa um pouco mais
confiável.
Em todo tipo de pesquisa e em qualquer material, o tradutor precisa, acima de
tudo, partir de suas próprias idéias e intuições. Não basta ser o maior ou o melhor corpus,
pois tudo está sujeito a erros. O tradutor tem de buscar soluções em mais de um meio de
pesquisa. Quando se trata de domínios abertos ao público, como é o Google, torna-se
11
Os websites e programas de software mencionados neste trabalho servem tão somente de ilustração como
tipos de corpora, sem fins lucrativos.

15
fundamental empregar técnicas de pesquisa12, tanto no caso de descobertas em primeira

mão, quanto na confirmação da pertinência de termos e expressões.
Primeiramente, o Google não diferencia maiúsculas de minúsculas e, muitas
vezes, nem mesmo a acentuação. Se forem digitadas no campo de busca mais de uma
palavra, automaticamente, o programa traz todos os sites que contenham as palavras
digitadas, porém não necessariamente juntas. De fato, na maioria das vezes, as palavras
aparecem separadas umas das outras. Para que isso não aconteça, basta colocá-las entre
aspas na ordem em que foram escritas; logo, os resultados serão mais satisfatórios, pelo
fato de serem reconhecidas pelo programa como unidades semânticas ou sintáticas
imutáveis.
Outro procedimento, pouco conhecido, é escrever intitle: antes do que se deseja
pesquisar. Se isso for feito, todos os resultados trarão a (s) palavra (s) no título e não no
corpo do texto; entretanto, se a preferência for pelo corpo do texto, a palavra a ser
digitada antes é allintext:. Também é possível fazer a busca dentro de um site específico
acrescentando a sua URL, por exemplo: ‘Ayrton Senna site: globo.com’; os resultados
obtidos correspondem apenas aos dos registros nos sites da globo.com.
Se a procura for por alguma extensão específica, digita-se ext: acrescido da
extensão desejada, como em: ‘Manual Excel ext: pdf’. Esse procedimento serve para,
entre outros propósitos, assegurar de que se trata de um site confiável ou escrito por um
nativo. Uma das maneiras de se certificar de tal procedência é conferir a terminação do
site, por exemplo .gov, .edu, .org.
Outro recurso essencial é o dispositivo em cache, que aparece, normalmente,
junto a cada link fornecido pelo mecanismo. Sua função é a de realçar em cores diversas
as unidades lexicais ao longo das páginas dos correspondentes links. Imagine que se
precise encontrar um determinado termo em uma página de conteúdo extenso. Sem esse
artifício, teríamos que ler toda a página em busca do referido vocábulo, despendendo
assim um tempo precioso. Ao clicar em cache, o tradutor rapidamente identifica não só o
termo, mas também sua incidência no texto.
O número de ocorrências torna-se importante quando, ao pesquisar expressões
diferentes, os resultados são quantitativamente discrepantes. Tome-se como exemplo o
12
Essas técnicas foram desenvolvidas a partir da prática de uso do site.

16
lexema ‘Comitê Gestor’. Ao digitarmos algumas possibilidades entre aspas, obtemos as

seguintes opções com as suas respectivas incidências:
The managing committee 117.000

The management committee 1.320.000
The steering committee 1.810.000
The executive committee 1.840.000
Entretanto, é extremamente importante que o tradutor tenha em mente que o

número de ocorrências não indica total certeza de que a pesquisa foi satisfatória, uma vez
que o mesmo deve considerar a proveniência do texto, ou seja, se o site é confiável ou
não. Os mecanismos de busca trazem informações de blogs, de sites de conteúdo adulto e
de sites sem nenhuma preocupação gramatical, ou de qualquer outro tipo irrelevante ao
tradutor.
Outra vantagem são as imagens do Google que funcionam como uma espécie de
corpus visual. Quando não conhecemos um objeto ou uma fruta, por exemplo, a imagem
nos indica uma direção, ou buscando o equivalente na outra língua ou fazendo uso de
uma tradução explicativa, isto é, definindo o termo em questão. Como traduzir a
expressão ‘magic eight ball’? Por meio das imagens, o tradutor verifica que se trata de
um brinquedo no formato de uma bola oito de bilhar, contendo diversas respostas para
perguntas feitas pelo seu portador.
Mais um recurso são os Bancos de Dados Pesquisáveis que fazem parte da
internet invisível, isto é, sites que não são acionados de imediato na pesquisa, ou seja, que
não estão na ‘superfície’ como os outros. Estima-se que a internet invisível é duas ou
mais vezes maior que a visível. Para nos aproximarmos desses bancos de dados
‘escondidos’ que constam de bibliotecas, escolas e bancos, digitamos no campo de
pesquisa do Google ao lado do assunto ou termo pesquisado a palavra database para
pesquisas em inglês e banco de dados para pesquisas em português. Serão mostrados
resultados que muitas vezes trazem no título a informação de que se trata de um banco de
dados.
Os trechos em que aparece em negrito o termo pesquisado são um ponto
importante sobre o qual os sites de busca ainda não se aperfeiçoaram. Não é possível

17
determinar o número mínimo ou máximo de palavras antes ou depois do termo em

questão. O vocábulo pode até mesmo aparecer no final do trecho ou isoladamente,
impedindo o tradutor de ter o conhecimento mínimo sobre o seu contexto.
Contornadas as armadilhas e limites da web, a pesquisa é essencialmente
baseada em corpus, e habilita o tradutor não só a pesquisar ou se certificar de um termo,
como também a montar o seu próprio corpus, principalmente com o acesso aos bancos de
dados e bibliotecas.
3. Corpus pronto
Atendendo a demanda por pesquisas de teor puramente lingüístico, foram

desenvolvidos websites como o WebCorp, BNC, Bank of English e COMPARA, para
citar alguns.
De modo geral, todos os sites citados acima são gratuitos e confiáveis, com
resultados satisfatórios e em constante atualização. Vejamos agora, detalhadamente, cada
um deles.
3.1. WebCorp
Criado originalmente para pessoas que têm interesse no idioma inglês e suas
particularidades, o site WebCorp, mantido pela Universidade de Birmingham, Inglaterra,
filtra os resultados da rede por meio de pesquisa em buscadores como o Google, mas sua
vantagem é trazer somente resultados de concepção lingüística. Seus usuários não são
somente tradutores, mas também lexicógrafos, lingüistas de corpus, professores e alunos,
publicitários, jornalistas e pesquisadores das mais diversas disciplinas. Podemos olhá-lo
como uma ferramenta que dá um tratamento diferencial e especial aos sites de busca.
Apesar de os resultados serem heterogêneos, isto é, a língua geral está mesclada
com línguas de especialidade, os resultados são apresentados ordenadamente e a palavra
de busca aparece realçada. Seguem outras vantagens de se pesquisar no WebCorp:

18
• A busca pode ser padrão, chamada de case sensitive, isto é, busca

exatamente o termo pesquisado, obedecendo letras maiúsculas ou
minúsculas e outros aspectos de pontuação, ou em case insensitive,
ignorando essas preferências;
• Por intermédio de um comando chamado concordance span, o usuário
escolhe o número de palavras que aparecerão antes e depois do termo
pesquisado, viabilizando assim à análise de colocações, por exemplo;
• O tradutor pode limitar o número de linhas de concordância, ou seja,
as ocorrências do site;
• É possível indicar a área de pesquisa, seja ela de artes, negócios,
esportes ou notícias;
• Pode-se restringir o ano em que o texto foi publicado, digamos entre
2000 e 2005;
• Tem a possibilidade de recuperar o texto integral;
• Ele, por fim, fornece a proporção type-token e uma lista de palavras
por ordem alfabética ou por freqüência.
Baker (1995 apud MAGALHÃES; BATISTA, 2002, p. 84) considera de grande

importância a proporção type-token, que indica ao tradutor se o texto é rico ou pobre, isto
é, se há repetição de palavras sem grande importância, como os artigos. Os tokens
representam o número total de palavras existentes no texto, repetidas ou não; e os types, o
número de palavras diferentes.
http://www.foreignword.com/
Document Dated: 2003/02/19 20:42:34 (server header)
Plain Text Word List 591 tokens, 277 types
more... Language guessers What language is this? Find a
Forum Ask language and translation related questions
the most interesting articles on language and translation that you can
the new search engine for language and translation resources.
Search for a professional by language, country and/or specialisation. Click

19
at Foreignword: All our free language tools are now also available
35000 entries) New section for language and translation related articles. --
Fonte: www.webcorp.org.uk. Acesso em: 23 set. 2007.
Portanto, para se analisar um bom texto, o número de types precisa ser

aproximadamente a metade do número de tokens. Além do WebCorp, outros corpora
prontos e programas de software oferecem esse dispositivo.
Podemos nos valer da proporção type-token, dentre outros usos, na simplificação,
comparando estatísticas de variação lexical e, na padronização, verificando os aspectos
lingüísticos entre original e tradução.
Um número alto da proporção type-token pode, por exemplo, ser

interpretado como uma conseqüência do processo de simplificação
lexical que vem ocorrendo em várias atividades comunicativas,
incluindo a tradução.
(BLUMKULKA; LEVENSTON, 1983 apud MAGALHÃES;
BATISTA, 2002, p. 98, tradução nossa) 13
A interface básica do programa permite ao tradutor restringir o site de pesquisa

(Google, Altavista, Metacrawler ou em toda web) e o concordance span, além de
escolher entre case sensitive ou insensitive:
13
“A high type-token ratio, for instance, may be interpreted as a consequence of the process of lexical
simplification which has been reported as taking place in a variety of mediated communicative activities,
including translation”.

20
A maioria dos sites de busca não aceita asterisco no campo de pesquisa para a
substituição de termos, prefixos e sufixos. Já o WebCorp14 permite esse uso nas seguintes
situações:
• Ao se colocar asterisco sem espaço no final de determinado termo, o

WebCorp busca por variantes desse mesmo termo, ex.: ‘run*’ - ‘runners’,
‘running’; ‘the *ing man’ - ‘the running man’, ‘the laughing man’;
• Ao se colocar asterisco com espaço antes ou depois do termo, o site
compila colocações contendo o vocábulo em questão, ex.: ‘run *’ - ‘run
to’, ‘run away’, ‘run along’;
• O mecanismo ainda permite asteriscos com espaço entre palavras. Ex.:
‘the * sank’ - ‘the boat sank’, ‘the ship sank’, the ferry sank’; ‘the * *
sank’, - ‘the “unsinkable” ship sank’ e ‘the ship had sank’.
Nesse último exemplo, ‘the ship had sank’, deparamo-nos com um erro
gramatical, pois o correto seria ‘the ship had sunk’. Isso serve como um alerta para os
pesquisadores, uma vez que a investigação lingüística na web não é infalível, isto é, está
vulnerável a erros.
No WebCorp, o tradutor ainda pode organizar a pesquisa depois de pronta, isto é,
pode-se determinar as linhas de concordância, à direita ou à esquerda da tela, em case
sensitive ou insentive, e também a data de publicação em ordem crescente ou decrescente.
Se for preciso fazer essas modificações, a tela do programa se altera ao se concluir a
pesquisa, tornando o processo muito mais rápido comparado à busca inicial.
14
Os exemplos dados foram retirados do próprio site na seção Guide.

21
Com a pesquisa pronta em ‘run *’:
http://www.renotahoeodyssey.com/
Document Dated: 2007/09/06 23:21:40 (server header)
Plain Text Word List 898 tokens, 466 types
a long wandering . A relay run ideally suited for teams of 12
next, until each runner has run 3 legs. A course that begins
Get close to history . You'll run along the trails where the emigrants
of finishing a long relay run where you began it, in Downtown
the Reno-Lake Tahoe area to run, hike, bicycle, swim, ski, golf and
Fonte: www.webcorp.org.uk. Acesso em: 24 set. 2007 .
Opções selecionadas após a pesquisa, alinhada à direita, case insensitive e ordem

decrescente:
2007093011:38:431 girls from 42 nations will run with 5 km or 10 km
0 You must be able to run it 5K in 40 minutes or
2007100200:00:003 Health Half Marathon run, 10K run the 5K run and walk. Cross
4 10K run, an USATF-certified 5K run it 5K fitness run/walk and
2007100215:18:431 2006 bike total: 2776M 2006 run the : 713M My race calendar My
2007100215:18:431 Weekly bike done: 0M Weekly run under : 7.3M Food log days
2007100122:14:481 had planned to meet and run this 8 AM; no distance was
0 roles => :db do run it -u root < #{current_path}/db
0 Laurel Mt. Ski Area is run the a private concessionaire. Hours
O WebCorp é capaz de solucionar as dúvidas mais difíceis dos tradutores, entre

elas as colocações, preposições e artigos, dúvidas essas que só um grande corpus de

22
constante atualização poderia sanar. Um exemplo, retirado de um documento jurídico e

retratado em sala de aula, foi a expressão ‘nenhum ônus recai sobre’. O problema
consistia em se obter o verbo inglês que casasse naturalmente com o substantivo ‘ônus’.
Nem mesmo os dicionários especializados nessa área foram satisfatórios, sendo que o uso
da palavra naquele contexto era de extrema importância. Utilizando a técnica do asterisco
em ‘onus * on’, os alunos do curso de Tradução e Interpretação analisaram os resultados
mostrados pelo programa e descobriram que os verbos adequados eram ‘lie’, ‘rest’ ou
‘be’. Os alunos chegaram a adequação tradutória só após a pesquisa feita no WebCorp.
Além do mais, por possuir essa concepção lingüística, a pesquisa é direcionada
com base no interesse do tradutor, eliminando as páginas não confiáveis. A partir desse
programa, a criação de um corpus customizado pode ser efetuada com maior segurança
na relação termo/situação.
3.2. BNC
O corpus pronto mais tradicional é o BNC, British National Corpus, mantido pela
Universidade de Oxford, com 100 milhões de palavras distribuídas em textos escritos e
transcrições de fala. Trata-se de um corpus monolíngüe, somente em inglês britânico,
com amostras de textos desde o século XX aos dias atuais, de gêneros e registros
variados.
Os textos escritos compreendem 90% do conteúdo do site e foram retirados de
jornais, periódicos, livros acadêmicos, cartas e ensaios, entre outros. As transcrições de
fala gravada, 10%, abrangem desde conversas informais, entre pessoas de idades, raças e
regiões diferentes, a reuniões governamentais.
Uma das muitas vantagens de se pesquisar no BNC é a de ser um conjunto de
dados lingüísticos. O tradutor pode tomá-lo como um meio de verificação do registro da
fala transcrita e gravada, e analisar as situações enunciativas para a melhor aplicação no
texto a ser traduzido.
Os produtos provenientes desse grande corpus são: BNC XML Edition, BNC Baby,
BNC Sampler, Brown Corpus e BNC World. São corpora com um número limitado de

23
palavras e textos, e se diferem em alguns pontos, embora o propósito seja o mesmo: a

investigação lingüística.
O site do BNC apresenta uma desvantagem quando comparado aos outros corpora
prontos mencionados no trabalho. Ele não destaca o termo de pesquisa, tornando assim
obrigatória a leitura de toda a frase. O BNC exibe linhas de concordância delimitadas por
ponto final. Dessa forma, o tradutor precisa apenas ler a frase inteira em que aparece seu
termo de busca. O conteúdo demonstrativo expõe 50 ocorrências15 do termo em pauta,
bem como a referência bibliográfica em forma de código. O usuário clica no link
correspondente e o site exibe de onde foi retirado aquele trecho.
A tabela abaixo representa parte da busca do vocábulo ‘imagine’:
Here is a random selection of 50 solutions from the 5851 found...
A6U 956 The reverential tone of Levin's text poses a problem which the movement's survivors, I
imagine, would be quick to condemn.
ACE 528 `;Why should you imagine you are of officer material.
ASN 863 That s as may be, but I can't imagine Elsie committing suicide.
AT4 1141 How and what with, Nutty could not imagine, but that wasn't her department.
B0P 1405 Slowly lower your head, slide back a yard or so, and then cast to the fish, or imagine you
are casting if you have no rod with you, without allowing the rod-tip to show over the edge of the
bank.
B21 457 In an extreme example, imagine you have been told you have an incurable disease.
BMC 2223 If you can accept the interpretative stance (and it is growing on me), I simply can't
imagine it being better realised than here.
BMS 3037 Imagine me up on stage, famous as Meryl Streep, getting my Oscar, saying `;Told you
so'; to old Dinwiddie and Mum and Dad.
Fonte: www.natcorp.ox.ac.uk. Acesso em: 8 out. 2007.
Segue a referência bibliográfica do código do último trecho exibido:

BMS Gate-crashing the dream party. Leonard, Alison. London: Walker Books Ltd, 1990, pp. 7-170.
4001 s-units, 40252 words.
Fonte: www.natcorp.ox.ac.uk. Acesso em: 8 out. 2007.
15
Para se ter acesso ao conteúdo completo do corpus, é preciso adquirir uma licença.

24
3.3. Bank of English
Em 1991, o Bank of English começou a ser compilado, pela Universidade de

Birmingham, para ser usado nos dicionários e livros Collins Cobuild. Ele é um corpus de
524 milhões de palavras do inglês moderno, para fins de análise, significados, gramática
e uso de tais vocábulos.
O corpus apresenta textos escritos das mais diversas fontes: jornais, revistas,
websites, livros de ficção e não-ficção, além de fala gravada de televisão, rádio,
entrevistas, e conversas informais. Dessa forma, a pesquisa envolve a linguagem não só
acadêmica, mas também cotidiana. E é por meio dessa compilação que os dicionários são
aperfeiçoados. A partir de uma análise detalhada, os dicionaristas estudam em que
contexto uma palavra é mais usada, na fala ou na escrita, sendo esse um dos muitos
aspectos que precisam ser levados em conta.
Frutos do Bank of English, o Corpus Concordance Sampler e o Collocation
Sampler disponibilizam, gratuitamente, uma amostra do corpus que contém 56 milhões
de palavras e forma 40 linhas de concordância, cada uma com no máximo 250 caracteres.
A busca pode ser feita em livros, jornais ou revistas britânicas, em livros americanos ou
em fala gravada da Inglaterra. O que os diferencia é a forma como é mostrada a busca.
No Corpus Concordance Sampler, é apresentado o termo de pesquisa em negrito
centralizado na frase; já o Collocation Sampler disponibiliza uma tabela somente com as
colocações encontradas. Os resultados são mostrados em tela pop-up na seguinte forma:
Most pharmacies (there are over 11,00) display sheaths and spermicides and probably the
and the ability to take decisions and display initiative. Careers in Civil Engineering
controls combine to give a crystal clear display, usable even in poor lighting conditions.
the appliances, water supply, power points, display, style and, last but not least, your budget!
Many of these will now become available for display. [p] Beggard Badge belonging to William
able to return every call you missed. Caller Display will be available to most customers in areas
there will be a children's art and craft display, with prizes. Children should base their
22.05/16khz sampling, 2x24 character LCD display, parallel and rs232/422 serial remote
[/h] I found your article in May on how to display pictures very useful. [p] We recently
`Of Thick Thum', and in an unprecedented display of enthusiasm proceeded to play both sides

25
and can be exported; several statues on display have name tags of distant parishes in
the show are the Falcons free-fall parachute display team, the Red Arrows, Tornados, Jaguars,
singer's head. TH'FAITH HEALERS at least display some sheer yeeah for-the-hell-of-it abandon,
attractions with cars to be sold at auction on display. [p] Centre stage will be this elegant 1932
including tables, chairs, carvers and display cabinets - can be ordered in mahogany or
Indeed, looking at the gleaming model on the display, it was clear that the business jet owes a
nervous laugh. `Well, then!" He made a great display of looking at his watch. `Is it really that
achievements. During adolescence people often display remarkably grandiose thoughts: they
religious subjects are exploited `for the display of transparent shadows, skilful tints, and
Corpus Concordance Sampler. Fonte: www.collins.co.uk. Acesso em: 8 out. 2007.
Embora apresente poucos exemplos e o usuário, no caso o tradutor, não tenha

possibilidade de ler o texto integral, o corpus mostra a palavra em destaque centralizada
na frase. O uso desse corpus permite ao tradutor um estudo sucinto das preposições, por
exemplo.
3.4. COMPARA
O COMPARA é um corpus literário paralelo que armazena uma compilação de

livros eletrônicos com traduções em português e inglês. Ele foi desenvolvido,
primeiramente, como um projeto de Processamento Computacional do Português pela
Linguateca16, sendo totalmente gratuito. O corpus auxilia no estudo da tradução,
principalmente a literária, comparando as características dos dois idiomas, sejam elas
relacionadas à correspondência ou às dificuldades de expressão entre as línguas; portanto,
desde pesquisadores e tradutores até professores e alunos podem utilizá-lo.
Até o presente momento, o corpus possui uma coletânea de textos de ficção,
contemporânea e não contemporânea, tanto em língua portuguesa quanto em língua
inglesa, resultando em mais de um milhão de palavras. Autores e tradutores da África do
Sul, Angola, Moçambique, Portugal, Brasil, Estados Unidos e Reino Unido autorizaram a
inclusão de partes de suas obras e traduções. Ao todo, desde a última atualização do site
em 16 de setembro de 2007, são 72 títulos originais e 75 traduções, dentre eles,
16
A Linguateca é um centro português de recursos para o processamento computacional da língua
portuguesa.

26
‘Memórias Póstumas de Brás Cubas’ de Machado de Assis, traduzido por Gregory

Rabassa como ‘The Posthumous Memoirs of Brás Cubas’ e publicações recentes como
‘O Xangô de Baker Street’ de Jô Soares, traduzido por Clifford Landers como ‘A Samba
for Sherlock’.
O COMPARA alinha todos os textos, estando sempre o original à esquerda e a
sua tradução à direita, e exibe o código da referência bibliográfica. Com um único clique,
o tradutor tem o conhecimento da obra, do lançamento da edição original e da tradução,
bem como do autor e tradutor.
O tradutor tem acesso às pesquisas simples e avançada. No primeiro caso, busca
simplesmente a palavra ou expressão por todo o corpus sem nenhuma distinção de país,
ano ou obra. No segundo tipo de pesquisa, o tradutor tem a possibilidade de refinar os
resultados. Nesse caso, há a opção de escolher se a consulta é por palavra ou expressão, e
onde ela está inserida, isto é, em notas de tradução, títulos e frases re-ordenadas, entre
outros itens. Além disso, o tradutor pode restringir textos ou variantes lingüísticas, como
por exemplo, somente textos de português de Moçambique ou inglês do Reino Unido, ou
ainda as datas de publicação, seja dos originais ou das traduções. Também há
possibilidade da pesquisa ser feita apenas de originais para traduções ou de traduções
para originais. Por fim, o tradutor pode escolher como quer a forma dos resultados: por
concordância, categoria gramatical, lemas, fontes, variantes ou combinação de
expressões.
Toda pesquisa, em português ou em inglês, tem de ser feita com cada palavra
entre aspas. A tabela abaixo parcialmente ilustra uma pesquisa contendo, em negrito, a
palavra ‘praça’ em uma tradução para o português de um texto em língua inglesa:
Breve descrição do corpus usado nesta procura:

Palavras portuguesas Palavras inglesas Unidades de alinhamento
1436549 1549565 97727
113 ocorrências.

27
Concordância
Procura: “praça”.
EBDL1T1(1876): Actualmente existe em frente da biblioteca, A vast conference centre and a state-
do outro lado de uma praça com o pavimento of-the-art concert hall now face the
axadrezado, um centro de conferências Library from the other end of a
enorme e uma sala de espectáculos de tessellated piazza.
primeira qualidade.
EBDL1T2(1868): Foi construído no meio de uma praça vazia, It’s built in a hollow square around a
com um pátio ao redor, onde havia um central courtyard in which there was
laguinho com uma fonte que quase não once a shallow pond and a seldom-
funcionava, repositório de muita sujeira functioning fountain, the repository
indecente. for much unseemly garbage.
EBDL3T1(830): Lá em baixo, na margem da Baía, onde os Beneath him, where the foothills
sopés se aplanavam e uniam, ficava o flattened out to meet the Bay shore,
domínio universitário, com os edifícios was the campus, with its white
brancos e os caminhos frondosos, o buildings and bosky paths, its
campanário e a praça, as salas de campanile and plaza, its lecture
conferências, os estádios e os laboratórios, rooms, stadia and laboratories,
ladeados pelas ruas rectilíneas da parte baixa bordered by the rectilinear streets of
de Plotino. downtown Plotinus.
EBDL5(799): Formavam-se longas e ondulantes filas na There were long looping queues for
praça de táxis e nas bilheteiras do metro. taxis, and for tickets in the
Underground.
EBDL6(1056): Persse colocou uma generosa quantia, em Persse thrust a generous quantity of
francos, nas mãos da praça de táxis, em francs into the hand of his bewildered
frente da estação. landlady and ran down the hill to the
taxi-rank in front of the station.
Fonte: www.linguateca.pt/COMPARA. Acesso em: 8 out. 2007.
Ao clicar no código do primeiro trecho ‘EBDL1T1’, a seguinte informação é

obtida:
EBDL1T1 David Lodge

1995 Therapy London: Secker & Warburg, pp 3-97. Copyright © 1995 David Lodge. Uso autorizado
por David Lodge.
ORIGINAL: Inglês, Reino Unido; 43746 unidades, 37668 palavras, 6873 tipos, 2150 unidades de
alinhamento.
1995 Terapia Tradução de Maria do Carmo Figueira. Lisboa: Gradiva, pp 11-88. Copyright © 1995
Gradiva Publicações, Lda. Uso autorizado por Gradiva Publicações, Lda.
TRADUÇÃO: Português, Portugal; 45185 unidades, 39006 palavras, 7919 tipos.
A referência abrange tanto os dados bibliográficos da obra original e tradução,

quanto à língua do país de origem, assim como número e tipos de palavras (proporção
type-token). Na tabela anterior, nota-se que somente a palavra pesquisada, ‘praça’,

28
aparece em destaque; sua correspondente em inglês, não. Por conseguinte, o tradutor

precisa ler todo o trecho e analisá-lo de acordo com a sua necessidade. Ao ler as
traduções de ‘praça’, percebemos que cada tradutor optou por uma tradução diferente em
contextos distintos, inclusive omitindo-a.
Conforme o exposto acima, percebemos que o COMPARA, como meio de
investigação de adequação lingüística, auxilia os tradutores literários tanto na produção
de suas traduções quanto de suas versões. Por conter material autêntico, muitas vezes o
tradutor pode buscar um termo já consagrado; ou, ao contrário, deparar-se com diversas
traduções de uma só expressão. O corpus do COMPARA apresenta, por exemplo,
somente três resultados para ‘casmurro’, um diferente do outro: ‘bloody-minded’,
‘stubborn’ e ‘gloomiest person’. A partir daí, o tradutor opta pela melhor expressão em
seu texto.
4. Corpus customizado
4.1. Corpógrafo
Ana Júlia Perrotti-Garcia (2006), em O uso de corpus customizado como fonte de

pesquisa para tradutores, declara que o Corpógrafo é a primeira ferramenta que propicia
aos tradutores, dentre outros usuários, efetuar pesquisas terminológicas sem nenhum
custo. Nele salvamos textos, sejam eles originais e/ou traduções para posteriormente
servirem como análise lingüística.
Por meio do Corpógrafo, o tradutor pode montar um corpus de textos traduzidos
e/ou originais destinados ao mesmo público-alvo, apresentando mesmo registro,
pertencentes à mesma área ou sub-área e voltados para determinada variante lingüística.
Concomitantemente, pode-se criar um corpus:
• Sincrônico: por exemplo, textos publicados a partir de 2000;

• Diacrônico: de épocas diferentes;
• Sintópico: textos de português do Brasil;

29
• Diatópico: textos de países diferentes de mesma língua.
Por ser de fácil acesso e ter alta qualidade e praticidade, no que tange às fases de
inclusão dos textos para futura pesquisa, o programa atrai cada vez mais novos adeptos.
Uma das razões é a facilidade de seu uso. Ao todo, são quatro fases.
O primeiro passo é a coleta. O tradutor pode efetuá-la a partir dos próprios textos
ou em sites de busca, observando, todavia, a sua adequação e proveniência. Pode ainda
analisar certos aspectos, entre eles a área, o público-alvo, o registro, o idioma e o campo
semântico, de forma que haja uniformização e qualidade nos textos coletados.
O segundo passo é o arquivamento desses textos selecionados. O Corpógrafo
aceita qualquer extensão (.txt e .doc, entre outros), pois ele mesmo possui um conversor;
além disso, os arquivos podem conter nomes longos, já que não há limite de caracteres.
Uma opção, dada por Perrotti-Garcia, para uniformizar os nomes dos arquivos e
mantê-los por área de interesse é iniciar com a palavra ‘corpus’, pois o programa alinha
por ordem alfabética, indicar o idioma (e.g: PT = português do Brasil, PP = português de
Portugal), em seguida incluir a área de especialidade dos textos, e por último a data.
Como nos exemplos abaixo:
Corpus_PT_veterinária_jan/07
Corpus_EN_vehicles_nov/06
No terceiro passo, os textos são armazenados no Corpógrafo para posteriormente

servirem como fonte de pesquisa. É possível guardá-los em pastas, ou simplesmente
salvar o arquivo como um documento isoladamente.
A última fase do processo corresponde à própria utilização desse corpus
customizado, como um meio de investigação lingüística, seja ela sintática ou
terminológica. É nesse momento que comumente se inicia a tradução em qualquer editor
de textos, sanando as dúvidas com o corpus customizado.
Fica clara a sua vantagem, uma vez que buscadores, como o Google, não possuem
filtros, pois são websites abertos, trazendo resultados de blogs e outros websites de textos
considerados inadequados. Acima de tudo, representa o resultado concreto do

30
discernimento do tradutor ao ter analisado o conteúdo previamente, pois, caso contrário, a

pesquisa tornar-se-ia insatisfatória e, muitas vezes, equivocada.
Um exemplo retirado ainda do artigo de Perrotti-Garcia é um texto da área de
Psicologia a ser traduzido que traz como temas principais: ansiedade, depressão e pânico.
Devido à importância do termo ‘pânico’, tornou-se imprescindível definir qual seria a
expressão em português para ‘panic syndrome’. As primeiras opções intuitivas da
tradutora eram ‘síndrome’, ‘alteração’ e ‘ataque do pânico’. Sendo assim, recorreu ao
Corpógrafo em busca do termo ‘pânico’. A partir dessa primeira pesquisa, somente em
textos do português do Brasil, surgiram novos termos aos três iniciais, ‘crise’ e
‘transtorno do pânico’. Em seguida, investigou os resultados com cada um dos cinco
termos acompanhados do termo ‘pânico’ (à esquerda da palavra). Nenhuma expressão foi
encontrada para ‘alteração’, e apenas uma para a palavra ‘síndrome’. ‘Ataque de pânico’
pareceu ser empregado em um sentido genérico. ‘Crise de pânico’ apresentou duas
ocorrências, número considerado insuficiente para um termo de extrema relevância no
texto. Finalmente, ‘transtorno do pânico’ revelou não somente ser a expressão correta
para o contexto em questão, mas também aquela que acompanhava muitos outros termos
de áreas afins, entre elas: ‘transtorno de ansiedade’, ‘transtorno obsessivo-compulsivo’ e
‘transtorno dismórfico’.

31
Vejamos como o Corpógrafo mostra essas informações na seguinte tabela17:
Fonte: Perrotti-Garcia (2006). Acesso em: 27 mar. 2006.
Com o exemplo exposto acima, percebemos que, à medida que o tradutor utiliza
seu corpus customizado, os resultados são mais precisos, rápidos e coerentes. Também
nos leva a crer que é preciso nos certificar a todo o momento, por mais insignificante que
a palavra ou expressão seja.
17
Por ser uma tabela extensa, optamos por anexar somente a primeira parte para fins de ilustração do
programa e seu funcionamento.

32
Perrotti-Garcia (2006, p. 78) deixa claro que “o tradutor não estará ‘perdendo
tempo’, mas sim ‘investindo sua atenção’ na coleta de textos selecionados” a fim de
customizar esse corpus inicial, podendo ser ampliado posteriormente e oferecendo ao
tradutor uma fonte de pesquisa confiável e livre de resultados indesejados.
4.2. CAT tools
As CAT tools abrangem das mais simples às mais complexas ferramentas de

tradução assistida por computador, tais como:
• Corretores ortográficos e gramaticais

• Bancos eletrônicos de terminologia
• Dicionários em formato CD-ROM
• Memórias de tradução
• Concordancers
No presente trabalho, cobriremos apenas os dois últimos itens citados, pois são
aqueles que se associam intimamente ao conceito de corpus.
4.2.1. Memórias de tradução: Wordfast
Bowker (2004, p. 220) explica que, as memórias de tradução, MT18, dentre as

quais algumas das mais utilizadas são o Trados, o Dejà-vu e o Wordfast, permitem que o
tradutor aproveite e re-utilize as traduções já feitas. As MT fazem partem do tipo de
corpus paralelo – bilíngüe, visto que exibem o texto original alinhado com a respectiva
tradução. O programa segmenta os trechos, como veremos a seguir, e armazena as duas
unidades, original e tradução, em um banco de dados. Ao surgir uma nova tradução, mais
uma vez o programa cria os segmentos e, automaticamente, compara-os com os
18
Optamos por utilizar doravante a sigla de Memórias de Tradução, MT, por já ser consagrada.

33
armazenados. Se algum trecho for encontrado, o programa avisa ao tradutor, que, por sua
vez, poderá reutilizá-lo, modificá-lo ou rejeitá-lo.
É essencial frisar que não se trata de ferramentas de tradução automática19,
distinguindo-se em diversos fatores. A começar pelo fato de as memórias de tradução
serem, ao contrário das traduções automáticas, programas de software vazios que o
tradutor alimenta com seus originais e suas respectivas traduções, ainda no processo
tradutório.
Além disso, as memórias de tradução possuem comandos que dão suporte ao
tradutor, ao passo que os tradutores automáticos já trazem consigo um pacote básico de
termos e traduzem literal e automaticamente, como o próprio nome sugere. Em seguida, o
tradutor edita o texto fazendo as adaptações necessárias. Um tradutor automático,
traduziria save money como salvar dinheiro, enquanto que o correto é economizar
dinheiro. Por essa razão, o bom senso do tradutor encontra-se sempre em primeiro lugar.
As MT auxiliam principalmente nas traduções de manuais, listas de produtos, e
traduções de cunho técnico-financeiro-jurídico, dada a sua natureza repetitiva. São
utilizadas para traduções feitas individualmente e em grupo – nesse último em especial
pelo fato de possuírem um banco de dados. Assim, a uniformização da tradução torna-se
mais segura e acessível. Atualmente, muitas agências de tradução já exigem de seus
profissionais não só o conhecimento como também o uso desses programas de software.
Os comandos básicos do programa Wordfast, por exemplo, propiciam aos seus
usuários uma tradução mais produtiva e podem, assim, poupar-lhes tempo. Dentre tais
dispositivos, destaca-se a segmentação. Vejamos o que ela pode nos trazer em termos de
qualidade na tradução:
• O tradutor seleciona o trecho do original, segmentando-o e, tendo, para isso,

como limite um ponto final, ponto e vírgula ou até mesmo um parágrafo.
Após essa etapa, inicia-se a tradução;
19
Tradução de machine translations. É também possível encontrar os termos tradução automática ou
tradutor automático para o mesmo produto.

34
• Evita-se ‘pular’ linha ou parágrafo do texto acidentalmente, situação comum

quando traduzimos do papel ou de um texto que esteja em outra janela do
editor;
• Mantêm-se o mesmo estilo, layout e tipo de documento, pois a ferramenta
aceita diferentes extensões, como .doc e .pdf ;
• A sua revisão torna-se muito mais prática e fácil, pois tanto a língua original
como a língua da tradução estão no mesmo documento.
Cada segmento (original e tradução) recebe o nome de unidade de tradução, UT. São
essas unidades que permanecerão salvas no programa.
Em seguida, temos os placeables que não ficam na memória. São chamados de
placeables os números, endereços eletrônicos, gráficos, figuras e nomes, não sendo
preciso digitá-los novamente. Automaticamente, o software os reconhece como
placeables, e dá ao tradutor a opção de copiá-los. Esse comando é de enorme auxilio,
pois o tradutor não precisa ficar preocupado se digitou um zero a mais ou errou o nome,
além do tempo economizado.
O recurso fuzzy matching20 é muito aproveitado pelo tradutor, pois se trata de uma
procura de algo semelhante ao que foi escrito. Nogueira (2001, p. 158) exemplifica-o de
modo simples: se o original sobre o qual está trabalhando for ‘este livro é vermelho’ e na
memória do programa constar ‘este livro é azul’, este mostra, em primeiro lugar, a
sentença original (‘vermelho’) e a sentença da memória (‘azul’). Surge, em seguida, a
tradução que havia sido dada para aquele segmento (‘this book is blue’) e que estava já
armazenada no programa. Por último, o tradutor faz as alterações necessárias,
adicionando-as na memória para uso posterior.
O Wordfast, em particular, permite que se gerencie 3 glossários por vez e ainda
apresenta uma lista negra. Nela, entram as palavras que os tradutores insistem em digitar
errado, muitas vezes pelo vício da pressa, como é o caso de ‘adiminstrar’. Basta que o
tradutor dê um comando para que, todas as vezes que o digitar de forma errada, como no
exemplo acima, ele receba um aviso alertando-o do erro e possa assim substituí-la pela
palavra correta que o programa lhe mostra. Seria como um corretor ortográfico dos
nossos principais erros. A vantagem, comparada ao corretor do Microsoft Word, é que no
20
Não foi encontrado termo consagrado em língua portuguesa.

35
Wordfast não há limite, e o tradutor pode optar por esse comando quantas vezes for
necessário. Além disso, na Auto Correção do Word, o tradutor tem de fazer esse processo
manualmente ao perceber que erra muitas vezes aquela mesma palavra.
Essas memórias de tradução são consideradas de extrema confiabilidade e eficiência,
já que o próprio tradutor cria o seu corpus, que futuramente lhe servirá para as próximas
traduções. Tomamos como exemplo as traduções jurídicas em que é muito comum o
segmento em inglês ‘I do hereby certify’. Ao começar a digitá-lo, o programa já avisa
sobre traduções anteriores. Basta o tradutor aceitar a sugestão, evitando assim a digitação
desnecessária do segmento e, conseqüentemente, poupando-lhe tempo. Vale lembrar que,
se o tradutor trabalha com esse software, ele não precisa lembrar expressões usadas há
muito tempo em outros textos parecidos, pois o programa lhe apresentará os termos antes
utilizados para aquele contexto.
Como o custo para a aquisição de um programa de memória de tradução ainda é alto,
é possível configurar o Microsoft Word de acordo com as suas necessidades. Evidente
que ele apresentará limitações, mas alguns comandos simples, porém muitas vezes
desconhecidos, podem otimizar a tradução. A diferença é que, no Word, é preciso fazer
tudo manualmente, enquanto que, no Wordfast, o processo é automático. É importante ter
em mente que o Word não desenvolverá um corpus e nem uma memória de tradução, pois
ele é somente um editor de textos. O Auto Texto do Word é um recurso que sugere
segmentos completos a partir da digitação das primeiras letras de um determinado termo.
Para aceitar a sugestão, o tradutor tem apenas de pressionar enter e ela é inserida no
texto.
4.2.2. Concordancers: WordSmith Tools
Criado por Mike Scott, o WordSmith Tools é um outro tipo muito interessante de CAT
tools: os chamados concordancers, programas que também não deixam de ser um corpus
customizado.
Os concordancers são programas que mostram ocorrências de uma palavra ou
expressão dentro de um corpus monolíngüe, bilíngüe ou multilíngüe, para fins de
apreciação textual. O WordSmith Tools, tem como objetivo a análise de palavras-chave,

36
as colocações e as unidades de sentido, utilizando amostras carregadas pelo próprio

tradutor – uma vez que o programa vem vazio – com o exato propósito da investigação.
Alguns de seus principais recursos, descritos por Magalhães e Batista (2002, p. 86-93)
são:
• Wordlist: cria uma lista dos textos em uso por ordem alfabética, de
freqüência e de estatística, a proporção type-token e a sentença ou
parágrafo por completo (não somente uma palavra), ambientando o
tradutor em sua procura;
• Keyword: cria uma lista com as palavras-chave do texto;
• Concord: cria linhas de concordância (concordancers) nos arquivos de
texto, ou seja, o tradutor especifica uma palavra e a função concord a
busca pelos textos trazendo-lhe a informação desejada e alinhando as
ocorrências;
Fonte: WILKINSON (2006). Acesso em: 24 set. 2007
7 Viewer & Aligner: alinha o texto original e a sua tradução, linha seguida de
linha, o que permite ao tradutor a análise completa de seu texto.
É possível que o tradutor se depare com um texto sobre moda em que apareça a
palavra ‘fabric’, e a sua dúvida transite entre ‘pano’ e ‘tecido’. Após ter carregado o

37
programa com textos que apresentem confiabilidade e que sejam da área e público-alvo
em questão, dá-se início à pesquisa. A escolha pode recair sobre um ou outro, e é essa
análise no WordSmith Tools que propiciará segurança ao profissional no ato tradutório, já
que o mesmo obteve a certeza de que escolheu termos situacionalmente adequados e
corretos.

38
III. Equivalência e as Modalidades Tradutórias
Para que possamos discorrer sobre as metodologias do uso de corpus e sobre os

exemplos do capítulo seguinte, faz-se premente apresentarmos as propostas de Nida e
Newmark .
1. A equivalência segundo Nida
Nida (1964 apud BARBOSA, 1990, p. 32-33) vê a língua como um “código

comunicativo” e considera que a visão gerativa da língua, proposta por Chomsky, é
fundamental para o tradutor, pois o mesmo deve ir além da simples comparação de
estruturas. O tradutor deve tentar descrever os mecanismos pelos quais a mensagem é
decodificada, transferida e transformada para outra língua.
A partir dessa visão, Nida descreve o primeiro modelo operacional da tradução,
dividido em três etapas:
• Redução do original em núcleos mais simples e semanticamente mais

evidentes;
• Transferência estruturalmente simples do significado do original para a
língua da tradução;
• Geração de uma expressão estilística e semanticamente equivalente na
língua da tradução, uma vez que afirma que um tradutor competente
traduz “unidades de significado”.
Nida (ibidem21) concebe a tradução como uma etapa do ato comunicativo, assim
como o leitor e o tradutor podem ser elementos atuantes desse processo. O teórico afirma
que a tradução não é simplesmente um processo de “encontrar equivalentes”, mas é
também “um processo de reprodução do caráter dinâmico global da comunicação”.
21
Por motivos de clareza e padronização, optamos pelo uso de ibid. para indicar mesmo autor e mesma
publicação, e ibidem, para mesmo autor, mesma publicação e mesma(s) página(s).

39
Dessa maneira, Nida (1964 apud BARBOSA, 1990, p. 34) propõe que, antes de se
produzir uma tradução, existam três fatores que devem ser considerados: a natureza da
mensagem, a intenção do autor e o tipo de público visado pelo original e pela tradução.
Visto que na tradução deve-se buscar a maior equivalência possível entre a
mensagem da LT22 e a mensagem da LO, Nida (ibid., p. 33) separa dois tipos
fundamentais de equivalência: formal e dinâmica.
O primeiro tipo, a equivalência formal, visa ao conteúdo e à forma da mensagem
da LO, havendo uma preocupação em manter a correspondência estilística em cada frase
entre os dois textos.
No segundo tipo, a equivalência dinâmica, tem como objetivo atingir total
naturalidade na mensagem da LT, de forma que “o leitor encontre no texto modos de
comportamento e outros elementos extralingüísticos relevantes em sua própria cultura”
(ibidem), ou seja, o efeito sobre os leitores do texto original e os do texto traduzido seria
o mesmo.
Waltensir Dutra (1983, p. 82) chama esse tipo de equivalência, uma tradução
impressionista, em que o tradutor age como um intermediário, prezando o leitor. Dutra
(ibidem, p. 83) reforça que é preciso que ambas se combinem, a tradução impressionista,
ou seja, dinâmica, com a lingüística, que preza o autor e os elementos lingüísticos, de
modo que se alcance naturalidade e adequação tradutória.
O corpus de textos literários, COMPARA, serve-nos como ótimo exemplo de
investigação das equivalências formal e dinâmica. O tradutor aprendiz ou o profissional
poderá analisar as traduções de outros tradutores experientes de modo a encontrar nos
textos da LT o que mais se sobressai, a correspondência estilística ou o efeito semelhante
ao original sobre o leitor, servindo assim como um estudo para futuras traduções.
2. A contribuição de Newmark nos modelos de tradução
Newmark (1981 apud BARBOSA, 1990, p. 49) se debruça com uma atenção
especial no conceito de princípio do efeito equivalente exposto por Nida, que beneficia o
leitor, facilitando sua compreensão, aproximando-o do texto, caso em que a tradução
22
A nomenclatura utilizada nesse trabalho será LT para língua da tradução, e LO língua original.

40
procura reduzir as diferenças estruturais e as realidades extralingüísticas expressas na LO

e na LT. No entanto, Newmark (1981 apud BARBOSA, 1990, p. 50) aponta o equívoco
de não se considerar as funções da linguagem, tipo e finalidade do texto, pontos
relevantes que determinariam quais os procedimentos a serem utilizados na tradução.
Esses três aspectos observados por Newmark são importantíssimos quando o
tradutor cria um corpus customizado, no Corpógrafo, por exemplo. O processo de coleta
dos textos precisa ser minuciosamente analisado. As funções da linguagem, o tipo e a
finalidade dos textos coletados devem ser semelhantes ao texto da LO em que o tradutor
está trabalhando. Por exemplo, um texto médico publicado em uma revista para
profissionais da respectiva área apresentará uma linguagem diferente de um artigo
médico publicado em um jornal popular. Além desses três fatores, a data de publicação
também deve ser considerada, uma vez que a língua se altera constantemente. A
terminologia utilizada antes dos anos 90, por exemplo, pode atualmente estar obsoleta.
O teórico divide os modos de traduzir em dois extremos: o primeiro, denominado
de tradução semântica, visa a LO e o autor; e o segundo, de tradução comunicativa, em
que o foco recai sobre a LT e o leitor.
Newmark (ibid., p. 52) define a tradução comunicativa como sendo aquela em
que tem o objetivo produzir no leitor da LT um efeito próximo ao efeito produzido sobre
os leitores do texto original. Já a tradução semântica visa transmitir o significado
contextual com “a maior aproximação permitida pelas estruturas semânticas e sintáticas”
da LT.
Considerando esses dois pólos e ainda as funções da linguagem, o tipo de texto e a
finalidade da tradução, Newmark descreve os procedimentos técnicos da tradução,
dezoito ao total.
Descreveremos abaixo dez dos procedimentos tradutórios propostos por
Newmark:
a. Sinonímia lexical: tradução de um equivalente próximo na LT, trata-se de ir

em busca de um sinônimo adequado;
b. Rótulo tradutório: uso de um equivalente aproximado que pode vir
acompanhado de aspas;

41
c. Definição ou equivalente descritivo: substitui-se um elemento lexical da

língua original pela definição;
d. Paráfrase: consiste em uma ampliação ou re-escritura livre do significado
de um período. Newmark frisa que esse é o último recurso do tradutor, pois
foge de qualquer vínculo com o original;
e. Expansão: a fim de atender às necessidades gramaticais da tradução,
expande-se gramaticalmente um segmento;
f. Contração: oposto da expansão, a estrutura é reduzida;
g. Reconstrução de períodos: trata-se de reformular os períodos, ou seja,
orações subordinadas passam a ser coordenadas e vice-versa;
h. Reorganização e melhorias: como o próprio nome já diz, consiste em
corrigir erros de sintaxe e de imprensa, entre outros;
i. Dístico tradutório: é quando se realiza uma tradução literal e/ou uma
transferência;
j. Naturalização: nesse procedimento adapta-se à LT os nomes próprios da
LO.
Os outros oito procedimentos já haviam sido propostos previamente por teóricos

como Vinay e Darbelnet e Vázquez-Ayora (1977 apud BARBOSA, 1990, p. 53). A
saber:
k. Transferência (empréstimo): procedimento do qual se copia integralmente a

palavra da LO no texto da LT;
l. Decalque: caso particular de empréstimo, estendendo-se em nível
sintagmático;
m. Tradução um-por-um (literal): traduz palavra por palavra respeitando
aspectos tanto estruturais quanto estilísticos da LT;
n. Transposição: altera a categoria gramatical;
o. Modulação: mudança de foco concernentes ao aspecto cultural;
p. Omissão: omite elementos da LO na LT;

42
q. Compensação: reconstrói as perdas de recursos estilísticos, igualando-se ao

princípio do efeito equivalente;
r. Equivalência: preserva o sentido, porém altera a estrutura.
De modo a reforçar a importância das funções de linguagem, tipo e finalidade do

texto, Bakhtin define que “cada situação de permuta oral corresponde a um conjunto de
discursos relativamente estáveis, que permitem a realização dessa situação
comunicativa”23 (1997 apud LOUSADA, 2003, p. 12, tradução nossa).
Portanto, o tradutor precisa ter em mente qual é o tipo de texto a ser traduzido,
qual é a intenção do autor ao escrevê-lo e qual é o público-alvo, fazendo com que os
efeitos produzidos no leitor do texto original sejam os mesmos que aqueles no leitor da
tradução. O tradutor deve ainda analisar o contexto, a organização textual e os aspectos
discursivos lingüísticos (cf. BRONCKART, 1997 apud LOUSADA, 2003, p. 13).
23
“[...] every situation of oral exchange corresponds a set of relatively stable utterances, which allows the
realization of this communicative situation”.

43
IV. Exemplos: metodologias de uso e usos diversos
1. Tradutores e aprendizes
A investigação em corpora abarca tanto a pesquisa tradutória por profissionais,

pois se busca soluções lingüísticas, quanto o treinamento de tradutores, quando se estuda
a essência da tradução. De qualquer forma, elas podem se fundir dependendo da
necessidade do usuário do corpus.
Bowker (2004, p. 217) se atém à aplicação em treinamento de tradutores, pela
questão de ser esse o início da carreira e da mentalidade profissional do indivíduo.
Discorre sobre o uso de corpora monolíngües e bilíngües, e vai além ao enfatizar que a
customização de um corpus faz o aprendiz refletir sobre questões que não podem ser
ignoradas como o registro e a tipologia, já propostos por Newmark no capítulo anterior, e
as peculiaridades da área a ser traduzida, mostrando também a importância do olhar
crítico e minucioso do tradutor para a coleta do material.
A autora lembra que a aplicação de uma pesquisa baseada em corpus monolíngüe
é uma fonte de investigação terminológica, gramática e estilística, resultando na produção
de um texto muito mais ‘real’ quando comparado àquele resultante de pesquisa feita
somente em dicionários.
Já um corpus bilíngüe torna as escolhas por equivalentes e colocações muito mais
precisas. Também é capaz de auxiliar esses aprendizes em questões gramaticais
concernentes aos tempos verbais e uso de prefixos, por exemplo. A comparação entre a
LO e a LT leva o aluno a identificar as preferências estilísticas e as estruturas do
discurso, além de perceberem, de uma maneira mais clara, a utilização de certos
conceitos e usos intrínsecos à língua.
Partindo de um treinamento meticuloso das várias áreas da linguagem, seja em
LO ou em LT, o aprendiz se tornará apto e agirá com mais autonomia diante de seus
textos, pois saberá exatamente onde e como fazer a sua pesquisa. Apesar de Bowker
referir-se aos aprendizes de tradução, suas observações servem também para o tradutor

44
profissional, que deve pautar por uma conduta de sempre se aperfeiçoar, seja no estudo
da língua em si ou debruçando-se em traduções produzidas por outros profissionais.
Baseando-se nas considerações acima, torna-se evidente que o uso do corpus
como objeto de estudo e referência se faz cada vez mais necessário e, atrelado a ele, sua
metodologia.
2. Metodologias de uso
Com o crescimento de pesquisas feitas em corpus, tornou-se necessário o

desenvolvimento de metodologias voltadas para pesquisas no âmbito da Tradução. A
metodologia proposta por Tognini-Bonelli (2001-02 apud SARDINHA, 2002, p. 33)
abrange três tipos de abordagens na exploração de corpora eletrônicos e divide a
metodologia de uso em três etapas.
A primeira abordagem é também a mais freqüente – trata-se da pesquisa baseada
em corpus. Ela é muito utilizada para a compilação de dicionários. Nela, o corpus
armazena exemplos para comprovar uma teoria ou conceitos pré-estabelecidos. Nesse
sentido, esse tipo de abordagem se aproxima do método indutivo.
A segunda abordagem, conhecida como movida a corpus, ao contrário da
primeira, parte das evidências e “visa à descrição abrangente dos dados, sem a intenção
de selecionar exemplos para ilustrar elementos oriundos de uma teoria específica” (cf.
SARDINHA, 2002, p. 34). A pesquisa parte da análise de uso e freqüência da língua em
situações práticas. A recorrência decorrente de tal análise acaba por gerar categorias
lingüísticas. Aproxima-se, portanto, do método dedutivo, sendo de muita utilidade para a
formação do tradutor.
A terceira e última é chamada de abordagem presa ao corpus, quando se limita a
somente um meio de pesquisa. Geralmente, a investigação prática dos tradutores em
corpora eletrônicos, em busca de soluções imediatas, é feita por meio dela.
Após os conceitos dessas abordagens, a autora exemplifica a metodologia em três
etapas. Em primeiro lugar, deve-se identificar no texto original a padronização como um
dos universais de Toury e suas funções, compreendendo ambiente colocacional,
coligacional, de preferência e de prosódia semântica, sendo que a última tem chamado a

45
atenção de pesquisadores da LC por indicar as co-ocorrências de determinadas

expressões.
Dá-se importância à prosódia semântica por ela não se limitar somente à palavra,
mas sim ao contexto. De acordo com Sardinha (2002, p. 38), “os estudos de prosódia
semântica podem ser vistos não somente como um estudo de equivalentes no nível da
palavra, mas também dos sentidos que emanam dessas escolhas, potencialmente, nos
vários níveis da palavra”. Um exemplo dado pelo estudioso é ‘set in’ que apresenta uma
prosódia desfavorável por vir acompanhado de palavras com sentido negativo como
‘decay’ e ‘infection’.
Na segunda etapa, o tradutor identifica os equivalentes, empregando
posteriormente um ou mais para cada função. Esses possíveis equivalentes podem ser
sugeridos pela intuição do tradutor, pela consulta a dicionários, ou, a um corpus paralelo
se disponível. No caso do exemplo acima, os equivalentes de ‘set in’ em português
comumente apresentam prosódias neutras, duplas e até positivas, como ‘manifestar-se’ e
‘estabelecer-se’.
Finalmente, a última etapa se assemelha à primeira; contudo, nessa o caminho se
dá pela língua da tradução. Ainda com relação ao verbo citado, o tradutor escolhe, a partir
das alternativas da segunda etapa, um equivalente que apresente a mesma prosódia
semântica do original.
Em 1998, Kenny (apud SARDINHA, 2002, p. 36) já havia proposto uma
metodologia muito semelhante à de Tognini-Bonelli, em que empregava o uso de três
corpora. Um deles deveria ser paralelo, outro de referência na língua original e um
terceiro de referência na língua da tradução, ambos de textos originais. Em seguida,
selecionam-se as expressões de interesse no corpus paralelo; a partir daí, padrões são
extraídos desses itens nos dois corpora de referência por questões de re-afirmação.
Sardinha (2002, p. 37) explica que “isso é necessário para que seja possível perceber se
os usos observados no corpus paralelo eram típicos ou não”.
Um exemplo que aborda as metodologias de ambos os teóricos é o verbo ‘to rock’,
em ‘FRIENDS rocks!’. FRIENDS é um seriado americano televisivo, e ‘rocks’ é uma
gíria falada por adolescente com o sentido de ser muito bom. Para o tradutor chegar a
uma tradução equivalente dessa oração, analisa-se os corpora de referência nas duas

46
línguas. É interessante que o tradutor visite sites brasileiros destinados a ou feitos por fãs
da série, e investigar se há algo parecido com a expressão em inglês. Fóruns de discussão
ou blogs também são uma opção em busca do termo que será aceito pelos fãs de
FRIENDS do Brasil. As expressões mais próximas são ‘FRIENDS é o máximo’,
‘FRIENDS é show’ ou ‘FRIENDS detona’.
Esse último caso nos remete à necessidade de familiarizar-nos com a
convencionalidade de cada língua de trabalho, seja ela LO ou LT.
3. As convenções sociais entre línguas e suas

equivalências baseadas em corpus
Tagnin (2002, p. 193) deixa claro que o tradutor não pode ser “ingênuo”, isto é,
desconhecer as particularidades da língua materna e de trabalho. Determinados aspectos
precisam ser de total domínio do profissional, dentre os quais podemos citar, os binômios,
as fórmulas situacionais, discursivas ou de rotina, as expressões idiomáticas, as
colocações nominais, adjetivas ou verbais, e ainda as referências humorísticas. É preciso
que ele conheça as “convenções sociais da língua”.
Um corpus é concebido por Tagnin (2002, p. 192) como um instrumento de auto-
ajuda por ser capaz de ampliar o nosso conhecimento e de solucionar problemas relativos
à convencionalidade, uma vez que “[...] grande parte da língua é formada de partes pré-
fabricadas, de expressões prontas, das chamadas unidades fraseológicas [...]”.
Os binômios, muitas vezes, podem ser armadilhas para um tradutor apressado e
passar despercebidos. Existe uma ordem natural em cada idioma; por exemplo, ‘love and
peace’, em português inverte-se para ‘paz e amor’. O mesmo ocorre com ‘knife and fork’
que passa a ser ‘garfo e faca’. Já com o binômio ‘now and then’, os equivalentes em
português são bem diferentes, como ‘uma vez ou outra’ ou ‘de vez em quando’. Podem
ocorrer vezes em que até se perca o binômio, como é o caso de ‘each and every
somebody or something’, tornando-se ‘cada um’ ou ‘todos’.
Podemos buscar um termo mais apropriado em um corpus paralelo ou
comparável, ao nos depararmos com as fórmulas de rotina, por exemplo, ‘I am really

47
sorry’. Obviamente, dependemos do contexto em que ela está inserida – talvez uma
pessoa esteja pedindo desculpas a outra, ou reconfortando-a. Relembrando Newmark,
essa fórmula de rotina se encaixa na tradução comunicativa, uma vez que o objetivo é
reproduzir o mesmo efeito nos leitores da LT que aquele causado nos leitores da LO.
Muitas vezes, para esse tipo de fórmula, encontramo-na traduzida como ‘Sinto muito’,
mas será que usamos essa expressão normalmente dessa forma? Ou, na maioria das
vezes, empregamo-na em um sentido de deboche? Novamente, o teórico chama a atenção
para as funções da linguagem. É nesse momento que o tradutor atua com o seu bom
senso, podendo talvez perder a intensidade que a língua inglesa demonstra.
Para as fórmulas situacionais, um corpus monolíngüe nos apresentará exatamente
os momentos em que elas podem ser usadas, e, principalmente, habituará o tradutor a
saber que aquela é uma convenção da língua. ‘For the sake of argument’, pode ser
traduzido por ‘Hipoteticamente falando’, uma fórmula longe de ser literal. Na verdade,
trata-se de uma paráfrase, segundo Newmark.
‘Break a leg’ é uma fórmula que somente em textos sobre teatro o tradutor poderá
achar expressão equivalente na sua língua materna. Isso é possível por meio da aplicação
de uma das metodologias vistas acima. Ao compararmos os contextos teatrais de
referência em ambas as culturas, observamos que o equivalente em português para a
expressão em inglês é ‘merda’. No momento em que atores dizem tal termo uns aos
outros, no sentido de ‘boa sorte’, evidencia-se um caso de compensação, ou, conforme
Nida equivalência dinâmica.
A análise do corpus lingüístico serve perfeitamente a essa modalidade ou, como
propõe Newmark, à tradução comunicativa. Muitas vezes, por exemplo, os próprios
nativos do idioma fazem brincadeiras com ‘Tell me about it’, nosso equivalente a ‘Eu que
o diga’. Ao se dizer essa expressão, o interlocutor simplesmente balança a cabeça
consentindo, mas em seguida repete no sentido de querer mais informações.
As expressões idiomáticas são a causa freqüente de um texto se tornar
incompreensível. Há situações em que podem até ser engraçadas, como seria uma
tradução literal de ‘dumb waiter’, quando se trata de um elevador de cozinha e não de um
garçom idiota. Esse tipo de informação já consta em dicionários baseados em corpus.
Além disso, ao digitar a expressão no Google Imagens, que age como um corpus visual,

48
todas as figuras são de elevadores de cozinha, e somente uma satiriza um garçom com
uma fita isolante na boca. Ao querermos comparar pessoas, por exemplo, é possível
encontrarmos a correta expressão ‘hold a candle to somebody’ para ‘não chega aos pés de
alguém’.
Sempre ler e estar atualizado a respeito do que acontece em seu país e no mundo
são hábitos que ajudam o tradutor a produzir um texto que contenha, por exemplo, uma
referência humorística, pois ao compreender que se trata de ironia, o profissional
naturalmente busca subsídios para manter a mesma intenção.
De outro modo, seria muito difícil encontrar equivalências em dicionários ou
qualquer outro recurso. Além disso, Rónai (1983, p. 13) lembra que nomes de ruas,
topônimos (nomes próprios de lugar) e designativos de instituições não são o tipo de
informação que encontramos em dicionários e o tradutor precisa identificá-los de modo
que não comprometa seu texto. O autor dá exemplos que são facilmente encontrados em
textos, como é o caso da diferença entre ‘Time’, revista semanal, e ‘Times’, jornal. Assim
como, o ‘Piccadilly Circus’, em Londres, que na verdade não é um circo, mas uma praça
na qual se cruzam diversas ruas. Nesse exemplo, seria estranho aplicar o procedimento de
naturalização – dessa forma, o tradutor se valeria de um equivalente descritivo ou
empréstimo. Por essas e outras razões, lembramos o quão importante é a análise de
corpora lingüísticos autênticos.
De acordo com Tagnin (2002, p. 193), apesar de todo o conhecimento que possa
ter, o tradutor, ainda assim, “pode ter problemas no nível da produção para conseguir
soluções naturais, caso se atenha ao texto original a ponto de não perceber que, entre
outras formas igualmente gramaticais, uma delas é de uso mais corrente”. E é nesse
momento que ele poderá recorrer a um corpus para construir um texto fluente.
4. Casos ilustrativos
Alguns dos exemplos a seguir foram retirados de traduções pessoais e

solucionados por meio de corpora. A abordagem utilizada foi presa a corpus por
buscarmos somente as evidências do termo ou expressão. Mencionaremos também qual
modalidade tradutória podemos aplicar nos casos abaixo.

49
Paulo Rónai (1983, p. 3) chama a atenção do tradutor para a unidade semântica

‘man-of-war’, que foi muito mal traduzida em um jornal. Não sabemos se a pessoa que a
traduziu tinha algum conhecimento sobre tradução. O problema foi ter sido passada
literalmente para a língua portuguesa como ‘homem de guerra’, quando, na verdade,
trata-se de um ‘navio de guerra’. Problema que poderia ser facilmente solucionado nos
dias de hoje pelo uso da Internet, com as imagens do Google, por exemplo, e assim
confirmar a solução em um bom dicionário.
Uma das grandes vantagens de se usar corpora é a possibilidade de analisarmos a
linguagem diacronicamente. Antigamente, para nos referirmos a um casal que morava
junto, e não tinha registro em cartório, chamávamos essa relação de ‘concubinato’. Nos
dias atuais, o tradutor precisa ter muito cuidado com esse termo. Ao restringir a data dos
textos publicados no WebCorp, o profissional verá que se usa o termo ‘relação estável’
quando a relação do casal não envolve nada que os desabone, e o ‘concubinato’ para
relações de, por exemplo, adultério.
O mesmo ocorre com o termo ‘ecoturismo’. Alguns livros atuais estão alterando
essa palavra para ‘turismo sustentável’ por uma série de razões. É conveniente enfatizar
que, para o tradutor ter o conhecimento dessas mudanças, saber onde procurar não é o
bastante, mas sim estar sempre lendo sobre todo o tipo de assunto e assistindo a
programas televisivos, que podem ser considerados corpora dinâmicos.
Certas siglas são incompreensíveis, sejam elas do campo jurídico ou da vida
cotidiana, como em um anúncio de venda de casa em um jornal. Alves (2001, p. 40), ao
retratar sua própria experiência em outro país, descreve algumas delas, que foram
impossíveis de entender sem ajuda. Ao ler o anúncio, sempre repleto de siglas, deparou-
se com ‘gch’. Como um tradutor acharia a solução para traduzi-lo? Nem os melhores
dicionários informariam a definição dessa sigla. O Google ou apontaria a sigla em si, ou
traria outras ocorrências com a mesma sigla e significados completamente diferentes. O
Google Imagens é um recurso que nesse caso específico não exibe imagens conexas. A
opção de se fazer essa pesquisa em corpus pronto é a melhor. O Bank of English, por
exemplo, apresenta-nos as ocorrências acompanhadas de todas as outras definições para
venda de uma casa, da seguinte forma:

50
‘Two receptions, modern kitchen, bathroom, GCH.

double glazed. To rear 30ft garden.’
Fonte: www.collins.co.uk. Acesso em: 24 set. 2007.
O tradutor parte daí para fazer eliminações, por exemplo, achar que o ‘g’ pode ser
de ‘garage’ ou ‘gas’. Ao digitar ‘gch garage’ no WebCorp ou até mesmo no Google,
todas as ocorrências trarão os termos entre vírgulas ‘gch, garage’. Entretanto, ‘gch gas’
traz a sigla e a definição ‘gas central heating’ (aquecimento a gás central). Torna-se mais
complicado se a sigla for ‘d/g’. O caminho a se percorrer é o mesmo do exemplo
mencionado anteriormente. Quando o tradutor chegar a ‘double glazing’ (espécie de
‘duplo envidraçamento’), o problema terá sido solucionado. Tanto melhor, se ele
encontrar o mesmo exemplo dado pelo Bank of English, que já traz o termo ‘double
glazed’. A partir desses exemplos, percebemos que o desenvolvimento de nossa própria
memória de tradução agilizará nosso trabalho de uma próxima vez.
Em uma página do website Ricesu (www.ricesu.com.br) sobre educação a
distância para ser vertido para o inglês em sala de aula, surgiu o segmento ‘[...] voltado
para a organização e realização do evento bienal [...]’. A dúvida recaía sobre ‘realização’.
A primeira opção de um dos alunos foi a intuitiva, ‘realization’, que, na verdade, é um
falso cognato. No entanto, ao procurá-la no Google, diversos sites com terminação .br
traziam-na acompanhando a palavra ‘event’. As duas outras alternativas do tradutor eram
‘accomplishment’ e ‘achievement’. Em seguida, resolveu digitar o seguinte segmento no
WebCorp:
‘the organization and * of the event’
O website exibiu duas novas palavras que pertenciam ao mesmo contexto que o
texto original do tradutor: ‘execution’ e ‘implementation’, ambas com considerável
incidência. Resolveu, então, retornar ao Google para se certificar dessas possibilidades,
digitando-as entre aspas: ‘execution of the event’ e ‘implementation of the event’. Tanto
o número de ocorrências quanto a procedência dos sites foram satisfatórios, optando,
então, por ‘the organization and execution of the event’. Conseqüentemente, o aluno da

51
disciplina de tradução se valeu de uma equivalência formal, conforme Nida, ou uma

tradução semântica, de acordo com Newmark. Por se tratar de um termo repetitivo no
texto original, poder-se-ia utilizar a MT Wordfast. Assim, nas próximas vezes em que o
termo aparecesse, não seria preciso fazer uma nova pesquisa, pois o mesmo já se
encontraria salvo no programa.
Em textos de cunho jurídico em especial, tanto um corpus customizado, quanto as
MT apresentam vantagens. Os moldes a seguir representam não só traduções mas
também versões, já que a correspondência estilística, ou a equivalência formal segundo
Nida, é o foco nesse tipo de texto. A coleta de textos jurídicos sobre a mesma área é
essencial para manter o texto sintaticamente correto e, ao mesmo tempo, natural. Ao
armazená-los no Corpógrafo, o tradutor tem a possibilidade de utilizar a metodologia
proposta acima por Tognini-Bonelli ou Kenny, e assim analisar cada segmento dos textos
de LO em português e em inglês, encontrando neles as unidades que mais se repetem. Por
serem termos recorrentes e padronizados, quando a tradução é feita em uma MT, quanto
mais textos são traduzidos, menos trabalho o tradutor tem para a produção das próximas
traduções, isto é, todos os segmentos, termos e expressões já estão automaticamente
salvos no programa. Mesmo assim, podem ocorrer mudanças sutis entre textos jurídicos
de áreas distintas. Por essa razão, o discernimento e o trabalho do tradutor não são
dispensáveis, pois é ele que terá feito a coleta prévia dos textos compilados no corpus
customizado.
O corpus comparável abaixo foi produzido a partir de textos de língua portuguesa
comparados com os de língua inglesa. Esses segmentos pertencem a uma Procuração.
1 ...ao qual confiro os mais amplos, I hereby revoke any and all
gerais e ilimitados poderes... general powers of attorney…
2 Por este instrumento particular de Hereby...

procuração...
3 Nomeio e constituo como meu I designate as my Attorney-in-
(minha) bastante procurador (a) o Fact ("Agent")…
Sr.(a)...

52
Conforme o exposto acima, a literalidade, com exceção da tradução juramentada,

não caberia por já existirem unidades prontas em ambas as línguas. As unidades da tabela
evidenciam relação de equivalência e podem ser carregadas em programas de memórias
de tradução para posterior referência. Assim, o tradutor pode se valer de tais segmentos
em traduções e versões futuras. Tendo por base as modalidades tradutórias de Newmark,
em uma tradução (inglês/português), notaríamos o processo de expansão e, em versão
(português/inglês), de contração nos três casos. É curioso observar que, em uma única
palavra em inglês, é possível descrever o segmento inteiro da língua portuguesa: ‘por este
instrumento particular de procuração’ transforma-se em ‘hereby’, e ‘nomeio e constituo’
passa a ser ‘designate’.
Também podemos fazer pesquisas de sintaxe em corpus pronto. O corpus paralelo
a seguir apresenta o original em português e a versão em inglês. Suas diferenças são
meramente gramaticais.
O homem moderno percebeu que Quick and efficient communication

para se comunicar de forma rápida involved not only speaking, but also
e eficiente não bastava falar. Mas writing, producing and sending
também escrever, produzir e enviar videos, sharing photos and
vídeos, compartilhar fotos e documents.
documentos.
Esse trecho nos serve de análise entre a oração coordenada ‘mas’ em português, e
a oração subordinada em inglês ‘not only...but also’. Todos os verbos do texto da LO
estão no infinitivo, enquanto os do texto da LT estão no gerúndio. A reconstrução de
período foi a modalidade tradutória utilizada no segmento acima. Conforme vimos em
Nida, trata-se de equivalência dinâmica, pois atinge naturalidade textual na LT.
As listas online de discussão de tradutores, como o fórum KudoZ, parte integrante
do site ProZ, portal de serviços e recursos voltado a tradutores, também fazem parte do
conceito de corpus. A partir de dúvidas postadas por profissionais da área, o fórum traz
trechos encontrados com as propostas de solução em destaque, avaliados e inseridos por

53
outros tradutores de diversas partes do mundo, levando em consideração o tipo e a

finalidade do texto, dois dos aspectos de importância mencionados por Newmark.
Podemos narrar o caso de um tradutor profissional que publicou o trecho a seguir,
retirado de um manual em inglês, contendo sua dúvida sublinhada:
‘The ground fault test switch is a two-position momentary rocker-type switch.

When the upper portion of the switch is pressed down for 1,5 seconds, it creates a ground
fault’
A intuição do profissional levou-o inicialmente ao termo ‘interruptor de

campainha’, porém não estava satisfeito com a decisão. Decidiu buscar outras opiniões
no KudoZ. Baseada nos corpora apresentados pelos tradutores integrantes, a opção que
mais se adequou ao texto, por fim, foi ‘interruptor basculante’. Para se certificar, então
digitou a expressão em inglês no Google Imagens e as comparou com as da expressão em
português. O tradutor ainda poderia, caso possuísse uma MT em seu computador,
resgatar a mesma expressão em trabalhos semelhantes, poupando-lhe tempo, visto que os
segmentos de manuais são padronizados.
Para encerrarmos nossas reflexões, Rudolf Flech (apud RÓNAI, 1983, p. 15) nos
apresenta a arte da tradução como:
“[...] a fórmula ideal do exercício intelectual. Cada vez que traduzimos somos
obrigados a abandonar os moldes mentais a que estamos habituados e a pegar o
jeito de outros moldes completamente alheios à nossa maneira de pensar. Não
há nada melhor para adquirir flexibilidade mental – o que ... é praticamente o
ingrediente principal do pensamento claro. Se as línguas estrangeiras não
existissem, deveríamos inventá-las como mecanismo de treinamento
intelectual”.

54
Conclusão
O objetivo deste trabalho foi o de introduzir os conceitos e as ferramentas do

corpus lingüístico e abordar suas vantagens para o tradutor. Atualmente, a pesquisa feita
em busca de adequação tradutória precisa ser rápida e compreender tantos os aspectos
qualitativos quanto quantitativos. O profissional necessita de melhores dicionários e, no
caso desse trabalho de pesquisa, dicionários baseados em corpus, pois eles apresentam
uma pesquisa satisfatória com base no uso fluente da palavra. Além disso, os tradutores
necessitam de programas de software que acelerem o ato tradutório e também de websites
que contenham textos compilados especificamente para pesquisas de teor lingüístico.
Como vimos, um corpus eletrônico, por ser uma ferramenta em constante
atualização e de linguagem habitual, é capaz de acompanhar a língua em todos os seus
aspectos. Posto em panorama no trabalho, temos dois pólos principais de corpus: o
corpus pronto, como o British National Corpus, BNC, e o corpus customizado
manualmente, como o Corpógrafo, a memória de tradução Wordfast e o concordancer
WordSmith Tools.
O tradutor obtém diversos benefícios ao fazer sua investigação em corpus, quando
comparado ao uso de dicionários ou mecanismos de busca como o Google. Uma das
vantagens é a qualidade obtida, posto que o tradutor faz pesquisas em websites como o
Webcorp, ou coleta textos para propósitos lingüísticos, construindo seus próprios corpora.
Ao pautar sua pesquisa em linguagem usual e analisar aspectos de importância descritos
por Newmark, tais como o registro e o público-alvo, ou por Tagnin e a convencionalidade
lingüística, o tradutor produz uma tradução que surtirá em seus leitores o mesmo efeito
daquele na língua original, ou seja, haverá uma equivalência dinâmica, segundo Nida,
entre o texto original e o texto traduzido.
A segunda vantagem é a confiabilidade que o corpus apresenta no que tange às
fontes. Pesquisar um termo em buscadores como o Google, por exemplo, trará os mais
diversos resultados, sejam textos produzidos por nativos da língua, textos traduzidos por
qualquer pessoa, ou ainda textos sem nenhuma preocupação lingüística. No entanto, se a
pesquisa foi feita, digamos, no Bank of English, o tradutor se sentirá mais seguro, porque

55
todos os textos, de fala gravada ou escrita, receberam previamente um tratamento

especial ao serem adicionados ao website, isto é, foram compilados e revisados com o
propósito de pesquisa lingüística ou terminológica. Embora o corpus lingüístico nos traga
maior segurança, é essencial que o tradutor se certifique de sua escolha em mais de uma
ferramenta, pois, por mais que o profissional tenha certeza de que encontrou a solução
correta ou simplesmente confie em sua intuição, qualquer mecanismo está sujeito a erros.
Uma terceira vantagem, no caso do Wordfast, é a possibilidade de se desenvolver
uma memória de tradução. Baseados em traduções previamente armazenadas, esses
programas de software possuem comandos que auxiliam o tradutor. Na maioria das
vezes, o profissional poderá relembrar unidades semânticas e sintáticas há muito vistas e
economizar tempo se foram feitas anteriormente traduções sobre um mesmo tema ou
área, pois o programa encontra e exibe segmentos semelhantes, que podem ser aceitos ou
não.
Consideramos, pois, que os corpora no ato tradutório não só acarretam melhoria
na adequação dos textos traduzidos, mas também se revelam ferramentas mais seguras,
que compilam o uso comum das palavras e expressões, permitindo que o tradutor produza
uma tradução fluente e adequada por um lado, e contribuindo para a sua formação
profissional por outro.

56
Referências Bibliográficas
ALVES, Augusta Rodrigues. Buying a house. New Routes Magazine, São Paulo, p. 40-
41, out. 2001.
BARBOSA, Heloísa Gonçalves. Modelos de tradução. In:______. Procedimentos

técnicos da tradução: uma nova proposta. São Paulo: Pontes, 1990. cap. 2, p. 19-61.
BOWKER, Lynne. Corpus resources for translators: academic luxury or professional

necessity? Revista do Centro Interdepartamental de Tradução e Terminologia
FFLCH/USP. Trad Term 10. São Paulo: Humanitas/FFLCH/USP, 2004.
DUTRA, Waltensir. Processos e técnicas de tradução. In: RÓNAI, Paulo. A tradução

técnica e seus problemas. São Paulo: Álamo, 1983. p. 77-90.
HOEY, Michael. What’s in a word?. English Teaching Professional, p. 5-8, 27 abr. 2003.
KRISHNAMURTHY, Ramesh. Authority in the classroom: dictionaries and corpora,

COBUILD and The Bank of English. Braz-Tesol Newsletter, p. 10-11, mar. 2003.
LAVIOSA, Sara. Corpus-based translation studies: where does it come from? Where is it
going? Revista do Centro Interdepartamental de Tradução e Terminologia FFLCH/USP.
Trad Term 10. São Paulo: Humanitas/FFLCH/USP, 2004.
LOUSADA, Eliane. Oral and written comprehension and production: a contribution from
the study of different genres of test to second language studies. Braz-Tesol Newsletter, p.
12-14, mar. 2003.
MAGALHÃES, Célia Maria; BATISTA, Maria da Conceição. Features in translated

Brazilian-Portuguese texts: a corpus-based research. Cadernos de Tradução: tradução e
corpora. Organização: Stella Ortweiler Tagnin. Santa Catarina: Núcleo de
Tradução/NUT, 2002.
MAIA, Belinda. Do-it-yourself, disposable, specialized mini corpora – where next?

Reflections on teaching translation and terminology through corpora. Cadernos de
Tradução: tradução e corpora. Organização: Stella Ortweiler Tagnin. Santa Catarina:
Núcleo de Tradução/NUT, 2002.
NOGUEIRA, Danilo. Tradução assistida por computador: programas de memória de

tradução. Tradução e Comunicação: revista brasileira de tradutores. São Paulo: Unibero,
n. 10., p. 155-166, 2001.

57
PERROTTI-GARCIA, Ana Júlia. O uso de corpus customizado como fonte de pesquisa

para tradutores. CONFLUÊNCIAS. Disponível em:
<http://www.confluencias.net/n3.htm>. Acesso em: 27 mar. 2006.
RÓNAI, Paulo. A tradução técnica e seus problemas. In: ______. São Paulo: Álamo,
1983. p. 5-15.
SARDINHA, Tony Berber. Corpora eletrônicos na pesquisa em tradução. Cadernos de

Tradução: tradução e corpora. Organização: Stella Ortweiler Tagnin. Santa Catarina:
______. Lingüística de Corpus: uma entrevista com Tony Berber Sardinha. Revista
Virtual de Estudos da Linguagem – ReVEL. Vol. 2, n. 3, ago. 2004. Disponível
em:<http://www.revel.inf.br/site2007/_pdf/3/entrevistas/revel_3_entrevista_tony_berber_
sardinha.pdf >. Acesso em: 12 fev. 2007.
TAGNIN, Stella Ortweiler. Os corpora: instrumentos de auto-ajuda para o tradutor.

Cadernos de Tradução: tradução e corpora. Organização: Stella Ortweiler Tagnin. Santa
Catarina: Núcleo de Tradução/NUT, 2002.
______. Um corpus multilingüe para ensino e tradução – o COMET: da construção à

exploração. Revista do Centro Interdepartamental de Tradução e Terminologia
FFLCH/USP. Trad Term 10. São Paulo: Humanitas/FFLCH/USP, 2004.
VARANTOLA, Krista. Disposable corpora as intelligent tools in translation. Cadernos

de Tradução: tradução e corpora. Organização: Stella Ortweiler Tagnin. Santa Catarina:
WILKINSON, Michael. Compiling corpora for use as translation resources. Disponível

em: <http://www.accurapid.com/journal/35corpus.htm>. Acesso em: 28 mar. 2006.

58
Bibliografia Consultada
AGUIAR, O. B. A posição da tradução através da história. In: CONGRESSO IBERO-

AMERICANO DE TRADUÇÃO E INTERPRETAÇÃO, 1., 1998, São Paulo. Anais...
São Paulo: Unibero, 1998. p. 264-268.
ANJOS, V. A. Uma abordagem introspectiva no estudo de erros em traduções de alunos

de inglês como língua estrangeira. In: CONGRESSO IBERO-AMERICANO DE
TRADUÇÃO E INTERPRETAÇÃO, 1., 1998, São Paulo. Anais... São Paulo: Unibero,
1998. p. 282-283.
ARROJO, Rosemary. Oficina de tradução: A teoria na prática. São Paulo: Ática, 2002.
(Série Princípios).
AUBERT, Francis Henrik. Cadernos de terminologia: introdução à metodologia da

pesquisa terminológica bilíngüe. São Paulo: Humanitas/FFLCH/USP, n. 2, 1996.
______. Modalidades de tradução: teoria e resultados. Revista do Centro

Interdepartamental de Tradução e Terminologia FFLCH/USP: Trad Term 5. São Paulo:
Humanitas/FFLCH/USP, 1998. p. 99-128.
AURÉLIO. Novo dicionário básico de língua portuguesa. São Paulo: Nova Fronteira,
Folha de São Paulo, 1995.
BASSNETT, Susan. Translation studies. 3. ed. New York: Routledge, 2002.
BERSÁCOLA, Renata Nogueira. Procedimentos técnicos da tradução. In:______. A

problemática da tradução cultural na legendação de filmes nacionais ambientados no
nordeste brasileiro. 2006. 126 f. Monografia (trabalho de conclusão de curso em
Tradução e Interpretação) – Universidade Católica de Santos, Santos.
BRITISH NATIONAL CORPUS/BNC. Disponível em:<http://www.natcorp.ox.ac.uk>.

Acesso em: 1 out. 2006.
CAMARGO, Diva Cardoso de. Estudos tradutológicos baseados em corpus de textos

técnicos, corporativos e jornalísticos. Tradução e Comunicação: revista brasileira de
tradutores. São Paulo: Unibero, n. 10.,p. 33-46, 2001.
COBUILD. Concordance and collocations sampler. Disponível em:

<http://www.collins.co.uk/Corpus/CorpusSearch.aspx>. Acesso em: 6 maio 2006.
COMPARA. Disponível em:<http://www.linguateca.pt/COMPARA/Bem-vindos.html>.

Acesso em: 30 mar. 2006.

59
DARIN, Leila Cristina de Mello. The dream behind the software. Braz-Tesol Newsletter,
São Paulo: Braz-Tesol, p. 6-7, mar. 2003.
DAYRELL, Carmen. Sistemas de tradução automática: avaliação e propostas de

melhoria. Tradução e Comunicação: revista brasileira de tradutores. São Paulo: Unibero,
n. 10., p. 19-32, 2001.
FRANZONI, P. Língua estrangeira e língua materna na formação do tradutor de

português: encontros e desencontros. In: CONGRESSO IBERO-AMERICANO DE
1998. p. 87-91.
GIBSON, Eva. Software piracy, fair use law and copyright infringement. Disponível em:
<http://ezinearticles.com/?Software-Piracy,-Fair-Use-Law,-and-Copyright-
Infringement&id=316068 >. Acesso em: 7 fev. 2007.
HOUAISS, A. Webster’s: dicionário inglês-português. Rio de Janeiro: Record, 2001.
HOUSLEY, Sharon. What is fair use? Disponível em: <http://ezinearticles.com/?What-

is-Fair-Use?&id=201503>. Acesso em: 7 fev. 2007.
LEBOW, Irene. What is copyright? Disponível em: < http://ezinearticles.com/?What-Is-

Copyright?&id=297402>. Acesso em: 7 fev. 2007.
LINGUATECA. Disponível em: <http://www.linguateca.pt>. Acesso em: 30 mar. 2006.
LONGMAN DICTIONARY OF COMMON ERRORS. New edition. Essex: Longman

House.
MELLO, G.G.; DARIN, L.C.M. A ética e o trabalho do tradutor: reflexões sobre a

questão da fidelidade em tradução. In: CONGRESSO IBERO-AMERICANO DE
1998. p. 28-30.
OXFORD. Collocations: dictionary for students of English. Oxford: University Press,

2002.
PRODROMOU, Luke. Idiomaticity. English Teaching Professional, London: Modern

English Publishing Ltd., p. 10-12, 27 abr. 2003.
PROZ. Disponível em: < http://por.proz.com/kudoz/865647>. Acesso em: 25 out. 2007.
PYM, Anthony. On Toury’s laws of how translators translate. Disponível em:

<http://www.tinet.org/~apym/on-line/translation/2007_toury_laws.pdf >. Acesso em: 21
ago. 2007.
RAMOS, Daniella Rita. Francis Aubert e a recriação das modalidades tradutórias.

In:______. Expressões idiomáticas: a pluralidade das línguas em expressões do dia-a-

60
dia. 2001. 46 f. Monografia (trabalho de conclusão de curso em Tradução) –

Universidade Católica de Santos, Santos.
Revista do Centro Interdepartamental de Tradução e Terminologia FFLCH/USP. Trad

Term 10. São Paulo: Humanitas/FFLCH/USP, 2004.
RICESU. Comunidade Virtual de Aprendizagem: rede de instituições católicas de ensino

superior. Disponível em : <www.ricesu.com.br>. Acesso em: 10 ago. 2007.
RODRIGUES, Cristina Carneiro. Tradução: teorias e contrastes. Alfa – Revista de

Lingüística. São Paulo: Alfa, 1990. p. 121-126.
TAGNIN, Stella Ortweiler (Org.). Cadernos de Tradução: tradução e corpora. Santa

Catarina: Núcleo de Tradução/NUT, 2002.
______. Expressões idiomáticas e convencionais. São Paulo: Ática, 1989. (Série

Princípios).
WEBCORP. Disponível em: <http://www.webcorp.org.uk>. Acesso em: 6 maio 2006.
WILKINSON, Michael. Legal aspects of compiling corpora to be used as translation

resources: questions of copyright. Disponível em: <http://www.accurapid.com/journal/
36corpus.htm>. Acesso em: 27 mar. 2006.
WYNNE, Martin. Developing linguistic corpora: a guide to good practice. Disponível

em: <http://www.ahds.ac.uk/creating/guides/linguistic-corpora/index.htm>. Acesso em: 6
maio 2006.
Eventos
BALL, Carla. Terminologia em Globalização e Localização. In: SEMANA FAFIANA,

13., 21 set. 2007, UniSantos/Santos.
PERROTTI-GARCIA, Ana Júlia. O IMPACTO DA TECNOLOGIA NA TRADUÇÃO,

set.-out. 2006, USP/São Paulo. Mini-curso.

61
Apêndice 1
Tabela de Corpora Online (acadêmicos, pagos e gratuitos)24
--- Cambridge Language Survey

--- Longman Corpus Network
BNC British National Corpus
Centro REAL Corpus Alemão
CEXI English-Italian Corpus
COLLINS COBUILD Bank of English
COMET Corpus Multilíngüe para Ensino e Tradução
COMIC – SALCA Corpus of Business Italian and English
COMPARA Corpus de Textos Literários
CORDIALL Corpus Multilíngüe, Multifuncional de Discurso para Análise
Lingüística
CORPRAT Corpus on Process for the Analysis of Translations
CORTEC Corpus Técnico-Científico
CTF Corpus of Translated Finnish
ECC English Comparable Corpus
ECI-EBR
ENPC English-Norwegian Parallel Corpus
ESPC Corpus Sueco
GEPCOLT German Literary Texts and their English Translations
Lácio-Web Compilação de Corpus do Português do Brasil e
Implementação de Ferramentas para Análises Lingüísticas
MCST The Multilingual Corpus of Sworn Translations
TEC Translational English Corpus
TECTRA Textos para Estilística Comparada e Traducción
WebCorp World Wide Web as a corpus
24
Para consultar outros corpora, acesse http://en.wikipedia.org/wiki/Text_corpus.

62
Apêndice 2
Glossário dos principais termos utilizados
CAT tools Computerized Assisted Translation tools, ou seja,

ferramentas de Tradução Assistida por
Computador, como é o caso do Wordfast.
Colocações (do inglês, collocations) Palavras que co-ocorrem em freqüência maior.
Concordancer, concordancing tools Programas de software que coletam as
ocorrências de um termo ou expressão em um
corpus mono-, bi- ou multilíngüe, dos quais o
WordSmith Tools é um exemplo.
Corpora Plural de corpus.
Corpora customizados Corpora confeccionados manualmente pelo
usuário.
Corpora prontos Corpora disponíveis online.
Corpus Coleção de textos usados para pesquisa
Corpus comparável Textos originais de uma língua, e textos
traduzidos para aquela língua (monolíngüe) ou
para outras línguas (bilíngüe).
Corpus paralelo Texto original e respectiva tradução.
EDT Estudos Descritivos da Tradução.
ETC Estudos da Tradução baseados em Corpora.
Fuzzy search/match Busca por segmentos semelhantes na memória.
LC Lingüística de Corpus.
MT Memórias de tradução.
REVEL Lingüística computacional, lingüística de corpus
e processamento da linguagem natural.
TA Tradutores Automáticos. Programas que
traduzem originais sem quaisquer critérios
lingüísticos.
Tokens Número de palavras de um texto.
Types Número de palavras diferentes num texto.
Wordfast Programa de software de memória de tradução
que se estende em macro-comandos do Word.
WordSmith Tools Programa que demonstra o modo como as
palavras são usadas.

TCC - Lívia Monteiro Silva

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

TCC - Lívia Monteiro Silva

Enviado por

Direitos autorais:

Formatos disponíveis

LÍVIA MONTEIRO SILVA

UNIVERSIDADE CATÓLICA DE SANTOS

O USO DE CORPORA NO ATO TRADUTÓRIO

Trabalho de Conclusão de Curso apresentado

Orientador: Prof. Me. José Martinho Gomes.

PDF Creator - PDF4Free v2.0 http://www.pdf4free.com

LÍVIA MONTEIRO SILVA

UNIVERSIDADE CATÓLICA DE SANTOS

O USO DE CORPORA NO ATO TRADUTÓRIO

Prof. Me. José Martinho Gomes, Universidade Católica de Santos

Prof. M.Sc. Carlota Frances Williams Lopes, Universidade Católica de Santos

PDF Creator - PDF4Free v2.0 http://www.pdf4free.com

SILVA, Lívia Monteiro. O uso de corpora no ato tradutório. Santos, 2007, 58 f.

Resumo: O propósito desse trabalho de pesquisa é o de ilustrar como os corpora

Palavras-chave: benefícios, corpus, corpora, pesquisa, tradução, ETC.

PDF Creator - PDF4Free v2.0 http://www.pdf4free.com

Keywords: advantages, corpus, corpora, search, translation, CTS.

PDF Creator - PDF4Free v2.0 http://www.pdf4free.com

I. Histórico do Corpus Lingüístico ........................................................................................ 08

1. Definição e origem ................................................................................................ 08

II. Tipologia dos Corpora: vantagens e características...................................................... 13

1. Corpus comparável e corpus paralelo.................................................................... 13

III. Equivalência e as Modalidades Tradutórias................................................................. 38

1. A equivalência segundo Nida.................................................................................. 38

IV. Exemplos: metodologias de uso e usos diversos............................................................ 43

1. Tradutores e aprendizes ........................................................................................... 43

Bibliografía Consultada .......................................................................................................... 58

Apêndice 1: tabela de corpora online.................................................................................... 61

Apêndice 2: glossário .............................................................................................................. 62

PDF Creator - PDF4Free v2.0 http://www.pdf4free.com

PDF Creator - PDF4Free v2.0 http://www.pdf4free.com

vistos como um grande corpus, porém há muitas limitações, conforme apontaremos. É

PDF Creator - PDF4Free v2.0 http://www.pdf4free.com

I. Histórico do Corpus Lingüístico

Antes de darmos início a um breve histórico do corpus lingüístico e da sua

[Corpus é] um acervo de dados lingüísticos, sejam textos escritos ou uma

John Sinclair em Corpus, Concordance, Collocation define corpus como sendo

PDF Creator - PDF4Free v2.0 http://www.pdf4free.com

2. Lingüística de Corpus, Estudos Descritivos da Tradução

A Lingüística de Corpus (LC)5 refere-se ao estudo de amostras da língua, ou seja,

PDF Creator - PDF4Free v2.0 http://www.pdf4free.com

da língua, as regularidades lingüísticas como normas de um comportamento, e não como

• Normalização: o uso em excesso das características da língua da

PDF Creator - PDF4Free v2.0 http://www.pdf4free.com

Conforme a criação de corpora eletrônicos avançava, muitos deles começaram a

• Os exemplos dados pelos dicionários estão fora de contexto, porém,

PDF Creator - PDF4Free v2.0 http://www.pdf4free.com

De acordo com Michael Hoey (2003, p. 7), consultor-chefe do Macmillan

PDF Creator - PDF4Free v2.0 http://www.pdf4free.com

II. Tipologia dos Corpora: vantagens e características

A pesquisa baseada em corpus apresenta inúmeras vantagens, não só para o

Em busca de adequação tradutória e terminologia de uso freqüente e atual, muitos

1. Corpus comparável e corpus paralelo

PDF Creator - PDF4Free v2.0 http://www.pdf4free.com

linguagem a fim de produzir uma tradução fluente, além de avaliar a equivalência de

2. Internet e os sites de busca: Google

A internet é, atualmente, a principal fonte de pesquisa para os tradutores, seja por

PDF Creator - PDF4Free v2.0 http://www.pdf4free.com

fundamental empregar técnicas de pesquisa12, tanto no caso de descobertas em primeira

PDF Creator - PDF4Free v2.0 http://www.pdf4free.com

lexema ‘Comitê Gestor’. Ao digitarmos algumas possibilidades entre aspas, obtemos as

The managing committee 117.000

Entretanto, é extremamente importante que o tradutor tenha em mente que o

PDF Creator - PDF4Free v2.0 http://www.pdf4free.com