Você está na página 1de 28

191

Os Corpora: instrumentos de auto-ajuda...

OS CORPORA: INSTRUMENTOS DE AUTO-AJUDA


PARA O TRADUTOR1

Stella E. O. Tagnin
USP

1. Introduo
Bowker (1998) salientou que o uso de corpora especializados
em lngua materna teve um papel significativo na melhora da
qualidade da traduo de seus alunos quanto escolha correta do
termo e redao idiomtica (1998: 648).
Se entendermos escolha correta do termo como colocao e
redao idiomtica como linguagem natural, perceberemos que
esses dois aspectos so os pilares do que denominamos
convencionalidade (ou fraseologia) na lngua, cuja falta de
conhecimento caracteriza o falante ingnuo (Fillmore 1979).
Veremos tambm que, em situaes semelhantes, um tradutor pode
ser igualmente ingnuo.

2. O falante ingnuo
Fillmore cunhou esse termo para se referir a um aprendiz de
lngua estrangeira que desconhece as convenes da lngua. Por
exemplo, ele no saberia que prisoner (prisioneiro) e jailer

192

Stella E. O. Tagnin

(carcereiro) significam coisas diferentes. Por que deveriam ser


diferentes? Afinal, ambas so formadas por uma base prison
(priso) e jail (crcere) que significam casa de deteno ou, em
ingls, a building where wrong-doers are locked up, mais
acrescidas de um sufixo agentivo er. Como se explica, ento, que
um prisoner a person kept in a prison (uma pessoa mantida
numa priso), enquanto um jailer a man in charge of a jail (um
homem encarregado de uma priso)?
Da mesma forma, um falante ingnuo desconhece, entre outras
coisas, a ordem preferencial de binmios como cats and dogs, bed
and breakfast, knife and fork, cujos correspondentes em portugus
seriam ces e gatos, cama e mesa, garfo e faca. Tambm no sabe
que h determinadas combinaes fixas ou semi-fixas conhecidas
como colocaes, constitudas por substantivo + substantivo (credit
card, quality control, cost of living), substantivo + adjetivo (nursing
home, silent movie, elementary school), substantivo, como sujeito,
+ verbo (a river flows, a volcano erupts) ou verbo + substantivo
como objeto (pay a visit, ask a question, make a decision), verbo +
advrbio (pay dearly, cry loudly, hurt badly), e adjetivo + advrbio
(deeply hurt, happily married, lavishly illustrated).
Tambm desconhece as frmulas da lngua, principalmente as
frmulas de rotina (Good evening, Have a nice day, Im really
sorry) e as frmulas situacionais (Break a leg, It takes one to know
one, Have it your way).
Em resumo, o falante ingnuo no tem conscincia de que grande
parte da lngua formada de partes pr-fabricadas, de expresses
prontas, das chamadas unidades fraseolgicas, unidades que no
precisam ser geradas a cada vez que so empregadas.
Observe-se tambm que, dependendo da situao, podemos todos
ser falantes ingnuos em nossa prpria lngua materna. Como poderia
um leigo conhecer os termos tcnicos (na maioria, colocaes) de
certas profisses como medicina ou direito? Ou, como saberamos o
que dizer (usar as frmulas corretas) em situaes desconhecidas
como, por exemplo, um velrio, se jamais fomos a um?

Os Corpora: instrumentos de auto-ajuda...

193

Mas no confronto de duas lnguas que essas convenes se


tornam mais evidentes. E quando o tradutor entra em cena.
2.1 O Tradutor Ingnuo
Basicamente, a ingenuidade do tradutor se configura numa
compreenso composicional do significado e numa falta de
conscincia do quanto uma lngua constituda dessas partes prfabricadas.
A ingenuidade do tradutor pode transparecer tanto na sua
habilidade de compreenso, quando na de produo. Em termos de
compreenso, ele pode no entender expresses idiomticas como
a hard nut to crack, put ones best foot forward, ou cut corners, por
serem no-composicionais, ou seja, uma expresso cujo significado
total no corresponde soma dos significados individuais de seus
componentes. Ele pode no compreender muitas frmulas
discursivas por no conhecer as convenes sociais que determinam
seu uso na lngua alvo. Pode tambm no compreender referncias
humorsticas que resultem da manipulao das categorias
convencionais da lngua. Por exemplo, no compreender um
trocadilho como fish and chimps (de uma tirinha de Frank & Earnest
em que um deles v esse prato no cardpio e comenta Its
probably a typo, but why take a chance? Deve ser erro de grafia,
mas pr qu arriscar?) a menos que conhea o binmio fish and
chips. Ou outro como Ear today, gone tomorrow (calcado em Here
today, gone tomorrow), num artigo sobre a luta de boxe em que
Mike Tyson arrancou um pedao da orelha de seu adversrio.
Por estranho que parea, mesmo como falante nativo da lngua
alvo, o tradutor pode ter problemas no nvel da produo para
conseguir solues naturais, caso se atenha tanto ao texto de partida
a ponto de no perceber que, entre formas igualmente gramaticais,
uma delas de uso mais corrente. Em outras palavras, pode no se
dar conta de que, dentro de uma gama de formas gramaticalmente
possveis, h certas formas que tm uma probabilidade maior de
ocorrerem. Caso o tradutor selecione uma dessas formas possveis,

194

Stella E. O. Tagnin

em detrimento da mais provvel, produzir uma traduo no


natural, no fluente. Esse problema certamente se agravar quando
o tradutor no estiver traduzindo para sua lngua materna.
Nesse aspecto, as colocaes e frmulas so as categorias que
apresentam maior dificuldade. No caso das colocaes palavras
que co-ocorrem em freqncia maior do que se se tratasse de uma
combinao aleatria , a dificuldade pode residir no fato de, em
geral, no constiturem problema de compreenso, de modo que
tendem a passar despercebidas. Em outras palavras, por serem
em grande parte composicionais, as colocaes so de fcil
compreenso. Entretanto, quando se trata de produzi-las, no so
facilmente buscadas na memria, uma vez que no houve um
esforo consciente para memoriz-las.
Uma idia bastante ingnua seria acreditar que um dicionrio
poderia resolver todos os problemas do tradutor em termos de
convencionalidade. verdade que h algumas obras de referncia
que abordam essas categorias, principalmente dicionrios monoe bilnges de expresses idiomticas (para o ingls, Boatner &
Gates 1975, Spears 1988, Spears 1989 , entre outros; para o par
ingls-portugus Serpa 1982, Camargo & Steinberg 1989, 1990).
Entretanto, h poucos dicionrios de frmulas em ingls,
(especialmente Partridge 1977, Spears et allii. 1995, e Spears
1996), e talvez menos ainda de colocaes (principalmente Cowie
et allii. 1983, Benson, Benson & Ilson 1986 e Hill & Lewis 1997).
Para efeitos deste artigo, ser considerado tradutor o profissional
que traduz textos escritos, pois o problema das colocaes ser
abordado com relao a sua freqncia no discurso escrito. J as
frmulas fazem parte principalmente do discurso falado, objeto da
interpretao, dublagem e legendagem, que requerem habilidades
especiais, das quais no trataremos aqui.

Os Corpora: instrumentos de auto-ajuda...

195

3. As Colocaes e o Tradutor
Vejamos os dois tipos principais de colocaes e os caminhos do
tradutor para encontrar uma traduo adequada para eles. A
terminologia aqui usada sinttica, no funcional. Segundo Hausmann
(1985), as colocaes so formadas por uma base a palavra de maior
carga semntica , geralmente um substantivo, mais um colocado. O
nome da colocao ser derivado do colocado. Assim, uma colocao
de verbo + substantivo ser uma colocao verbal, um adjetivo +
substantivo ser uma colocao adjetiva, e assim por diante
3.1 Colocaes Nominais e Adjetivas
Esses dois grupos certamente constituem a maior parte do
inventrio fraseolgico. H milhares delas e a cada dia surgem
outras, pois so empregadas para nomear novas tecnologias,
processos, teorias etc., (por exemplo, computer aided design,
computer graphics, Computer Assisted Language Learning, Corpus
Linguistics, Translation Studies, data storage), e novos objetos e
produtos (mouse pad, video game, food processor, video camera,
London Eye, RealPlayer, RealJukebox). Essas colocaes s
aparecem em dicionrios bastante especializados e, mesmo assim,
s quando seu uso j estiver bastante disseminado.
3.2 Colocaes Verbais
Apesar de serem em nmero bem menor, raramente so
encontradas em dicionrios da lngua geral. Quando o so, vm em
geral listadas no verbete do verbo, que justamente a incgnita da
colocao. Em portugus, por exemplo, dizemos marcar uma
consulta (make a doctors appointment) ou marcar um encontro
(make an appointment with someone). Mas tambm dizemos
marcar uma reunio, que corresponde ao ingls call a meeting.
Em congressos, podemos fazer uma comunicao ou apresentar

196

Stella E. O. Tagnin

um trabalho. enquanto em ingls temos a opo de give a paper


(*dar um trabalho inaceitvel em Portugus!).

4. Dicionrios vs. Corpora


evidente que h escassez de recursos lexicogrficos
fraseolgicos. Os poucos dicionrios desse tipo no mercado
oferecem uma lista restrita de ocorrncias. A ttulo de exerccio,
busquei computer em trs dicionrios diferentes e dois corpora.
Por exemplo, o BBI (1993), no verbete computer lista as seguintes
colocaes nominais e adjetivas:
6. an analog; desktop; digital; electronic; general-purpose;
handheld; home; laptop; mainframe ~; [...] parallel; personal;
serial ~ (p. 72)

O LTP Dictionary of Selected Collocations (1997) lista apenas


home, laptop, mainframe, palmtop, personal ~ (p. 51).
A edio atualizada do Longmans Dictionary of English
Language and Culture (1993) lista as seguintes colocaes que
comeam com computer: computer-aided design, computer dating
agency, computer game, computer graphics, computer hacker,
computer modelling, computer programmer, computer science and
computer virus.
Outra fonte foi o English Collocations on CD-ROM da Collins
Cobuild (1995), uma ferramenta j pronta, baseada no corpus Bank
of English, que apresenta 10.000 palavras pr-selecionadas com
aproximadamente 20 colocados para cada uma . Uma rpida busca
ofereceu a seguinte tabela para computer:

Os Corpora: instrumentos de auto-ajuda...

Figura 1: Tela para computer no English Collocations on CD-ROM

197

198

Stella E. O. Tagnin

Ao acessar os exemplos para cada colocado, surgiram mais


algumas colocaes: computer hardware, computer manufacturers, computer-products company, computer marketing research
company, computer services company, computer software company,
computer-security industry, computer video games, computer
systems, computer workstations, computer-driven programs,
computer-reservation, computer store, computer service business,
computer-based information system, computer databases, computer
information system, computer information network, computer-based
graphics package, computer-based system e computer-based
service.
O que de se estranhar que, exceo de personal computer,
nenhuma dessas ocorrncias listada nos dicionrios mencionados.
Talvez no seja to estranho se considerarmos que um dicionrio
somente incluir palavras e principalmente colocaes que j
estiverem em uso h algum tempo. Um dicionrio jamais conseguir
acompanhar o ritmo em que so criadas novas colocaes.
Como ltimo passo recorri ao WebCorp (http://
webcorp.connect.org.uk/cgi-bin/webcorp 2 ), um instrumento de
busca online que usa a Web como corpus. Na poca da busca para
computer (2000), a ferramenta acessou 60 sites no Altavista e
produziu 134 concordncias. As colocaes mais freqentes foram:
computer systems (9), host computer (8), computer service (7),
digital computer (4), electronic computer (3), computer hardware
(3), computer store (3) e 2 ocorrncias para cada uma das colocaes
computer keyboard, computer design, computer center, computer
field, computer products, computer dealers and computer software.
H tambm algumas ocorrncias nicas, dentre as quais apenas as
seguintes so listadas nos dicionrios consultados:
BBI (1996)
LTP (1997)
digital computer
mainframe computer
electronic computer
general-purpose computer
mainframe computer

LDELC (1993)
computer game
computer programmer
computer science

Os Corpora: instrumentos de auto-ajuda...

199

Vale salientar que quando algumas colocaes so registradas


nos dicionrios j podem ter cado em desuso, como parece ser o
caso de personal computer, que foi substitudo por PC, ou ento
desktop computer reduzido simplesmente a desktop (plural
desktops). No foi encontrada nenhuma ocorrncia para essas duas
colocaes entre as 134 concordncias geradas pelo Webcorp. Isso
demonstra que uma busca num corpus produzir colocaes que
esto em uso, ou seja, um corpus no fornecer apenas a forma
correta, mas principalmente a forma mais usual na lngua sob
investigao.
A lngua inglesa tem o privilgio de poder contar com dicionrios
de colocaes como o BBI e o LTP, mas, para a maioria das lnguas,
ainda no existe essa fonte de referncia. O quadro se agrava quando
se trata de dicionrios bilnges. Segundo meu conhecimento, existe
uma verso japonesa (Akimoto et allii 1993) e uma chinesa
(Longman 1995) do BBI. H tambm o Russian-English Dictionary
of Verbal Collocations compilado por Benson & Benson (1993).
Um dicionrio semelhante de colocaes verbais de ingls e
portugus do Brasil, nas duas direes est sendo compilado no
mbito da Universidade de So Paulo (Tagnin 2000).

5. O projeto fraseolgico
Do panorama acima descrito parece ficar claro que o recurso a
corpora um instrumento fundamental para garantir uma traduo
em linguagem natural. Por essa razo, aps meus alunos do Curso
de Especializao em Traduo da Universidade de So Paulo (1o.
semestre de 2000) serem apresentados ao componente convencional/
fraseolgico da lngua e conscientizados sobre os problemas que as
unidades fraseolgicas podem causar na traduo, foi-lhes solicitado
construrem um pequeno corpus de onde extrairiam todas as
unidades fraseolgicas possveis (colocaes, binmios etc.) e as
apresentariam como trabalho final.

200

Stella E. O. Tagnin

5.1 O processo de construo dos corpora


Os 48 alunos foram divididos em 11 grupos; cada um, por razes
prticas, escolheu uma rea de pesquisa. Essas reas cobriam desde
assuntos mais gerais como moda, culinria e beleza at reas
altamente especializadas como biotecnologia, finanas e
computao. Dentro de cada rea, optaram por um tpico mais
especfico, pois assim que comearam a coletar os textos,
perceberam que era imprescindvel delimitar melhor o campo de
pesquisa, caso contrrio, no teriam como manipular o vasto
material que coletaram no seu entusiasmo inicial.
A partir da, cada grupo escolheu um texto tpico de sua rea,
no qual deveria identificar todas as ocorrncias fraseolgicas e
tentar traduzi-las. Cada semana um grupo diferente apresentava
seus resultados, em primeiro lugar para discutir se as unidades
identificadas eram realmente fraseolgicas, em segundo para
garantir que tivessem encontrado uma traduo confivel. Por
confivel entendamos natural (ou idiomtica, como muitos
estudiosos, a exemplo de Bowker, a denominam), uma traduo
aceitvel no sentido de ser a combinao que de fato era usada
naquela rea. Em outras palavras, caso o termo tivesse sido apenas
encontrado num dicionrio, teria de ser validado por uma ocorrncia
em contexto autntico.
nesse momento que se faz necessrio um corpus. Cada grupo
passou a construir um corpus de aproximadamente 200.000 palavras,
100.000 em cada lngua. Durante o processo, ficou evidente que se
tratava de um nmero muito ambicioso, embora alguns grupos
tenham chegado bem perto desse objetivo. Os textos deveriam ser
originais ou tradues e cada texto deveria ser identificado quanto
fonte, lngua e o fato de tratar-se de original ou traduo.3
5.2 Um desdobramento natural
Embora o curso no pretendesse enfocar especificamente a
linguagem tcnica, a maior parte das unidades fraseolgicas

Os Corpora: instrumentos de auto-ajuda...

201

caracterizava-se como termos tcnicos dentro da rea investigada.


Foi isso que fez com que fosse sugerido aos alunos organizarem
essas unidades sob a forma de glossrio. Assim, alm de
construrem um corpus bilnge comparvel, de propores bem
menores do que inicialmente proposto, cada grupo apresentou um
glossrio de 50 a 200 termos em cada lngua. Os glossrios
apresentaram os termos equivalentes com exemplos autnticos em
ambas as lnguas. No havia definies, pois no pretendia ser um
recurso terminolgico propriamente dito, isto , um glossrio
definitrio. Pretendia ser uma fonte de referncia para o tradutor,
oferecendo-lhe os termos tcnicos, seus equivalentes e, acima de
tudo, contextos de uso em ambas as lnguas.
5.3 Avaliao geral
Como o projeto estendeu-se de forma no prevista, discutirei
cada tarefa em separado.
5.3.1 Coleta dos equivalentes fraseolgicos
Em relao ao objetivo inicial do projeto, houve consenso entre
os grupos de que o experimento era extremamente vlido por
conscientiz-los para um aspecto da lngua at ento desconhecido
para eles: o significado nem sempre composicional; com
freqncia as palavras adquirem seu sentido pela companhia com
que andam, conforme salientou Firth, ou seja, das palavras com
que co-ocorrem. Em outras palavras, os alunos
1. conscientizaram-se da presena da convencionalidade/fraseologia
na lngua, ou seja, perceberam que a lngua tem um nmero
muito grande de itens como as colocaes;
2. aprenderam a identificar unidades fraseolgicas, principalmente
devido a sua recorrncia;
3. compreenderam que as unidades fraseolgicas do texto de partida

202

Stella E. O. Tagnin

deveriam, sempre que possvel, ser traduzidas por unidades


fraseolgicas na lngua alvo a fim de garantir uma linguagem
natural;
4. deram-se conta de que os dicionrios bilnges so fontes de
referncia deficientes quando se trata de encontrar unidades
fraseolgicas equivalentes;
5. descobriram que mesmo um corpus de pequenas propores,
mas composto de textos criteriosamente selecionados, pode ser
muito til como fonte de equivalentes usuais.
5.3.2 Tcnicas de construo de corpus
Devido s correes de percurso, os alunos sentiram falta de
instrues mais detalhadas. Na realidade, a maioria teve de
aprender as tcnicas de construo de corpus da forma mais difcil:
fora das aulas, com equipamento e recursos prprios, uma vez que
nosso Departamento no conta com instalaes informatizadas
adequadas. No entanto, durante o processo
1. aprenderam que era preciso delimitar melhor a rea de pesquisa
e ser mais criteriosos na seleo dos textos. Como a maioria
comeou a coleta do material sem qualquer critrio, logo
perceberam que grande parte no era adequada para seus
propsitos;
2. deram-se conta de que textos tradicionais, caso fossem
includos no corpus, deveriam ser digitados ou escaneados.
Digitar exigia muito tempo e escanear apresentava problemas
tcnicos em termos de equipamento (quase ningum tinha acesso
a um scanner) ou de software para transformar a imagem em
texto;
3. descobriram a riqueza da Web como fonte de textos em formato
eletrnico, mas tambm perceberam que eram muito mais
numerosos em ingls do que em portugus, o que, por vezes, os
obrigou a recorrer a textos tradicionais;
4. deram-se conta, logo no incio do projeto, de que era

Os Corpora: instrumentos de auto-ajuda...

203

imprescindvel saberem usar um computador, dominarem o


Word e o Excel, e saber navegar na Internet. Alm disso, tiveram
de aprender a usar programas de busca como o Simple
Concordance Program (que acharam lento demais), ou o
IntraText, um servio gratuito atravs do qual se envia um texto
por e-mail, que devolvido, dentro de poucos minutos, com
diversas informaes lexicais, inclusive colocaes. O problema
que se colocava, no entanto, que os arquivos eram devolvidos
compactados, o que exigia um software especfico que poucos
alunos tinham;
5. aprenderam a fazer buscas online nos sites do WebCorp e do
BNC (British National Corpus) para confirmar certas colocaes
ou encontrar outras;
6. finalmente, aprenderam que era preciso identificar seus textos e
disp-los numa estrutura hierrquica para que pudessem consultlos de acordo com suas necessidades. A estrutura foi-lhes
fornecida.
Em suma, apesar de se queixarem de que o projeto era complexo
demais para ser completado no perodo de um semestre,
concordaram que foi uma experincia valiosa. Acima de tudo,
porm, estavam certos de que as habilidades recm-adquiridas de
busca e de construo de corpora eram instrumentos que poderiam
evitar que atuassem como tradutores ingnuos.

6. Projeto terminolgico para tradutores


No ano seguinte (1o. semestre de 2001), foi ministrada a disciplina
Traduo Tcnica. Parte da turma era composta pelos mesmos
alunos que haviam trabalhado no projeto fraseolgico. Foi sugerido
que os grupos retomassem suas reas de pesquisa, dessa feita com
o objetivo explcito de elaborarem um glossrio bilnge a partir de
corpora de 200.000 palavras em cada lngua que deveriam construir.

204

Stella E. O. Tagnin

Houve uma diferena fundamental em relao ao


desenvolvimento do projeto anterior. Face aos problemas ocorridos
ento
1. houve uma introduo explcita noo de corpus, s etapas de
sua construo e s ferramentas de busca. No caso, houve uma
detalhada explicao sobre o uso da verso demo do Wordsmith
Tools, ferramenta que fornece, a partir de textos prselecionados, concordncias para a palavra de busca, clusters
(agrupamentos freqentes), listas das palavras mais freqentes
num texto, bem como palavras-chave de um texto. Por falta de
um laboratrio de informtica, essas informaes foram
transmitidas por meio de transparncias, cabendo aos alunos
porem a mo na massa em casa;
2. como a maioria dos grupos se manteve, foram incentivados a
melhor delimitar sua rea de pesquisa. Assim, a rea de
Culinria ficou restrita ao tema de Temperos, a de Informtica
concentrou-se no aspecto da Segurana na Internet e assim por
diante (vide abaixo lista completa);
3. foram discutidos os critrios de seleo dos textos: as fontes
deveriam ser idneas, de preferncia acadmicas, associaes
profissionais, revistas especializadas etc. Como a maioria dos
textos seria extrada da Internet, onde j so encontrados em
formato eletrnico, deveriam ser evitados sites comerciais
porque, em geral, apresentam uma linguagem descuidada. Os
textos deveriam ser completos, sem restrio quanto extenso,
para permitirem, no futuro, tambm pesquisas textuais e no
apenas lexicais. Poderiam ser originais (de preferncia) ou
tradues;
4. com relao aos direitos autorais, foi redigido um pedido, em
ingls e em portugus (anexos 1 e 2), que os alunos deveriam
encaminhar aos autores dos textos que coletaram para obter
permisso de inclui-los num corpus destinado exclusivamente
pesquisa. Nem sempre foi possvel contatar o autor ou uma pessoa

Os Corpora: instrumentos de auto-ajuda...

205

responsvel, mas, mesmo assim, o resultado foi bastante


promissor;
5. foi introduzido um cabealho para identificar cada texto quanto
ao ttulo, autor, tipo (original ou traduo), lngua, local de
publicao, data etc.;
6. foi definida uma estrutura para montagem do corpus de modo a
facilitar a seleo de textos no momento da busca. Os textos
foram organizados em trs grupos: Ingls, Portugus e Paralelos.
Dentro dos dois primeiros foram subdivididos em Originais e
Tradues. Observe-se que essas tradues no eram tradues
dos originais; eram textos independentes, que foram encontrados
apenas na forma traduzida. O terceiro grupo, o Paralelo, que
constava de originais e suas respectivas tradues, foi subdividido
de acordo com a direo da traduo: ingls-portugus ou
portugus-ingls. Cada texto foi gravado num arquivo. Para sua
correta identificao o nome deveria ser imediatamente seguido
de uma das seguintes siglas:
IO = ingls original
IT = ingls traduo
PO = portugus original
PT = portugus traduo
PIPIO = paralelo ingls-portugus: ingls original
PIPPT = paralelo ingls-portugus: portugus
traduo
PPIPO = paralelo portugus-ingls: portugus
original
PPIIT = paralelo portugus-ingls: ingls traduo.
Assim, por exemplo, SafetyIO um texto original em ingls
identificado com o nome de Safety, SoyPIPIO o original em
ingls de um texto identificado como Soy que, por constar de um
corpus paralelo, possui uma traduo para o portugus
identificada como SoyPIPPT;
7. todos os alunos usaram o Wordsmith Tools para suas buscas, ao
contrrio do que ocorreu no projeto anterior, em que apenas

206

Stella E. O. Tagnin

alguns conseguiram utilizar ferramentas de busca informatizadas


como o Simple Concordance Program ou o IntraText;
8. os termos que comporiam o glossrio no se restringiram a
unidades fraseolgicas, no caso, colocaes. Foram tambm
includos termos monolexmicos, justamente por se tratar de
um glossrio tcnico. No entanto, ao contrrio da maioria dos
glossrios, que tende a se restringir a substantivos ou sintagmas
nominais, os glossrios em questo, sempre que possvel,
incluram colocaes verbais especficas da rea. Isso se deve
ao fato de que nosso objetivo era compilar um glossrio para o
tradutor, ou seja, um glossrio de produo, no apenas de
compreenso.
Talvez essa diferena merea uma explicao. Em primeiro
lugar, o glossrio no era definitrio, ou seja, no constava de
um termo com sua respectiva definio. Na realidade,
apresentava apenas o termo e um exemplo autntico em cada
lngua. Como na maioria dos casos os termos no eram extrados
de textos paralelos (um original e sua respectiva traduo), os
exemplos no eram equivalentes. Eram apenas ilustrativos do
uso do termo em seu contexto usual. Isso de suma importncia
para o tradutor, pois lhe fornece o ambiente natural de ocorrncia
do termo, por exemplo, se ocorre com ou sem artigo, com ou
sem preposio, se co-ocorre regularmente com outra palavra
etc.;
9. para assegurar uma apresentao padronizada, foi elaborado
um programa na plataforma Access, cujo produto final tem o
seguinte formato:

Os Corpora: instrumentos de auto-ajuda...

207

Figura 2: Glossrio ingls-portugus para a rea de Ecoturismo, gerado pelo Access

208

Stella E. O. Tagnin

Ao final do projeto obtivemos os seguintes corpora especializados


com aproximadamente 200.000 palavras em cada lngua:
Biotecnologia: alimentos transgnicos
Moda: roupas
Culinria: temperos
Informtica: segurana na Internet
Veterinria: doenas dos bovinos
Ecologia: biodiversidade
Odontologia: ortodontia
Automao Industrial: sensores
Finanas: mercado de aes
Turismo: ecoturismo
Cada um desses corpora produziu um glossrio bilnge. Esses
glossrios esto sendo disponibilizados no site do CITRAT (Centro
Interdepartamental de Traduo e Terminologia) http://
www.fflch.usp.br/citrat/, na seo de Glossrios, Traduo.
Para que os alunos pudessem compartilhar os corpora, esses
foram gravados num CD-ROM, juntamente com a verso demo do
Wordsmith Tools. Por questes de direitos autorais, j que ainda
no foi possvel obter autorizao para todos, o CD-ROM destinase apenas ao uso interno, ou seja, para as pesquisas dos alunos
do CETRAD.
Nosso prximo passo incorporar todos esses textos num corpus
maior intitulado COMET Corpus Multilnge para Ensino e
Traduo, que est sendo construdo no mbito do CITRAT, na
Universidade de So Paulo. O COMET abrigar todos os corpora
construdos, tanto pelos alunos do CETRAD, quanto por psgraduandos dos diversos departamentos da Faculdade, nas vrias
lnguas l oferecidas. Dentre as vrias reas tcnicas, trs merecero
ateno especial: Direito Comercial, Informtica e Odontologia, o
que significa que sero ampliadas de forma sistemtica. Esse corpus,
quando construdo, ser disponibilizado via Internet (Tagnin 2002).

Os Corpora: instrumentos de auto-ajuda...

209

6.1. Avaliao
Ao final do segundo projeto, os alunos estavam perfeitamente
conscientes e convencidos da relevncia de corpora tcnicos para
o trabalho do tradutor, principalmente face falta de obras de
referncia especializadas em diversas reas. Vale ressaltar, no
entanto, que, mesmo que essas obras existam no mercado, ainda
assim o corpus oferecer uma viso mais atualizada da linguagem
em questo, fornecendo, quando conveniente, indicaes quanto
freqncia de uso de determinado(s) vocbulo(s) e, principalmente,
apresentando a palavra buscada num contexto de uso real,
juntamente com as palavras com que usualmente co-ocorre, isto ,
seus colocados. Essa informao poder ativar o conhecimento
passivo do consulente, confirmando suas intuies e permitindolhe produzir um texto mais natural, o que evidencia tambm o
aspecto didtico de uma consulta a corpus. Alm do mais, a
experincia conferiu aos alunos alto grau de autonomia uma vez
que podem, sempre que necessrio, construir, em relativamente
pouco tempo, um corpus que atenda a suas necessidades.

7. Concluso
Relatamos dois experimentos de construo de corpora por
alunos de traduo como fonte de referncia para suas tarefas
tradutrias. O primeiro projeto fraseolgico configurou-se como
um experimento oportunista, mas produziu pequenos corpora e
glossrios fraseolgicos em diversas reas tcnicas. No segundo
um projeto de glossrios tcnicos para tradutores - , o
desenvolvimento foi mais metdico, com uma apresentao formal
das noes bsicas de corpus e das ferramentas de busca, e resultou
em trabalhos mais consistentes. Alm dos produtos obtidos, o
processo vivenciado pelos alunos conscientizou-os para a relevncia
do uso de corpora na traduo, principalmente pela possibilidade

210

Stella E. O. Tagnin

de encontrarem o termo correto num contexto autntico de uso,


o que lhes fornece dados para empreg-lo, em suas tradues, de
forma natural e fluente.

Notas

1. Esta uma verso ampliada e atualizada de um artigo que dever ser publicado,
em ingls, sob o ttulo Corpora and the Innocent Translator: how can they help
him nos anais de The Lodz Session of the 3rd International Maastricht-Lodz Duo
Colloquium on Translation and Meaning realizado em Lodz (Polnia), 22 24
de setembro de 2000.
2. A URL atual www.webcorp.org.uk .
3. Trabalhos semelhantes foram desenvolvidos por Maia (2000) e Varantola (2001).
Veja tambm artigos das autoras neste volume.

Referncias

Akimoto, S., A. Baba & T. Ogura (eds.) (1993). BBI Eiwa Rengo Katsuyo Jiten,
Toquio: Maruzen.
Benson, Morton & Evelyn Benson (1993). Russian-English Dictionary of Verbal
Collocations, Amsterdam/Philadelphia: John Benjamins.

Os Corpora: instrumentos de auto-ajuda...

211

Benson, Morton, Evelyn Benson & Robert Ilson (1993 [1986]). The BBI Dictionary of English Word Combinations, Amsterdam/Philadelphia: John Benjamins.
Boatner, Maxine Tull & John Edward Gates (1975). A Dictionary de American
Idioms, Woodbury, N.Y.: Barrons Educational Series.
Bowker, Lynn (1998). Using Specialized Monolingual Native-Language Corpora
as a Translation Resource: a Pilot Study, Meta XLIII, 4, pp 631-651.
Camargo, Sidney & Martha Steinberg (1989). Dicionrio de Expresses Idiomticas
Metafricas Portugus-Ingls, So Paulo: Editora Pedaggica e Universitria.
Camargo, Sidney & Martha Steinberg (1990). Dictionary of Metaphoric Idioms
English-Portuguese, So Paulo: Editora Pedaggica e Universitria.
Cowie, A.P., R. Mackin & I. R. McCaig (1983). Oxford Dictionary of Current
Idiomatic English, Oxford: Oxford University Press.
Fillmore, Charles J. (1979). Innocence: A Second Idealization for Linguistics,
Berkeley Linguistic Society 5, pp 63-76.
Hausmann, Franz Josef (1985). Kollokationen im deutschen Wrterbuch - ein Betrag
zur Theorie des lexikographischen Beispiels. In Bergenholtz, Henning & Joachim
Mugdan (eds.). Lexikographie und Grammatik. Akten des Essener Kolloquiums zur
Grammatik im Wrterbuch (Lexicographica Series Maior 3), pp 118-129.
Hill, Jimmie & Michael Lewis (1997). LTP Dictionary of Selected Collocations,
Hove: Language Teaching Publications.
Longman Dictionary of English Collocations. (1995). Hong Kong: Longman Asia.
Longman Dictionary of English Language and Culture, (1993 updated [1992]),
London: Longman.
Maia, Belinda (1997). Making corpora a learning process. Comunicao
apresentada no CULT 97, disponvel no site www.sslmit.unibo.it/cultpaps/paps.htm.

212

Stella E. O. Tagnin

Maia, B. (2000). Making corpora a learning process, in Bernardini, S. & F.


Zanettin, (eds). 2000, pp 46-7.
Partridge, Eric (1977). A Dictionary of Catch Phrases, London: Routledge &
Kegan Paul.
Serpa, Oswaldo (1982). Dicionrio de Expresses Idiomticas Ingls-Portugus /
Portugus-Ingls, Rio de Janeiro: MEC/FENAME.
Spears, Richard A. (1988). NTCs American Idioms Dictionary, Lincolnwood,
Ill.: National Textbook Company.
Spears, Richard A. (1989). NTCs Dictionary de American Slang and Colloquial
Expressions, Lincolnwood, Ill.: National Textbook Company.
Spears, Richard A. (1996). Common American Phrases in Everyday Contexts,
Lincolnwood, Ill.: National Textbook Company.
Spears. R. A. et allii. (1995) NTCs Dictionary of Everyday American English
Expressions, Lincolnwood, Ill.: National Textbook Company.
Tagnin, Stella E. O. (2000) Collecting data for a bilingual dictionary of verbal
collocations: From scraps of paper to corpora research. In LewandowskaTomaszczyk, B & Melia, P.J. (eds.) PALC 99: Practical Applications in Language
Corpora. Articles from the International Conference at the University of Lodz, 1518 April 1999; Frankfurt am Main: Peter Lang GmbH, 399-407.
Tagnin, Stella E. O. (2002). Taking off in Brazil: COMET A multilingual
corpus for teaching and translation, comunicao apresentada em The 23rd
International Conference on English Language Research on Computerized Corpora
of Modern and Medieval English - ICAME 2002 The Theory and Use of
Corpora, Gotemburgo, Sucia, 22-26/05/2002.
Varantola, Krista (2001) Disposable corpora as translation tools , palestra proferida
no II Seminrio sobre Estudos de Corpora Perspectivas para a Traduo, USP/
SP, 31/07-02/8/2001.

213

Os Corpora: instrumentos de auto-ajuda...

ANEXO 1

Profa. Dra. Stella E. O. Tagnin


Universidade de So Paulo
Faculdade de Filosofia, Letras e Cincias Humanas
Departamento de Letras Modernas
Tel. 3091-4296
Av. Prof. Luciano Gualberto, 403
Fax: 3032-2325
05508-900 So Paulo SP
E-mail: seotagni@usp.br
<Data>
<Endereo>
Prezados Senhores
Na qualidade de coordenadora do projeto COMET, um Corpus
Multilnge para Ensino e Traduo, para o qual conto com BolsaPesquisa do CNPq (Processo 301020/91-4), venho solicitar-lhe
autorizao para incluir o texto ...................... no referido
corpus.
O corpus constar de textos de especialidade em ingls e
portugus, tanto originais quanto tradues, para servirem de fonte
de pesquisa para estudos nas reas de traduo e ensino de lnguas.
Os textos sero tratados de forma a possibilitar uma busca
eletrnica, ou seja, acesso s informaes via computador.
Um dos principais objetivos desse corpus constituir-se como
uma base de textos fidedigna para ensejar trabalhos que possam vir

214

Stella E. O. Tagnin

a contribuir para melhorar o ensino e a aprendizagem de lnguas


(tanto materna quanto estrangeiras), a prtica da traduo e a
confeco de obras lexicogrficas especficas (dicionrios e
glossrios).
A informao bibliogrfica completa dos textos selecionados
para o corpus ser facultada aos seus usurios e na apresentao
do corpus haver um agradecimento individual a todos os autores,
tradutores e editoras participantes.
Sua colaborao importante para este projeto. Se concordarem
com a utilizao do texto acima referido, peo a gentileza de assinar
a carta de autorizao em anexo e remet-la ao endereo indicado.
Este corpus um projeto acadmico e no tem quaisquer fins
lucrativos. Caso desejem maiores informaes, coloco-me a sua
inteira disposio para quaisquer esclarecimentos que se faam
necessrios.
Esperando poder contar com sua colaborao, subscrevo-me
atenciosamente,
Profa. Dra. Stella E.O. Tagnin

Os Corpora: instrumentos de auto-ajuda...

215

COMET
CORPUS MULTILNGE PARA ENSINO E TRADUO
Coordenao cientfica: Profa. Doutora Stella E. O. Tagnin
Universidade de So Paulo
Faculdade de Filosofia, Letras e Cincias Humanas
Departamento de Letras Modernas
Av. Prof. Luciano Gualberto, 403
05508-900 So Paulo SP

AUTORIZAO

Texto: __________________________________

Concedo autorizao a Stella E. O. Tagnin para introduzir o(s)


texto(s) em epgrafe no COMET - CORPUS MULTILNGE
PARA ENSINO E TRADUO, que est sendo criado no
mbito da Universidade de So Paulo, na condio de ser
disponibilizada aos usurios do corpus a informao bibliogrfica
completa do(s) mesmo(s) e de constar, na apresentao do corpus,
um agradecimento minha colaborao.

Data:

Assinatura: _________________________________

(nome por extenso)

216

Stella E. O. Tagnin

ANEXO 2

Profa. Dra. Stella E. O. Tagnin


Universidade de So Paulo
Faculdade de Filosofia, Letras e Cincias Humanas
Departamento de Letras Modernas
Tel. 3091-4296
Av. Prof. Luciano Gualberto, 403
Fax: 3032-2325
05508-900 So Paulo SP E-mail: seotagni@usp.br
<Date>
<Address>

Dear Sir/Madam
I am a professor at the Department of Modern Languages of the
University of So Paulo, in So Paulo, Brazil, where I am currently
coordinating the construction of a multilingual corpus for teaching
and translation purposes, the COMET (Corpus Multilinge para
Ensino e Traduo) with a research grant from one of our leading
state funding agencies (CNPq Process 301020/91-4). In that capacity
I would like to ask for your permission to include the following text
in our corpus:
<Title of text>

Os Corpora: instrumentos de auto-ajuda...

217

The COMET will consist of technical texts in English and Portuguese, in their original or translated forms, to be used as research sources for studies in language teaching and translation. The
texts will be stored electronically so that they can be used in the
automatic retrieval of information for Portuguese-English language
contrasts.
It is meant to be a reliable source of authentic texts to be used in
research that will eventually improve language teaching and
acquisition, the practice of translation, as well as furnish material
for compiling specific dictionaries and glossaries.
Complete bibliographical information of the selected texts will
be available to all users and there will be special mention to the
contributing authors, translators and publishers in the preface to
the corpus. This is an academic research project and is not being
undertaken for commercial gain.
Your cooperation will be greatly appreciated. If you are able to
give permission to include the above text(s) in our corpus, I would
be grateful if you could sign the attached permission form and return
it to me at the address indicated.
Finally, please do not hesitate to contact me if you require any
further clarification about this project.
Yours sincerely,
Dr. Stella E. O. Tagnin
Coordinator

218

Stella E. O. Tagnin

COMET
CORPUS MULTILNGE PARA ENSINO E TRADUO
Coordenao cientfica: Profa. Doutora Stella E. O. Tagnin
Universidade de So Paulo
Faculdade de Filosofia, Letras e Cincias Humanas
Departamento de Letras Modernas
Av. Prof. Luciano Gualberto, 403
05508-900 So Paulo SP

PERMISSION
<Text>

Permission is hereby granted to include the above text(s) in the


Multilingual Corpus for Teaching and Translation purposes COMET - on condition that the users of the corpus are provided
with the full bibliographical reference to the texts in question and
that a personal acknowledgement to the author is included in the
preface to the corpus.

Date:

Signature:

Você também pode gostar