Você está na página 1de 22

O PECADO ORIGINAL DA LINGUSTICA COMPUTACIONAL

Ronaldo MARTINS*
RESUMO: Este artigo explora algumas das questes epistemolgicas envolvidas na demarcao
do territrio da Lingustica Computacional, mais especificamente do Processamento
Automtico das Lnguas Naturais, quando concebido como regio de interseo entre a
Lingustica Tradicional, de um lado, e as Cincias da Computao, de outro. O texto procura
mapear a natureza dessa interseo e constata que os objetivos, os objetos e os mtodos
da Lingustica Computacional no coincidem com os da Lingustica Tradicional, razo pela
qual o novo domnio constituiria no exatamente um subdomnio ou rea de aplicao desta,
mas um novo campo de explorao cientfica, colonizado ainda pelas prticas de anlise e
de investigao que caracterizam a Lingustica Tradicional, mas cujas contradies internas
conduziriam progressivamente formao de uma nova razo lingustica, que envolveria
a constituio de categorias menos antropocntricas e antropomrficas de anlise e de
descrio lingustica, mas que se revelariam mais adequadas para a emulao, pela mquina,
do comportamento lingustico humano.
PALAVRAS-CHAVE: Lingustica Computacional. Processamento Automtico das Lnguas
Naturais. Traduo Automtica.

Introduo
A Traduo Automtica (Machine Translation), ou Traduo Mecnica
(Mechanical Translation), ostenta a dupla condio de ser, entre os aplicativos
do processamento automtico das lnguas naturais, a mais antiga veleidade
e a mais reiterada frustrao. Nas mais recentes competies entre sistemas
promovidas pelo National Institute of Standards and Technology (NIST, 2008),
o melhor sistema de traduo automtica (Google) no chegava a nem mesmo
50% da referncia humana. Se considerarmos que as primeiras tentativas de
construo de um sistema que traduzisse automaticamente os enunciados entre
duas lnguas naturais coincidem com o desenvolvimento da tcnica de criptografia,
logo aps a Segunda Guerra Mundial, seremos forados a admitir que todo o
capital simblico e cientfico acumulado pelos estudos da Traduo Automtica
nos ltimos 50 anos no foi capaz, ainda, de produzir sistemas inteligentes que
pudessem substituir o tradutor humano. Nenhum dos sistemas disponveis, sejam
*

UNIVS Universidade do Vale do Sapuca. Faculdade de Filosofia, Cincias e Letras Eugnio Pacelli. Pouso
Alegre - MG Brasil. 37550-000 ronaldo.martins@uol.com.br

Alfa, So Paulo, 55 (1): 287-307, 2011

287

provenientes das iniciativas de mercado, sejam derivados da pesquisa acadmica,


produziu, at hoje, resultados que pudessem prescindir de edio humana. Pelo
contrrio: mesmo para lnguas que tm concentrado uma soma considervel de
investimentos, no foram observados resultados que permitissem, qual em um
teste de Turing, confundir o desempenho do tradutor mecnico com a expectativa
de desempenho de um tradutor humano.
O sempre renovado fracasso das inmeras tentativas de automao vem
conduzindo a uma reviso do processo de traduo, no sentido de serem
redefinidos, principalmente, seus objetivos e seu escopo de atuao. Martin Kay
(1995, p.247-248) sugere, em um texto sintomaticamente intitulado Machine
Translation: the disappointing past and present, trs possibilidades de
encaminhamento da discusso:
First, in the long run, there is no alternative to continuing to build more
faithful models of human behavior. The second alternative is to design
systems involving both people and machines, assigning to each those
parts of the task to which they are best suited. The third is to seek ways
of modifying the task so that the machine will naturally have greater
control over the context.

Essas sugestes parecem-me francamente equivocadas e incuas. No


creio que o acmulo gradual de informao proveniente de redemarcaes
da tarefa original conduzir revoluo qualitativa que, espera-se, vir redimir
o campo, oferecendo alguma real expectativa de produo de um sistema
escalvel, robusto, eficaz e eficiente, capaz de gerar resultados completamente
automticos e de boa qualidade. Em nenhuma das direes propostas, o problema
da Traduo Automtica realmente enfrentado, procedendo-se a um recorte
metodolgico que, se tem, evidentemente, flagrante legitimidade cientfica, faz,
porm, supor que o processo de produo do conhecimento se d antes de forma
gradual, pelo acmulo de informaes que, incorporadas a um sistema dotado
de alguma elasticidade, permitiriam que fosse ampliada, contnua, progressiva e
indefinidamente, sua capacidade de atuao. No creio que seja o caso. O que
se percebe, na prtica, que a complexidade do processo no est apenas ou
diretamente relacionada quantidade ou qualidade de informao necessria,
mas, sobretudo, s premissas sobre as quais toda a cincia do Processamento
Automtico das Lnguas Naturais (PLN), de que a Traduo Automtica parte,
est fundada.
O PLN parece (re)viver hoje o cenrio de crise que, segundo Thomas Kuhn
(1992, p.24-25, grifo nosso), tambm teria caracterizado, por exemplo, a histria
das cincias fsicas:

288

Alfa, So Paulo, 55 (1): 287-307, 2011

A cincia normal, atividade na qual a maioria dos cientistas emprega


inevitavelmente quase todo seu tempo, baseada no pressuposto de
que a comunidade cientfica sabe como o mundo. Grande parte do
sucesso do empreendimento deriva da disposio da comunidade
para defender esse pressuposto com custos considerveis, se
necessrio. Por exemplo, a cincia normal frequentemente suprime
novidades fundamentais, porque estas subvertem necessariamente
seus compromissos bsicos. No obstante, na medida em que esses
compromissos retm um elemento de arbitrariedade, a prpria natureza
da pesquisa normal assegura que a novidade no ser suprimida por
muito tempo. Algumas vezes um problema comum, que deveria ser
resolvido por meio de regras e procedimentos conhecidos, resiste ao
ataque violento e reiterado dos membros mais hbeis do grupo em cuja
rea de competncia ele ocorre. Em outras ocasies, uma pea de
equipamento, projetada e construda para fins de pesquisa
normal, no funciona segundo a maneira antecipada, revelando
uma anomalia que no pode ser ajustada s expectativas
profissionais, no obstante esforos repetidos. Desta e de outras
maneiras, a cincia normal desorienta-se seguidamente. E quando
isso ocorre isto , quando os membros da profisso no podem mais
esquivar-se das anomalias que subvertem a tradio existente da
prtica cientfica ento comeam as investigaes extraordinrias que
finalmente conduzem a profisso a um novo conjunto de compromissos,
a uma nova base para a prtica da cincia.

No se verificou ainda o episdio extraordinrio a revoluo cientfica em


que se observaria a alterao dos compromissos profissionais, o complemento
desintegrador da tradio qual a atividade de cincia normal est ligada, a [...]
alterao nos problemas disposio do escrutnio cientfico e nos padres pelos
quais a profisso determinava [determina] o que deveria ser considerado como
um problema ou como uma soluo de problema legtimo. (KUHN, 1992, p.25).
No houve ainda a transformao da imaginao cientfica.
Mas a anomalia se faz presente em toda parte: as peas lingusticocomputacionais, sejam recursos (o chamado lingware, como gramticas e
dicionrios), sejam instrumentos (como taggers, stemmers, splitters, parsers
etc.), sejam aplicativos de uso final (como aconselhadores ortogrficos, revisores
gramaticais e de estilo, tradutores, alinhadores de texto, sumarizadores,
reconhecedores e sintetizadores de fala etc.), vm teimando em no funcionar
da maneira adequada. Seus resultados, ainda que possam ser extremamente
teis, especialmente quando envolvidas habilidades lingusticas mecnicas e
repetitivas, longe esto de poder ser considerados verdadeiramente adequados.
Pode-se, evidentemente, e em muitos casos, alegar a relativa juventude do
domnio, cuja explorao sistemtica realmente recente. Mas o argumento no
vale para a Traduo Automtica, cuja prospeco metdica teve incio em 1949,
Alfa, So Paulo, 55 (1): 287-307, 2011

289

e que vem concentrando, ao longo desses mais de 50 anos, numerosos grupos


de pesquisa e desenvolvimento. Parece mais razovel supor que o PLN nunca
chegou a constituir propriamente uma cincia normal, assim entendida [...] a
pesquisa firmemente baseada em uma ou mais realizaes cientficas passadas
[...] reconhecidas durante algum tempo pela comunidade cientfica especfica
como proporcionando os fundamentos para sua prtica posterior. (KUHN, 1992,
p.29). As realizaes que poderiam nortear o desenvolvimento de novos projetos
ou constituem tratados de Lingustica pura, que tematizam a linguagem fora
do escopo computacional, ou constituem trabalhos de Matemtica Aplicada,
nomeadamente de Inteligncia Artificial, que abordam a linguagem de maneira
muito superficial.
No houve ainda um trabalho fundacional que definisse implicitamente
os problemas e mtodos legtimos de um campo de pesquisa para as geraes
posteriores de praticantes da cincia, e cujas realizaes tivessem sido:
a) suficientemente sem precedentes para atrair um grupo duradouro de
partidrios, afastando-os de outras formas de atividade cientfica dissimilares;
b) suficientemente abertas para deixar toda a espcie de problemas para serem
resolvidos pelo grupo definido de praticantes da cincia. (KUHN, 1992, p.30).
Uma evidncia de que o PLN no se teria ainda normalizado o fato de
que parece no caber, dentro do campo, a noo de paradigma, definido como
[conjunto de] exemplos aceitos na prtica cientfica real exemplos que incluem,
ao mesmo tempo, lei, teoria, aplicao e instrumentao [e que] proporcionam
modelos dos quais brotam as tradies coerentes e especficas da pesquisa
cientfica. (KUHN, 1992, p.30). A comparao com a ptica Fsica pr-newtoniana
, a essa altura, extremamente ilustrativa:
[...] qualquer um que examine uma amostra da ptica Fsica anterior a
Newton poder perfeitamente concluir que, embora os estudiosos dessa
rea fossem cientistas, o resultado lquido de suas atividades foi algo
menos do que cincia. Por no ser obrigado a assumir um corpo qualquer
de crenas comuns, cada autor de ptica Fsica sentia-se forado a
construir novamente seu campo de estudos desde os fundamentos.
A escolha das observaes e experincias que sustentavam tal
reconstruo era relativamente livre. No havia qualquer conjuntopadro de mtodos ou de fenmenos que todos os estudiosos da ptica
se sentissem forados a empregar e explicar. Nestas circunstncias o
dilogo dos livros resultantes era frequentemente dirigido aos membros
das outras escolas tanto como natureza. Hoje em dia esse padro
familiar a numerosos campos de estudos criadores e no incompatvel
com invenes e descobertas significativas. Contudo, este no o padro
de desenvolvimento que a ptica Fsica adquiriu depois de Newton e
nem aquele que outras cincias da natureza tornaram familiar hoje em
dia. (KUHN, 1992, p.33).

290

Alfa, So Paulo, 55 (1): 287-307, 2011

O campo de estudos do PLN, embora evidentemente profcuo na produo


de aplicativos de utilidade incontestvel, constitui principalmente uma disperso,
sem que possa ser observada, nitidamente, a hegemonia de um corpo terico
sobre os demais. Trata-se, na verdade, de uma coleo de posturas difusas e
fragmentrias (e inconsteis) que orbitam um objetivo comum: ensinar a mquina
a falar.
Convivem, por exemplo, no mesmo campo de investigao, abordagens
simblicas e subsimblicas (estatsticas). As primeiras chamadas lgicas
ou lgico-indutivas , organizadas em torno da ideia de regra, admitem a
possibilidade de identificarem-se, explicita, declarativa, e introspectivamente,
sob a aparente diversidade das ocorrncias lingusticas, padres regulares e
computacionalizveis de comportamento lingustico. As segundas entre as quais
as conexionistas esto escoradas na chamada aprendizagem de mquina
(machine learning), em algoritmos genticos, no processamento de extensos
corpora, na considerao de numerosos exemplrios de ocorrncias lingusticas,
para a recuperao (induzida automaticamente) de regularidades subjacentes
que, explicitadas, talvez no faam nenhum sentido para o observador, mas,
adotadas, provocariam, do ponto de vista procedimental, os mesmos (?) resultados
produzidos, em situaes de uso da lngua, pelo falante humano.
Este movimento pendular, do trfego de teorias que avanam e recuam,
nesta ou naquela direo, a depender das condies de produo da cincia e
do discurso cientfico, e que repelem e imantam, de forma no necessariamente
articulada porque haver sempre os eclticos e os hbridos , os vrios
grupos de pesquisa e desenvolvimento, parece confirmar que o PLN no se
vem constituindo por meio do desenvolvimento linear do conhecimento como
podem supor, por exemplo, Popper (1963) e Hempel (1970) , mas que tambm
no caracteriza, pelo menos no ainda, uma sucesso de descontinuidades
relativamente bruscas, como prev Kuhn (1992).
Mais do que propriamente superposies de modelos de explicao cientfica,
a Traduo Automtica, e tambm o PLN, parecem confirmar a existncia
de justaposies (proliferaes) de teorias que, competindo entre si, acabam
prevalecendo antes por fatores extracientficos (tenacidade, por exemplo) do
que pelo carter proibitivo e falsevel das hipteses que as compem, sempre
passveis de contornos e adaptaes auxiliares. Muitos dos aspectos relacionados
ao domnio tm se revelado muito mais uma questo de propaganda, de poder de
persuaso (e, seguramente, de estratgias de cooptao), de polticas de fomento
que privilegiam esta ou aquela abordagem, este ou aquele objeto de estudo, do
que o mero acmulo de aproximaes graduais (e desinteressadas) Verdade.
Trata-se, portanto, de um terreno pantanoso, de limites movedios, cuja
imaturidade flagrante, mas que deve ser ocupado e desbravado, se estivermos

Alfa, So Paulo, 55 (1): 287-307, 2011

291

efetivamente dispostos a fazer do PLN e da Traduo Automtica, mais do que


uma tcnica, mais do que uma coleo de relatos de experincia, mais do que um
repertrio de prticas desconcertadas, uma cincia normal no sentido kuhniano
do termo.
Dos objetivos e das tarefas do PLN
Para que se possa normalizar o PLN, impe-se, de partida, o imperativo de
definir qual seria o seu objeto e quais seriam os seus objetivos. E parece-me
pertinente tentar retrilhar o percurso argumentativo percorrido por Saussure (1973)
para a demarcao cientfica da Lingustica. Aqui como l, o objeto de investigao
no se revela, pelo menos no primeira vista, autoevidente:
Outras cincias trabalham com objetos dados previamente e que se
podem considerar, em seguida, de vrios pontos de vista; em nosso
campo, nada de semelhante ocorre. [...] Bem longe de dizer que o
objeto precede o ponto de vista, diramos que o ponto de vista que
cria o objeto; alis, nada nos diz de antemo que uma dessas maneiras
de considerar o fato em questo seja anterior ou superior s outras.
(SAUSSURE, 1973, p.15).

Para Saussure (1973, p.13), as tarefas da Lingustica seriam trs:


a) fazer a descrio e a histria de todas as lnguas que puder abranger,
o que quer dizer: fazer a histria das famlias de lnguas e reconstituir,
na medida do possvel, as lnguas-mes de cada famlia;
b) procurar as foras que esto em jogo, de modo permanente e universal,
em todas as lnguas e deduzir as leis gerais s quais se possam referir
todos os fenmenos peculiares da histria;
c) delimitar-se e definir-se a si prpria.

Sua utilidade, no entanto, seria confusa: bem poucas pessoas tm a respeito


ideias claras: no cabe fix-las aqui (SAUSSURE, 1973, p.14).
Situao inversa pode ser observada no PLN, cuja utilidade parece no ser
matria de controvrsia, mas cujas tarefas so passveis de discusso. A confiarmos
em Grishman (1986, p. 4), [...] embora os objetivos da pesquisa em Lingustica
Computacional sejam muito variados, uma motivao primria tem sido sempre o
desenvolvimento de sistemas prticos especficos que envolvem lnguas naturais.
O autor identifica trs grandes classes de aplicaes que tm sido centrais no
desenvolvimento do domnio: a Traduo Automtica (machine translation), a
recuperao de informao (information retrieval) e as interfaces homem-mquina
(man-machine interfaces). Mas ressalta que, alm dessas engenharias, desses
292

Alfa, So Paulo, 55 (1): 287-307, 2011

temas orientados para aplicaes, muitos investigadores tm objetivos de pesquisa


cientfica que so independentes de uma aplicao em particular. Cita, como
exemplo, o uso da Lingustica Computacional para testar as gramticas propostas
pela Lingustica terica. No entanto o prprio autor observa que isto no algo
que venha efetivamente ocorrendo.
Admitamos, por ora, que o PLN tenha efetivamente essa vocao prtica,
engenheira, de produo de softwares lingusticos, de desenvolvimento de
sistemas especialistas que, ao fim e ao cabo, invejam e perseguem o desempenho
observado para um falante humano, em suas vrias formas de uso e manipulao
da linguagem.
Se os objetivos so razoavelmente convergentes, o mesmo no se pode dizer
das tarefas do PLN. Diferenci-lo da Lingustica me parece que seja, por exemplo,
uma tarefa urgente, para que se possa justificar a necessidade e a pertinncia
de uma disciplina autnoma, com mtodos e objeto prprios. No entanto no
saberia dizer em que medida esta angstia compartilhada pela comunidade de
pesquisadores, que parece muitas vezes nutrir a esperana de um dilogo profcuo
e interdisciplinar entre Lingustica e Inteligncia Artificial. Nessa linha, o que se
observa, muitas vezes, o desejo de que o PLN venha a constituir um domnio
ponte, ou uma regio de interseo, entre prticas lingusticas e computacionais
j supostamente consolidadas.
Exemplo dessa expectativa pode ser encontrado em Reynolds (1954 apud
HUTCHINS, 1997, p.222) que, ao reportar a sesso final do primeiro dia da primeira
conferncia sobre Traduo Automtica realizada no MIT, observava:
There was general agreement on the part of both the panel and the
audience that mechanical translation was feasible. It was interesting to
note that the computer engineers present presented all of the difficulties
standing in the way of producing a mechanical translator from the
engineering standpoint; the linguist, from his standpoint; and the
psychologists and philosophers from the standpoint of their respective
disciplines. Each agreed, however, that, if the other two groups did their
work, we could in the near future produce adequate and intelligible
machine programmed translations.

O desejo deste inter-relacionamento pode ser justificado pelo fato de que a


Lingustica e o PLN tm realmente muitas tarefas comuns, como a de desenvolver
um sistema formal de representao das lnguas naturais, j que a matematizao
da linguagem , com efeito, uma possibilidade terica que afeta ambas as
disciplinas. No entanto, em que pese a matriz muitas vezes compartilhada, os
sistemas derivados desses mesmos compromissos em uma e outra disciplina so
hoje razoavelmente distintos, principalmente porque o PLN tem negligenciado
Alfa, So Paulo, 55 (1): 287-307, 2011

293

atores extralingusticos (como o falante, o ouvinte e o contexto, por exemplo) que,


na Lingustica, vm participando dos modelos descritivos. Essa parece ser, alis, a
razo pela qual se diz, com frequncia, que o PLN tem envolvido, primeira vista,
uma concepo muito ingnua e esquemtica do funcionamento da linguagem.
No entanto em defesa do PLN, importante que o diga , quase 100 anos aps
a realizao do Curso de lingustica geral, o conhecimento cientfico que os falantes
tm a respeito da lngua no atingiu ainda o estgio de permitir que pudessem ser
replicadas, mesmo em modelos estritamente tericos, sem vinculao imediata
com a computao, atividades lingusticas mais sofisticadas, principalmente as
de natureza semntica, como a traduo. A lngua permanece uma esfinge a ser
decifrada, e o processo de multiestratificao em diferentes nveis de anlise, se
permitiu, realmente, que um conjunto relativamente expressivo de informaes
fosse produzido, no gerou ainda a sntese necessria para que se tivesse, do
funcionamento da linguagem, uma perspectiva mais geral e consolidada. Pelo
contrrio, a fragmentao da descrio lingustica impediu que se constitusse
uma teoria geral da linguagem, sem a qual qualquer tentativa de automao do
comportamento lingustico se v reduzida, principalmente, experimentao
cega de estratgias de validade limitada.
O fracionamento (ou a compartimentalizao) da Lingustica no pode
constituir, porm, salvo-conduto para abordagens fragmentrias, e claro est que
limitaes operacionais no podem servir de libi para que conceitos que se tm
revelado pertinentes sejam rebaixados condio de dispensveis na descrio
da linguagem. Observam-se, assim, entre linguistas e engenheiros da linguagem,
acusaes de parte a parte. De um lado, denuncia-se a ignorncia de categorias
descritivas da Lingustica e rechaa-se o consequente subdimensionamento da
complexidade dos problemas da linguagem; de outro, registra-se a disperso e
a volatilidade da Lingustica e criticam-se categorias que no acompanham as
exigncias de formalizao requeridas pela mquina. Em ambas as partes, a vvida
conscincia de uma desejvel interdependncia.
Os ataques recprocos, da Lingustica ao PLN, e do PLN Lingustica, podem
ser particularmente ilustrados em fragmentos como o apresentado abaixo, extrado
de um artigo intitulado Natural language parsing and Linguistic Theories: can the
marriage be saved?, publicado, em 1991, em um peridico da rea de Lingustica
(Studies in Language):
The fragmentation of the field of linguistics and the fuzzy philosophizing
that passes for linguistic theory among large segments of the linguistic
population dont inspire much confidence among the language
engineers, and the blissful ignorance about elementary facts of natural
language that the engineers flaunt smugly in their publications does
little to convince serious linguists that there is anybody out there

294

Alfa, So Paulo, 55 (1): 287-307, 2011

among mainframes who has any interest in applying whatever linguistic


scientists may have found out (STAROSTA, 1991, p.178).

O texto de Stanley Starosta (1991) emblemtico no pela retomada dos


argumentos que so cotidianamente esgrimidos em cada uma das duas trincheiras,
mas principalmente pela indicao, implcita, de que a verdadeira fundao do PLN
somente ocorreria quando fosse observada a desfragmentao (homogeneizao?)
da Lingustica, de tal forma que se criassem as condies materiais para que
pudesse ser superado o estado de ignorncia sobre fatos elementares das lnguas
naturais que hoje acometeria os engenheiros da linguagem. parte os problemas
polticos e cientficos associados consignao de uma (utpica) unidade
disciplinar Lingustica, entendo que se pode extrair do texto, como um de seus
corolrios principais, a proposio de que a distncia que separa a Lingustica do
PLN seria consideravelmente menor do que a que a distinguiria da Psicologia, da
Antropologia, da Gramtica Normativa, da Filologia, que separamos claramente
da Lingustica, mas que, por culpa de um mtodo incorreto, poderiam reivindicar
a linguagem como um de seus objetos (SAUSSURE, 1973, p.16). A acompanhar
essa linha de pensamento, o PLN, longe de constituir um domnio autnomo,
seria uma instncia de aplicao da Lingustica, com a qual deveria casar-se
ao invs de dela se separar.
Percebe-se, portanto, que a indicao das tarefas do PLN no exatamente
isenta de polmica e passa, necessariamente, pela definio de seu estatuto
como cincia, particularmente em relao Lingustica. Resta saber e esta
a principal questo aqui se essa to sonhada interdisciplinaridade tem
efetiva validade epistemolgica, principalmente se considerados os diferentes
compromissos que Lingustica e PLN estabelecem com a linguagem. Em ltima
instncia, poder-se-ia afirmar que a crtica que a Lingustica faz s abordagens
computacionais, acusando-as de excessiva simplificao, talvez no passem de
linguisticalismo, de reducionismo lingustico, da tentativa de apagamento de
diferenas que podem ser constitutivas do novo domnio1. Mas pode ser tambm
que esses esquematismos sejam exatamente o que deles se diz: que representam
simplificao grosseira e contraproducente dos fenmenos da linguagem.

O termo linguisticalismo faz aqui evidente aluso a fisicalismo, termo cunhado por Rudolf Carnap, em
Conceituao fisicalista, de 1926, como expresso da ideia de que a fsica constituiria um paradigma a ser
utilizado por todas as cincias, fossem elas naturais ou humanas: Uma das tarefas mais importantes, relativas
lgica da cincia, ser o desenvolvimento das operaes que o fisicalismo sustenta que so possveis: indicar as
regras sintticas para a insero dos diferentes conceitos biolgicos, psicolgicos e sociolgicos na linguagem
fsica. Essa anlise dos conceitos de linguagem parciais conduz concepo de uma linguagem unitria
que suprimiria o estado de disperso que reina atualmente na cincia. (CARNAP, 1937). Uma hiptese que
mereceria ser considerada com muito mais profundidade do que este texto permite a de que a Lingustica, que
j foi considerada cincia-piloto e emprestou o paradigma estruturalista a muitas outras cincias humanas,
talvez guardasse a iluso (totalitria) de que todas as cincias que tomam a linguagem por objeto (ainda que
indireto) de explorao deveriam obrigatoriamente compartilhar de uma mesma metalinguagem.

Alfa, So Paulo, 55 (1): 287-307, 2011

295

Da matria do PLN
As indefinies que marcam o programa terico do PLN no derivam apenas
da ausncia de um ncleo de tarefas comuns em torno das quais possam se
organizar pesquisadores e desenvolvedores. O objeto do PLN igualmente
proteiforme. Como o era, de resto, o prprio objeto da Lingustica no incio do
sculo XX.
Para Saussure (1973, p.17), o objeto de estudo da Lingustica seria a lngua,
o produto social da faculdade de linguagem e um conjunto de convenes
necessrias, adotadas pelo corpo social para permitir o exerccio dessa faculdade
nos indivduos.
A opo de Saussure (1973) pela langue reveste-se de uma necessidade
metodolgica, mais do que de uma ingenuidade terica acerca dos fatos da
linguagem. Para ele, seja qual for a perspectiva que se adote para a considerao das
manifestaes da linguagem, o fenmeno lingustico apresenta perpetuamente
duas faces que se correspondem e das quais uma no vale seno pela outra.
(SAUSSURE, 1973, p.15). Haveria, assim, a face acstica e a face articulatria; a
face fisiolgica (acstico-vocal) e a face psicolgica (mental); a face individual e
a face social; a face esttica e a face dinmica:
Tomada em seu todo, a linguagem multiforme e heterclita; a cavaleiro
de diferentes domnios, ao mesmo tempo fsica, fisiolgica e psquica,
ela pertence alm disso ao domnio individual e ao domnio social; no
se deixa classificar em nenhuma categoria de fatos humanos, pois no
se sabe como inferir sua unidade. (SAUSSURE, 1973, p.17).

O problema da ideia de linguagem, segundo Saussure (1973), seria


justamente esta disperso. A linguagem, do ponto de vista do seu todo, seria
incognoscvel:
Dessarte, qualquer que seja o lado por que se aborda a questo, em
nenhuma se nos oferece integral o objeto da Lingustica. Sempre
encontramos o dilema: ou nos aplicamos a uma lado apenas de cada
problema e nos arriscamos a no perceber as dualidades assinaladas
acima, ou, se estudarmos a linguagem sob vrios aspectos ao mesmo
tempo, o objeto da Lingustica nos aparecer como um aglomerado
confuso de coisas heterclitas, sem liame entre si. (SAUSSURE, 1973,
p.16).

A soluo encontrada por Saussure (1973, p.16-17, grifo do autor) para evitar
tamanha volatilidade e que se transformaria no divisor de guas da Lingustica
bem conhecida:

296

Alfa, So Paulo, 55 (1): 287-307, 2011

H, segundo nos parece, uma soluo para todas essas dificuldades:


necessrio colocar-se primeiramente no terreno da lngua e tom-la
como norma de todas as outras manifestaes da linguagem. De fato,
entre tantas dualidades, somente a lngua parece suscetvel duma
definio autnoma e fornece um ponto de apoio satisfatrio para o
esprito.

Saussure (1973, p.28) no ignora a irrecusvel interdependncia entre as


vrias faces da linguagem, mas no pode fugir evidncia de que a Lingustica,
se se pretende autnoma (diferente da Psicologia, da Antropologia, da Gramtica
Normativa, da Filologia), deve abstrair do todo heterclito, inclassificvel e
intratvel em funo de sua parte mais sistemtica, a lngua:
Por todas essas razes, seria ilusrio reunir, sob o mesmo ponto de
vista, a lngua e a fala. [...] Cumpre escolher entre dois caminhos [lngua
e fala] impossveis de trilhar ao mesmo tempo; devem ser seguidos
separadamente.

No PLN, parece ocorrer problema semelhante, mas a soluo de Saussure


(1973) talvez no represente a melhor alternativa.
Se admitirmos que o objetivo ltimo do PLN desenvolver sistemas
especialistas que repliquem habilidades lingusticas determinadas (como
a de traduzir, a de revisar textos, a de produzir resumos etc.), seu objeto de
investigao seria exatamente cada uma dessas habilidades que se pretende
sintetizar: a traduo, a reviso, a sumarizao e assim por diante2. Embora todas
essas habilidades sejam obviamente lingusticas, no sentido de envolverem
conhecimento da linguagem, importante salientar que: a) no so apenas
lingusticas; b) no envolvem apenas o conhecimento, mas tambm o uso da
linguagem.
O carter extralingustico das habilidades lingusticas pode ser particularmente
ilustrado pela atividade de traduo, em que intervm, de forma determinante, o
contexto e os propsitos da traduo, sem o que, por exemplo, no fariam sentido
as distines normalmente estabelecidas entre traduo literal e traduo
2

A legitimidade desse repertrio de habilidades lingusticas no ser aqui posta em discusso, embora
talvez merecesse uma considerao mais detalhada: ser possvel efetivamente pensar nessa especializao
de habilidades lingusticas, diferenciando-as em traduo, reviso, sumarizao e tantas outras, ou
constituiro todas elas diferentes faces de uma mesma competncia lingustica subjacente e que no caberia
segmentar? Acompanho aqui o senso comum, minha intuio de falante e minha experincia como professor,
que tem percebido, com frequncia, que h de fato diferenas (lingusticas?) importantes em cada uma dessas
atividades. No entanto, devo confessar que escapa ao objeto da discusso tentar declinar quais seriam as
habilidades lingusticas e investigar se estariam todas elas efetivamente, e da mesma forma, relacionadas a uma
competncia lingustica mais geral. O fato que, ainda que as diferenas entre elas possam ser de ordem apenas
cosmtica e acidental, tem sido observada uma diviso social do trabalho lingustico que, principalmente
por meio de polticas de formao e de remunerao, tem confirmado a pertinncia e a possibilidade dessa
subclassificao.

Alfa, So Paulo, 55 (1): 287-307, 2011

297

livre3. Da mesma forma, a habilidade lingustica de traduo no supe apenas o


conhecimento passivo de duas lnguas naturais, mas o movimento ativo de interrelacionamento de estruturas lingusticas. Se pressupusermos que no haver
duas lnguas completamente homlogas, ainda que historicamente aparentadas,
seremos forados a admitir que traduzir , principalmente, operar escolhas lxicas
e sintticas que, em ltima anlise, sero principalmente voluntrias.
Na medida em que considera, no apenas a linguagem, mas tambm o
contexto em que produzida, o mundo que por ela falado (ou que por meio
dela constitudo), e o uso que dela se faz, o PLN se v novamente diante de um
objeto multiforme e heterclito, que conviria ser simplificado, sob o risco de
permanecer incognoscvel.
Consideremos, a ttulo de ilustrao, o desenvolvimento de um sistema
especialista de Traduo Automtica, cujo objetivo seria produzir em portugus um
enunciado (1) A neve branca, correspondente a (2) Snow is white, originariamente
produzido em ingls. O objeto sobre o que nos debruamos, o processo de
transformao de (2) para (1), como a palavra nu, analisada por Saussure (1973),
comporta mltiplas perspectivas de anlise, o que faz que o fenmeno lingustico
em questo e admitamos que se trate de um fenmeno lingustico o que se est
aqui observando tambm se apresente dividido em faces contraditrias, a mais
saliente das quais talvez seja o fato de que o processo de transformao um
processo de escrita (gerao) do portugus mas , ao mesmo tempo, um processo
de leitura (anlise) do ingls.
O dilema, novamente, se reinstalaria: o objeto do PLN nunca se nos ofereceria
de forma integral. E a soluo para essa nova dificuldade no poderia ser, agora,
colocarmo-nos primeiramente no terreno da lngua: trata-se de duas lnguas
diferentes (o ingls e o portugus) que devem ser consideradas simultaneamente.
O objeto de investigao seria, na verdade, as relaes que se estabelecem entre
as duas lnguas comparadas.

Num texto clssico, On Linguistic Aspects of Translation, Roman Jakobson (2000) deixa claro que a) h mais
de um aspecto lingustico envolvido na traduo (o que , alis, confirmado pelo prprio ttulo do texto) e b)
h mais na traduo do que simplesmente Lingustica. O mesmo ocorre em relao a Nida (1964), em que a
traduo concebida no apenas como equivalncia formal (fidelidade mensagem, i.e., forma e matria do
texto de partida), mas talvez principalmente como equivalncia dinmica (fidelidade resposta do receptor
do texto de partida). O autor considera, claramente, alm dos aspectos lingusticos da traduo, os elementos
contextuais e culturais, que seriam, em sua opinio, mais determinantes que os prprios elementos lingusticos:
differences between cultures cause many more severe complications for the translator than do differences in
language structure (NIDA, 2000, p.130). Mounin (1975, p.26-27), por fim, categrico: A traduo (sobretudo
nas reas do teatro, do cinema, da interpretao) comporta sem dvida aspectos francamente no-lingusticos,
extralingusticos. O autor afirma, com seus prprios grifos, que os problemas tericos suscitados pela
legitimidade ou ilegitimidade da operao de traduzir, e por sua possibilidade ou impossibilidade, s podem ser
esclarecidos em primeiro lugar no quadro da cincia lingustica. Mas importante observar que em primeiro
lugar no significa exclusivamente e que exerce, na sentena, o duplo papel de: a) afirmar a importncia dos
aspectos lingusticos da traduo; b) indicar que h outros aspectos a serem considerados.

298

Alfa, So Paulo, 55 (1): 287-307, 2011

Essas duas lnguas compartilham, evidentemente, os mesmos atributos:


ambas constituiriam sistemas de signos, entidades psquicas de duas faces (o
significante e o significado), vinculadas uma a outra por laos arbitrrios, e que
se organizariam por sobre o eixo das simultaneidades (a partir do qual poderiam
ser observadas, entre os signos, relaes associativas e sintagmticas) e por
sobre o eixo das sucessividades. No entanto, se considerarmos que na lngua s
existem diferenas (SAUSSURE, 1973, p.139, p.133, p.141 e p.131); que a lngua
um sistema em que todos os termos so solidrios e o valor de um resulta to
somente da presena simultnea de outros; que o que distingue um signo
tudo o que o constitui; que a lngua, enfim, uma forma, no uma substncia,
seremos forados a admitir que a nica matria efetivamente comparvel entre
duas lnguas (ou dois estados de lngua) seriam as relaes negativas que opem,
dentro de cada uma delas, seus signos.
Trata-se de semelhanas que no poderiam ser expressas por meio do
recurso consagrado a um estado comum das duas lnguas cotejadas, associado
confeco de um dicionrio bilngue e de uma gramtica contrastiva. A
associao eminentemente substantiva de um signo lingustico do portugus
a um signo lingustico do ingls espria e carente de fundamento, porque,
em cada uma das duas lnguas, os dois signos associados (positivamente)
estabelecem, com os outros signos do mesmo sistema, outras relaes, e
assumem, por isso, cada um deles, diferentes valores. importante assinalar que,
historicamente, a Lingustica, que tem por nico e verdadeiro objetivo a lngua
considerada em si mesma e por si mesma. (SAUSSURE, 1973, p.271, grifo do
autor), surge exatamente da recusa do mtodo comparativo empreendido pelos
neogramticos, que buscavam encontrar, nas lnguas romnicas e germnicas,
substncias comuns, sem observar que o efetivo parentesco, para alm de
histrico, que as unia a todas, vinculava o conjunto de relaes entre os signos
que as definia, cada uma delas, e cada uma sua maneira4. Desta forma, a
topologia das duas lnguas ser principalmente dessemelhante, impedindo que
seja observada a biunivocidade (ainda que parcial) entre os vocabulrios e a
intercambialidade entre construes sintticas.
O que torna possvel a traduo do ingls para o portugus no pode ser,
portanto, a isotopia entre os dois sistemas semiolgicos, mas exatamente o
movimento pelo qual o carter endovalorativo e autolgico de cada uma dessas
estruturas exovalorizado e heterologicizado. Um movimento que, obviamente,
no concerne langue, mas parole. Por esse motivo, uma descrio que privilegie
apenas o aspecto social da linguagem, sem a considerao dos movimentos
4

[...] acredita-se, quando se trata da tcnica interna de comparao das lnguas estar lidando com a prpria
lngua, mas isto iluso. No a prpria lngua, mas seus disiecta membra, que no permitem apreender a
totalidade que a lngua; um tal mtodo alcana as contribuies fsicas e fisiolgicas, psicolgicas e lgicas,
sociolgicas e histricas, mas no a prpria lngua. (HJELMSLEV, 1978, p. 180-181).

Alfa, So Paulo, 55 (1): 287-307, 2011

299

realizados pelos falantes, se necessria, no ser suficiente para a reproduo


do comportamento esperado. Em algum momento, outro tipo de informao,
de natureza no estritamente interna, dever ser mobilizado e incorporado ao
sistema5.
Percebe-se, nesse caso, que o objeto de investigao no (apenas) o estado
da lngua, mas um evento lingustico especfico, a lngua posta em funcionamento.
A linguagem, aqui, interessa principalmente como ato, no unicamente como
potncia. Mais do que o conhecimento da linguagem, importa, no exemplo
considerado, o seu uso. Mais do que a estrutura lingustica, importa ali o
acontecimento, o fato lingustico.
O objeto do PLN no pode ser, pois, (apenas) a langue, que no constitui [...]
uma funo do falante, na qual a reflexo intervm somente para a atividade
de classificao (SAUSSURE, 1973, p.22). O objeto do PLN deve ser (tambm) a
parole, o ato individual de vontade e inteligncia, no qual convm distinguir: 1)
as combinaes pelas quais o falante realiza o cdigo da lngua no propsito de
exprimir seu pensamento pessoal; 2) o mecanismo psicofsico que lhe permite
exteriorizar essas combinaes.
A questo que se instala , pois, se a lngua realmente necessria para que
a fala seja inteligvel e produza todos os seus efeitos (SAUSSURE, 1973, p.27).
Se o PLN passa a ter, por objeto, a) combinaes individuais, dependentes da
vontade dos que falam; b) atos de fonao igualmente voluntrios, necessrios
para a execuo dessas combinaes (SAUSSURE, 1973, p.28), resta saber se,
assim como foi possvel desenvolver uma teoria da lngua sem que se fizesse
referncia fala, se poderia igualmente postular uma teoria da fala que no fizesse
referncia lngua.

Considere-se, a este propsito, apenas um exemplo: a traduo, para o portugus, da sentena do ingls (1)
The police refused the students a permit because they feared violence, de forma que a traduo portuguesa da
sentena corresponda a (2) A polciai recusou uma autorizao para os estudantes porque ei temia violncia.
Instala-se um problema se se admite que (1) ambgua do ponto de vista sinttico e/ou semntico, e no
ambgua do ponto de vista pragmtico. Ou seja, se se admite que, embora sejam possveis duas indexaes
para o pronome they:
(1a) The policei refused the students a permit because theyi feared violence.
(1b) The police refused the studentsi a permit because theyi feared violence,
apenas a primeira (1a) autorizada no contexto do estado normal das coisas no mundo, em que (a) a polcia
(inglesa) tem o poder de conceder ou negar autorizaes para manifestaes pblicas (como passeatas
estudantis, por exemplo); (b) os estudantes (na Inglaterra) so obrigados a solicitar permisso polcia para
a realizao de manifestaes; (c) as manifestaes estudantis no raro (?) acabam em protestos violentos;
e (d) a polcia, como agente estatal de manuteno da ordem, no deve medir esforos para a preveno da
violncia. importante observar que, no caso, para a resoluo da anfora endofrica representada por they,
no apenas no so suficientes as relaes lxico-gramaticais (a desambiguizao envolve, inapelavelmente,
a representao, para a mquina, de a+b+c+d indicados acima), mas talvez essas relaes no sejam nem
mesmo necessrias, j que a indexao refere-se antes ao compartilhamento de tpico (tema) do que ao
compartilhamento do nmero gramatical, que diferente para o pronome (plural) e seu antecedente (singular).

300

Alfa, So Paulo, 55 (1): 287-307, 2011

Do mtodo do PLN
Tomar (tambm) a fala como objeto de investigao do PLN implica redefinir,
em larga medida, o referencial terico que vinha sendo at aqui considerado: no
existe, na matriz saussuriana, uma teoria da parole:
Pode-se, a rigor, conservar o nome da Lingustica para cada uma dessas
duas disciplinas e falar duma Lingustica da fala. Ser, porm, necessrio
no confundi-la com a Lingustica propriamente dita, aquela cujo nico
objeto a lngua. Unicamente desta ltima que cuidaremos, e
se por acaso, no decurso de nossas demonstraes, pedirmos luzes ao
estudo da fala, esforar-nos-emos para jamais transpor os limites que
separam os dois domnios. (SAUSSURE, 1973, p.28, grifo nosso).

A matria do PLN seria, portanto, mais afeita quilo que Saussure (1973)
entendia por Lingustica da Fala, e que aqui associarei Psicolingustica, embora a
Psicolingustica no represente, no caso, seno parte de uma Lingustica (externa)
da Lngua.
A Psicolingustica pode ser definida, grosseiramente, como um domnio
ponte entre a Lingustica, cujos conceitos ressignifica, e a Psicologia, cujos
procedimentos refuncionaliza. Trata-se de uma rea do conhecimento que,
principalmente a partir da dcada de 1950, procura programaticamente realizar
a sntese entre fenmenos lingusticos e fenmenos psicolgicos.
A possibilidade dessa interdisciplinaridade entre Lingustica e Psicologia
emerge, no contexto do desenvolvimento das chamadas Cincias da Cognio,
de um reposicionamento epistemolgico que postula que a linguagem, mais
do que um sistema exterior e anterior ao falante, uma sua faculdade mental,
uma sua competncia, em parte congnita, determinada (ou suportada) por
uma estrutura biolgica especfica, de natureza neuroanatomofisiolgica, que
projeta uma organizao psicolgica universal, compartilhada, inevitavelmente,
por todos os falantes humanos. Recusa-se, portanto, a autonomia da lngua,
e afirma-se que as estruturas lingusticas, em lugar de funcionarem
revelia do falante, s existem na medida em que so por ele materializadas
e dele derivadas; que as categorias lingusticas, longe de representarem
uma nomenclatura intersubjetiva da realidade, longe de servirem simples
transmisso do conhecimento, so, elas mesmas, parte desse conhecimento
na verdade, o resultado da prpria organizao psicolgica do falante; que a
linguagem, enfim, sobretudo ao.
As implicaes dessa concepo dinmica da linguagem so principalmente
duas: o privilegiamento, como objeto de estudo, das restries de desempenho
do falante, as quais invariavelmente condicionam a produo e a compreenso
Alfa, So Paulo, 55 (1): 287-307, 2011

301

dos enunciados lingusticos; e a rejeio da abordagem despsicologizadora dos


fenmenos da linguagem empreendida pela definio (esttica) de lngua como
sistema exgeno rejeio que, em ltima instncia, desautoriza a excluso da
parole do objeto de investigao da Lingustica tradicional.
Esse redirecionamento epistemolgico resultado, principalmente, dos
problemas relacionados aquisio da linguagem. A soluo (neo)behaviorista
mais afeita concepo de linguagem como uma habilidade que se adquiriria
socialmente, por meio de condicionamento operante, sem recurso a processos
mentais internos postulava que o comportamento verbal do falante adulto
seria produto histrico de estmulos ambientais (externos, portanto) a que teria
sido exposto desde a infncia. No entanto vrios dos fatos observados na fala de
crianas durante o processo de aquisio de linguagem parecem no consistir, pelo
menos no diretamente, de respostas a estmulos externos. O modelo no explica,
por exemplo, como as crianas projetam qualitativa e quantitativamente os dados
primrios a que tm acesso (necessariamente finitos e relativamente simples)
para produzir e compreender o conjunto infinito de expresses da lngua. Assim
como tambm no explica como, a partir de informao unicamente positiva, a
criana desenvolve toda uma srie de conhecimentos negativos sobre a lngua
(os chamados juzos de aceitabilidade).
O argumento da pobreza dos estmulos primrios como o define Chomsky
(1965) inviabilizaria, assim, uma descrio exclusivamente empirista do fenmeno
da aquisio da linguagem e acusaria a existncia de outros mecanismos mentais
inatos, mais sofisticados do que os princpios indutivos simples repertoriados
pelo comportamentalismo: se a aprendizagem de uma lngua no se resume
repetio e memorizao, se no existe uma relao direta entre os dados de
entrada e os dados de sada, a linguagem j no pode ser definida como produto
de um condicionamento operante: os processos mentais internos tornam-se
ativos e essenciais.
A ruptura com a tradio empirista e, por extenso, a recusa de um
determinismo tout-court entre linguagem e sociedade (postulado, por exemplo,
pela Sociolingustica), fazem reintroduzir os fenmenos lingusticos na discusso
sobre o funcionamento interno da mente, velho problema filosfico que, a partir da
incorporao da metodologia experimental, acabar recebendo novos contornos
e novas cores. As relaes entre linguagem e pensamento, na esteira dessa nova
orientao terica, passam novamente a ocupar um foco privilegiado de ateno
nos estudos da cognio humana.
No entanto, a interdisciplinaridade que ento se pronuncia no propriamente
equipolente: a Psicologia acaba muitas vezes importando acriticamente
os conceitos da Lingustica, sem se preocupar muito com sua realidade (e
pertinncia) psicolgica. Ainda que muito frequentemente ocorram, no mbito

302

Alfa, So Paulo, 55 (1): 287-307, 2011

da Psicolingustica, ressemantizaes de categorias lingusticas, a ontologia dos


elementos da linguagem no exatamente o mvel e a preocupao central dos
psicolinguistas, que herdam muitos dos pressupostos das abordagens lingusticas
tradicionais.
Um exemplo notvel desta situao o que Cludia De Lemos (1982, p.98)
referia como o pecado original das teorias sobre aquisio de linguagem:
H, porm, a meu ver, na rea de aquisio de linguagem, um dilema
de base seu dilema ou pecado original que, por no ter sido at
agora plenamente reconhecido, poucas destas questes ou riquezas tm
propiciado. Trata-se da incompatibilidade entre os dois compromissos
que o psicolinguista que se dispe a investigar como as crianas
adquirem sua primeira lngua, tem que assumir ou julga ter que
assumir para dar conta de sua tarefa.
Um desses compromissos com a diacronia, a saber, com a identificao
e a explicao das mudanas qualitativas que definiriam o processo de
aquisio de linguagem, ou, em outras palavras, seu compromisso com
a gnese das estruturas e categorias. O segundo compromisso parece
ser o que ele assume com a sincronia e pelo qual se obriga a descrever,
em termos de categorias e estruturas definidas no interior das teorias
lingusticas vigentes, os enunciados representativos de cada momento
do perodo que isola como objeto de estudo.
Na prtica da pesquisa psicolingustica este dilema se concretiza na
impossibilidade do investigador ser fiel a esses dois compromissos.
No h dvida, porm, de que pelo cumprimento do segundo que
ele tem optado.

Embora recuse a perspectiva (esttica) de lngua, a Psicolingustica


no prescinde, portanto, paradoxalmente, dos conceitos da Lingustica, que
frequentemente toma por primitivos. Embora se constitua como novo domnio,
voltado para nova classe de problemas, a partir de novos princpios tericos e
metodolgicos, a Psicolingustica importa, com os conceitos e as categorias da
Lingustica, toda uma concepo de linguagem que, em ltima anlise, ainda no
psicolgica. A rigor, no incomum que a Psicolingustica seja encarada apenas
como instncia de teste de teorias lingusticas.
O exemplo da Psicolingustica particularmente simblico porque os pontos de
coincidncia com o PLN so flagrantes. Historicamente constitudo por cientistas
da computao que passam a se preocupar com a formalizao da linguagem
bem mais do que por linguistas que procuram testar computacionalmente os
formalismos desenhados , o PLN tem frequentemente pecado por sua excessiva
porosidade: quero crer que o domnio, como no caso da Psicolingustica, padece
de um comportamento esponjoso e exageradamente permevel, que recolhe
e mantm, de forma muitas vezes acrtica, os conceitos da Lingustica terica,

Alfa, So Paulo, 55 (1): 287-307, 2011

303

como se possussem validade intrnseca, que caberia apenas confirmar. Parece


ser ainda ponto de vista hegemnico, no PLN, que as descries da linguagem,
se vlidas para o homem, tambm o seriam para os computadores. Se conceitos
como morfema lexical, sintagma verbal e sinonmia revelam-se, em algum
momento, teis para a descrio do conhecimento que os falantes tm da lngua,
ento teis tambm seriam para a mquina e ali deveriam ser introduzidos e
representados.
Ocorre, porm, que os homens tm se revelado bem mais inexatos do que
querem supor os matemticos, e as semelhanas entre mente e mquina no
podem ser admitidas seno em relao s similaridades de input e output.
luz do paradigma das cincias humanas indisputavelmente desvinculado dos
mtodos das cincias naturais, ainda que no de seus objetivos , as descries
lingusticas, via de regra, no alimentam qualquer preocupao formal com sua
implementao computacional, tendo sido desenhadas para que os homens, e no
as mquinas, entendessem e representassem o que sabem sobre a linguagem.
Em se confirmando a no equivalncia estrutural entre mente e mquina, torna-se
extremamente frgil a pertinncia (e mesmo a utilidade) para o PLN de boa parte
dos constructos da Lingustica terica.
Em parte, poder-se-ia dizer, porque a linguagem humana no lgica e,
consequentemente, pouco passvel de ser replicada a partir de modelos artificiais
invariavelmente amparados na ideia (binria) do tudo ou nada. A univocidade,
limitao fsica pressuposta por qualquer implementao computacional da lngua,
impediria o tratamento da irrecusvel equivocidade emergente dos dispositivos
lingusticos, reduzidos, na mquina, mera caricatura do real.
No entanto, a confortvel recusa da possibilidade de mecanizao da linguagem
to legtima quanto estril. Se indisputvel que haver, sempre, um intervalo
intransponvel entre homem e mquina, tambm indiscutvel que inmeros
dos comportamentos humanos ditos inteligentes tm sido satisfatoriamente
emulados embora no mimetizados pela prtica computacional.
Obviamente, h larga distncia entre os resultados j alcanados e o
processamento de alto nvel da linguagem. A complexidade, que j no pequena
em nveis mais elementares, como a reviso ortogrfica, revela-se inextricvel
quando se pensa, por exemplo, na construo de sumarizadores e tradutores
automticos. O que no pode significar que a mquina seja intrinsecamente
incapaz de processar a linguagem humana. Quero crer que a frustrao da agenda
da Traduo Automtica e, em certa medida, tambm do PLN, aponta para a
impossibilidade, que ser apenas procedimental, de a mquina falar (ou pensar)
tal qual fazem os homens; no compreende, porm, sua capacidade de atingir
alguns dos mesmos resultados de forma completamente diferente da realizada
pelos humanos.

304

Alfa, So Paulo, 55 (1): 287-307, 2011

Como produto desta perspectiva que ser ainda uma profisso de f, mais
do que uma hiptese que tenha sido empiricamente (com)provada , este texto
deve propor uma fronteira semntica imaginria entre duas diferentes classes
verbais do portugus: de um lado, emular, sintetizar, replicar; de outro,
copiar, imitar, mimetizar, simular. No primeiro caso, o compromisso
nico com a produo dos mesmos resultados; no segundo, a fidelidade
tambm ao processo. Em ambas as classes, a adeso ao paradigma do dualismo
psicofsico, pedra angular da Inteligncia Artificial: o pensamento humano
porque independente de sua extenso material, o corpo poderia ser imitado
ou sintetizado pela mquina.
interessante ressaltar que a metfora pouco tem a ver aqui com a
concepo mecanicista da mente que inaugura a Inteligncia Artificial. No se
trata, absolutamente, da mente como mquina, do crebro como hardware, mas
da mente e da mquina como meios diferentes para se atingirem os mesmos
resultados. A ausncia de qualquer especularidade entre a arquitetura da mente
humana e a do computador, e a incomensurabilidade dos meios de expresso
bioqumico, de um lado; fsico, de outro , repelem, j de incio, a possibilidade de
qualquer paralelismo e aproximao entre desempenho humano e desempenho
computacional.
preciso, pois, pensar a formalizao de um modelo de processamento no
supervisionado da linguagem capaz de fundar suas prprias orientaes de
pesquisa e universos categoriais. Interessa no dotar a mquina de um aparato
terico pronto e acabado, mas investigar a possibilidade de investi-la de uma
autonomia que a torne capaz de replicar o dinamismo e a instabilidade que so
prprios da linguagem. Em ltima instncia, interessa pesquisar a formulao
de estratgias computacionalmente implementveis de aquisio (e no de
representao) da linguagem.
Ser preciso, ento, discutir a aplicabilidade dos conceitos e mtodos da
Lingustica terica para o desenvolvimento de processadores automticos de
lnguas naturais. E a hiptese que se espreita justamente a da negao de que
os instrumentos normalmente desenvolvidos pelos linguistas para entender o
funcionamento da linguagem possam ser eficientemente tra(ns)duzidos para a
mquina. Eles seriam pertinentes apenas a um paradigma absolutamente alheio
teoria computacional. No seria autorizado, portanto, o movimento epistemolgico
que leva cientistas da computao a querer buscar, na Lingustica, modelos de
representao da linguagem. O deslocamento necessrio seria outro: as mquinas
redescrevendo a linguagem a partir de suas prprias experincias lingusticas.
A justificativa desta abordagem se constitui em torno desta aparentemente
absurda possibilidade que se desdobra em uma pletora de outras interrogaes
a serem adicionadas quelas que inauguram este texto: ser possvel mquina

Alfa, So Paulo, 55 (1): 287-307, 2011

305

adquirir a linguagem humana? Ser possvel uma descrio no humana para


a linguagem? Ser possvel a criao de uma metalinguagem diferente da
metalinguagem desenvolvida pelo homem? Ser possvel mquina criar, sozinha,
alguma metalinguagem? Ser possvel um conhecimento da realidade no
intermediado pelo homem mas por uma sua criao? At que ponto convergem
as descries, se possveis, do criador e da criatura?
Acredita-se, aqui, em que o aprofundamento dessas interrogaes, ainda
que no sejam alcanadas respostas, pode ser extremamente elucidativo dos
fenmenos da Lingustica e da linguagem. A possibilidade de uma descrio
no antropolgica da linguagem (e de um tratamento no antropomrfico para a
mquina), funda uma tica particularmente interessante (se no ininterpretvel)
de abordagem dos fenmenos lingusticos. Ainda que no se possam jamais
comparar os resultados da Lingustica com os resultados do PLN, foroso
considerar que apenas a possibilidade de uma descrio no mentalista (como
ser inapelavelmente o caso da descrio computacional) para os fenmenos da
linguagem j , por si mesma, merecedora de ateno.

MARTINS, R. The original sin of Computational Linguistics. Alfa, Araraquara, v.55, n.1, p.287307, 2011.
ABSTRACT: This paper explores some of the epistemological issues concerning the scope of
Computational Linguistics, more specifically the scope of Natural Language Processing (by
computers) when conceived of as the area of study where Traditional Linguistics and Computer
Sciences overlap. By discussing the nature of this overlap, it concludes that the goals, objects
and methods of Computational Linguistics do not match those of Traditional Linguistics, and
that the former would not constitute a subdomain or application area of the latter, but a new
scientific exploration field, where, although Traditional Linguistics research practices are
still dominant, its internal contradictions gradually would lead to a new linguistic reason
that would postulate less anthropocentric and anthropomorphic categories of analysis and
description of languages, which would prove to be more suitable for the human linguistic
behavior emulation by computers.
KEYWORDS: Computational Linguistics. Natural Language Processing. Machine Translation.

REFERNCIAS
CARNAP, R. The logical syntax of language. London: K. Paul Trench, 1937.
______. Physikalische begriffsbildung. Karlsruhe: Braun, 1926.
CHOMSKY, N. Aspects of the theory of syntax. Cambridge: MIT Press, 1965.
DE LEMOS, C. T. G. Sobre a aquisio da linguagem e seu dilema (pecado) original.
Boletim da Abralin, Recife, n.3, p.97-136, 1982.

306

Alfa, So Paulo, 55 (1): 287-307, 2011

GRISHMAN, R. Computational linguistics: an introduction. Cambridge: Cambridge


University Press, 1986.
HJELMSLEV, L. T. Prolegmenos a uma teoria da linguagem. So Paulo:
Perspectiva, 1978.
HEMPEL, C. G. Aspects of scientific explanation. In: ______. Aspects of scientific
explanation and other essays in the philosophy of science. New York: Free Press,
1970.
HUTCHINS, J. From first conception to first demonstration: the nascent years of
machine translation, 1947-1954. A chronology. Machine Translation, Alemanha,
v.12, n.3, p.195-252, 1997.
JAKOBSON, R. On linguistic aspects of translation. In: VENUTI, L. (Ed.). The
translation studies reader. London: Routledge, 2000. p.113-118.
KAY, M. Machine translation: the disappointing past and present. In: COLE, R.A.
et al. (Ed.). Survey of the state of the art in human language technology. Oregon:
NSF/CEC/CSLU; Oregon Graduate Institute, nov. 1995. Disponvel em: <http://
cslu.cse.ogi.edu/HLTsurvey/HLTsurvey.html>. Acesso em: 4 set. 2009.
KUHN, T. S. A estrutura das revolues cientficas. So Paulo: Perspectiva, 1992.
MILNER, J. C. O amor da lngua. Porto Alegre: Artes Mdicas, 1987.
MOUNIN, G. Os problemas tericos da traduo. So Paulo: Cultrix, 1975.
NIDA, E. Principles of Correspondence. In: VENUTI, L. (Ed.). The translation studies
reader. London, New York: Routledge, 2000. p.126-140.
______. Toward a science of translating, with special reference to principles and
procedures involved in bible translating. Leiden: E. J. Brill, 1964.
NIST. Open machine translation evaluation (MT08): official evaluation results.
2008. Disponvel em: <http://www.itl.nist.gov/iad/mig//tests/mt/2008/doc/
mt08_official_results_v0.html>. Acesso em: 13 set. 2010.
POPPER, K. Conjectures and fefutations: the growth of scientific knowledge.
London: Routledge, 1963.
SAUSSURE, F. de. Curso de lingustica geral. Traduo de Antnio Chelini, Jos
Paulo Paes e Izidoro Blikstein. So Paulo: Cultrix, 1973.
STAROSTA, S. Natural language parsing and linguistic theories: can the marriage
be saved? Studies in Language, Amsterdam, n.15, p.175-197, 1991.
Recebido em setembro de 2010.
Aprovado em fevereiro de 2011.

Alfa, So Paulo, 55 (1): 287-307, 2011

307

Você também pode gostar