Você está na página 1de 36

LETRAS DE HOJE LETRAS DE HOJE LETRAS DE HOJE LETRAS DE HOJE LETRAS DE HOJE

O estudo LingsticoComputacional da Linguagem


Bento Carlos Dias da Silva*
Universidade Estadual Paulista

Introduo

Desde a sua introduo na cultura ocidental no incio dos


anos 40 os computadores no s vm contribuindo para avanos
substantivos nos diversos campos do conhecimento cientfico como tambm tm sido responsveis pelo desenvolvimento e pela
abertura de novas frentes de pesquisa que sem eles no teriam sido
cogitadas. Capazes de subsidiar a resoluo rpida e precisa de
uma infinidade de problemas cientficos complexos, de substituir o
homem em tarefas arriscadas, repetitivas e estafantes, de auxiliar o
usurio comum nas tarefas cotidianas e de proporcionar lazer e
entretenimento a usurios de todas as idades, essas mquinas,
admiradas por uns, ignoradas por outros e, at mesmo, temidas
por muitos, esto por toda parte e viabilizaram a surpreendente
revoluo da informao iniciada no final do milnio e responsvel pela massa de dados que circula pela intrincada rede de computadores que, hoje, materializa-se, sobretudo, na Internet.
Dentre os grandes desafios que essas mquinas lanaram aos
seus arquitetos, destaca-se o desafio de se criar meios para tornar a
comunicao homem-mquina mais natural e intuitiva. Uma das
solues para esse desafio, e, hoje, implementada em todos os computadores, so as interfaces grficas e multicoloridas que servem
para mediatizar a comunicao com o computador. Essas interfaces
so compostas por milhares de linhas de cdigo de mquina capazes de codificar as instrues necessrias para fazer com que o computador realize tarefas em termos de objetos grficos, isto , em termos de janelas, cones, menus, caixas de dilogo, imagens, entre
* E.mail: bento@fclar.unesp.br
Letras de Hoje. Porto Alegre. v. 41, n 2, p. 103-138, junho, 2006

outros recursos.1 Na realidade, essas interfaces grficas, como mscaras, escondem a nica linguagem decifrvel pelo computador: a
linguagem de mquina que, em ltima instncia, representa toda a
informao manipulada pelo sistema computacional em termos de
estruturas representadas exclusivamente por cadeias de zeros e
uns.
Uma outra soluo para o mesmo desafio seria o desenvolvimento de programas capazes de compreender, pelo menos de
modo rudimentar, fragmentos da linguagem humana, alternativa
cujos reflexos so sentidos at hoje, diante das inmeras tentativas
de se investigar como fazer o computador emular o conhecimento e
o desempenho lingsticos humanos. A essa preocupao com a
comunicao natural, que j se instalava nos crculos universitrios
norte-americanos e europeus, concomitantemente com a criao dos
primeiros computadores, somou-se outra no menos complexa: a
iniciativa voltada para o desenvolvimento de sistemas de traduo
realizada automtica ou semi-automaticamente por computador.
o desafio posto pelo tratamento computacional das lnguas
naturais e pelo prprio processo de comunicao humano que tem
instigado os centros de tecnologia da linguagem humana a investirem significativos recursos tericos, humanos e materiais na modelagem computacional da linguagem humana, entendida, aqui,
como a criao de um modelo computacionalmente tratvel do uso
do lxico e da gramtica de uma lngua natural nas diversas situaes comunicativas. Nasce, assim, o domnio de estudo conhecido
por Processamento Automtico de Lnguas Naturais (doravante PLN).
Uma peculiaridade desse amplo e controverso domnio de
pesquisa o fato de agregar uma heterogeneidade de objetivos:
desde a meta de investigar meios de empregar o computador como
uma simples ferramenta auxiliar para investigar material lingstico (por exemplo, a criao de programas de computador para calcular estatsticas de ocorrncias de palavras em textos ou para
identificar e indexar palavras e segmentos de texto) at a meta de
criar uma inteligncia artificial, nos moldes do supercomputador
1

As plataformas grficas passaram a ser desenvolvidas na dcada de 80. Precisamente em 1984, fazendo uma aluso direta a essa data, ttulo e cone da obra de George
Orwell, os seus idealizadores, as empresas americanas Apple e Xerox, passaram
a comercializar o computador que ficou mundialmente conhecido como Macintosh: o primeiro computador pessoal equipado com uma sofisticada interface grfica. Estava quebrado o monoplio da informtica pela gigante IBM. Depois dessa
iniciativa, esta e a ento principiante Microsoft uniram-se e passaram tambm a
desenvolver suas prprias plataformas grficas concorrentes. Nasce, ento, a plataforma Windows, que ainda hoje, mesmo com as iniciativas de desenvolvimento de
plataformas abertas, como o sistema Unix e a sua verso contempornea Linux, domina a maioria dos computadores de todo o mundo.

104

Letras de Hoje Bento Carlos Dias da Silva

HAL-9000 do clssico de Stanley Kubrick 2001: Uma Odissia no


Espao. Em outras palavras, nesse domnio h uma considervel
pluralidade de objetivos e interesses: desde o estudo meramente
quantitativo das lnguas, que, na essncia, visa construo de
listas de freqncia de palavras, listas de concordncias, lista de
lemas e anlise de possibilidades combinatrias de unidades lingsticas, passando pelo estudo da adequao formal, pragmtica
e psicossocial de teorias lingsticas, por meio da implementao
computacional dos modelos de gramtica e de processamento lingstico por elas especificados, at a proposio de sofisticados
modelos computacionais capazes de extrair informaes especficas de bases de textos, de propor a sumarizao ou a traduo de
textos e at mesmo manter um dilogo livre com o usurio em
lngua natural (Varile & Zampolli, 1997).
Diante dessa pluralidade, com mais de meio sculo de experincias acumuladas, algumas bem-sucedidas e outras absolutamente desastrosas, o trabalho desenvolvido no domnio do PLN
acumula uma vasta literatura, produzida por estudiosos das mais
variadas disciplinas, com formaes acadmicas, embasamentos
tericos e interesses de pesquisa tambm bastante diversos. O
agravante, porm, constatar que, por razes diversas, os complexos fenmenos da linguagem, cuja compreenso , sem dvida,
condio essencial para o sucesso de qualquer empreendimento
em PLN, tm sido subestimados e, conseqentemente, subdimensionados no processo de desenvolvimento dos mais variados tipos
de sistemas computacionais que, de alguma forma, envolvem o
tratamento automtico de entidades e processos lingsticos.
Essa constatao, por um lado, evidencia a escassez, seno a
falta, de modelos lingsticos computacionalmente implementveis, o que tem deixado aos informatas a tarefa de, s duras penas,
construrem seus lxicos, gramticas, analisadores gramaticais e planejadores de discurso; por outro, revela o incmodo
distanciamento que se estabelece entre o estudo do PLN e o estudo
da linguagem humana, sobretudo porque este no reconhece no
mbito daquele um espao de investigao legtimo para a compreenso dos fenmenos lingsticos.
Comear a reverter esse quadro implica apontar os entraves
que dificultam a aproximao entre os cientistas e os engenheiros da linguagem. Aqueles so os investigadores que se concentram na investigao das lnguas naturais per se e estes, na modelagem computacional destas. Em um segundo momento, implica
tambm propor um equacionamento estratgico global para a pesquisa em PLN que evidencie a importncia e a necessidade de se
O estudo Lingstico-Computacional da Linguagem

105

projetarem sistemas de PLN que sejam, no limite, computacionalmente eficientes e robustos e lingisticamente precisos e adequados e que saliente a relevncia acadmica da investigao do PLN
para o avano quantitativo e qualitativo dos estudos contemporneos da linguagem, ao apontar as dimenses cientficas e tecnolgicas inerentes ao estudo computacional das lnguas naturais.
No contexto dessas consideraes iniciais que defino os contornos da face lingstico-computacional dos estudos da linguagem, que, com ser visto, delineia-se, porm de modo difuso, tanto
nas teorias lingsticas contemporneas como no vasto e disperso
domnio de estudo do PLN.
Nessa tarefa de estabelecimento de contornos, aponto, na segunda seo deste artigo, o que considero entraves para o trabalho
cooperativo entre lingistas e projetistas de sistemas de PLN. Na
terceira seo, aps delimitar a concepo de PLN lingisticamente
motivada, proponho o equacionamento metodolgico global que
considero essencial para o desenvolvimento da pesquisa nessa rea.
Por fim, na quarta seo, sistematizo as relaes de interdisciplinaridade que se estabelecem entre a investigao do PLN e as disciplinas matrizes que lhe do fundamentao e mapeio os recursos tericos essenciais para o desenvolvimento dos sistemas de PLN.
2

Entraves

Tentar construir um corpo de conhecimentos suficientemente


estruturados e integrados, capaz de fornecer os meios que podero
transformar mquinas em tradutores ou interlocutores cibernticos um empreendimento arrojado e fascinante. Entretanto, ao se
aventurar em participar desse empreendimento, constata-se um
cenrio de desencontros: uma preocupante lacuna entre o estudo
do PLN e a Teoria Lingstica. Starosta (1991, p. 178) sinaliza com
preciso o desconforto:
[Por um lado] a fragmentao do campo da lingstica e as especulaes filosficas nebulosas que se fazem passar por teoria lingstica nos grandes crculos da comunidade de lingistas no inspiram confiana nos engenheiros da linguagem; [por outro] o total
desconhecimento dos fatos elementares da linguagem que esses engenheiros ostentam presunosamente em suas publicaes em nada
contribui para convencer os lingistas srios que, l entre os computadores, haja algum que esteja interessado em aplicar o que quer
que seja que os cientistas da linguagem tenham descoberto.

106

Letras de Hoje Bento Carlos Dias da Silva

2.1

Desafio para os engenheiros da linguagem

Do ponto de vista dos projetistas de sistemas de PLN, possvel encontrar razes que os levem a se distanciar dos estudos
lingsticos. Como ponto de partida, relembro parte das dificuldades que enfrentei ao desenvolver meu trabalho de mestrado (Diasda-Silva, 1990) no domnio da Teoria Lingstica. Na busca de modelos tericos para investigar o fenmeno da apassivao nas lnguas naturais, o que encontrei foi um frentico borbulhamento de
novidades tericas. Escolher um arcabouo descritivo para fundamentar a pesquisa tornou-se, para mim, um problema muito
mais complexo do que para os pesquisadores de outras reas do
conhecimento, que tm a felicidade de poder contar com um cerne bsico estvel de princpios epistemolgicos e convenes notacionais.
As expresses destacadas entre aspas no pargrafo anterior e
neste pargrafo, tomadas de emprstimo de Lemle (1984, p. 2),
ainda traduzem parte das razes que tm distanciado o nolingista da Teoria Lingstica. Lemle, ao propor uma ponte
entre a lingstica terica e o ensino escolar da gramtica, comenta
que uma certa lingstica emprega um formalismo algbrico
bizarro, abominvel e desinteressante para a maioria das pessoas
e critica a prpria Teoria Lingstica, ao afirmar que o discurso
lingstico vale-se com demasiada freqncia de um linguajar
tcnico hermtico que disfara o vazio de substncia de suas propostas.
Esses exemplos j so suficientes para se ter uma idia de que
a escolha e a avaliao de modelos descritivos no mbito da Lingstica transformam-se em tarefas laboriosas e desnorteadoras.
No raro, as propostas lanadas pelos tericos trazem consigo uma
pluralidade de anlises, muitas delas simplesmente esboadas, ou
uma metalinguagem hermtica e cifrada ou ainda uma evidente
concentrao em aspectos particulares e pontuais da anlise das
lnguas. Qualquer lingista, por exemplo, reconhece o vis sinttico que dominou as pesquisas lingsticas na segunda metade do
sculo XX.
A fragmentao, a parcialidade e a pouca formalizao das
descries de fatos lingsticos so tambm apontadas como agravantes para o quadro de distanciamento. Winograd (1972, p. 41),
um pesquisador do PLN, por exemplo, apresenta uma justificativa
plausvel para o fato dos engenheiros da linguagem no recorrerem Teoria Lingstica:

O estudo Lingstico-Computacional da Linguagem

107

Quando surgiram os primeiros trabalhos de descrio de lnguas naturais com o auxlio do computador, no havia teorias sintticas suficientemente explcitas e prontas para serem computacionalmente
codificadas. Os primeiros projetistas [de sistemas de PLN] que ousaram propor os sistemas de traduo automtica pioneiros foram forados a construir seus prprios modelos de descrio lingstica...
Como decorrncia, [esses modelos] eram muito precrios e imediatistas.

At muito recentemente, por ser considerada territrio muito


complexo e difcil de ser explorado, a semntica era alvo de comentrios irnicos. Hirst (1992, p. 1), comentando que os lingistas
tratavam-na como algo excelente para se discutir, porm incognoscvel, possuindo as mesmas qualidades de Deus ou da Mente, apresenta outra justificativa para a lacuna entre os cientistas e
os engenheiros da linguagem:
Posto que havia lingistas com atitudes como essa em relao semntica, no de causar surpresa que os consumidores de teorias
lingsticas, tais como os pesquisadores do PLN, tomassem, eles
prprios, a iniciativa de estudarem a semntica.

J Schank e Riesbeck (1981, p. 2) acusam os lingistas no s


de se fixarem demasiadamente nos estudos sintticos e minimizarem os estudos semnticos como tambm, e sobretudo, de pouco
se preocuparem com o estudo do uso da linguagem:
Quando surgiram os primeiros trabalhos sobre PLN, os pesquisadores passaram a aplicar qualquer teoria disponvel. As implementaes de teorias sintticas diversas tiveram uma certa popularidade
no domnio da Inteligncia Artificial durante algum tempo. Enquanto que a real preocupao nesse domnio, porm, sempre recaiu sobre o tratamento do significado, os lingistas, durante muito tempo,
evitaram abord-lo em suas investigaes.

A crtica aos lingistas continua ecoando com Mykowiecka


(1991, p. 497):
Um dos motivos que vem impedindo o rpido desenvolvimento do
estudo do PLN o fato de que a maioria dos lingistas no est disposta a cooperar [...], o que, conseqentemente, acarreta uma escassez de teorias lingsticas e de definies suficientemente precisas
para o uso computacional.

H lingistas que chegam a criticar severamente os grupos de


pesquisa envolvidos com o PLN. Moreno Fernndez (1990), por
exemplo, diz que esses grupos s existem para alimentar a indstria de informtica: cada grupo trabalha para oferecer ao mercado
108

Letras de Hoje Bento Carlos Dias da Silva

consumidor programas mais sofisticados, mais eficientes e mais


econmicos que os programas desenvolvidos por seus pares.
Acrescenta que, por esse motivo, muito difcil encontrar publicaes que informem com regularidade e transparncia os avanos
alcanados por parte das instituies, sejam elas pblicas ou privadas. Em outras palavras, a informao no divulgada para o
pblico interessado, porque isso significaria ceder resultados para
um competidor potencial.
A demanda urgente de aplicativos e a limitao de recursos
computacionais so tambm agravantes que tm impedido que os
sistemas de PLN passem a incorporar sofisticaes que exijam estudos mais aprofundados e que sejam consistentes com a Teoria
Lingstica. Essas so justificativas do ponto de vista comercial,
mas no se sustentam do ponto vista cientfico e tecnolgico. Allen
(1987, p. 2), entretanto, j alertava para esse risco e categrico ao
afirmar que os objetivos mercadolgico no podero ser alcanados sem se buscar fundamentao nas sofisticadas teorias propostas no mbito da lingstica terica.
Esse distanciamento entre o PLN e os estudos da linguagem
acaba por ser justificado se considerar-se que a Lingstica, com
recentes e tmidas iniciativas de incluso de trabalhos sob o rtulo
genrico Lingstica Computacional na sua agenda de pesquisa,
no afeita a atender as demandas do PLN. Ocupados com o estudo da linguagem humana per se, os lingistas circunscrevem-se
aos limites de sua disciplina. Intencionalmente ou no, deixam
transparecer certo descaso aos estudos computacionais da linguagem e resistem a cooperar com projetos de PLN e, sobretudo, no
percebem a importncia da sua contribuio para a construo do
corpo de conhecimento interdisciplinar necessrio para esse tipo
particular de investigao. O lingista Halvorsen (1989), mesmo ao
defender a necessidade de interao entre Lingstica e PLN, avalia que a Teoria Lingstica, embora rena dados significativos
sobre o complexo competncia-desempenho lingstico humano,
ao invs de incentivar a pesquisa do PLN, tem muitas vezes desestimulado seu desenvolvimento.
Finalmente, h que se observar que o problema de natureza
terminolgica e conceitual, embora mais acentuado nas relaes
multidisciplinares, ocorre tambm no interior da prpria Teoria
Lingstica. O emprego dos termos discurso e texto, por exemplo, um exemplo lapidar desse tipo de desencontro. Observe que,
desta vez, as confuses localizam-se no mbito dos estudos da

O estudo Lingstico-Computacional da Linguagem

109

linguagem que ousaram investigar alm dos limites da frase, confuses que tm gerado muitos debates e embates entre tericos.2
2.2

Desafio para os lingistas

Se os projetistas de PLN valem-se de justificativas como as


apontadas anteriormente para se distanciarem dos lingistas, estes
tambm apresentam argumentos para no se engajarem em projetos de PLN.
Talvez o argumento mais difundido seja a constatao de que
os engenheiros da linguagem ocupam-se com o desenvolvimento
de sistemas de PLN muito rudimentares e desprovidos de qualquer fundamentao lingstica. Basta mencionar, por exemplo, os
dicionrios eletrnicos, os programas de exerccios sobre alguma
disciplina acadmica e as enciclopdias multimdia em CD-Rom,
aplicativos cada vez mais popularizados. Nesses aplicativos, no
h tecnologia lingstica alguma. Todos os objetos de natureza
lingstica so simplesmente manipulados por tcnicas de indexao e algoritmos que contornam os problemas computacionais
postos pela complexidade das lnguas naturais. Os tradutores de
bolso, por exemplo, no apresentam qualquer vestgio de PLN.
Esses dispositivos, do tamanho de pequenas calculadoras ou canetas, so equipados com listas de palavras e expresses de lnguas
diversas, algumas frases e fragmentos de frases selecionados. O
programa subjacente limita-se a manipular esses elementos: por
meio de comparaes, detecta as palavras equivalentes de lnguas
diferentes e, por meio de substituies, monta frases ou completa
fragmentos de frases com as palavras e/ou expresses pr-armazenadas. Situao semelhante ocorre tambm com muitos corretores ortogrficos, que se limitam a comparar palavra por palavra,
sem executar qualquer anlise morfolgica ou gramatical.
Do ponto de vista terico-metodolgico, avaliar propostas e
selecionar estratgias de trabalho no domnio do PLN transformam-se em problemas ainda mais complexos. Por ser um campo
de estudos multidisciplinar, que vem sendo explorado por pesqui2

Para uma apreciao das dificuldades e confuses causadas pela pluralidade de usos
desses termos, remeto o leitor para Fvero e Koch (1983, p. 23) para quem as diferentes concepes de texto e discurso acabaram por criar uma confuso entre os dois
termos, ora empregados como sinnimos, ora usados para designar entidades diferentes e que atribuem parte das confuses no existncia, em algumas lnguas, do
termo discurso , Greimas e Courts (1979). H que se ressaltar que essas confuses
acabam tambm por gerar uma srie de denominaes, no menos problemticas,
empregadas, por vezes, para demarcar fronteiras entre lingstica frasal e lingstica transfrstica: anlise do discurso, lingstica textual, gramtica ou sintaxe do texto,
anlise da conversao.

110

Letras de Hoje Bento Carlos Dias da Silva

sadores de reas bastante diversas, depara-se com uma variedade


de propostas, ferramentas e equipamentos computacionais, cuja
sistematizao torna-se praticamente impossvel. Grande parte
desses produtos de pesquisa, em geral assinados por no-lingistas, encontra-se fragmentada e dispersa em incontveis publicaes e relatrios. So raros os pesquisadores que tm se preocupado com a apresentao sistematizada de um conjunto mnimo de
conhecimentos j produzidos no campo.3
Nessa efervescncia, encontram-se teorias e modelos em profuso: modelos estatsticos, modelos lgicos, teoria dos grafos,
teoria dos conjuntos, teoria de modelos, teoria das linguagens formais, teoria dos algoritmos, teoria da complexidade, modelos de
representao do conhecimento, entre outros. Parte desse aparato
terico-descritivo tambm utilizada por lingistas. Destaca-se,
por exemplo, a teoria dos grafos e a teoria das linguagens formais,
que, a partir da proposio da gramtica gerativo-transformacional
(Chomsky, 1957; 1965), so amplamente empregadas como esquemas de descrio e representao das regras e estruturas sintticas das lnguas. H um lado positivo nessa diversidade. Do ponto
de vista de recursos formais, imprescindveis para o tratamento
computacional das lnguas naturais, h que se reconhecer que o
conjunto desses trabalhos constitui um referencial rico, sugerindo
modelos e sofisticadas tcnicas de representao e manipulao de
objetos lingsticos.
O levantamento de projetos e de aplicativos de PLN revela, entretanto, um domnio de pesquisa difuso, controvertido e catico;
um domnio espera de uma organizao que assinale contornos
mais claros e identifique seus objetos e crie condies mais favorveis para que o estudo sistemtico do PLN possa encontrar solo
frtil para gerar projetos, de fato, integrados e interdisciplinares.
No mbito da Teoria Lingstica, mesmo admitindo-se que
no haja um referencial nico, que modelos explcitos e completos
ainda estejam para ser construdos e que lutas tericas fazem parte
de sua histria (Leech, 1983), h que se concordar que existem parmetros norteadores mnimos a que os lingistas podem recorrer
para ancorar suas investigaes. Verifica-se um consenso mnimo
em relao s caractersticas e funes fundamentais da linguagem
humana sua dupla-articulao, sua dependncia estrutural, sua
recursividade, suas funes representacional, expressiva, metalingstica, ftica, intencional e textual e em relao terminologia e
3

Obras clssicas como Grishman (1986), Allen (1987) e Gazdar e Mellish (1989) esto
entre as poucas tentativas de reunir didaticamente os temas pertinentes ao PLN.
O estudo Lingstico-Computacional da Linguagem

111

aos conceitos bsicos lngua e linguagem, lngua e fala, gramtica, estrutura de constituintes, regras sintticas recursivas, categorias sintticas e funcionais, lexemas, categorias nucleares, papis
temticos, esquema de subcategorizao, restries selecionais,
casos morfolgicos, categorias diticas e anafricas, atos de fala,
entre outros (Jakobson, 1977; Borba, 1984; Sells, 1985).
Essa base comum, resultante de uma longa tradio de estudos da linguagem, acaba por fornecer um universo de discurso
comum, contendo uma metalinguagem e noes gerais, fato que se
evidencia no discurso dos prprios tericos, que constantemente
recorrem a ela para construir suas anlises. Uma leitura das propostas tericas recentes suficiente para constatar que termos que
designam categorias e funes gramaticais, por exemplo, so tomados de emprstimo da gramtica tradicional e, posteriormente,
reciclados para rotular conceitos novos. Para exemplificar, destaco
este trecho inicial da discusso de Marantz (1984, p. 1) sobre a natureza das relaes gramaticais:
Os lingistas tm clareza sobre noes gerais, noes pr-tericas,
como antecedente de um pronome reflexivo, especificao de casos morfolgicos, ordenao das palavras, agente de uma ao, e
outros conceitos que parecem estar relacionados com a noo de sujeito.

Envolver-se com o PLN, porm, implica estar disposto a


compreender uma efervescncia de teorias e tcnicas, emprestadas
das mais variadas reas, e a tambm decifrar formalismos algbricos muito mais bizarros.
Em se tratando de um campo de pesquisa em que parcelas de
conhecimentos devem ser extradas de domnios de estudos bastante diversos, o estudo do PLN nos coloca diante de uma outra
dificuldade: uma metalinguagem fragmentada, um hermetismo
terminolgico e uma multiplicidade de termos exticos. A terminologia que Shapiro (1990) discute para descrever os tipos de processamento ilustra a proliferao de termos, provenientes das
Cincias da Computao e da Inteligncia Artificial. Os trs pares
de modificadores botton-up (ascendente) / top-down (descendente),
provenientes da sub-rea anlise sinttica, forward (para frente)/
backward (para trs), provenientes da sub-rea sistemas baseados
em regras e data-driven (direcionado para os dados) / goaldirected (direcionado para a meta), provenientes da sub-rea resoluo de problemas, so utilizados para modificar os termos
chaining (encadeamento), inference (inferncia), parsing (anlise
gramatical), processing (processamento), reasoning (raciocnio) e
112

Letras de Hoje Bento Carlos Dias da Silva

search (busca), gerando termos como: botton-up/top-down parsing,


forward/backward chaining, data-driven/goal-directed reasoning, datadriven/goal-directed processing, forward/backward search e forward/
backward inference.
certo que a necessidade de se delimitarem novos conceitos e
tcnicas exije a proposio de novos termos, mais precisos e especficos. A sua proliferao assistemtica, porm, acaba por criar dificuldades adicionais que precisam ser contornadas.
Lyons (1977), nos anos 70, j assinalava a necessidade de enfrentar tarefa semelhante no mbito do estudo da semntica das
lnguas naturais. Ao buscar a construo de um referencial terico
comum para o estudo do significado e dos processos de comunicao lingstica, recorrendo aos trabalhos realizados no mbito da
Etnologia, Psicologia, Filosofia, Antropologia e Lingstica, conclui
que a busca de sistematizao de termos e conceitos transformou-se, para ele, em um pesadelo. Alertou, ento, para o perigo de
duas situaes: (i) quando autores diversos atribuem acepes
distintas a um mesmo termo e (ii) quando autores diversos empregam termos distintos para descrever fenmenos essencialmente
idnticos. Aps tentativas frustradas de encontrar uma maneira de
compatibilizar as discrepncias, Lyons optou por simplesmente
apont-las e, na medida do possvel, selecionar termos que lhe
pareciam mais adequados aos seus propsitos.
Alm disso, termos como conhecimento, inferncia, inteligncia, raciocnio, pensamento, capacidade, compreenso,
interpretao, significado, entre outros, prprios do universo
humano, no mbito do PLN, so freqentemente transportados para
o universo dos computadores. Nesse universo, as mquinas pensam, so consultoras, estabelecem diagnsticos, do consultoria e
conselhos, conversam no s entre si mas com os usurios humanos,
falam lnguas, ensinam, planejam tarefas e at aprendem.
Minsky (1968, p. 2) at mesmo chega a defender essa transposio:
Alguns leitores podem se sentir incomodados por eu deliberadamente usar termos do universo psicolgico, tais como significado,
que, comumente, no so empregados na descrio do comportamento de mquinas. Mas minha opinio de que o uso desses termos mentalistas no uma simples analogia. O fato que os programas de computador, aqui descritos, confirmam a validade e fertilidade da revoluo intelectual que resultou da descoberta de que,
pelo menos, algumas descries mentalistas dos processos de pensamento podem ser transformadas em especificaes para a construo de mquinas.
O estudo Lingstico-Computacional da Linguagem

113

A antropomorfizao da mquina pode ser justificvel do


ponto de vista da inteligibilidade das explicaes. Essa estratgia
discursiva, no entanto, acaba gera tambm interpretaes que contribuem para formar a imagem de que pesquisar PLN adotar
uma viso mecanicista do homem, ou ainda, que o PLN , por definio, um campo desprovido de conceitos e termos precisos para
descrever seus objetos.
A precria troca de trabalhos sobre o PLN entre os lingistas
e os projetistas de sistemas de PLN fica tambm evidente nas raras
publicaes traduzidas para o portugus. Os textos, que em sua
massiva maioria esto publicados em ingls, quando so traduzidos, alm de trazerem termos bizarros, apresentam imprecises e
confuses conceituais.
Merece destaque a denominao domnio processamento automtico das lnguas naturais, expresso que venho empregando
como equivalente expresso inglesa automatic natural language
processing, cunhada pelos estudiosos do campo da Inteligncia
Artificial e das Cincias da Computao. Essa expresso exige esclarecimento, uma vez que a denominao corrente no portugus
processamento de linguagem natural. Alm disso, observe-se
que termo ingls natural language processing, embora seja tambm
empregado para nomear o PLN, uma expresso ambgua, pois
nomeia tambm o estudo do processamento da linguagem humana, no mbito da Cincia Cognitiva (Garret, 1990).
O termo processamento automtico parece no ser motivo
de controvrsias. No sentido usual, refere-se utilizao de computadores para a estruturao e manipulao de smbolos sem a
interveno humana. Essas operaes so executadas segundo
representaes precisas e explcitas, implementadas por meio de
programas escritos em uma linguagem de programao apropriada.
J a adoo do termo linguagem, exige melhor delimitao,
porque os pesquisadores da rea das Cincias Exatas, acostumados
a trabalhar com linguagens formais, acabam por empreg-lo com
sentido distinto daquele fixado pela tradio lingstica, gerando
confuses desnecessrias e, principalmente, revelando desconhecimento de conceitos lingsticos de fundo. Exemplifico o problema citando alguns segmentos da traduo para o portugus de um
livro clssico sobre inteligncia artificial. No captulo Compreenso de (sic) Linguagem Natural (Rich, 1983, p. 344-406), observam-se quatro ocorrncias do termo linguagem, que est sendo
equivocadamente empregado no lugar do termo lngua:

114

Letras de Hoje Bento Carlos Dias da Silva

A capacidade de se comunicar em um tipo de linguagem natural,


seja ela ingls ou tagalog, parece ser considerada, s vezes, a aspirao mxima da raa humana [] Os mapeamentos muitos-a-um so
mais comuns, particularmente quando estiverem mapeando de uma
linguagem natural para uma pequena representao-alvo simples
[] Por outro lado, em muitas frases de linguagem natural, a mudana de uma nica palavra pode alterar no apenas um nico n
da interpretao, mas toda sua estrutura [] Para fazer a anlise
sinttica de uma frase, necessrio utilizar uma gramtica que escreva a estrutura de cadeias de uma linguagem em particular.

Nesse contexto, fica evidente que a autora refere-se a uma lngua em particular e no linguagem em geral. Lyons (1981, p. 16)
esclarece essa questo:
Diversas lnguas europias tm duas tradues, e no uma, para o
vocbulo ingls language: haja vista o francs langage: langue, o italiano linguaggio: lngua e o espanhol lenguaje: lengua. Em cada um dos
casos, a diferena entre as duas palavras est correlacionada, at certo ponto, com a diferena entre os dois sentidos da palavra inglesa
language [] o ingls permite a seus falantes dizer de alguma pessoa
que no s he possesses a language [ele possui uma lngua] (ingls,
chins, malaio, suali, etc.), mas que he possesses language [ele dotado de linguagem].4

O termo linguagem artificial aplica-se, talvez metaforicamente, aos sistemas de notao ou clculo elaborados por matemticos, cientistas da computao e lgicos para fins especficos, que
incluem, por exemplo, as linguagens de programao de computadores e a linguagem da lgica simblica, que apropriadamente
recebem o nome de linguagens artificiais.5
Grande parte da metalinguagem dos trabalhos de PLN, como
uma colcha de retalhos, contm fragmentos de outras metalinguagens, constituindo um obstculo adicional. A interpretao e a
utilizao dos termos e conceitos exigem cuidado especial para que
no se mergulhe em um caos terminolgico-conceitual.
4

Akmajian et al. (1986, p.6) comentam a estranheza manifestada por alunos americanos quando descobrem que o termo ingls language possui tambm o sentido genrico de faculdade da linguagem. Acrescentam que, para os americanos, a distino entre lngua e linguagem parece ser praticamente desconhecida fora do crculo
dos lingistas, o que vem reforar o cuidado com a preciso terminolgicoconceitual. No portugus, o problema do emprego dos termos lngua e linguagem
nem mesmo se coloca, uma vez que cada um deles reveste conceitos distintos.
O termo linguagem, por ser de aplicao mais geral que o termo lngua, licitamente usado para denotar os sistemas de comunicao em geral, naturais e artificiais, entre seres humanos ou no: as linguagens de programao, a linguagem das
abelhas, a linguagem corporal humana, a linguagem do trnsito, etc.
O estudo Lingstico-Computacional da Linguagem

115

Nem sempre, porm, tarefa fcil encontrar um termo do


portugus que corresponda, com exatido, ao termo criado em
ingls para fazer referncia aos novos conceitos. O segmento de
texto, a seguir, traduzido da mesma obra mencionada acima, oferece uma ilustrao dessa dificuldade (Rich, 1983, p. 347):
H trs fatores principais que contribuem para a dificuldade de um
problema de compreenso: [a] A complexidade da representao-alvo
em que o casamento estiver sendo feito; [b] O tipo de mapeamento:
um-a-um, muitos-a-um, um-a-muitos ou muitos-a-muitos; [c] O nvel
de interao dos componentes da representao de origem.

Os termos casamento e mapeamento so, nesse trecho, as


tradues propostas para as expresses inglesas matching e mapping, respectivamente. Eles, entretanto, no refletem os conceitos
do domnio de que foram extrados. O termo mapping empregado para denotar uma funo, transformao, projeo ou correspondncia entre duas ou mais estruturas (Partee et al., 1993). J
o termo matching refere-se a um dos processos mais estudados no
mbito da inteligncia artificial: o pattern matching (Slagle & Gini,
1990). Os termos configurao, projeo e unificao parecem
ser tradues mais apropriadas para os termos pattern, mapping e matching, respectivamente.
2.3

Desafio para ambos

Alm dessas razes tcnicas, grande parte dos ataques recprocos entre os pesquisadores parece ser decorrncia de um outro
fato, tambm amplamente percebido em nossos meios acadmicos:
a imagem estereotipada e distorcida que os pesquisadores formam
uns dos outros, sobretudo, se trabalham em domnios de conhecimento diversos.6 No difcil constatar que uma simples conversa
entre colegas de reas distintas , no raro, pontuada por esses
julgamentos pr-concebidos.
Lyons (1979), no Prefcio de sua obra clssica Introduo Lingstica Terica, revela os dois esteretipos que h muito tm sido
atribudos a pesquisadores das duas reas. Num momento em que
os modelos formais de gramtica passavam a ser o centro das investigaes lingsticas, Lyons advertia os leitores, em especial
aqueles cuja formao intelectual se apoiava mais nas Humanidades, para o fato de que eles deveriam estar preparados para fazer
6

Esse fato reflexo do modelo compartimentado de pesquisa que ainda predomina


em nossos meios acadmicos, construindo barreiras entre as reas do conhecimento
e distanciando os pesquisadores.

116

Letras de Hoje Bento Carlos Dias da Silva

um certo esforo intelectual com respeito ao uso de smbolos e de


frmulas.7 Alm do rtulo explcito, colegas dos nmeros,
possvel ler nas entrelinhas do Prefcio que os pesquisadores das
cincias exatas so caracterizados como indivduos pouco intuitivos no que se refere apreciao dos vrios matizes da lngua,
academicamente mal formados para o estudo das lnguas, uma vez
que parecem desconhecer os fundamentos histricos e filosficos
dos estudos da linguagem, e responsveis pela criao e proliferao de uma quantidade de smbolos e frmulas arcanas, cuja
compreenso exige alta capacidade cognitiva. J os pesquisadores
das humanidades so caracterizados como aqueles de hbitos
mentais mais voltados para as letras, mais capazes de fazer uma
apreciao intuitiva dos vrios matizes da lngua e conhecedores
dos fundamentos histricos e filosficos dos estudos da linguagem, porm, pouco acostumados a lidar com formalismos.
O uso dos rtulos letras e nmeros e as associaes implcitas humanidades-pesquisa no cientfica e cincias-pesquisa
cientfica, alm de marcarem os pesquisadores de modo estereotipado e ilustrarem com preciso a diviso em compartimentos da
academia, nitidamente cristalizada, revelam tambm que, por
questo de poder, muitos pesquisadores negligenciam as questes
diretamente relacionadas compreenso do seu prprio objeto de
estudo devido a lutas tericas, quer no interior de um mesmo domnio do conhecimento quer no confronto de domnios diferentes.
Assim, a tmida interao entre os engenheiros e os cientistas
da linguagem, alimentada por desencontros e descrdito mtuo,
evidencia (i) o desconhecimento que o pesquisador de uma rea
demonstra ter do trabalho desenvolvido na outra, (ii) as tentativas
frustradas de compreenso das metalinguagens, dos conceitos, dos
mtodos e das tcnicas especficos de cada domnio, (iii) a disseminao de imagens estereotipadas, (iv) a existncia das lutas tericas e (vii) o descaso com a interdisciplinaridade.
Enquanto lingistas lutam para introduzir sofisticados recursos da informtica em suas pesquisas lingsticas, projetistas de
PLN lutam para formatar as lnguas naturais em seus computadores sem uma fundamentao lingstica adequada.
7

Hoje, passados mais de 30 anos, verifica-se que advertncia semelhante precisa ser
feita ao se abordar os estudos sobre o PLN. Desta vez, a advertncia no direcionada apenas queles de formao humanstica, mas aos prprios lingistas. Mesmo estando familiarizados com os mltiplos formalismos, que hoje um lugarcomum em qualquer teoria lingstica, os lingistas precisam estar preparados para
conseguir decifrar um volume considervel de representaes, formalismos e o prprio jargo (objetos muito mais arcanos) que fazem parte do universo do PLN.
O estudo Lingstico-Computacional da Linguagem

117

Essa duplicao desnecessria de esforos no s dificulta a


descoberta de solues, que seguramente seria agilizada com o incentivo de trabalho solidrio. A desvinculao das duas reas preocupante, porque contribui para aumentar os desencontros e minimizar a importncia do papel dos lingistas na proposio e no desenvolvimento de projetos de PLN que, em sua grande maioria,
resultam de iniciativas de no-lingistas e acabam por ficar circunscritas a instituies ou departamentos que investem na pesquisa
tecnolgica.
3

Cooperar preciso

Diante desse quadro de desencontros, fica evidente que no


tarefa nada trivial a construo de um universo de discurso comum
que possibilite o dilogo entre os cientistas os engenheiros linguagem e, a partir desse universo, a criao de estratgias de trabalho
interdisciplinar e solidrio que viabilizem a criao de ncleos de
pesquisa com esse perfil. Como Starosta (1991, p. 195), acredito,
entretanto, na possibilidade de se estabelecer uma cooperao colaborativa entre cincia e engenharia da linguagem e que essa produza teorias lingsticas mais realista e aplicaes computacionais mais
robustas e precisas. Com essa parceria, os estudos do PLN e os estudos lingsticos podero beneficiar-se com o trabalho interdisciplinar, que incentive o envolvimento dos vrios especialistas na
busca de solues integradas. Pesquisas dessa natureza podero
ainda contribuir para a proposio de modelos lingsticos mais
completos, explcitos e operacionais e, conseqentemente, mais apropriados para receberem o tratamento computacional.
O desafio , portanto, viabilizar a formao de um domnio de
pesquisa interdisciplinar com potencial tecnolgico, integrando recursos tericos e tcnicas de investigao desenvolvidos no mbito
de um conjunto de disciplinas matrizes entre as quais a Teoria Lingstica deve desempenhar papel fundamental.
Rich (1985) demonstra que tanto a Inteligncia Artificial como
as Humanidades podem beneficiar-se com o estudo do PLN, uma
vez que o problema de emular/simular o complexo conhecimentodesempenho lingstico humano em uma mquina exige que o estudioso a explicite com clareza e preciso os elementos e princpios
constitutivos das lnguas naturais.
Lyons (1979) combate a viso separatista de pesquisa entre
cincias e humanidades. Para ele, so poucos os ramos do conhecimento que sofrem mais do que a Lingstica com a separao entre
as duas reas, dicotomia que ainda se mantm nos currculos da
maioria das nossas escolas e universidades. Para ele, a Teoria Lin118

Letras de Hoje Bento Carlos Dias da Silva

gstica deve aproveitar-se eqitativamente das abordagens tradicional e cientfica da lngua, considerando este resultado da interseco entre os estudos da linguagem e os estudos desenvolvidos no
mbito da Lgica Formal, da Anlise Computacional e da Teoria
dos Autmatos.
Notvel constatar que projetistas de PLN como Winograd
(1972, p. 41) tambm preocupam-se com o embasamento lingstico
do estudo do PLN:
Quando todas as tentativas para salvar o empreendimento da traduo automtica falharam, ficou patente que foi muito prematuro,
por parte dos pesquisadores, tentar abarcar toda a lngua inglesa
sem buscar fundamentao mais slida na teoria lingstica e sem
compreender as propriedades matemticas das gramticas.
3.1

A concepo lingisticamente motivada de PLN

Para esse precursor do estudo do PLN,8 os elementos essenciais para o estudo do PLN e, sobretudo, para a indispensvel ancoragem lingstica resumem-se no que segue:
Assumimos que um computador no poder satisfatoriamente emular uma lngua natural se no conseguir compreender o assunto que
est em discusso. Logo, preciso fornecer ao programa um modelo
detalhado do domnio especfico do discurso. Alm disso, o sistema
precisa ter um modelo simples de sua prpria mentalidade. Ele precisa ser capaz de lembrar seus planos e aes, discuti-los [com o usurio] e execut-los. Ele deve participar de um dilogo, respondendo, com aes e frases, s frases digitadas em ingls pelo usurio; [ele deve] solicitar esclarecimentos quando seus programas heursticos no conseguem compreender uma frase com a ajuda das informaes sintticas, semnticas, contextuais e do conhecimento de
mundo fsico previamente representadas no sistema.

Alm de evidenciar o complexo de conhecimentos e habilidades envolvidos no processo de comunicao verbal, e que precisam
estar representados dentro de um sistema de PLN, Winograd (1972,
p. ix) nos ensina que pesquisar o PLN pode ser tambm um modo
de investigao cientfico dos prprios fatos da lngua:
8

A importncia de Winograd para o desenvolvimento do PLN decorre de sua tese de


doutorado, defendida em 1970, no MIT. Nesse trabalho, Winograd criou um sistema
computacional que passou a ser o marco do estudo cientfico do PLN. Com esse sistema, denominado SHRDLU, tambm conhecido como o mundo dos blocos, conseguia mostrar para a comunidade cientfica que a interao homem-mquina era
realmente possvel por meio de uma lngua natural. Sob a forma de uma representao grfica no monitor do computador, o sistema simula o brao de um rob que
manipula um conjunto de blocos de formas e cores diferentes sobre a superfcie de
uma mesa conforme as instrues digitadas em ingls no teclado do computador.
O estudo Lingstico-Computacional da Linguagem

119

Todo mundo capaz de compreender uma lngua. A maior parte do


tempo de nossas vidas preenchida por atos de fala, leituras ou
pensamentos, sem sequer notarmos a grande complexidade da linguagem. Ainda no sabemos como sabemos tanto [] Os modelos
[de PLN] so necessariamente incompletos [] Mas, mesmo assim,
constituem um referencial claro por meio do qual podemos refletir
sobre o que que fazemos quando compreendemos uma lngua natural ou reagimos aos atos de fala por ela codificados.
3.2

A evoluo do estudo do PLN

Nesse meio sculo de pesquisas, possvel fazer o seguinte


quadro-sntese da evoluo do estudo do PLN em termos do grau
de sofisticao lingstica alcanado.
Quadro 1. Evoluo do estudo do PLN.
Dcada
50

Foco da Investigao
Exploraes: traduo
automtica

Conquistas

sistematizao computacional das classes de


60

70

Formalizaes: novas
aplicaes e criao de
formalismos

Criao do nicho de
pesquisa: consolidao
do PLN



80

Busca da preciso:
sofisticao dos
sistemas

90

Busca da preciso e

robustez: sistemas
baseados em
representaes do
conhecimento no
tratamento estatstico de
massa de textos

120

palavras descritas nos manuais de gramtica


tradicional;
identificao computacional de constituintes
oracionais.
primeiros tratamentos computacionais das
gramticas livres de contexto;
criao dos primeiros analisadores sintticos;
primeiras formalizaes do significado em termos
de redes semnticas.
implementao de parcelas das primeiras
gramticas e analisadores sintticos baseados na
gramtica gerativo-transformacional;
busca de formalizao de fatores pragmticos e
discursivos.
desenvolvimento de teorias lingsticas motivadas
pelos estudos do PLN como, por exemplo, a
gramtica sintagmtica generalizada e a gramtica
lxico-funcional.
desenvolvimento de projetos de sistemas de PLN
complexos que buscam a integrao dos vrios
tipos de conhecimentos lingsticos e
extralingsticos e das estratgias de inferncia
envolvidos nos processos de produo,
manipulao e interpretao de objetos lingsticos
para os quais os sistemas so projetados.
ressurgimento da lingstica de corpus e do
tratamento estatstico de entidades e processos
lingsticos.

Letras de Hoje Bento Carlos Dias da Silva

Nesse domnio, pesquisas interdisciplinares encontram solo


frtil para germinar. De fato, Sanders e Sanders (1989, p. 30), tambm evidenciando as dificuldades de interlocuo existentes entre
pesquisadores de reas distintas, reconhecem a importncia do
trabalho solidrio:
Os cientistas da computao sabem propor e gerenciar projetos de
software. Eles dispem de equipamentos e ferramentas de programao de vanguarda; as linguagens simblicas so seu material de
trabalho. Por outro lado, entretanto, eles freqentemente no dominam os conhecimentos lingsticos [...] evidente que trabalho de
equipe condio essencial. Entretanto, a comunicao entre especialistas diversos no tarefa fcil [...]

Assim, a busca de estratgias de trabalho que possibilitem a


aproximao dos diversos especialistas, a produo efetiva de conhecimento interdisciplinar e a aplicao desse conhecimento no
estudo do PLN so condies essenciais para a sua solidificao.
3.3

Metodologia de pesquisa do PLN

A esta altura das discusses, torna-se evidente a necessidade


de se somarem competncias especficas para a realizao do
empreendimento. A grande questo que se coloca como criar
uma estratgia de pesquisa integrada e um sistema computacional apropriados para o estudo do PLN.
A estratgia de pesquisa do PLN que proponho envolve equacionar os problemas em trs Domnios de investigao: Lingstico, Lingstico-Computacional e Computacional. A proposta motivada pelo paradigma de desenvolvimento de sistemas computacionais que visam construo de bases de conhecimento (Hayes-Roth, 1990) e na programao automtica (Biermann, 1990). Esses sistemas so projetados para aplicar automaticamente complexos de conhecimentos neles armazenados no
processo de resoluo de problemas (Amarel, 1990).
A metodologia de construo de sistemas especializados
dessa natureza pressupe a especificao dos tipos de conhecimentos que os especialistas emulados no sistema possuem, como
esse conhecimento adquirido, armazenado, acessado e aplicado
(Schank & Riesbeck, 1981, p. 2). Assim, investigar como um sistema de computador pode emular parcelas da competncia e da
atuao de um sintaticista, por exemplo, pressupe especificar os
conhecimentos e habilidades que esse especialista possui. De
modo anlogo, estudar como um sistema de computador pode
O estudo Lingstico-Computacional da Linguagem

121

emular parcelas da competncia e do desempenho lingsticos


humanos pressupe especificar de modo sistemtico e formal os
conhecimentos e as habilidades que os falantes, especialistas nesse domnio, possuem.
Assumindo a concepo de PLN de Winograd, conclui-se que
emular aspectos de lngua natural pressupe equipar um sistema
de PLN com vrios sistemas de conhecimento e faz-lo emular
uma srie de atividades cognitivas:

possuir um modelo simples de sua prpria mentalidade;


possuir um modelo detalhado do domnio especfico do
discurso;
possuir um modelo que represente informaes morfolgicas, sintticas, semnticas, contextuais e do conhecimento
de mundo fsico;
compreender o assunto que est em discusso;
lembrar, discutir, executar seus planos e aes;
participar de um dilogo, respondendo, com aes e frases, s
frases digitadas pelo usurio;
solicitar esclarecimentos quando seus programas heursticos
no conseguirem compreender uma frase.

Observe-se que a analogia que estou construindo entre investigar o PLN e investigar sistemas especialistas permite conceber a
primeira atividade como a atividade de construir um tipo particular de sistema de processamento automtico de informaes de
natureza lingstica e de informaes lingisticamente relevantes,
cuja especialidade inclui realizar tarefas como reviso ortogrfica
de textos, anlise gramatical, traduo de frases ou textos, interao verbal com o usurio e auxlio especializado a pesquisadores
na prpria construo de modelos lingsticos. Nesse sentido, o
estudo do PLN concebido como um tipo de engenharia do conhecimento lingstico e beneficia-se da metodologia da engenharia do conhecimento (Hayes-Roth, 1990).
De modo semelhante ao processo de investigao de um sistema de conhecimento (do ingls knowledge system), como o processo
de minerao, o estudo do PLN compreende a realizao de, no
mnimo, trs etapas investigao: a extrao do solo (isto , a explicitao dos conhecimentos e habilidades lingsticas), a lapidao (isto , a representao formal desses conhecimentos e habilidades) e a incrustao (isto , a construo do programa de computador que codifica essa representao). O Quadro 2 sintetiza essas
etapas e especifica os resultados esperados em cada uma delas.

122

Letras de Hoje Bento Carlos Dias da Silva

Quadro 2. Etapas de construo de um sistema de PLN.


Tarefas

Resultados

Explicitao do conhecimento
Representao formal do conhecimento

Descries lingsticas precisas


Representaes lingstico-

Codificao computacional do

Implementao computacional

computacionais
conhecimento

Os estudos da linguagem desenvolvidos no mbito da Cincia Cognitiva tambm propem trs nveis de abordagem do processamento humano da linguagem que correspondem s trs fases
acima (Lasnik, 1990: xvii-iii):
A idia central da cincia cognitiva moderna que o sistema cognitivo humano pode ser entendido como um computador gigante que
executa clculos complexos. [...] No caso da linguagem humana, por
exemplo, o nvel de implementao corresponde anlise neurolgica das estruturas e conexes do crebro que esto subjacentes ao
uso das lnguas. O nvel de representao e algoritmos focaliza o
processamento da informao pelo sistema e o formato do conhecimento lingstico armazenado na memria. [...] No nvel computacional, a lngua analisada em termos gramaticais e suas propriedades estruturais so expostas. [...] fundamental compreender que
[...] os trs diferentes nveis de anlise esto ligados, isto , os fatos e
os princpios descobertos em um nvel contribuem para anlises nos
outros nveis. Por exemplo, o conhecimento da gramtica de uma
lngua (descrito no nvel 2) nos d pistas sobre o tipo de algoritmo
necessrio para interpretar e produzir frases.

Por fim, Barton, Berwick e Ristad (1987, p. 96-7) esclarecem


que a teoria da competncia lingstica, inclui-se no nvel computacional e deve explicar quais so as estruturas calculadas e por
qu, ignorando as limitaes de memria, as mudanas de ateno
ou interesse, e os erros. Assim, somando as questes programticas sobre os estudos da linguagem colocadas por Chomsky (1986,
p.3) e as consideraes sobre a competncia pragmtica, propomos a Figura 1, que resume o equacionamento do estudo de PLN.

O estudo Lingstico-Computacional da Linguagem

123

Figura 1. Correlao entre os Domnios de investigao do PLN,


os problemas centrais de cada domnio e os recursos tericometodolgicos essenciais, mas no exaustivos, para resolv-los.
DOMNIOS

PROBLEMAS

RECURSOS 9

Lingstico

Descrever o conhecimento
e o uso lingsticos

Teorias Lingsticas
da Competncia
e do Desempenho

Lingstico-Computacional

Representar
os conhecimentos
do domnio anterior

Codificar em uma
linguagem de programao
as representaes
propostas no domnio
anterior

Computacional

Linguagens Formais
de Representao

Linguagens
de Programao e Sistemas
de Computadores

Como ressalta Halvorsen (1989, p. 201), o estudo do PLN tem,


de fato, procurado:
construir a ponte entre a teoria da competncia e o tipo de desempenho lingstico atribudo s mquinas, transformando a teoria
lingstica em algoritmos que, ao mesmo tempo, simulam o comportamento lingstico e obedecem s restries e generalizaes
previstas pela teoria lingstica e pelas gramticas [das lnguas particulares].

A explicitao do conhecimento e do uso lingsticos envolve


questes do Domnio Lingstico, uma vez que nele que os fatos
de lngua e de uso so especificados. Conceitos, termos, regras,
princpios, estratgias de resoluo de problemas e formalismos
lingsticos so os elementos trabalhados. No Domnio LingsticoComputacional, questes referentes escolha ou proposio de
sistemas de representao, que incluem, por exemplo, o clculo
proposicional e de predicados, as redes semnticas, as regras de
reescrita e os frames, bem como as estratgias de codificao dos
elementos trabalhados no domnio anterior entram em foco. No
Domnio Computacional, alm das questes que envolvem a implementao das representaes por meio de programas de computador, h questes que dizem respeito montagem do prprio sistema computacional em que os programas so alojados.
9

Os principais recursos disponveis para o estudo do PLN esto resumidos na Figura 3.

124

Letras de Hoje Bento Carlos Dias da Silva

Em suma, a investigao nos trs Domnios, por sua vez, pode ser reinterpretada como compreendendo trs fases solidrias e
sucessivas do desenvolvimento de um sistema PLN especfico. Na
Fase Lingstica, estabelece-se a construo do corpo de conhecimentos sobre a prpria linguagem, dissecando e compreendendo
os fenmenos lingsticos necessrios para o desenvolvimento do
sistema. Nesta fase, a anlise dos fenmenos lingsticos elaborada em termos de modelos e formalismos desenvolvidos no mbito da Teoria Lingstica. Na Fase Lingstico-Computacional procede-se construo conceitual do sistema, que envolve a seleo
ou proposio de sistemas formais de representao para os resultados alcanados na fase anterior. Nesta fase, projetam-se as representaes lingsticas e extralingsticas em sistemas formais computacionalmente tratveis. Na Fase Computacional, planeja-se o
sistema e codificam-se as representaes elaboradas na fase anterior em linguagens de programao. Nesta fase, alm das representaes da fase anterior serem codificadas em programas computacionais, estudam-se a integrao conceitual e fsica dos vrios
componentes do sistema, bem como o desenho e a implementao
do ambiente computacional em que o sistema ser desenvolvido.
Conforme ilustra a Figura 2, as trs fases devem ser desenvolvidas sucessiva, progressiva e ciclicamente: as representaes
parciais resultantes das duas primeiras fases podem ser implementadas e, finalmente, testadas, completando, assim, um ciclo.10 Dessa
forma, testes de adequao e desempenho so realizados para aferir o aprimoramento dos resultados alcanados em cada fase.
Figura 2. Fases de construo de um sistema de PLN.
F a se
L in g stic a

T e ste
F a se
L in g stic o C o m p u ta c io n a l

F a se
C o m p u ta c io n a l

R
R
R
R

10

e d im e n sio n a m e n to s
e p la n e ja m e n to s
e fo r m u la e s
e fin a m e n to s

Essa decomposio modular de um problema complexo em subproblemas espelha


tambm uma estratgia de trabalho bastante difundida e profqua nos estudos computacionais (RICH, 1983). Bresnan (1981; 1982) emprega estratgia semelhante na
construo da Teoria Lxico-Funcional.
O estudo Lingstico-Computacional da Linguagem

125

Assim, projetar um sistema de PLN envolve essencialmente


(i) especificar, (ii) representar e (iii) codificar sistematicamente
informaes (lingsticas e extralingsticas), mecanismos de inferncia e de controle dessas inferncias, e, finalmente, (iv) projetar o
sistema computacional (incluindo software e hardware) para o desenvolvimento e teste do prprio sistema. Isso equivale a dizer que
preciso construir a representao de um complexo competnciadesempenho lingstico e metalingstico artificial e transformar
tudo isso em um programa de computador
Quadro 3. Exemplo do tratamento lingstico-computacional
de uma configurao sinttica.
DESCRIO INFORMAL

FASE
LINGSTICA

Uma frase pode ser composta pela concatenao de um Sintagma Nominal com um Sintagma Verbal. O Sintagma Nominal
o Sujeito da frase. O Sintagma Verbal o predicado da frase.
O Sujeito e o Verbo tm os mesmos traos de Nmero e Pessoa.
O Caso Gramatical do Sujeito o Nominativo e o Verbo encontra-se na Forma Finita.
FORMALISMO LINGSTICO

SN
(SUJEITO)=

SV
=

REPRESENTAO COMPUTACIONAL

FASE
LINGSTICOCOMPUTACIONAL

Regra Sinttica:
F SN SV
Especificaes:
<SN pessoa> = <SV pessoa>
<SN nmero> = <SV nmero>
<SN caso> = nominativo
<SV forma verbal> = finita
IMPLEMENTAO NA LINGUAGEM PROLOG 11

FASE
COMPUTACIONAL

f(P0,P):-sn(Pessoa,Nmero,Caso, P0,P1), sv(Pessoa,Nmero,Caso,P1,P).

O exemplo ilustrativo, esquematizado no Quadro 3, auxilia


compreenso da proposta. Nesse esquema, partimos da descrio
informal de um tipo especfico de configurao sinttica oracional
e chegamos a um programa de computador que a codifica.

11

Cf. Sterling & Shapiro, 1986; Pereira & Shieber, 1987; Clocksin & Mellish, 1987.

126

Letras de Hoje Bento Carlos Dias da Silva

A essncia interdisciplinar do PLN

Desde a Antigidade, textos e mais textos vm registrando um


corpo de conhecimentos sobre os fenmenos lingsticos das mais
diversas perspectivas, refletindo idias, preocupaes e vises de
mundo especficas de cada poca. Em cada momento, as lentes dos
observadores esto direcionadas para determinados aspectos dos
objetos lingsticos, ocultando outros, visveis sob outras ticas.
Os lingistas, num certo momento, ao observarem os fenmenos da linguagem com as lentes do gerativismo, corrente de
pesquisa gramatical dominante na segunda metade do sculo XX
(Harlow & Vincent, 1989), focalizaram suas lentes at os limites da
frase. Qualquer fenmeno a ela transcendente fugia desse alcance.
A fonologia e a morfologia foram minimizadas e a sintaxe ocupou
o centro das discusses. A semntica, por sua vez, continuo posta
de lado. Afinal, como salienta Lyons (1979, p. 425-6), para a Lingstica Moderna, o estudo do problema do significado era tarefa
para psiclogos, filsofos, lgicos, antroplogos e socilogos.
A partir da dcada de 70, com outras lentes, algumas emprestadas de estudiosos de outras disciplinas, o espao da semntica,
bem com tantos outros espaos de investigao foram demarcados:
a anlise do discurso (Prince, 1988), a pragmtica (Levinson, 1983;
Leech, 1983; Horn, 1988), os postulados conversacionais (Kempson,
1988), os atos de fala (Sadok, 1988), entre outros.
Fatos como esses permitem reiterar o que j afirmara em
Dias-da-Silva (1990): a colocao de problemas, a seleo de questes e a busca de solues no so determinadas exclusivamente
pela natureza do objeto sob investigao. Cada tipo de abordagem,
com seus mtodos prprios, alm de definir determinados contornos do objeto, acabam tambm por propiciar o nascimento de novos domnios de estudo. A caracterizao de novos objetos ou de
lentes novas , na maioria das vezes, fruto de influncias de outras
reas do saber sobre a Lingstica.
Um exemplo significativo dessas contribuies recprocas
encontrado em Chomsky (1957). Recorrendo Teoria dos Autmatos (Korfhage, 1966), desenvolvida por matemticos, Chomsky
props o modelo formal de anlise gramatical que revolucionou os
estudos da linguagem. Como observa Lyons (1976, p. 63):
No que diz respeito lingstica, o passo revolucionrio dado por
Chomsky foi o de recorrer a esse ramo da matemtica [teoria dos
autmatos finitos e teoria das funes recursivas], aplicando-o s
lnguas naturais, como o ingls, e no a lnguas artificiais, construdas por lgicos e por cientistas especializados em computao.
O estudo Lingstico-Computacional da Linguagem

127

Acrescente-se a esse avano a sua ressonncia nos estudos


matemticos. Ao estudar a possibilidade de criar modelos formais
de gramtica para descrever a sintaxe das lnguas naturais,
Chomsky criou tambm uma nova rea de investigao, essencial
para os estudos computacionais: o estudo das linguagens formais
(Sudkamp, 1991), que, por sua vez, foi decisivo para a criao das
linguagens de programao, dos compiladores e dos interpretadores. Como conseqncia, serviu tambm de estmulo para o estudo
do PLN, que at a dcada de 70, ainda sofria o efeito negativo das
experincias mal-sucedidas com a traduo automtica (Nirenburg
et al., 1992).
Assim, o estudo das linguagens formais forneceu o contexto
para o nascimento de uma nova rea da Cincia da Computao,
rea que ficou conhecida como Lingstica Computacional, e que,
apesar do nome, no deve ser considerada um desdobramento da
Lingstica. Sua lente, at meados da dcada de 60, centrou-se exclusivamente no estudo das linguagens formais e das linguagens
de programao (Ballard & Jones, 1990, p. 133). Mesmo hoje, com o
amadurecimento crescente dos estudos sobre o PLN, a Lingstica
Computacional concentra-se em um aspectos especficos do processamento lingstico: estudo de algoritmos para anlises morfolgica
e gramatical (Earley, 1970; Kay, 1985; Hearn et al., 1980, Klavans,
1989). O estudo dos sistemas de representao e dos procedimentos computacionais de interpretao semntica e pragmticodiscursiva, em geral, ultrapassam o seu domnio (Grishman, 1986;
Nirenburg et al., 1992).
Com o estmulo proveniente da Lingstica e com influncias
diretas da Filosofia da Linguagem e da Psicologia, o estudo do
PLN passou a abordar os mesmos temas dessas disciplinas matrizes: morfologia, sintaxe, semntica, pragmtica, discurso, texto,
aquisio da linguagem, entre outros (Carbonell & Hayes, 1990).
Exemplos significativos que atestam as contribuies recprocas
que passaram a existir entre este e os estudos lingsticos so a
proposio de modelos diversos: modelos de processamento automtico de estruturas gramaticais (Frazier & Fodor, 1978; Fodor &
Frazier, 1980); modelos de rede de transio ampliada projetados
para representar o processo de anlise sinttica valendo-se da
gramtica gerativo-transformacional (Woods, 1970); modelos de
codificao e implementao de parcelas da gramtica funcional
proposta por Halliday (Winograd, 1972);12 modelos computacionais dos atos de fala (Cohen & Perrault, 1979; Allen & Perrault,
12

Cf. Halliday & Hasan (1976) e Halliday (1985).

128

Letras de Hoje Bento Carlos Dias da Silva

1980); analisadores gramaticais fundamentados na gramtica gerativo-transformacional (Marcus, 1980); modelos de gramtica computacionalmente motivados (Bresnan, 1982; Dik, 1997); modelos
matemticos das lnguas naturais (Perrault; 1984); modelos computacionais de gerao de textos (McKeown, 1985; Appelt, 1985);
modelos formais de interpretao semntica (Dowty et al., 1981;
1985); analisadores gramaticais fundamentados na teoria chomskiana dos princpios e parmetros (Pritchett, 1988); modelos computacionais da teoria da referncia (Kronfeld, 1990); modelos computacionais de interpretao semntica (Hirst, 1992).
Assim como a Lingstica, a Inteligncia Artificial tambm enriqueceu o estudo do PLN e, por meio deste, avanou seus prprios
conhecimentos. Entre os temas mais importantes nas discusses
sobre a criao de sistemas capazes de processar as lnguas naturais
esto: as estratgias de resoluo de problemas (Amarel, 1990), as tcnicas de representao do conhecimento (Brachman & Levesque, 1985;
Minsky, 1975) e as teorias que estudam sofisticados sistemas de inferncia (Reyter, 1987; Hobbs et al., 1990; Carpenter & Thomason,
1990); o modelo de redes semnticas, criado para a representao da
estrutura conceitual que serve de ancoragem para a estruturao do
lxico (Quillian, 1968; Jackendoff, 1990; Pustejovsky & Boguraev,
1991; Pustejovsky, 1995; Miller & Fellbaum, 1991) e as tcnicas empregadas pela engenharia do conhecimento (Hayes-Roth, 1990).
Mesmo que, historicamente, a Inteligncia Artificial e a Lingstica Computacional,13 ambas consideradas ramificaes da
Cincia da Computao (Ballard & Jones, 1990; Nirenburg et al.,
1990), tenham tomado para si o estudo do PLN, a concepo de
Winograd e os trabalhos mencionados o colocam como um empreendimento interdisciplinar. Dessa nova perspectiva, o PLN no se
constitui em objeto especfico desta ou daquela rea do conhecimento, mas sim um objeto complexo e multifacetado, cuja compreenso tem se revelado potencialmente promissora e responsvel
por significativas influncias recprocas.
13

Considera-se que a disciplina Inteligncia Artificial passa a existir enquanto campo de


investigao reconhecido pela comunidade cientfica a partir da chamada Dartmouth
Summer Research Project on Artificial Intelligence, em 1956. Essa conferncia contou
com a participao daqueles que seriam mais tarde os expoentes do campo: John
McCarthy, idealizador da conferncia e criador do nome da disciplina, Marvin
Minsky, Calude Shannon, Oliver Selfridge, Nathaniel Rochester, entre outros. A disciplina Lingstica Computacional, por sua vez, cujo nome foi cunhado em 1967 por
David Hays (Moreno Fernndez, 1990, p. 6), antes de se especializar enquanto uma
disciplina que focaliza alguns aspectos do estudo computacional das lnguas naturais, focalizava essencialmente o estudo das linguagens formais e das linguagens de
programao.
O estudo Lingstico-Computacional da Linguagem

129

Petrick (1990) sinaliza uma influncia marcante dos estudos


computacionais desenvolvidos no mbito do PLN sobre o desenvolvimento da Teoria Lingstica. Destaque especial merecem as
investigaes que vieram reanimar a discusso sobre as propriedades formais das gramticas das lnguas naturais (Harlow & Vincent, 1989). A utilizao de gramticas sintagmticas livres de contexto
ampliadas como modelo de descrio lingstica e a crtica de Gazdar (1982) a alguns aspectos da obra chomskiana atestam essa retomada.
Os argumentos que Chomsky (1957) construiu para demonstrar que as gramticas sintagmticas livres de contexto eram inadequadas para caracterizar a sintaxe das lnguas naturais perderam sua fora com a proposio das redes de transio ampliadas
de Woods (1970). Tomando por base o fato de os falantes processarem as estruturas lingsticas instantaneamente e os resultados
obtidos com a implementao computacional da Teoria Padro
(Chomsky, 1965), Gazdar (1982) mostra que as gramticas gerativas, com seu grande nmero de dispositivos formais, so completamente inadequadas para servir de modelo de processamento das
estruturas lingsticas pelos falantes. A partir dessa anlise, constri um novo modelo de gramtica, sem as clssicas transformaes e o denomina Gramtica Sintagmtica Generalizada, origem
da gramtica Head-driven Phrase Structure Grammar, mais conhecida pela sigla HPSG (Pollard & Sag, 1994). Esses dois exemplos evidenciam que a argumentao de base computacional pode trazer
novos recursos para se repensar as teorias lingsticas.
Alm disso, o estudo do PLN sobrepe-se a parcelas dos domnios da Filosofia da Linguagem, Lingstica e Psicologia, ao
procurar compreender, com sua lente, a linguagem humana, suas
funes, sua manifestao nas diferentes lnguas, sua estrutura
interna e sua relao com a realidade, com os processos de raciocnio e com o comportamento verbal.
Sobrepe-se tambm a domnios da Lgica, Matemtica,
Cincias da Computao, Lingstica Computacional e Inteligncia
Artificial, ao procurar, nessas disciplinas, instrumentos e estratgias indispensveis construo e implementao dos modelos.
So exemplos: sistemas de representaes formais, como o clculo
de predicados, a lgica modal e temporal, os grafos de representao lexical, sinttica, semntica e conceitual, as linguagens de programao, os autmatos, as gramticas e os algoritmos de anlise
gramatical; os sistemas de representao do conhecimento de
mundo e de crenas; as estratgias de resoluo de problemas e de
organizao da informao.
130

Letras de Hoje Bento Carlos Dias da Silva

H que se observar, ainda, que existem sobreposies entre a


Lingstica, de um lado, e a Filosofia, a Lgica, a Matemtica, as
Cincias da Computao e a Inteligncia Artificial, de outro.
A mais clssica delas a sobreposio que se constata entre os Lingstica, Filosofia e Lgica (Frege, 1990; Austin, 1962; 1990; Grice,
1990; Searle, 1990a e 1990b; Reichenbach, 1947; Lehmann et al.,
1985; Barwise & Perry, 1983; 1990). Lembre-se de que aquela originou-se no seio destas disciplinas: a tradio gramatical do ocidente
encontrou, nessas reas clssicas, um dos modelos mais profcuos
para o estudo das categorias e funes gramaticais, do contedo
semntico das oraes e das atitudes proposicionais (Allwood,
1977; McCawley, 1981).
Outras importantes contribuies mtuas tambm merecem
destaque (Meulen, 1989). De um lado, constata-se o vis lingstico que tomou conta da filosofia analtica de Oxford e Cambridge.
A anlise conceitual desenvolvida por essa corrente filosfica, sob
a denominao de anlise componencial, acabou por ser aplicada
aos estudos de decomposio do significado dos itens lexicais.
Com a denominao de o estudo do significado em uso, sob a
influncia de Austin e Wittgenstein, transformou-se em um mtodo de anlise que procura investigar como uma expresso lingstica pode ter significados diferentes em diferentes contextos de
uso, enfatizando, portanto, a forte dependncia contextual do significado. De outro, com o desenvolvimento da lgica moderna, por
lgicos como Frege e Russell, e com a aplicao dos seus mtodos e
resultados aos estudos lingsticos, temas como extenso e intenso, contextos transparentes e opacos e interpretao de re e de
dicto passaram a fazer parte das discusses sobre a semntica das
lnguas naturais.

O estudo Lingstico-Computacional da Linguagem

131

Figura 3. Recursos terico-metodolgicos para o estudo do PLN.


LINGSTICA

FILOSOFIA

Teoria e Descrio Gramatical

Anlise Conceitual

Lexicologia

Teoria da Referncia

Teoria do Discurso

LGICA

PSICOLOGIA

Atos de Fala

Teoria do Texto

Inferncias

Anlise Pragmtica

Lgica Proposicional

Processos Cognitivos

Lgica de Predicados
Organizao da Memria

Lgica Modal
Lgica Intensional

Compreenso e Interpretao da Fala

Lgica Difusa

PLN

M ATEMTICA

Representao do Conhecimento

Relaes e Funes

Engenharia do Conhecimento

Teoria dos Conjuntos


Teoria de Modelos
Teoria dos Grafos
lgebra

INTELIGNCIA ARTIFICIAL

Resoluo de Problemas

Algoritmos
Teoria da
Complexidade
Linguagens Formais
Algoritmos
Analisadores Sintticos
LINGSTICA
COMPUTACIONAL

Autmatos

Estratgias de Inferncia

Compiladores

Redes Semnticas

Redes de Transio
Base de Dados
Linguagens de Programao
CINCIAS DA
COMPUTAO

J a Matemtica, as Cincias da Computao e a Inteligncia


Artificial s muito recentemente passaram a instrumentalizar a
Lingstica no equacionamento de alguns dos seus problemas cruciais: os modelos que servem de base para a descrio sinttica das
teorias lingsticas modernas se utilizam de regras de produo,
de grafos e de funes matemticas; estruturas como frames, scripts
e plans (Schank & Abelson, 1977; Dyer et al., 1990), provenientes
dos estudos de Inteligncia Artificial so empregados por teorias
semnticas e do discurso.
Na Figura 3, classificados segundo as disciplinas matrizes,
apresento a sistematizao dos principais recursos tericometodolgicos de que o estudo do PLN dispe.
O estudo do PLN um domnio de pesquisa privilegiado,
amplo e fecundo, uma vez que a construo do corpo de conheci-

132

Letras de Hoje Bento Carlos Dias da Silva

mentos necessrios para a implementao de sistemas de PLN,


com o grau de sofisticao delineado neste trabalho, exige seleo,
organizao, representao e codificao de uma variedade de
informaes na complexa tarefa de criar um simulacro computacional da competncia e do desempenho lingsticos humanos.
Referncias
AKMAJIAN, A. et al. Linguistics: an introduction to language and communication.
Cambridge, Mass.: The MIT Press, 1986.
ALLEN, J. F. Natural language understanding. Menlo Park: Benjamin Cummings, 1987.
ALLEN, J. F. & PERRAULT, C. R. Analyzing Intentions in Utterances. Artificial intelligence, 15, p. 143-78, 1980.
ALLWOOD, J. et al. Logic in linguistics. Cambridge: Cambridge University
Press, 1977.
AMAREL, S. Problem Solving. In: E. Shapiro (ed.). Encyclopedia of artificial
intelligence. New York: Wiley, p. 767-79, 1990.
APPELT, D. E. Planning English sentences. Cambridge: Cambridge University
Press, 1985.
AUSTIN, J. L. How to do things with words. Oxford: Oxford University Press,
1962.
. Performative Utterances. In: A. P. Martinich (ed.). The philosophy of
language. Oxford: Oxford University Press, p. 105-14, 1990.
BALLARD, B. W.; JONES, M. A. Computational Linguistics. In: E. Shapiro
(ed.). Encyclopedia of artificial intelligence. New York: Wiley, p. 133-51, 1990.
BARTON, G. E., BERWICK, R. C.; RISTAD, E. S. Computational complexity and
natural language. Cambridge, Mass.: The MIT Press, 1987.
BARWISE, J.; PERRY, J. Situations and attitudes. Cambridge, Mass.: The MIT
Press, p. 27-45, 1983.
. Semantic Innocence and Uncompromising Situations. In: A. P. Martinich (ed.). The philosophy of language. Oxford: Oxford University Press, p. 392404, 1990.
BIERMANN, A. Automatic Programming. In: E. Shapiro (ed.). Encyclopedia of
artificial intelligence. New York: Wiley, p. 18-35, 1990.
BORBA, F. S. Introduo aos estudos lingsticos. 8. ed. So Paulo: Ed. Nacional,
1984.
BRACHMAN, R. J.; LEVESQUE, H. J. Readings in knowledge representation. San
Mateo: Morgan Kaufmann, 1985.

O estudo Lingstico-Computacional da Linguagem

133

BRESNAN, J. An Approach to Universal Grammar and The Mental Representation of Language. Cognition, 10, p. 39-52, 1981.
(ed.). The mental representation of grammatical relations. Cambridge,
Mass.: The MIT Press, 1982.
CARBONELL, J. G.; HAYES, P.J. Natural-Language Understanding. In: E.
Shapiro (ed.). Encyclopedia of artificial intelligence. New York: Wiley, p. 660-77,
1990.
CARPENTER, R.; THOMASON, R. Inheritance Theory and Path-Based Reasoning: An Introducton. In: H. E. Kyburg et al. (eds.). Knowledge representation
and defeasible reasoning. Dordrecht: Kluwer, p. 309-43, 1990.
CHOMSKY, N. Syntactic structures. Haia: Mouton, 1957.
. Aspects of the theory of syntax. Cambridge, Mass.: The MIT Press, 1965.
1986.

. Knowledge of language: its nature, origins, and use. New York: Praeger,

COHEN, P. R. & PERRAULT, C. R. Elements for A Plan-Based Theory of


Speech Acts. Cognitive Science, 3, p. 177-212, 1979.
CLOCKSIN, W. F.; MELLISH, C. S. Programming in prolog. Berlin: SpringerVerlag, 1987.
DIAS-DA-SILVA, B. C. O fenmeno da apassivao: em busca da passiva prottipo.
Araraquara, 160 p. Dissertao (Mestrado em Letras) Faculdade de Cincias
e Letras, Universidade Estadual Paulista, 1990.
DIK, S. The theory of functional grammar. Part 1 and Part 2. Berlin: Mouton de
Gruyter, 1997.
DOWTY, D. R. et al. Introduction to Montague semantics. Dordrecht: Reidel,
1981.
1985.

. et al. Natural language parsing. Cambridge, Mass.: The MIT Press,

DYER, M.G. et al. Scripts. In: E. Shapiro (ed.). Encyclopedia of artificial intelligence. New York: Wiley, p. 980-94, 1990.
EARLEY, J. An Efficient Context-Free Parsing Algorithm. Communications of
The Association for Computing Machinery, 14, p. 453-60, 1970.
FVERO, L. L. E.; KOCH, I. G. V. A Lingstica Textual. In:
textual: introduo. So Paulo: Cortez, p. 11-25, 1983.

Lingstica

FODOR, J. D.; FRAZIER, L. Is The Human Sentence Parsing Mechanism an


ATN. Cognition, 8, p. 417-59, 1980.
FRAZIER, L. & FODOR, J. The Sausage Machine: A New Two Stage Parsing
Model. Cognition, 6, p. 291-325, 1978.
FREGE, G. On Sense and Nominatum. In: A. P. Martinich (ed.). The philosophy
of language. Oxford: Oxford University Press, p. 190-202, 1990.

134

Letras de Hoje Bento Carlos Dias da Silva

GARRET, M. F. Sentence Processing. In: D. N. Osherson & H. Lasnik (eds.).


An invitation to cognitive science: language. Cambridge: Mass., The MIT Press, p.
133-75, 1990.
GAZDAR, G. Phrase Structure Grammar. In: P. Jacobson & G. K. Pullum
(eds.). The nature of syntactic representation. Dordrecht: D. Reidel, p. 131-86,
1982.
GAZDAR, G.; MELLISH, C. (1989). Natural language processing in prolog: an
introduction to computational linguistics. New York: Addison-Wesley, 1989.
GREIMAS, A. J.; COURTS, J. Dicionrio de semitica. So Paulo: Cultrix, 1979.
GRICE, H. P. Logic and Conversation. In: A. P. Martinich (ed.). The philosophy
of language. Oxford: Oxford University Press, p. 149-60, 1990.
GRISHMAN, R. Computational linguistics: an introduction. Cambridge, Mass.:
Cambridge University Press, 1986.
HALLIDAY, M. A. K. An introduction to functional grammar. London: Edward
Arnold, 1985.
HALLIDAY, M. A. K.; HASAN, R. Cohesion in English. London: Longmans,
1976.
HALVORSEN, P.-K. Computer Applications of Linguistic Theory. In: F.
Newmeyer (ed.). Linguistics: the cambridge survey II. Cambridge, Mass.: Cambridge University Press, p. 198-219, 1989.
HARLOW, S.; VINCENT, N. Generative linguistics: an overview. In: F. Newmeyer (ed.). Linguistics: the cambridge survey II. Cambridge: Cambridge University Press, p. 1-17, 1989.
HAYES-ROTH, F. Expert Systems. In: E. Shapiro (ed.) . Encyclopedia of artificial
intelligence. New York: Wiley, p. 287-98, 1990.
HEARN, A. C. et al. Computational Linguistics. In: B. W. ARDEN (ed.) What
can be automated. Cambridge, Mass.: The MIT Press. p. 538-48, 1980.
HIRST, G. Semantic interpretation and the resolution of ambiguity. Cambridge,
Mass.: Cambridge University Press, 1992.
HOBBS, J. R. et al. Interpretation as Abduction. Technical Note 499, Artificial
Intelligence Center, SRI International, Menlo Park, California, 1990.
HORN, L. R. Pragmatic theory. In: F. Newmeyer (ed.). Linguistics: the cambridge survey I. Cambridge: Cambridge University Press, p. 113-45, 1988.
JACKENDOFF, R. Semantic structures. Cambridge: Mass., The MIT Press, 1990.
JAKOBSON, R. Lingstica e comunicao. So Paulo: Cultrix, 1977.
KAY, M. Parsing in Functional Unification Grammar. In: D. R. Dowty et al.
(eds.). Natural language parsing. Cambridge: Cambridge University Press,
p. 251-78, 1985.

O estudo Lingstico-Computacional da Linguagem

135

KEMPSON, R. (1977). Grammar and conversational principles. In: F. Newmeyer (ed.). Linguistics: the cambridge survey I. Cambridge: Cambridge University Press, p. 139-63, 1988.
KLAVANS, J. Computational Linguistics. In: OGRADY, W. et al. Contemporary linguistics. New York: St. Martins Press, cap. 15, p. 413-47, 1989.
KORFHAGE, R. R. Logic and algorithms. New York: Wiley, 1966.
KRONFELD, A. Reference and computation. Cambridge: Cambridge University
Press, 1990.
LASNIK, H. The Study of Cognition. In: D. N. Osherson & H. Lasnik, (eds.).
Language: an Invitation to cognitive science. Cambridge, Mass.: The MIT Press, p.
xi-xix, 1990.
LEECH, G. Principles of pragmatics. London: Longman, 1983.
LEHMANN, W. P. et al. Human Language and Computers. Computers and The
Humanities, 19, p. 77-83, 1985.
LEMLE, M. Anlise sinttica: teoria geral e descrio do portugus. So Paulo:
tica, 1984.
LEVINSON, S. C. Pragmatics. Cambridge: Cambridge University Press, 1983.
LYONS, J. As idias de Chomsky. So Paulo: Cultrix, 1976.
. Semantics 1& 2. London: Cambridge University Press, 1977.
1979.

. Introduo lingstica terica. So Paulo: Cia. Ed. Nacional-EDUSP,


. Linguagem e lingstica. Rio de Janeiro: Zahar, 1981.

MARANTZ, A. On the nature of grammatical relations. Cambridge, Mass.: The


MIT Press, 1984.
MARCUS, M. P. A theory of syntactic recognition for natural language. Cambridge, Mass.: The MIT Press, 1980.
McCAWLEY, J. D. Everything that linguists have always wanted to know about
logic. Chicago: The University of Chicago Press, 1981.
McKEOWN, K. R. Text generation. Cambridge: Cambridge University Press,
1985.
MEULEN, A. ter Linguistics and The Philosophy of Language. In: F. Newmeyer (ed.). Linguistics: the Cambridge survey I. Cambridge: Cambridge University Press, p. 430-46, 1989.
MILLER, G. A., FELLBAUM, C. Semantic networks of English. Cognition, 41,
n. 1-3, p. 197-229, 1991,
MINSKY, M. Semantic information processing. Cambridge, Mass.: MIT Press,
1968.
. A Framework for Representing Knowledge. In: J. Haugeland (ed.).
Mind design. Cambridge, Mass.: The MIT Press, p. 95-128, 1975.

136

Letras de Hoje Bento Carlos Dias da Silva

MORENO FERNNDEZ, F. Lingstica Informtica e Informtica Lingstica.


Lingstica Espaola Actual, 12, p. 5-16, 1990.
MYKOWIECKA, A. Natural-language generation an overview. International
Journal of Man-Machine Studies, 34, p. 497-511, 1991.
NIRENBURG, S. et al. Machine translation. San Mateo: Morgan Kaufmann,
1992.
PARTEE, B. H. et al. Mathematical methods in linguistics. Dordrecht: Kluwer,
1993.
PEREIRA, F. C. N.; SHIEBER, S. Prolog and natural language analysis. Chicago:
The University of Chicago Press, 1987.
PERRAULT, C. R. On The Mathematical Properties of Linguistic Theories.
Computational Linguistics, 10, 3-4, p. 165-76, 1984.
PETRICK, S. Parsing. In: E. Shapiro (ed.). Encyclopedia of artificial intelligence.
New York: Wiley, p. 687-96, 1990.
POLLARD, C.; SAG, I. Head-driven phrase structure grammar. Chicago: CSLI
Publications, 1994.
PRINCE, E. F. Discourse analysis: a part of the study of linguistic competence.
In: F. Newmeyer (ed.). Linguistics: the Cambridge survey I. Cambridge: Cambridge University Press. p. 164-82, 1988.
PRITCHETT, B. L. Garden Path Phenomena and The Grammatical Basis of
Language Processing. Language, 64, p. 539-76, 1988.
PUSTEJOVSKY, J. The generative lexicon. Cambridge, Mass.: The MIT Press,
1995.
PUSTEJOVSKY, J.; BOGURAEV, B. Lexical Knowledge Representation and
Natural Language Processing. IBM Journal of Research and Development, 35, p.
1-20, 1991.
QUILLIAN, M. R. Semantic Memory. In: M. Minsky. Semantic information
processing. Cambridge, Mass.: MIT Press. p. 227-70, 1968.
REICHENBACH, H. Elements of symbolic logic. New York: Macmillan, 1947.
REYTER, R. Nonmonotonic Reasoning. Annual Review of Computer Science, 2,
p. 147-86, 1987.
RICH, E. (1983). Inteligncia artificial. Trad. N.Vasconcellos. (Rev. tcnica Nizam Omar). So Paulo: McGraw-Hill, 1983.
. Artificial Intelligence and The Humanities. Computers and The Humanities, 19, p. 117-22, 1985.
SADOK, J. M. Speech act distinctions in grammar. In: F. Newmeyer (ed.).
Linguistics: the cambridge survey I. Cambridge: Cambridge University Press, p.
183-97, 1988.
SANDERS, A.; SANDERS, R. Syntactic Parsing: A Survey. Computers and The
Humanities, 23, p. 13-30, 1989.

O estudo Lingstico-Computacional da Linguagem

137

SCHANK, R. C.; ABELSON, R. Scripts, plans, goals, and understanding. Hillsdale, NJ: Lawrence Erlbaum, 1977.
SCHANK, R. C.; RIESBECK, C. K. (eds.) Inside computer understanding. Hillsdale, NJ: Lawrence Erlbaum, 1981.
SEARLE, J. R. What Is a Speech Act? In: A.P. Martinich (ed.). The philosophy of
language. Oxford: Oxford University Press, p. 115-25, 1990a.
. Indirect Speech Acts. In: A. P. Martinich (ed.). The philosophy of language. Oxford: Oxford University Press, p. 161-75, 1990b.
SELLS, P. Lectures on contemporary syntactic theories. Chicago: The University of
Chicago Press, 1985.
SHAPIRO, S. C. Bottom-up and top-down processing. In: E. Shapiro (ed.).
Encyclopedia of artificial intelligence. New York: Wiley. p. 779-85, 1990.
SLAGLE, J.; GINI, M. Pattern Matching. In: E. Shapiro (ed.). Encyclopedia of
artificial intelligence. New York: Wiley. p. 716-20, 1990.
STAROSTA, S. Natural Language Parsing and Linguistic Theories: Can The
Marriage Be Saved? Studies in Language, 15, p. 175-97, 1991.
STERLING, L.; SHAPIRO, E. The art of prolog. Cambridge, Mass.: The MIT
Press, 1986.
SUDKAMP, T. A. Languages and machines. Reading, Mass.: Addison-Wesley,
1991.
VARILE, G. B.; ZAMPOLLI, A. Survey of the state of the art in human language
tecnology. Cambridge: Cambridge University Press, 1997.
WINOGRAD, T. (1972). Understanding natural language. New York: Academic
Press, 1972.
WINSTON, P. H. Artificial intelligence. Reading, Mass.: Addison-Wesley, 1984.
WOODS, W. A. Transition Network Grammars for Natural Language Analysis. Communications of The Association for Computing Machinery, 13, p. 591-6,
1970.

138

Letras de Hoje Bento Carlos Dias da Silva