Linguística Computacional

Lingstica computacional: princpios e aplicaes
Renata Vieira1 , Vera Lcia Strube de Lima2

1
Centro de Cincias da Comunicao, Centro de Cincias Exatas e Tecnolgicas UNISINOS Av. Unisinos, 950 CEP 93022-000 So Leopoldo RS Faculdade de Informtica PUCRS Av. Ipiranga, 6681 CEP 90619-900 Porto Alegre RS
renata@exatas.unisinos.br vera@inf.pucrs.br
2
Resumo A lingstica computacional a rea de conhecimento que explora as relaes entre lingstica e informtica, tornando possvel a construo de sistemas com capacidade de reconhecer e produzir informao apresentada em linguagem natural. Neste curso so caracterizados os conhecimentos relativos lngua utilizados na construo de tais sistemas, bem como, as tcnicas empregadas para o processamento dos diferentes nveis lingsticos (lexical, sinttico e semntico-pragmtico). Uma discusso sobre desenvolvimento da rea e a multiplicidade de aplicaes e produtos decorrentes das pesquisas em lingstica computacional apresentada. Abstract Computational linguistics is an area of research that is based on the connection between linguistics and computer science. This union enables the development of systems which are capable of interpreting and producing information that is presented in natural language. In this tutorial we review both the linguistic knowledge that is used for the construction of such systems and the computing techniques applied to various levels of language processing (lexical, syntactic, semantic and pragmatical). A discussion about the research in the area and the great number of applications and products resulting from it is presented.
1. Introduo
O desenvolvimento da informtica proporcionou, nas ltimas dcadas, grandes mudanas nos estudos das cincias em geral. A computao, no caso particular do estudo das lnguas naturais, possibilitou o surgimento de novas abordagens a problemas descritivos e prticos das lnguas que antes no podiam ser tratados adequadamente. Uma destas abordagens a lingstica baseada em corpus, que utiliza computadores para o armazenamento e acesso a textos escritos ou falados. Um corpus lingstico legvel por mquina pode ser rapidamente pesquisado para obteno de informaes a respeito da regularidade da lngua, tais como freqncia de palavras, de formas ou de construes. Desta maneira pode-se obter dados a respeito da linguagem1 real, em uso por falantes da lngua, permitindo fazer comparaes entre lngua escrita e
Os termos lngua e linguagem so utilizados alternadamente ao longo desse trabalho sem uma distino especfica.
falada, entre os usos da lngua em diferentes pocas, ou ainda, entre o portugus do Brasil e de Portugal, para citar alguns exemplos. Outros trabalhos em lingstica computacional so voltados ao processamento da linguagem natural, isto , construo de programas capazes de interpretar e/ou gerar informao fornecida em linguagem natural. Para o processamento da lngua natural, vrios subsistemas so necessrios para dar conta dos diferentes aspectos da lngua: sons, palavras, sentenas e discurso nos nveis estruturais, de significado e de uso. Alguns exemplos so apresentados a seguir. Para ter uma comunicao efetiva, os usurios da lngua costumam seguir certas convenes. Uma destas convenes permite ao falante nativo reconhecer uma seqncia de expresses como sendo uma sentena vlida da lngua. O processamento lingstico, a esse nvel, tarefa dos analisadores sintticos. Para verificar a validade de seqncias de palavras numa certa lngua, o sistema precisa que a lngua seja especificada por um lxico e uma gramtica. O procedimento similar verificao de sintaxe de um programa em uma linguagem de programao, a sintaxe da lngua natural , no entanto, bem mais complexa e preciso levar em considerao problemas particulares como o da concordncia, por exemplo. Esse tipo de tratamento til ao desenvolvimento de corretores ortogrficos e gramaticais. As aplicaes desenvolvidas para lidar com a lngua, porm, vo alm do processamento sinttico, como ser mostrado a seguir. Podemos, inicialmente, observar a diferena entre os sistemas que lidam com a lngua escrita e a lngua falada. Para lidar com a lngua falada necessria uma tecnologia especial que faz a interpretao da fala atravs da manipulao da representao de conhecimento fontico-fonolgico. Um outro aspecto da lngua, diz respeito ao significado que evocado por uma sentena vlida. Uma sentena pode expressar o conhecimento de mundo ou uma inteno do falante em relao ao ouvinte. Para desenvolver sistemas com essas caractersticas preciso recorrer a tcnicas de representao do conhecimento e, em certas situaes, especificar algoritmos capazes de estabelecer relaes entre os diversos componentes e segmentos de um texto ou discurso. Esses so os sistemas de tratamento semntico da lngua, que podem envolver a construo de um modelo de representao do domnio, correspondente interpretao de um texto, ou podem lidar com questes mais pontuais, como reconhecer um sentido especfico, dentro de um contexto, para palavras ambguas (por exemplo, banco como instituio financeira ou banco como um artefato utilizado para sentar). O significado da lngua natural est sempre relacionado situao de uso; no entanto, muitos modelos, utilizados para explicar e descrever o significado, procuram isolar esses fatores. A semntica, portanto, caracterizou-se como uma rea de estudo que considera o significado das expresses lingsticas de maneira independente de quem as usa ou de como so usadas. O estudo de questes relacionadas ao uso da lngua acaba caracterizando uma outra rea de conhecimento denominada pragmtica. Na pragmtica so estudadas questes ligadas ao uso da linguagem, abordandose aquilo que relativo a quem usa e ao contexto de uso (a teoria dos atos de fala um exemplo de tais estudos). Sistemas que trabalham nesse nvel de representao costumam considerar o contexto lingstico (discurso) na interpretao das expresses
da lngua. O contexto lingstico o mais fcil de tratar computacionalmente, pois refere-se ao que explicitado no texto. Sistemas que podem ser citados como exemplos so os de resoluo de anfora intersentencial e resoluo de co-referncia textual em geral. mais difcil tratar computacionalmente o contexto imediato, ou contexto situacional de uma expresso, devido dificuldade de se chegar a uma representao adequada do conhecimento compartilhado entre os participantes de uma conversao ou comunicao. Podemos considerar como conhecimento compartilhado, por exemplo, o conhecimento comum entre o leitor e o escritor de artigos de um jornal, que decorre de serem habitantes de uma mesma cidade. Outros exemplos de aplicao de propsito mais geral, e que podem englobar no mesmo sistema vrios dos nveis mencionados, so os sistemas de traduo automtica, gerao de resumos e extrao de informao. A rea de lingstica computacional ser aqui apresentada atravs de seus princpios gerais, de acordo com os diferentes nveis de conhecimento lingstico. O resultado prtico do desenvolvimento de pesquisas ser ilustrado atravs da apresentao das suas principais aplicaes. Na seo 2, caracterizaremos os nveis do estudo lingstico, relacionados aos sons, formao das palavras e das frases, e o significado dos smbolos da linguagem. Na seo 3, uma introduo ao processamento da linguagem natural ser apresentada, mostrando algumas formas de tratamento computacional para cada um dos nveis lingsticos. Na seo 4, ser apresentado um conjunto de aplicaes da lingstica computacional. Na seo 5, apresentaremos uma introduo lingstica computacional baseada em corpus, finalizando-se com a seo 6, a concluso.
2. reas de estudos lingsticos

Nesta seo sero apresentadas questes relativas aos diferentes nveis de estudo da linguagem: fonologia, morfologia, sintaxe, semntica e pragmtica. 2.1. Fontica e fonologia Fontica e fonologia so as reas de estudo relacionadas ao sistema de sons de uma lngua. A fontica est relacionada ao estudo da produo da fala humana, considerando as questes fisiolgicas envolvidas, tais como a estrutura do aparelho fonador: mandbula, laringe, boca, dentes e lngua. Essa uma estrutura bastante complexa, mais de 100 msculos esto envolvidos no controle direto e contnuo da produo das ondas sonoras da fala. Esse o campo de estudo conhecido como fontica articulatria. Quando o estudo mais voltado para as propriedades fsicas das ondas sonoras da fala, entramos no campo da fontica acstica. A fonologia o estudo das regras abstratas e princpios envolvidos na organizao, estrutura e distribuio dos sistemas de sons de uma determinada lngua. Para se falar sobre os sons da lngua necessrio um conjunto de smbolos que representem esses sons, pois a ortografia convencional apresenta problemas do tipo: diferentes sons so associados a uma mesma grafia e, por outro lado, diferentes grafias podem representar um mesmo som. O domnio desse conhecimento necessrio ao desenvolvimento dos sistemas de reconhecimento e sntese de fala. O reconhecimento de fala envolve a interpretao de
ondas sonoras e a associao destas com elementos de fala, podendo reconhecer somente palavras isoladas dentro de um lxico pr-determinado (por exemplo, reconhecimento de nmeros) ou reconhecer fala contnua de uma determinada lngua (envolvendo o reconhecimento mais completo do lxico de uma lngua e a delimitao/diferenciao entre vrias palavras). A sntese da fala envolve a gerao de uma sada sonora, a partir de um texto escrito de entrada. Uma das maiores dificuldades no desenvolvimento desse tipo de sistema produzir pronncia adequada e convincente, com sonoridade similar fala humana. 2.2. Morfologia e sintaxe A morfologia e a sintaxe estudam a constituio das palavras e dos grupos de palavras que formam os elementos de expresso de uma lngua. A morfologia trata especificamente do conhecimento sobre a estrutura das palavras. Algumas palavras, como rvore, no podem ser quebradas em unidades menores, mas isso pode ocorrer com palavras como rvores ou arvorezinhas, por exemplo. Ou ainda palavras como impossvel, ou sobremesa. As unidades constituintes das palavras so denominadas morfemas, e tais constituintes podem ser independentes, como em rvore ou dependentes como no caso dos sufixos (s em rvores) e prefixos (im em impossvel). Alm de estudar a estrutura das palavras, em morfologia estuda-se a classificao das palavras em diferentes categorias, ou, conforme o termo popularmente conhecido na rea, as palavras so classificadas em partes do discurso (part-of-speech, ou POS). Entre tais categorias encontramos os substantivos (cachorro), verbos (correr), adjetivos (grande), preposies (em), e advrbios (rapidamente). As palavras de uma mesma categoria compartilham vrias propriedades em comum como, por exemplo, o tipo de plural (+ s) ou o tipo de diminutivo (+ inho). Os verbos e suas conjugaes podem apresentar modificaes regulares em vrios casos. Na lngua inglesa, os adjetivos podem ser acompanhados dos sufixos er e est, como em big, bigger, biggest, significando uma troca de adjetivo comum para um adjetivo comparativo ou superlativo. As categorias de palavras podem ainda ser divididas em classes abertas ou fechadas. As classes abertas so compostas por categorias que abrangem um grande nmero de palavras e podem, ainda, abrigar o surgimento de novas palavras. Classes dessas naturezas so os substantivos, verbos e adjetivos. As classes fechadas so aquelas que tm funes gramaticais bem definidas, tais como artigos, demonstrativos, quantificadores, conjunes e preposies. Outra caracterstica compartilhada entre as palavras de uma mesma categoria a contribuio da palavra para o significado da frase que a contm. Por exemplo, substantivos podem ser usados para identificar um objeto ou conceito determinado, e adjetivos so usados para qualificar esse objeto ou conceito. Ainda a categoria pode dizer algo sobre a posio que as palavras podem ocupar nas frases. As palavras de determinada categoria podem ser usadas como base de um determinado grupo (ou sintagma). Tais palavras so chamadas de ncleo e identificam o tipo de objeto ou conceito que o sintagma descreve. Por exemplo, os sintagmas nominais possuem por ncleo um substantivo (ou nome); em o cachorro, o cachorro raivoso ou em o cachorro raivoso do canil, temos sintagmas nominais que descrevem o mesmo tipo de objeto. Da mesma forma, os sintagmas adjetivais faminto, muito faminto, faminto como um cavalo, descrevem um mesmo tipo de qualidade.
O reconhecimento das categorias das palavras um problema bsico em lingstica computacional. Muitas aplicaes so desenvolvidas com base nessa informao inicial. Para se fazer a anlise da estrutura das sentenas, por exemplo, necessrio que primeiramente se faa o reconhecimento das categorias. Os sistemas que realizam este tipo de tarefa so denominados etiquetadores de categorias gramaticais (ou POS taggers): dado um texto, esse texto devolvido com o acrscimo, a cada palavra, de uma etiqueta com informao a respeito de sua categoria gramatical. Uma vez reconhecida a categoria de uma palavra, o prximo passo na anlise da linguagem natural, verificar se a estrutura das frases vlida e reconhecer, dentro dessa estrutura, os constituintes da frase. Assim como palavras de uma mesma categoria, as estruturas das frases tambm compartilham determinadas propriedades, e por essa razo que os falantes da lngua podem reconhecer e produzir sentenas que nunca foram ouvidas antes. Esse conhecimento lingstico referente organizao das palavras de uma frase em uma determinada ordem pode ser caracterizado por uma gramtica, consistindo de um conjunto finito de regras e princpios. Essa ordem identifica a composio de constituintes que tm funes bem definidas na frase, como, por exemplo, sujeito e predicado. Correspondem a essas funes agrupamentos de palavras que obedecem a uma mesma regra de formao. Por exemplo, o sujeito geralmente identificado por um grupo de palavras que constituem um sintagma nominal; o predicado geralmente dado atravs de um sintagma verbal, que por sua vez constitudo de verbo e objeto, sendo que esse objeto representado por outro sintagma nominal ou preposicional. Atravs do reconhecimento da estrutura da frase possvel identificar quais expresses dizem respeito ao sujeito da frase, qual relao ou ao est sendo afirmada (ou seja, qual o predicado da frase) e, para o predicado, identificar os objetos e outros complementos indicando, por exemplo, modo ou tempo da ao/relao. Alm disso, atravs da anlise sinttica que se pode verificar se a concordncia estabelecida pelas regras da lngua est sendo obedecida pela frase. Outra questo relacionada estrutura da frase a interpretao: diferentes possibilidades de combinaes entre os constituintes de uma mesma frase podem ter diferentes interpretaes (fenmeno denominado ambigidade). Nos exemplos a seguir, podemos verificar a possibilidade de diferentes interpretaes para as frases: O homem viu o menino com o telescpio. Ele entrou na sala de muletas. As diferentes interpretaes (o menino com o telescpio ou viu com o telescpio; a sala de muletas ou entrou de muletas) no so devidas presena de ambigidade nas palavras mas sim na estrutura. Diagramas em forma de rvore costumam ser usados para representar a constituio das frases de acordo com as regras de formao estabelecidas pela gramtica. Como podemos ver, apesar de estarem separados em diferentes tipos de problemas com diferentes abordagens e tratamentos, existe uma forte ligao entre os subsistemas da lngua: para fazer a anlise sinttica requer-se informaes morfolgicas, e o resultado da anlise sinttica trar conseqncias para a interpretao de uma frase (conseqncias estas j no campo da semntica, apresentado na seo seguinte).
Sistemas que realizam a anlise estrutural das frases e seus constituintes so os analisadores sintticos (comumente conhecidos por sua denominao em ingls, parsers). Esses sistemas reconhecem estruturas vlidas a partir de um lxico que define o vocabulrio da lngua e um conjunto de regras que definem a gramtica da lngua. Na rea de lingstica computacional, muitos trabalhos so voltados ao problema da anlise sinttica. Um problema que ainda no est completamente solucionado. 2.3. Semntica e pragmtica Reconhecer se uma determinada seqncia de palavras est de acordo com as regras e princpios de formao de frases e sintagmas da lngua uma das aes envolvidas nos processos de interpretao e gerao da linguagem natural. Associado a um enunciado bem formado est o seu significado, que pode ser uma proposio sobre os fatos do mundo ou, ainda, pode expressar o propsito ou a inteno do falante. A semntica tem como objeto de estudo o significado das expresses da linguagem natural e a pragmtica ir estudar as relaes dos significados com o contexto da enunciao. A semntica aborda o significado das expresses de maneira mais independente de quem as usa ou de como so usadas essas expresses. O estudo do significado pode ser centralizado no significado das palavras, atravs da semntica lexical, ou no valor verdade de uma proposio, atravs da semntica lgica. A semntica lexical considera as propriedades referentes a cada uma das unidades, ou seja, as palavras de uma lngua, no lxico. Um dos primeiros problemas a serem considerados o fato de algumas palavras apresentarem mltiplos sentidos. O verbo ir, por exemplo, apresenta 37 diferentes definies, no Dicionrio Aurlio Bsico da Lngua Portuguesa. Por outro lado, como se pode observar em uma leitura do dicionrio, essas definies so dadas em termos de outros verbos (por exemplo, ir = partir) e desse modo temos dois verbos compartilhando o mesmo sentido. Para lidar com os sentidos, comum organiz-los em classes de objetos, de acordo como usualmente classificamos as coisas do mundo. Tais classificaes, taxonomias ou ontologias, tm sido de interesse desde o tempo de Aristteles (384-322 A.C.). As classes sugeridas por Aristteles so: substncia (objetos fsicos), quantidade (nmeros), qualidade, relao, espao, tempo, posio, estado, ao e afeio. A essa lista podem ser adicionados (conforme [ALL 95]) eventos, idias, conceitos e planos. Duas classes muito importantes so aes e eventos. O estudo de eventos, coisas que acontecem no mundo, est presente em muitas teorias semnticas por terem relao com a maneira como so organizadas as interpretaes das sentenas. A ambigidade lexical se d quando uma nica palavra possui mais de um sentido (ou, visto de outra maneira, apresenta mais de uma entrada em uma representao ontolgica). A palavra banco, por exemplo, pode ora referir-se a instituio financeira, ora ao artefato utilizado para sentar-se. Alm da ambigidade lexical, podemos ter a ambigidade semntica estrutural, advinda de uma ambigidade sinttica. A frase Cachorros e gatos felizes vivem na fazenda ambgua em relao ao alcance do adjetivo felizes (pode referir-se aos gatos apenas, ou aos cachorros e gatos). Outras formas de ambigidade estrutural so puramente semnticas, e derivam de uma nica estrutura sinttica. Um caso comum o escopo dos quantificadores. Por exemplo, a frase Todos os garotos gostam de um
cachorro pode significar que h um nico cachorro de que todos os garotos gostam ou que cada garoto gosta de um cachorro diferente. Os dois significados apresentariam diferentes tradues em formas lgicas, que constituem o formalismo comumente utilizado para expressar a semntica das frases da linguagem natural. A semntica lgica trata o significado atravs de uma especificao do domnio de conhecimento, de acordo com a teoria dos conjuntos. Para expressar o significado de expresses da linguagem natural em lgica, preciso traduzir as expresses para uma linguagem lgica. Porm, para dar conta do alto poder de expresso da linguagem natural, preciso recorrer a lgicas no clssicas. Essas lgicas incorporam noes mais complexas, como o tempo, por exemplo (que nas linguagens naturais manifestam-se nas conjugaes verbais). Um outro exemplo a noo de intenso: em lgica clssica, assume-se que o significado de um termo seja um referente ou um elemento do domnio, mas em linguagem natural, muitas vezes, utilizamos termos que no possuem um referente (ou extenso), mas que tm o seu significado associado a uma idia ou conceito (a intenso). Um exemplo pode ser dado pela expresso o primeiro homem a pisar em Marte, outro exemplo clssico a expresso o unicrnio. Muitos dos trabalhos em semntica de linguagem natural procuram estender a lgica para poder expressar noes mais complexas (como a lgica temporal e intensional, para os casos exemplificados acima). Uma outra questo que recebe bastante ateno, no estudo do significado da linguagem natural, diz respeito a elementos utilizados para se fazer referncia a objetos ou entidades do discurso ou domnio. Esses elementos so chamados expresses referenciais. Determinadas expresses tm como significado objetos ou entidades especficas no mundo. A semntica da lgica clssica, discutida anteriormente, uma semntica referencial, ou extensional. Em linguagem natural tambm utilizamos alguns termos para indicar objetos do contexto ou evocar alguma entidade, e existem diversos meios de se fazer isso, cada um com diferente propsito. Podemos referenciar um objeto indeterminado (um cachorro), ou nos referirmos a um objeto com interpretao especfica dentro de um contexto (o cachorro do vizinho). Outras expresses, sem um contedo semntico muito especfico, podem ser utilizadas como apontadores para determinados elementos. Esses apontadores geralmente so utilizados para fazer referncia a um elemento em evidncia para os falantes, podendo ser um elemento introduzido anteriormente na fala ou discurso, ou ser um elemento presente no contexto fsico da enunciao. Exemplos so os pronomes pessoais retos ou demonstrativos (ele, ela, isto, aquilo). Quando um pronome se refere a um elemento do discurso, esse elemento geralmente antecede o pronome e, nesse caso, diz-se que existe uma relao anafrica entre o pronome e o seu antecedente. Algumas vezes, porm, o objeto ou entidade sendo referenciado especificado posteriormente no discurso. Nesse caso dizse que existe uma relao catafrica entre o pronome e a expresso manifestada posteriormente. A rea de semntica uma rea de estudo mais nebulosa do que a sintaxe, por apresentar questes que so difceis de tratar de maneira exata e completa. A questo do significado est ligada ao conhecimento de mundo e, alm disso, ligada a questes mais obscuras como estados mentais e conscincia. Para simplificar o estudo da semntica, costuma-se fazer determinados recortes tericos que, conseqentemente, limitam o poder de alcance das teorias propostas. Os estudos do significado que procuram integrar
outros fatores, como contexto e falantes, constituem uma outra rea de estudo denominada pragmtica. Trabalhos bem conhecidos na rea de pragmtica dizem respeito ao acordo mtuo estabelecido entre os falantes na conversao [GRI 68, GRI 75], ou apresentam uma nova maneira de compreenso do significado da linguagem natural, que v a linguagem como ao: a teoria dos atos de fala [AUS 62, SEA 69]. Os falantes da lngua tm conhecimento sobre a forma de se comunicar e, muitas vezes, alguns dos princpios seguidos pelos falantes so independentes de linguagem. A seguir, so apresentados alguns exemplos [GRE 96]:
Um assunto neutro e amigvel para um encontro casual o clima.
Se voc o falante, voc ir se referir a voc usando a palavra Eu e no a palavra voc.
Ao contar uma histria a algum voc vai levar em considerao o que familiar e o que no familiar ao seu ouvinte.
Se voc est fornecendo alguma informao a algum voc ir fornecer informao suficiente e no informao adicional, alm do solicitado.
Se algum faz uma pergunta, voc d uma resposta relevante ao tpico em questo.
A pergunta Sobrou um pouco de caf?, por exemplo, pode ser interpretada pelo destinatrio como uma solicitao do emissor para receber uma xcara de caf tendo, assim, um significado de sentena diferenciado do significado de enunciao. Situaes como estas ilustram a diferena entre o significado literal da linguagem e o significado da linguagem em uso, que o objeto de estudo da pragmtica. interessante observar que a pragmtica no apenas estudada por lingistas, mas tambm por antroplogos, filsofos, psiclogos, scio-lingistas, psico-lingistas e cientistas da computao. Para os filsofos, uma das preocupaes a habilidade dos falantes de fazer referncia mtua, enquanto que, para os scio-lingistas, o interesse recai mais nas questes de interao comunicativa e no modo como estas podem ser influenciadas pela classe social, raa e gnero dos participantes. A cincia da computao, mais especificamente a inteligncia artificial distribuda, est interessada nos mecanismos interativos para modelagem de agentes e sociedades de agentes. Todo o estudo de comunicao entre agentes inteligentes tem como fundamento a teoria dos atos de fala de Austin e Searle [VER 97]. Diferentes tipos de enunciados tm diferentes efeitos nos estados perceptivos dos agentes e nos estados do mundo representados; de acordo com a teoria dos atos de fala, os enunciados realizam diferentes tipos de ao, conforme a classificao dada abaixo.
Representativos: o falante comunica que acredita na verdade da expresso (por exemplo, atravs de assero ou concluso).
Diretivos: o falante tem por inteno provocar o ouvinte a realizar uma ao (por exemplo, requisio, pergunta, ordem, proibio, permisso).
Comissivos: o falante se compromete com a realizao de uma ao no futuro (por exemplo, promessa, ameaa).
Expressivos: o falante expressa um estado psicolgico (por exemplo, agradecimento, pedido de desculpas).
Declaraes: tm como efeito imediato uma mudana de estado (por exemplo, uma declarao de guerra, a confirmao do batismo).
Classificaes como estas so usadas de base para a construo de protocolos de comunicao entre os agentes. Com essa discusso sobre semntica e pragmtica, encerramos a apresentao dos nveis de estudo da linguagem. Diferentes aplicaes em lingstica computacional iro privilegiar um ou outro aspecto, e diferentes solues computacionais sero desenvolvidas de acordo. Algumas dessas solues sero apresentadas na seqncia desse material.
3. O processamento da linguagem natural

A busca por entender os mecanismos da lngua iniciou-se com os primeiros estudos de gramtica na Grcia antiga, ganhou uma abordagem mais formal atravs dos estudos de Ferdinand de Saussure [apud FUC 92] e desenvolveu-se notoriamente atravs dos trabalhos de Frege [GEA 52], Noam Chomsky [CHO 57] e Richard Montague [DOW 81]. O interesse em dotar um sistema computacional com a capacidade de entender os objetivos do usurio em sua prpria linguagem surgiu juntamente com os primeiros sistemas. Allan Turing, um dos maiores tericos da computao, definia a inteligncia dos computadores atravs da capacidade destes ltimos em lidarem com a linguagem natural. A capacidade de processar linguagem natural, portanto, vem sendo pensada praticamente desde o advento dos computadores. Embora a mquina de Von Neumann tenha sido imaginada para aplicaes numricas, Turing j entendia o computador como um recurso com capacidades inteligentes, que o apoiaria em atividades como jogar xadrez ou teria, inclusive, habilidade para compreender e produzir linguagem natural. Para Anton Nijholt em [NIJ 88], um propulsor considervel para a rea da lingstica computacional foi a guerra fria. As aplicaes de uso militar logo incluram algoritmos de criptologia e os primeiros ensaios em traduo automtica. Os projetos envolvendo traduo se multiplicaram at chegar-se, em 1966, a uma situao que contabilizava mais de 20 milhes de dlares gastos, com poucos resultados obtidos. Avaliada por um comit nomeado para estudar o assunto, esta situao de custos exagerados mereceu um corte de financiamento por parte do governo americano. Com a reduo de financiamento, passou a ser mais incentivada a pesquisa bsica (como, por exemplo, a representao do conhecimento), dando-se menos crdito pesquisa aplicada (como a traduo automtica, as interfaces em linguagem natural etc). As pesquisas retomaram o rumo das aplicaes nos anos 80, no sendo deixado de lado, entretanto, o trabalho com a teoria. Com o retorno nfase nas aplicaes, percebe-se tambm uma preocupao com a avaliao dos sistemas desenvolvidos e com a construo de sistemas com capacidade de processar a linguagem em larga escala (os primeiros sistemas, muitas vezes, demonstravam a aplicao de teorias em exemplos construdos, determinados e escolhidos com o propsito ltimo de ilustrar o funcionamento do sistema). Para ilustrar os avanos da rea, temos o auxlio dado edio de documentos atravs da verificao
ortogrfica e gramatical. Esses sistemas j atingiram um nvel capaz de prover mais satisfao do que frustrao ao usurio, apesar de ser ainda necessrio continuar-se trabalhando para que melhorem. Para esta aplicao, temos um exemplo de uma ferramenta para o tratamento da lngua portuguesa [NUN 00]. Outro exemplo de aplicao pode ser dado por sistemas de ditados (podemos ditar textos ao c omputador para que ele os escreva), desenvolvimento de interfaces baseaadas em fala (somos tambm capazes de ditar comandos ao nosso computador), e sintetizadores de fala (temos sistemas que poder ler textos escritos). Os avanos na rea, apesar de visveis, enfrentam at hoje questes de difcil soluo. Exemplos para ilustrar essa dificuldade podem ser obtidos observando-se a qualidade da sada fornecida pelos sistemas de traduo automtica (uma anlise detalhada apresentada em [OLI 00]). Outro exemplo marcante a dificuldade em conseguirmos respostas adequadas a perguntas, quando formuladas em linguagem natural, mesmo tendo computadores poderosos com acesso a grandes bases de dados (sejam elas textuais ou no). Para lidar com os vrios problemas, temos hoje, em nvel mundial, uma comunidade cientfica e acadmica em crescimento. H muita pesquisa e trabalhos realizados principalmente para o Ingls, Espanhol, Alemo, Francs e Japons. Encontramos, porm, carncia de pesquisas, ferramentas, recursos lingsticos e humanos para tratar computacionalmente a lngua portuguesa. Todavia existem esforos para suprir essa carncia. Um exemplo, em relao formao de recursos humanos em nvel de graduao, a iniciativa das Faculdades da Universidade de Lisboa, Faculdade de Cincias (Departamentos de Informtica e Matemtica) e Faculdade de Letras (Departamento de Lingstica), que lanaram em 1994/1995 o curso de Licenciatura em Engenharia da Linguagem e do Conhecimento2. Exemplos de reas de atividade econmica e aplicaes que justificam a iniciativa so:
Sistemas automticos de indexao e categorizao que classificam os documentos so fundamentais para lidar com a grande quantidade de informao produzida e manipulada em muitos setores de atividade. Seria tambm interessante que esses sistemas apresentassem a produo automtica de resumos normalizados.
importante oferecer a usurios a possibilidade de acesso, em sua lngua materna, a grandes bases de conhecimento sobre mltiplos domnios transportes, seguros, meteorologia etc. Isto requer metodologias de organizao da informao e sistemas de busca inteligente com interfaces em linguagem natural.
Conversores de fala para texto e sistemas de apoio traduo e ao dilogo multilnge ajudam a melhorar e a desenvolver a cooperao internacional.
Nesta seo iremos apresentar uma introduo aos princpios bsicos que regem o desenvolvimento de sistemas de processamento da linguagem natural, procurando dar uma idia do que est por trs de cada uma das aplicaes que podemos presenciar hoje em dia. Um sistema para processar linguagem natural rene, geralmente, alguns mdulos organizados de acordo com a diviso vista nos estudos da lingstica. Cada
2
http://www.lelc.f2s.com/mainframe.htm
uma das etapas do processamento exige um conhecimento de natureza diferenciada sobre a lngua, e as solues propostas iro variar de acordo com a natureza dos conhecimentos envolvidos. Para proporcionar ao leitor uma compreenso geral dos trabalhos realizados na rea, iremos apresentar, nas prximas subsees, diferentes focos do processamento da lngua natural, associados s etapas lingsticas de processamento da lngua. 3.1. Reconhecimento e sntese da fala Avanos nos estudos sobre o reconhecimento da fala tornaram possvel o desenvolvimento de sistemas que reconhecem as diversas palavras de uma lngua. O reconhecimento pode ser de palavras isoladas, pertencentes a um vocabulrio restrito, o que til para interfaces de alguns dispositivos. O reconhecimento tambm pode servir para ditar o nome de algum para que o telefone efetue a chamada de um certo nmero, por exemplo; ou, pode ser til reconhecer-se qualquer palavra de uma lngua, atravs da fala contnua, o que necessrio aos sistemas de ditados, onde o usurio dita e o computador transcreve a fala em texto. Sistemas de sntese realizam o processo inverso: a partir de um texto escrito, o sistema faz a leitura em voz alta para o usurio. Apesar de o estado da arte permitir a existncia de produtos comerciais que realizem estas funes (IBM Via Voice, Philips FreeSpeech, so exemplos de sistemas para reconhecimento da fala, o CMU Pronouncing Dictionary um exemplo de software para sntese) esta ainda uma rea que necessita de estudos e projetos como, por exemplo, a integrao da tecnologia do reconhecimento de fala s interfaces de produtos de software ao usurio em geral. Outro problema que a penetrao desse tipo de produto enfrenta, muitas vezes, a necessidade de treinamento que o produto requer por parte do usurio. Longe de ter a facilidade de um plug and play, esses sistemas, uma vez adquiridos, devem-se adaptar voz dos seus usurios. Para que um sistema seja independente de treinamento, ele dever ser capaz de reconhecer as mesmas palavras sendo pronunciadas por diferentes vozes, com diferentes sotaques. Dado o estado atual da tecnologia para o reconhecimento da fala, para se oferecer um sistema independente de treinamento, o desenvolvedor desse sistema deveria realizar o treinamento do sistema em larga escala, suprindo uma ampla variao de pronncias, o que, por sua vez, acrescentaria muito custo ao produto, tornando-o comercialmente invivel. Uma rea de estudo importante, hoje, a que faz uso dos modelos probabilsticos de pronunciao e ortografia, e dos modelos probabilsticos de seqncias de sons produzidas pelos falantes da lngua. Apenas para a palavra the da lngua inglesa, por exemplo, j seria possvel observar variaes: thee e s vezes thuh. Note-se que estas variaes no so exatamente originrias de regionalismos, mas sim da prpria seqncia de palavras que sucedem ao the no discurso. Outras vezes, observamos palavras como because pronunciadas apenas como cause, por exemplo. Essas ambigidades ou peculiaridades de pronncia podem ser expressas atravs de regras que descrevem tais variaes. Uma arquitetura comumente usada para levar em considerao tais variaes [JUR 00] a que utiliza o teorema de Bayes (ou mtodo bayesiano) e o modelo de canal de comunicao com rudo. Essa arquitetura leva em conta probabilidades, produzindo um modelo que posteriormente poder ser utilizado em associao com algoritmos de programao dinmica, ou com o algoritmo de Viterbi, ou com o algoritmo da distncia mnima de edio, entre outros. Tambm
existe a alternativa de associar-se o modelo probabilstico a um autmato de estados finitos, levando a um modelo de autmato com pesos associados. Em relao sntese de voz, os sistemas atuais ainda encontram dificuldades com relao aos aspectos prosdicos, ou seja, em reproduzir pronncia, entonao e sotaque naturais. A preocupao com a prosdia, nesses sistemas, diz respeito aos aspectos da pronncia de uma sentena que no esto descritos na seqncia de fones3 derivados do lxico, mas se referem produo de unidades lingsticas maiores. Tais fenmenos geralmente so denominados fenmenos supras-segmentais, e envolvem a tonicidade, ritmo e pausas, pronncia de combinaes especficas de palavras, unidades de entonao, limites de frases e de sentenas e aspectos meldicos de sentenas. 3.2. Anlise lxico-morfolgica 3.2.1. Lxico O lxico ou dicionrio uma estrutura fundamental para a maioria dos sistemas e aplicaes. a estrutura de dados contendo os itens lexicais e as informaes correspondentes a estes itens. Em realidade, os itens que constituem as entradas em um lxico podem ser palavras isoladas (como lua, mel, casa, modo) ou composies de palavras as quais, reunidas, apresentam um significado especfico (por exemplo, lua de mel ou Casa de Cultura ou a grosso modo). Entre as informaes associadas aos itens lexicais, no lxico, encontra-se a categoria gramatical (part-of-speech ou POS) do item, alm de valores para variveis morfo-sinttico-semnticas como gnero, nmero, grau, pessoa, tempo, modo, regncia verbal ou nominal etc. Tambm so associadas ao item lexical, no lxico, uma ou mais representaes ou descries semnticas. Bem mais raramente, encontram-se associaes a representaes contextuais. Na seo 2.3, comentou-se sobre a ambigidade das palavras. O lxico ir representar, atravs das mltiplas descries que podem estar associadas a uma entrada, os mltiplos sentidos de cada palavra ou item lexical. Entre as estruturas mais utilizadas para reunir os itens de um lxico, duas se destacam: a estrutura de formas e a estrutura de bases. Um lxico pode conter todos os itens lexicais (sejam palavras ou unidades maiores que palavras) por extenso neste caso ser um dicionrio de formas. A seguir apresentamos exemplos de entradas em um dicionrio desse tipo:
a artigo feminino singular determina um nome a preposio para, em direo a a substantivo masculino singular normal primeira letra do alfabeto a pronome feminino singular 3 pessoa indica um referente feminino
a
Unidades de composio fonolgica da lngua.
casa substantivo feminino singular normal moradia, habitao, sede casa verbo singular 3 pessoa presente indicativo 1 conjugao contrair matrimnio
a a
Outro modo de estruturar-se um lxico pressupe colocar-se em evidncia os morfemas que so os constituintes bsicos das palavras (da usando-se a denominao dicionrio de bases). Nesse caso, o lxico constitudo de unidades menores as quais concentram a capacidade de identificao de um determinado item (exemplo: cas para casa), e as diferentes formas desse item sero obtidas a partir de ligaes com outras cadeias ou morfemas, atravs de regras de associao. Nota-se que as bases nem sempre correspondem exatamente aos morfemas bsicos das palavras, nas aplicaes. Freqentemente se opta por inserir, no lxico, cadeias maiores, por convenincia do algoritmo que far uso do lxico. Por exemplo, comum considerar-se como bases cadeias que incluem prefixos, sem dissoci-los do morfema predominante, pois a gesto das composies do tipo prefixo+base pode onerar o sistema em termos de reconhecimento e gerao de palavras (por exemplo, incluiramos a base preven no lxico sem desvincular-se da mesma o prefixo pr, no caso do verbo prevenir ou do substantivo preveno). As associaes possveis, para gerar novas formas a partir de uma certa base, podem ser representadas como uma rede de transio de estados. Para configurar as novas palavras a partir das bases, visando reduzir-se a multiplicidade de estados, podem ser criados modelos como, por exemplo, os associados a conjugaes verbais para os verbos regulares, o plural em s, o diminutivo em inh etc. Ao analisarmos estas duas alternativas de implementao do lxico, podemos efetuar uma breve comparao, que compartilhada por Beardon em [BEA 91]. No caso do dicionrio de formas, a disponibilidade de todos os itens lexicais diretamente no lxico facilita a busca s informaes, tornando desnecessrio um algoritmo que reconhea os itens a partir de seus constituintes. J o modelo de lxico de bases e terminaes mais compacto e estruturado. Porm este modelo, embora elegante, exige, durante a etapa de anlise, um algoritmo bem mais complexo, o qual dever reconhecer individualmente os componentes de um item para, s ento, produzir a anlise. A representao de um grande vocabulrio atravs de um autmato de estados finitos a alternativa proposta por Kowaltowski e Lucchesi e descrita em [KOV 93]. Essa foi a alternativa utilizada na implementao do amplo dicionrio do Portugus Brasileiro e do corretor ortogrfico hoje licenciados para o editor de textos Microsoft Word, e prev que os vocbulos e as informaes associadas sejam representados atravs de suas letras em um autmato finito. Os dicionrios de bases e terminaes podem ser entendidos como um caso especfico de implementao de um transdutor de estados, com regras associadas a cada etapa de transformao. 3.2.2. Analisador lxico-morfolgico O analisador lxico-morfolgico tradicionalmente decompe a sentena em itens lexicais e realiza uma varredura, tratando item a item, e decompondo-os em seus morfemas. Verifica, a partir das informaes armazenadas no lxico e nos morfemas, a estrutura, caractersticas e informaes associadas a um determinado item, tais como gnero e nmero para substantivos, ou pessoa, nmero, modo e tempo, para os verbos,
por exemplo. Esta abordagem (decomposio da sentena em itens lexicais e aquisio de informaes associadas a cada item) passa, atualmente, por um processo de avaliao: algumas aplicaes no chegam a fazer uso de todos os resultados que podem ser obtidos ao recortar-se a sentena em itens, os itens em morfemas etc. Uma alternativa anlise lxico-morfolgica tradicional vem sendo a etiquetagem automtica de textos. Nesta seo apresentaremos cada uma destas alternativas. A tarefa de anlise, apesar de aparentemente simples, pode incluir problemas complexos. A morfologia nem sempre sistemtica, o que faz com que a decomposio em morfemas nem sempre seja clara. Outro fator de dificuldade so as variaes ortogrficas decorrentes da absoro dos morfemas (por exemplo, passa-se de viagem a viajar), o que leva a situaes de substituio, acrscimo ou mesmo supresso de caracteres. Para alguns autores como Bouillon [BOU 98], o analisador lxico-morfolgico deve ainda ter capacidade gerativa. Isto significa que deve ocupar-se das possveis combinaes dos morfemas em palavras bem formadas: a gerao de palavras. 3.2.3. Abordagem tradicional de anlise Dada uma determinada sentena, o analisador lxico-morfolgico identifica os itens lexicais que a compem e obtm, para cada um deles, as diferentes descries correspondentes s entradas no lxico (isto , categorias em que estes itens podem estar atuando e demais informaes). A ambigidade lxico-morfolgica ocorre quando uma mesma palavra apresenta diversas categorias gramaticais. A palavra a, por exemplo, pode ser um artigo definido, uma preposio, um pronome, um substantivo (a letra a) etc. Em nvel lxico-morfolgico importante que todas as formas possveis de categorizao sejam buscadas e informadas, independente de ocorrer ambigidade. A ambigidade ser tratada em nveis mais avanados de anlise. Dizendo-se de outro modo, um programa que trata automaticamente a morfologia deve realizar a segmentao do texto de entrada e da sentena. Deve identificar o item lexical ou palavra desdobrando-o em morfemas, e associar corretamente as informaes lxico-morfolgicas a cada morfema, construindo assim o conjunto de informaes lxico-morfolgicas do item. A implementao de analisadores lxico-morfolgicos pode ser feita atravs de sistemas de ndices, atravs de percurso em rvore, atravs de autmatos finitos, ou atravs de outras tcnicas tais como a etiquetagem automtica, bastante utilizada atualmente.
3.2.4. Etiquetagem (POS tagging) O etiquetador gramatical (ou pos tagger) um sistema responsvel por identificar, em uma sentena, para cada um dos itens lexicais, a categoria a que este item pertence. Por exemplo, para a palavra a o analisador dever decidir qual a categoria correta, de acordo com a posio que a palavra ocupa na frase. Neste caso, ao contrrio do que se coloca quanto a oferecer todas as opes possveis, deixando para uma prxima etapa a resoluo das ambigidades, o etiquetador est preparado justamente para tratar o texto de modo que este j sirva como entrada para aplicaes, sem necessariamente passar por prximas etapas de processamento. As etiquetas, ou partes do discurso, costumam incluir: substantivo (nome), verbo, pronome, preposio, advrbio, conjuno, particpio e artigo. Dependendo da aplicao para a qual servir o texto etiquetado, o nmero de etiquetas pode variar: so 45 as etiquetas usadas no Penn Treebank4 e 87 as usadas no Brown corpus. Essas so duas importantes colees de textos em lngua inglesa, etiquetados, disponveis atualmente. Embora sendo um processo que gera um resultado menos completo do que a anlise lxico-morfolgica convencional, ainda assim muitas informaes so disponibilizadas, sobre a palavra (ou item lexical) bem como sobre seus vizinhos, e este vem se tornando um processo de anlise muito difundido. O fato de saber que uma certa palavra , por exemplo, um pronome possessivo, ajuda-nos a efetuar previses sobre as palavras que a podem suceder, por exemplo, numa aplicao de reconhecimento da fala. O fato de saber que estamos lidando com um substantivo pode colocar em evidncia o potencial dessa palavra para ser um dos indexadores do texto, em um ambiente de recuperao de informaes. A etiquetagem [JUR 00] o processo de assinalamento de um marcador de classe gramatical (ou outro marcador ou etiqueta de interesse) a cada palavra, num corpus. Esse processo corresponderia tokenizao, no processamento das linguagens de programao. A etiquetagem, como trata de linguagem natural, lida com um nmero bem maior de situaes de ambigidade. A entrada para a etiquetagem uma cadeia de itens lexicais, e um conjunto especfico de etiquetas; a sada o conjunto de itens lexicais com a melhor etiqueta associada a cada item. O desafio do processo de etiquetagem reside exatamente em resolver as ambigidades. Os algoritmos para etiquetagem fundamentam-se em dois modelos mais conhecidos: os baseados em regras e os estocsticos. Os algoritmos baseados em regras, como o nome o diz, fazem uso de bases de regras para identificar a categoria de um certo item lexical. Neste caso, novas regras vo sendo integradas base medida que novas situaes de uso do item vo sendo encontradas. Os algoritmos baseados em mtodos estocsticos costumam resolver as ambigidades atravs de um corpus de treino, marcado corretamente (muitas vezes atravs de esforo manual), calculando a probabilidade que uma certa palavra ou item lexical ter de receber uma certa etiqueta em um certo contexto. O etiquetador de Eric Brill [BRI 95], bastante conhecido na literatura, faz uso de uma combinao desses dois modelos.
Um Treebank um corpus de sentenas j corretamente analisadas e marcadas.
3.3.
Anlise sinttica
Enquanto o analisador lxico-morfolgico trabalha em nvel de sentena, o analisador sinttico trabalha em nvel de frase (ou sintagma), e ir reconhecer uma seqncia de palavras como constituindo uma frase da lngua ou no. Poder tambm construir uma rvore de derivao, que explicita as relaes entre as palavras que compem a sentena. O analisador sinttico faz uso do lxico, que rene o conjunto de itens lexicais da lngua, e de uma gramtica, que define as regras de combinao dos itens na formao das frases. 3.3.1. Gramticas e formalismos A gramtica utilizada para representar uma linguagem natural deve apresentar um bom balano entre sua expressividade e o processo de reconhecimento. Chomsky [CHO 56] classificou as gramticas em quatro tipos: tipo 3, regulares, tipo 2, livres de contexto, tipo 1, sensveis ao contexto e tipo 0, sistemas de reescrita geral. As gramticas do tipo 3, ou regulares, so as mais restritas, e por isso so as mais fceis de serem reconhecidas. So, no entanto, insuficientes para expressar as regras de formao da linguagem natural. Gramticas do tipo 2, livres de contexto, mais poderosas, permitem a representao de linguagens com um grau maior de complexidade; estas ainda apresentam problemas para expressar dependncias, como o caso da concordncia verbal. O prximo nvel de gramticas, sensveis ao contexto, resolve o problema das dependncias, mas apresenta problemas de complexidade no reconhecimento. Decidir se uma sentena pertence a uma gramtica sensvel ao contexto uma funo exponencial sobre o tamanho da sentena, o que torna a implementao do procedimento de verificao uma questo complexa, do ponto de vista computacional. A gramtica adotada pode ser escrita atravs de diversos formalismos. Entre eles, podemos destacar [WOO 70] [FUC 93] [JUR 00] as redes de transio, [GAZ 82] gramticas de constituintes imediatos (PSG ou phrase structure grammar), [GAZ 85] gramticas de constituintes imediatos generalizadas (GPSG), [KAY 79] gramticas de unificao funcional, [SHI 71] PATR-II e [POL 94] HPSG (head-driven phrasestrutcture grammar). A deciso em relao ao melhor formalismo para representao da linguagem natural no tem ainda soluo: as pesquisas tm proposto trabalhar em modelos que se situem em um nvel intermedirio entre as gramticas livres de contexto e sensveis ao contexto. As gramticas de constituintes imediatos (PSG), livres de contexto, apresentam a estrutura sinttica das frases em termos de seus constituintes. Por exemplo, uma frase (F) formada pelos constituintes: sintagma nominal (SN) e sintagma verbal (SV). O sintagma nominal um agrupamento de palavras que tem como ncleo, ou elemento principal, um substantivo (Subst). O substantivo representa uma classe gramatical. No exemplo abaixo, so listados os substantivos menino e chapu. O determinante (Det) compe, junto com o substantivo, o sintagma nominal. Geralmente, um sintagma nominal possui uma formao mais complexa, podendo ter com constituinte uma orao (o chapu azul que eu comprei ontem). O exemplo bastante simples, apresentado a seguir, ilustra uma gramtica gerativa capaz de reconhecer a frase: O menino usa o chapu.
F SN, SV. SN Det, Subst. SV Verbo, SN. Det o Subst menino, chapu Verbo usa
Esse formalismo gramatical oferece poder gerativo e capacidade computacional, e tem sido usado com sucesso em cincia da computao, na especificao de linguagens de programao, sendo que existem vrios algoritmos eficientes para reconhecer as linguagens especificadas atravs do formalismo. Apresenta problemas, no entanto, em questes de concordncia de gnero e nmero, que o formalismo no permite verificar. Se fssemos incluir no lxico, como substantivo, os plurais, os meninos, ou o feminino, menina, por exemplo, as cadeias a seguir seriam aceitas como corretas. O meninos usa os chapu. O menina usa os chapu.
Det o, os. Subst menino, menina, meninos, chapu, chapus.
O formalismo PATR-II permite verificar a concordncia de gnero e nmero entre os constituintes da frase. Nesse formalismo as regras gramaticais informam sobre alguns traos sintticos. Apresentamos a seguir a mesma gramtica e lxico do exemplo acima, utilizando o formalismo PATR-II.
F SN, SV <SN numero> = <SV numero> <SN pessoa> = <SV pessoa> SN Det, Subst <Det numero> = <Subst numero> <Det genero > = <Subst genero> SV Verbo, SN o <categoria> = determinante <genero> = masc <numero> = sing menino <categoria> = substantivo <genero> = masc <numero> = sing chapu <categoria> = substantivo <genero> = masc <numero> = sing usa <categoria> = verbo <tempo> = pres <numero> = sing <pessoa> = 3 <argumento 1> = SN <argumento 2> = SN
Durante a anlise da frase, os valores dos traos sintticos das palavras (obtidos do lxico) so utilizados para fixar os valores das variveis associadas s regras da gramtica, tornando possvel a verificao de aspectos tais como concordncia de gnero e nmero. De acordo com o especificado nesse formalismo, o nmero do sintagma nominal (SN) dever ser o mesmo nmero do sintagma verbal (SV), no aceitando construes do tipo Os meninos usa o chapu. Esses constituintes tambm devem concordar em pessoa, no permitindo, por exemplo, Eu usa o chapu. Informao a respeito da subcategorizao dos verbos tambm fornecida. A subcategorizao a definio de argumentos que acompanham o verbo, e nesse exemplo dada por sujeito (o menino) e objeto direto (o chapu). 3.3.2. Mtodos de anlise Tendo apresentado noes gerais sobre a gramtica e os formalismos de representao, veremos a seguir diferentes mtodos de anlise sinttica: os analisadores top-down, bottom-up, left-corner e tabular. A linguagem de programao Prolog possui um formalismo para representao de gramticas livres de contexto denominado DCG (Definite Clause Grammar), associado a um analisador top-down descendente recursivo. A converso de regras da gramtica vista anteriormente, de constituintes imediatos, em clusulas Prolog, muito simples. Para o exemplo precedente, temos:
f --> sn, sv. n --> det, subst. sv --> verbo, sn. det --> [o]. subst --> [menino]; [chapu]. verbo --> [usa].
Atravs dessa especificao, o interpretador Prolog ir reconhecer o menino usa chapu como uma sentena vlida da linguagem especificada, respondendo sim para uma consulta. O analisador ir procurar por um f, para obter o f ir procurar por um sn e um sv, para encontrar um sn ir procurar um det e um subst; quando obtm o det [o] e o subst [menino] ele completou um sn; passa ento a procurar o sv, e assim por diante. Para que o analisador, alm de responder sim ou no sobre a validade da frase, gere a sua estrutura sinttica, preciso associar argumentos aos constituintes representados. Nesse caso, a consulta sobre a validade da sentena o menino usa o chapu poder reproduzir a estrutura a seguir:
(f(sn(det(o),subst(menino)),sv(v(usa),sn(det(o),subst(chapu))) .
Para isso, a DCG deve ser modificada para:

f (f(SN,SV)) --> sn(SN), sv(SV). sn(sn(Det,Subst) --> det(Det), subst(Subst). sv(sv(V,SN)) --> verbo(V), sn(SN). det(det(o)) --> [o]. subst(subst(menino)) --> [menino]. subst(subst(chapu)) [chapu].
verbo(verbo(usa)) --> [usa].
A possibilidade de incluso de argumentos faz da DCG uma gramtica mais poderosa do que a gramtica de constituintes, permitindo tratar tambm a concordncia:
sn(Numero,Genero) --> det (Numero,Genero), subst(Numero,Genero). det(singular,masculino) --> [o]. det(singular,feminino) --> [a]. det(plural,masculino) --> [os]. det(plural,feminino) --> [as]. subst(singular, masculino) --> [menino], [chapu].
Com esses argumentos, o analisador s aceitar os sintagmas nominais nos quais determinante e substantivo concordem em nmero e gnero. A estrutura dos sintagmas verbais varivel de acordo com o verbo. Alguns verbos no exigem complementos alm do sujeito, so os verbos intransitivos. Outros verbos s fazem sentido com a presena de um ou mais complementos. O tipo de complemento associado a cada verbo denominado subcategorizao. Note que os complementos podem variar em nmero e em tipo, alguns complementos so acompanhados de preposio (objeto indireto) ou no (objeto direto). O verbo dar por exemplo, refere-se a uma ao onde algum, o sujeito, d algo (objeto direto) a algum (objeto indireto). O verbo dar requer, portanto, dois complementos: um sintagma preposicional, e um sintagma nominal. Para isso regras diferentes para sintagmas verbais devem ser adicionadas gramtica, onde o tipo de subcategorizao associado a cada verbo pode ser representado:
sv --> v(1). sv --> v(2), sn. sv --> v(3), sn, sp. v(1) --> [dorme]. v(2)--> [usa]. v(3)--> [deu].
Um problema com o analisador Prolog que, por ser um analisador top-down da esquerda para a direita, ele entra em loop ao encontrar uma regra da seguinte forma
sn --> sn, conj, sn.
Essa regra diz que um sintagma nominal (SN) pode ser composto por dois SNs unidos por uma conjuno (conj), por exemplo, o menino e a menina, onde e uma conjuno (conj --> [e].). O analisador ir proceder da seguinte forma: para analisar sn, ir procurar por um sn, e assim por diante. So regras recursivas esquerda. Note que um loop como este pode estar distribudo em mais de uma regra:
sn --> conj_sns. conj_sns --> sn, conj, sn.
sabido que qualquer gramtica recursiva esquerda pode ser transformada em outra gramtica que gera a mesma cadeia de palavras, mas no recursiva esquerda. O exemplo acima poderia ser reescrito como:
sn --> snx, conj, sn. snx --> det, subst.
Porm, apesar de gerar a cadeia correta, essa escolha de regras ir produzir uma estrutura que no est de acordo com a gramtica da lngua, no h evidncia lingstica de que exista uma diferena entre sn e snx. Por esse motivo, a transformao da gramtica no desejvel nesse contexto. O que se faz mudar para um tipo diferente de analisador, para evitar o looping e, ao mesmo tempo, manter correta a estrutura gerada. O analisador bottom-up l as palavras e tenta combin-las em constituintes. Ao encontrar a palavra [o], reconhece-a com um det, encontra a prxima palavra [menino], um subst, det e subst juntos formam um sn, e assim por diante. Pelo fato de que as aes desse analisador so disparadas por palavras, no h problemas em entrar em looping para regras recursivas esquerda. Por outro lado, no pode lidar com constituintes vazios, cuja ocorrncia comum em Portugus (por exemplo: a supresso de pronomes: [ ]SN-1 pessoa uso o chapu.). O analisador left-corner combina as estratgias bottom-up e top-down. Ao encontrar uma palavra, ele verifica que tipo de constituinte inicia com tal palavra e ento faz o restante da anlise de forma top-down para aquele constituinte. Dessa forma no h problemas em lidar com regras recursivas esquerda. Considere agora o seguinte conjunto de regras, usadas no reconhecimento de estruturas como o menino de chapu:
sn --> det, subst. sn --> det, subst, sp. sp --> prep, sn. prep --> [de]; [em]; [com].
O parser tenta a primeira regra sn, que funciona at uma parte, mas sobram palavras que no foram analisadas. Ele deve ento retornar, esquecendo o trabalho de anlise realizado at ento, e tenta a prxima regra sn. Desse modo o analisador teve que percorrer o mesmo det e subst duas vezes, lembrando que a situao poderia ter ocorrido com estruturas mais complexas. O analisador tabular (chart parser) tem condies de lembrar as subestruturas j analisadas e, se um retrocesso for necessrio, a repetio pode ser evitada. Por exemplo, na primeira tentativa, o analisador tabular ir reconhecer [o] [menino] com um sn; na segunda tentativa, ao procurar por um sn no incio de [o] [menino] [de] [chapu], uma busca ser feita em seus registros antes de usar mais uma vez a regra. Ao encontrar sn(det(o),subst(menino)) no ser preciso iniciar uma nova anlise de um sn. Alm das fontes especficas citadas ao longo do texto, a apresentao dessa seo baseou-se em [COV 94], para as questes relacionadas ao Prolog e DCG e [BAR 96] tambm foi consultado.
3.4. Anlise semntica

3.4.1. O significado proposicional e a forma lgica A anlise sinttica, estudada na seo anterior, permite verificar a boa formao das sentenas e frases de uma lngua do ponto de vista estrutural, ou seja, levando em conta as combinaes possveis entre tipos de palavras. Exemplos de aplicao, decorrentes dessa anlise, so os corretores gramaticais. Algumas combinaes, no entanto, podem ser aceitveis de um ponto de vista estritamente sinttico e apresentar anomalias que so relacionadas ao conhecimento semntico. A inverso da sentena usada como exemplo na seo anterior pode ser usada para ilustrar essa situao: o chapu usa o menino. Apesar de poder ser reconhecida como uma frase da lngua (a estrutura sinttica idntica a de sua inverso), pode-se perceber que uma sentena como essa apresenta uma dificuldade de interpretao. Certas aplicaes necessitam lidar com a interpretao das frases bem formadas, no bastando o conhecimento da estrutura, mas sendo necessrio o conhecimento do significado dessas construes. Podemos querer que respostas sejam dadas a sentenas ou oraes expressas em lngua natural as quais, por exemplo, provoquem um movimento no brao de um rob. Ou podemos querer extrair conhecimentos sobre o tema indstria automotora a partir de uma base de dados textuais. Num tratamento automtico, a anlise semntica [FUC 93] consiste em associar, a uma seqncia de marcadores lingsticos, uma representao interna, entendida como a representao do significado desta sentena. A seqncia de marcadores aqui citada geralmente a proveniente da anlise sinttica. No obstante, para certas aplicaes bem especficas, a representao do significado pode ser construda sem necessidade de uma anlise sinttica preliminar ou conjunta. O nvel semntico de conhecimento bem mais difcil de descrever que os precedentes (lxico-morfolgico, sinttico). As aplicaes bem sucedidas normalmente se restringem a um domnio circunscrito de conhecimento. Uma das maneiras de abordar a semntica da linguagem natural atravs da especificao do significado proposicional. Esse est diretamente ligado s formas lingsticas presentes na sentena e difere do significado pragmtico, ou sentido, que a sentena assume num certo contexto. Este ltimo objeto da anlise pragmtica. Sob o enfoque do significado proposicional, a anlise semntica envolve a traduo de uma sentena em linguagem natural para uma expresso em linguagem formal, que bem discriminada. Em comparao s linguagens naturais, as linguagens formais, tais como a linguagem lgica, apresentam uma semntica bem definida. Por isso, existe uma grande influncia da lgica nos estudos da semntica computacional da linguagem natural. De acordo com a estrutura sinttica de uma sentena, possvel estabelecer uma representao lgica correspondente, onde o verbo indica uma relao entre os argumentos expressos por sujeito e complemento verbal (objeto direto ou indireto). Aspectos da pragmtica (como os aspectos contextuais, atos de fala etc) incidiro sobre essa representao. Um exemplo de trabalho mais especfico, desenvolvido em semntica lgica da linguagem natural, a traduo de quantificadores da linguagem natural para os da linguagem lgica (quantificador existencial, quantificador universal). Para os
quantificadores, encontramos problemas de ambigidade muitas vezes relacionados definio de escopo. A frase Todo homem ama uma mulher pode ser interpretada atravs de duas formas lgicas distintas: em uma delas, existe uma nica mulher amada por todos os homens; na segunda, cada homem ama uma mulher e estas podem ser diferentes. A lgica foi, muitas vezes, desafiada pela linguagem natural. Isto , para expressar a semntica da linguagem natural de modo mais fiel, propostas de alterao lgica foram apresentadas. Um exemplo dessa situao envolve os quantificadores: enquanto que a lgica clssica tem dois quantificadores, o para todo () e o existe (), em linguagem natural temos outros quantificadores, com significados diferenciados como, por exemplo, muitos, poucos, nenhum, pelo menos x, no mximo x etc. Para que possam ser representados, estes quantificadores exigem extenses da lgica clssica. 3.4.2. Fenmenos semnticos As seqncias cujo significado o analisador semntico deve descrever, normalmente, se compem de itens lexicais, analisados do ponto de vista lxicomorfolgico e agrupados em estruturas por um processo de anlise sinttica. Essas organizaes permitem desdobrar a semntica em estudos de duas naturezas distintas: uma semntica dita lexical, e uma semntica dita gramatical. A semntica lexical, ou semntica das palavras, est mais claramente associada s categorias de palavras como verbos, substantivos e adjetivos (tambm conhecidos como palavras cheias). J as preposies e artigos (conhecidos como palavras vazias) esto mais associados semntica gramatical. costume associar-se, s palavras cheias, uma representao conceitual que descreva seu significado. Alguns fenmenos ditos semnticos j so bastante estudados, como o caso da ambigidade proveniente da polissemia. Outras situaes de interesse dizem respeito s relaes interproposicionais (ou seja, entre frases distintas), s relaes de referncia, determinao e temporalidade. Esses fenmenos podem envolver conhecimentos adicionais alm do conhecimento semntico, sendo estudados em um nvel pragmtico de tratamento. 3.4.3. Semntica lexical A descrio semntica pode ser obtida por diferentes mtodos de representao. Por exemplo, traos semnticos, como cor ou gnero, podem associar, aos itens lexicais, um certo nmero de caractersticas. Outro modo de faz-lo seria atravs do uso de traos binrios (por exemplo: para uso teramos usado ou novo, o que pode ser representado por + uso ou - uso). Vamos explorar agora, em maior detalhe, questes relacionadas com a semntica lexical. A representao de informao semntica pode estar presente no lxico (o que a torna til, inclusive, anlise sinttica). Um exemplo desse tipo de informao dado pelas restries de seleo. Na interpretao de linguagem natural, essas restries auxiliam na eliminao de ambigidade lxica. Voltando ao exemplo da palavra banco, instituio financeira e artefato usado para sentar, com base nas restries, o sistema pode ser capaz de identificar o significado correto para banco em O banco me forneceu um emprstimo. Apresentamos abaixo as estruturas que seriam as entradas lexicais, com restries de seleo associadas.
banco [- objeto fsico], [+ instituio] banco [+ objeto fsico], [+ artefato] O lxico pode tambm obedecer a regras de redundncia e postulados semnticos como, por exemplo: [+ humano] [+ animado] [+ humano] [- abstrato] possui(x,y) pertence-a(y,x) Os traos semnticos informados no lxico podem ser ainda utilizados para restringir as possibilidades de combinaes entre as palavras, identificando incoerncias semnticas. As classes semnticas utilizadas em restries podem ser organizadas hierarquicamente em ontologias. Uma ontologia um modelo extra-lingstico de conhecimento. Contm informaes extra-lingsticas organizadas em uma rede de conceitos, com definies de objetos, relaes e propriedades, e as relaes entre estes. As ontologias apresentam a modelagem do conhecimento associado a um certo domnio em particular. Por exemplo, na anlise de vrios soldados atiraram nos homens e alguns caram um sistema que disponha unicamente de informaes semnticas isoladas sobre as palavras no poder identificar corretamente qual o antecedente de alguns (soldados ou homens?). Uma ontologia proveria o conhecimento sobre a relao de causalidade entre atirar e cair, o que permitiria identificar que os homens, e no os soldados, teriam cado (este exemplo discutido em detalhe em [BOU 98]). Outra rea que tem recebido bastante ateno a do uso de ontologias para busca de informao. O trabalho sendo feito atravs do projeto SEMA, na PUCRS, tem como foco uma abordagem dessa natureza [GON 00]. As relaes entre palavras no portugus vm sendo estudadas de modo a representarmos ligaes que sejam importantes, no momento de indexar a informao contida em documentos escritos, e no momento de recuper-la. Neste caso, entretanto, j estamos lidando com conhecimentos que transcendem os itens lexicais isolados, o que aponta para uma semntica gramatical, e no apenas lexical. 3.4.4. Semntica gramatical Uma anlise semntica que se reduza semntica lexical insuficiente. A semntica gramatical procura descrever o significado da frase traduzindo-a em uma estrutura que interprete as relaes sintticas entre os itens lexicais. As relaes podem ser representadas, por exemplo, atravs de uma estrutura associada a um certo verbo. Na sentena Joo chutou a bola observamos a mudana de estado de um objeto por fora da ao de um sujeito. Vrias outras sentenas podero seguir a este padro semntico. Observe, por exemplo, Maria bateu a porta ou Silvia fechou o livro. Uma forma de representar essas relaes a baseada em argumentos: cada proposio pode ser representada como uma relao predicativa constituda de um predicado, de seus argumentos e de eventuais modificadores. Essa representao usada, por exemplo, em sistemas de traduo automtica. Outra forma de representar as relaes semnticas proposta atravs das gramticas de casos. A base dessa abordagem que um pequeno nmero de casos semnticos (por exemplo: agente, objeto, instrumento etc) permitiria dar conta de todas
as construes, e seria possvel estabelecer uma correspondncia entre casos semnticos e funes sintticas. 3.4.5. Formalismos de representao semntica Na construo das representaes semnticas, dois grupos de formalismos so mais usados: as estruturas do tipo atributo-valor e os formalismos lgicos. Ambos os grupos j foram trabalhados ao longo deste texto. Os pares atributo-valor permitem implementar, por exemplo, os traos semnticos mencionados ao longo da subseo sobre semntica lexical. O valor associado a um atributo pode ser simples (por exemplo, pode ser binrio) ou complexo, ligando uma unidade semntica a outra, e produzindo uma estrutura de grafo. O primeiro dos exemplos a seguir mostra uma representao em pares atributo-valor simples enquanto que o segundo exemplo (Figura 1) mostra uma estrutura de grafo a qual representaria informaes equivalentes ao primeiro exemplo: Canrio Tipo-de: pssaro Cor:amarelo Propriedade:assobiar
canrio
tipo-de cor propriedade
pssaro
tipo-de
amarelo
propriedade
assobiar
tipo-de
animal
voar
emitir sons
Figura 1: Representao semntica em forma de grafo Os grafos tambm constituem a forma de representao utilizada no sistema de primitivas proposto por Schank [apud BEA 91], denominadas primitivas de dependncia conceitual, que servem para representar conhecimentos semnticos. Para Schank, todas as aes podem ser decompostas em 11 conceitos de base, ou primitivas, tais como aplicar uma fora a um objeto, mudar a posio de um objeto, produzir um som, transferir informaes de um indivduo a outro etc. A estas primitivas Schank associa atributos, e ento uma frase representada por uma combinao de primitivas e atributos. Outras correntes tericas tambm seguem uma representao em primitivas, entre as quais podemos citar a semntica preferencial de Wilks, e os grafos conceituais de Sowa. O interesse nesses sistemas est na capacidade de realizarem uma decomposio semntica. Os formalismos lgicos so a outra grande vertente utilizada para a representao semntica. Podemos representar, atravs de frmulas lgicas, os
conhecimentos lexicais. Nesse caso, a cada conceito ou significado, corresponder um predicado com um nmero fixo de argumentos. Por exemplo, dar (X, Y, Z) pode representar a ao do agente X de dar o objeto Y a Z. Esse mecanismo poder permitir uma srie de inferncias, porm pode ser necessrio, por vezes, bloquear algumas heranas. Por exemplo, o avestruz uma ave mas no voa. O poder de expresso da linguagem natural obriga busca por novos formalismos lgicos para uma representao adequada, e assim temos, por exemplo, as lgicas temporais, que permitem expressar situaes condicionais futuras, como existir um momento em que ela se dar conta da necessidade de poupar energia. Observamos que os formalismos lgicos so adequados representao do sentido da frase ou sentena, j que permitem uma interpretao natural de uma assero por uma forma predicativa. 3.4.6. Construo de representaes semnticas Para demonstrar a construo de uma representao semntica atravs de uma linguagem lgica podemos recorrer DCG do Prolog vista na seo anterior. Para propsitos de ilustrao, apenas, usaremos um subconjunto bastante simplificado do portugus onde os nicos sintagmas nominais so os nomes (rex, felix) e a seguinte sintaxe:
f--> sn, sv. sv--> v(1). sv-->v(2), sn. v(1)-->[dorme]. v(2)-->[persegue]. sn--> [rex]. sn-->[felix].
Em lgica, uma representao semntica para nomes pode ser dada por uma constante individual, ou seja a constante rex para o indivduo Rex, felix para Felix. As sentenas em linguagem natural sero representadas por sentenas da lgica de predicados de primeira ordem: Rex persegue Felix, persegue(rex,felix). Para representar os verbos isoladamente podemos utilizar expresses lambda ()(uma frmula com falta de um argumento):
dorme = (x) dorme(x)
onde x indica que o valor de x deve ser fornecido. Quando dois argumentos so necessrios, representa-se com uma expresso lambda dentro da outra:
persegue = (y) (x) persegue(x,y)
que significa, fornea-me o valor de y, por exemplo felix, e uma outra expresso lambda ser retornada e que necessita um argumento para x tal que x persegue(x,felix). A composio da representao semntica de uma frase ser dada pela combinao da representao das palavras, por exemplo rex ao combinar-se com (x)dorme(x) resultar em dorme(rex). Em Prolog, representamos o operador lambda com ^, e a DCG modificada para resultar em uma representao semntica apresentada a seguir:
f(Predicado)--> sn(Sujeito), sv(Sujeito^Predicado). sv(Sujeito^Predicado)--> v(Sujeito^Predicado).
sv(Sujeito^Predicado)-->v(Objeto^(Sujeito^Predicado)), sn(Objeto). sn(rex) --> [rex]. sn(felix) --> [felix]. v(X^dorme(X)) --> [dorme]. v(Y^(X^persegue(X,Y))) --> [persegue].
O analisador ir responder a consultas da seguinte forma:

?-f(Semantica,[rex,persegue,felix],[]). Semantica = persegue(rex,felix)
A Figura 2 abaixo mostra como essa construo realizada. O significado construdo ao percorrer-se o caminho at o topo da rvore. O exemplo simples apresentado acima permite ilustrar as idias bsicas envolvidas na traduo de linguagem natural para a linguagem lgica. Estudos mais avanados dessa questo incluem as representaes semnticas para os quantificadores da linguagem natural. Esses devem ser traduzidos para os quantificadores lgicos. Essa traduo apresenta um grande nmero de problemas e por isso constitui uma rea de estudos especfica da semntica computacional, um trabalho clssico nessa rea [COO 83].
F persegue (rex, felix)
SN N P R e x rex
SV (x) persegue (x, felix)
V (y) (x) persegue (x, y)
SN felix
Rex
persegue Figura 2: Construo da representao semntica
Felix
3.4.7. Princpios da anlise semntica Podemos considerar que a anlise semntica seja realizada completamente em separado da anlise sinttica, e nesse caso a entrada do analisador semntico seria composta das rvores sintticas associadas sentena. Entretanto, a maior parte dos sistemas rene as fases de anlise sinttica e semntica.
Para alguns tericos, a anlise semntica pode ser composicional, isto , opera nodo a nodo a partir da rvore sinttica. Para outros teoricos, a anlise semntica deve mesmo guiar a anlise sinttica, oferecendo, por exemplo, primitivas conceituais quando certas palavras so detectadas (seria o caso especial dos verbos). Ento o analisador sinttico-semntico procuraria preencher diretamente os papis semnticos previstos por uma certa primitiva, apoiado nos mecanismos da sintaxe. Nota-se, entretanto, que muito ainda h por ser feito no domnio da anlise semntica, tanto no que se refere adequao dos formalismos, como no que se refere representao do conhecimento semntico propriamente dito. 3.5. Anlise pragmtica 3.5.1. Pragmtica e compreenso A anlise pragmtica se refere obteno do significado no literal de uma sentena. Ou seja, o significado completo, tal como o ser humano o percebe ao ler ou ouvir uma sentena, contm elementos que no esto representados unicamente nas unidades e nas relaes semnticas. Alm do contedo dito literal, h a necessidade de ligar as frases entre si, de modo a construir um todo coerente, e de interpretar a mensagem transmitida, de acordo com a situao e com as condies do enunciado. Por exemplo, examinemos a sentena: o professor disse que duas semanas so o tempo necessrio para resolver este problema. Para uma compreenso literal, poderamos recorrer aos mecanismos de representao expostos at aqui, e no teramos dificuldades. Mesmo uma traduo poderia ser feita a partir dessa sentena, para um outro idioma. Entretanto, uma compreenso aprofundada exigiria saber a que problema se refere o professor, j que o problema deve ter sido a prpria razo da formulao dessa sentena. Dois pontos focais da pragmtica so: as relaes entre frases (para construir uma representao do texto, a representao de cada nova frase se apia na precedente) e o contexto (a situao e condies em que ocorre o enunciado). medida que vo sendo enunciadas, as sentenas criam um universo de referncia, que se une ao j existente. A prpria vizinhana das sentenas ou dos itens lexicais tambm constitui um elemento importante na sua interpretao: o co-texto. Assim, alguns novos fenmenos passam a ser estudados, como fenmenos pragmticotextuais. Inserem-se nessa categoria as relaes anafricas, co-referncia, determinao, foco ou tema, diticos e elipse. 3.5.2. Questes pragmticas A pragmtica relaciona a lngua e seu uso. Esse uso inclui uma abrangncia maior do que, simplesmente, sentenas isoladas, e a unidade de estudo passa a ser o discurso. Entende-se por discurso o texto ou a fala, compostos de vrias unidades menores, que seriam as sentenas. Em nvel de anlise do discurso iremos encontrar algoritmos para resoluo de referncia, compreenso de dilogos e modelos de interpretao de textos em geral. Alguns sistemas de processamento da linguagem natural possuem um mecanismo de inferncias. Nesse caso, a ontologia pode colaborar para fornecer informaes implcitas no texto. Por exemplo, para Ana comprou um apartamento o
sistema pode inferir que, antes da compra, Ana tinha o dinheiro correspondente ao preo do apartamento e que, agora, Ana possui um apartamento. Outro problema o da identificao de um significado, em determinado uso, para palavras polissmicas (palavras que apresentam mais de um significado). Essa questo pode ser analisada sob a tica dos contextos lingstico e extra-lingstico (vistos na seo 2.3). O problema da resoluo de anforas diz respeito a encontrar os antecedentes que participam no processo de interpretao de determinadas expresses, por exemplo, os pronomes, sendo um tema na rea limtrofe entre semntica e pragmtica. A interpretao de um pronome (ele, ela, isso, essa etc) relativa ao contexto de uso e, geralmente, em textos escritos, relativa ao contexto lingstico (isto , baseada em um antecedente lingstico). Diversos algoritmos foram propostos para fazer a identificao do antecedente anafrico de pronomes, e novos modelos tericos foram desenvolvidos para dar conta de questes relacionadas. Um exemplo a teoria de representao do discurso (DRT discourse representation theory) [KAM 93]. Outro o da teoria de Centering (apud [JUR 00]). O grupo de pesquisas em processamento da linguagem natural da PUCRS vem atuando na rea da resoluo de pronomes fazendo uso da teoria de Centering para resoluo dos pronomes pessoais em portugus [PET 99] e tambm de abordagens baseadas em regras na resoluo de possessivos e demonstrativos [SAT 01]. Alguns trabalhos levam em considerao alguns tipos particulares de expresses, por exemplo, as descries definidas (aqueles sintagmas que iniciam por artigo definido). Um exemplo de estudo desenvolvido para tratar da resoluo de co-referncia do artigo definido pode ser o dado em [VIE 98]. Estudos similares esto sendo produzidos, mais recentemente, para a lngua portuguesa [VIE 00]. Outros trabalhos, principalmente os sistemas participantes da srie de conferncias em compreenso de mensagens (MUC Message Understanding Conference) tm tratado da questo da co-referncia de maneira mais geral. Nesse outro enfoque, o problema o de reconhecer as diversas expresses cuja interpretao aponta ao mesmo referente. Os significados implcitos tambm so um ponto de interesse na questo pragmtica. nessa dimenso que procura atuar a teoria dos atos de fala [Austin apud FUC 92]. Por exemplo, quando algum diz eu declaro a conferncia aberta, na verdade a carga de significado vai alm da simples declarao: o ato (de abertura da conferncia) realizado diretamente ao serem proferidas estas palavras. Existem atos de fala diretos (como em eu prometo ir) ou indiretos, que exigem uma reconstruo por um mecanismo de inferncia (como em est fazendo frio aqui, onde o falante pode estar solicitando que seja fechada a janela). A dimenso implcita exige o conhecimento das pressuposies. Por exemplo, em tua irm ainda toca piano? Pressupe-se que o interlocutor tenha uma irm e que ela j tenha tocado piano. Todas estas questes so ainda objeto de estudo de modo a prover mecanismos de representao e de inferncia adequados, sendo raramente tratadas pelos sistemas de processamento. 3.5.3. Representao do discurso
Modelos de representao do discurso so necessrios quando se tem por objetivo a construo de uma base de conhecimento de uma entrada textual em linguagem natural. Um primeiro problema que surge a maneira como devemos considerar e representar as entidades mencionadas. Para a frase Joo tem um cachorro, no podemos simplesmente fazer uso direto da representao em Prolog a seguir:
cachorro(X). possui(joo, X).
Essa representao corresponde ao fato qualquer coisa um cachorro e Joo possui qualquer coisa, e daria uma resposta afirmativa a uma consulta do tipo ?possui(joo, new_york). preciso reconhecer o cachorro mencionado como um referente do discurso (algo sobre o qual podemos falar) e dar a ele um nome nico (um identificador), por exemplo, ent_disc(123), e ento a representao em Prolog para a frase acima dada por:
cachorro(ent_disc(123)). possui(joo,ent_disc(123)).
comum em discursos em linguagem natural, o uso de anforas (pronomes) para fazer referncia a entidades previamente mencionadas. Para uma anfora ser compreendida ela deve ser identificada com um referente do discurso previamente determinado. Esse processo chamado de resoluo de referncia anafrica e envolve procurar por um antecedente, isto , a referncia anterior feita no discurso para essa mesma entidade. Os pronomes possuem alguma informao que pode ser utilizada no processo de identificao de um antecedente, tais como gnero e nmero. Mostraremos, para fins ilustrativos, um algoritmo bastante simples e genrico para resoluo anafrica:
Mantenha uma lista de referentes de discurso, ordenados por ordem de ocorrncia no discurso, e marque cada um deles com condies de restries: gnero (masculino, feminino), nmero(singular, plural), e ontolgicas(animado, inanimado).
Ao encontrar uma expresso anafrica, procure entre os referentes da lista, o mais recente que satisfaa as condies de restrio.
3.6. Consideraes sobre abordagens hbridas: simblicas e estatsticas Alm do processamento simblico, tomado como base at aqui para explicar principalmente a anlise sinttica, possvel encontrar aplicaes de processamento que fazem uso de outros mtodos de anlise. Particularmente, podemos observar o destaque que vem sendo proporcionado aos mtodos estatsticos ou aos mtodos hbridos. As abordagens de pesquisa em lingstica computacional, durante um certo tempo, costumavam ser bem definidas em relao aos seus mtodos. De um lado, temse a pesquisa de teorias motivadas pelos aspectos cognitivos da linguagem, de acordo com a tradio em lingstica gerativa. De outro lado, encontramos as abordagens motivadas por achados empricos, baseados em colees de dados lingsticos ocorridos naturalmente. Os maiores influentes dessas duas correntes de abordagens computacionais linguagem foram Chomsky [CHO 57] e Shannon-Weaver [SHA 49].
A maioria dos trabalhos em lingstica computacional desenvolveu-se de acordo com a perspectiva terica da gramtica gerativa (hostis aos mtodos quantitativos), enquanto a comunidade voltada ao processamento da fala seguia os mtodos estatsticos da teoria de informao (hostis a teorias lingsticas). Durante algum tempo as duas reas desenvolveram-se independentemente, sem dilogos. Nas dcadas de 80 e 90, comearam a aparecer trabalhos na identificao de categorias sintticas das palavras em uma frase, ou na resoluo de ambigidade de sintagmas preposicionais, com base nos mesmos mtodos estatsticos j tradicionais em trabalhos de processamento de fala, e com sucesso. O conhecimento necessrio para a soluo de problemas comeou a ser induzido pela anlise de grandes corpora, ao invs de ser construdo manualmente na forma de regras simblicas. Desde ento, cada uma das comunidades tem aceitado melhor a idia de que, para se atingir os objetivos de cada rea, pode ser necessrio o conhecimento amadurecido pela outra. Abordagens quantitativas passaram a adicionar robustez e abrangncia a sistemas simblicos de processamento de linguagem natural, os quais, at ento, apresentavam alcance limitado, permitindo-lhes, por exemplo, a aquisio automtica ou semi-automtica de conhecimento lexical (terminologia, nomes prprios, eqivalncia em tradues). As abordagens quantitativas, por outro lado, careciam de informaes sobre a natureza lingstica dos dados. Atualmente a convergncia de abordagens caracterstica da rea, e reconhecida a necessidade de construo de sistemas efetivos e robustos que possam ser avaliados. Uma boa coleo sobre trabalhos apresentando solues hbridas apresentada em [KLA 96]. Pudemos observar na seo 3.2 o modo como, na anlise lxico-morfolgica, vm sendo empregados, atualmente, mtodos de etiquetagem automtica, os part-ofspeech taggers. Em especial, observamos que a etiquetagem um processo de marcao que associa taggers, ou etiquetas, s palavras ou itens lexicais do texto de entrada. Esse processo de etiquetagem pode ser estendido para a marcao de informaes mais completas sobre a estrutura sinttica dos textos, que incluem a identificao, por exemplo, dos constituintes como sintagma nominal, sintagma verbal, sintagma preposicional etc. Ora, esta marcao ir suprir, em muitas aplicaes, as funes de uma anlise sinttica.Nesse processo so utilizados os modelos de Markov [JUR 00], ou Markov Models (MM), os quais servem modelagem de uma seqncia de eventos. Esses modelos trabalham com a ordem das palavras na sentena, podendo utilizar a ordem visvel das palavras (Visible Markov Models ou VMM) ou a ordem oculta dessas palavras (Hidden Markov Models ou HMM), ou seja, um nvel de abstrao mais alto com relao possvel seqncia das palavras na sentena. No caso dos HMM, que so o modelo mais utilizado, esse nvel adicional de abstrao permite inserir estruturas adicionais, para visualizar a ordem das categorias das palavras. O processo de marcao visa encontrar a seqncia mais provvel de marcas, rtulos ou etiquetas que correspondam a uma dada seqncia de palavras. Para computar a seqncia de estados mais provvel, normalmente utilizado o algoritmo de Viterbi (descrito em detalhe em [GAS 00]). O processo assim organizado prev a existncia de pelo menos dois corpora: um corpus de treino, marcado e revisado, a partir do qual o etiquetador ir aprender regras, e o corpus de textos a serem analisados.
A eficincia de um sistema dessa natureza depende [MAN 99] de fatores como: quantidade de dados de treino disponveis (quanto mais dados de treino, melhor); quantidade de etiquetas (maior a quantidade de etiquetas ou rtulos, mais especfico o resultado, porm maior a possibilidade de ambigidade); similaridades e diferenas entre corpus de treino e corpus de teste (se o corpus a ser etiquetado difere muito, em estilo ou gnero, do corpus utilizado para treinar o etiquetador, a preciso da marcao ir degradar); existncia de palavras ou construes desconhecidas (a presena de palavras ou construes desconhecidas piora consideravelmente a qualidade dos resultados). As equipes do GLINT, da Universidade Nova de Lisboa, coordenada pelo Prof. Jos Gabriel Pereira Lopes, em Portugal, e do NILC, sediada na Universidade Federal de So Carlos em So Paulo, coordenada pela Prof Maria das Graas Volpe Nunes, trabalham intensamente com a abordagem estatstica e textos etiquetados. O grupo coordenado pelo Prof. Eckard Bick, na Universidade de Ahrus, na Dinamarca, vem trabalhando nos ltimos 5 anos, atravs do projeto Visual Interactive Syntax Learning, com anlise sinttica de vrias lnguas, entre elas o portugus. Atualmente, pela Internet5, possvel executar a anlise sinttica de textos da lngua portuguesa.
4. Aplicaes e desenvolvimento
Nesta seo sero discutidas diversas aplicaes decorrentes do desenvolvimento da rea de lingstica computacional. 4.1. Reconhecedores e sintetizadores da fala Sistemas reconhecedores da fala tm sido utilizados para fins de ditado, onde o sistema faz a transcrio da fala em texto; em interfaces de comando por voz, por exemplo, para comandar o seu editor de texto ou navegar na Internet falando com o computador; ou em acesso a servios automatizados de informao por telefone. Exemplos de produtos comerciais disponveis no mercado so o IBM Via Voice e o Philips FreeSpeech, que apresentam verses para o reconhecimento da lngua portuguesa. Sistemas sintetizadores de fala podem ler em voz alta um texto escrito, estes podem ser utilizados em interfaces adaptadas para deficientes visuais e tambm em servios automatizados de informao por telefone. Pesquisa em reconhecimento e sntese da fala do portugus brasileiro tem sido realizada, no Brasil, atravs do projeto Spoltech Advancing Human Language Technology in Brazil and the United States Through Collaborative Research on Spoken Language Systems, (http://www.ucs.tche.br/lpv/spoltech/) coordenado pelo Prof. Dante Barone da Universidade Federal do Rio Grande do Sul. 4.2. Corretores ortogrficos e gramaticais As ltimas verses de editores de texto (Microsoft Word, por exemplo) possuem um subsistema de correo ortogrfica e gramatical que verifica se cada uma das palavras digitadas pertence ao vocabulrio da linguagem e verifica algumas construes gramaticais das frases como, por exemplo, as regras de concordncia da lngua. Esses sistemas trabalham com um lxico que pode ser estendido pelo usurio, e a correo
5
estudo
http://visl.hum.sdu.dk/visl/
gramatical aponta erros relativos ao uso da crase, de colocao pronominal, concordncia verbal, pontuao, uso de prefixos etc. A verso do corretor ortogrfico da lngua portuguesa, presente hoje no Microsoft Word, foi desenvolvida com apoio da Itautec/Philco no Ncleo Interinstitucional de Lingstica Computacional (NILC-USP), atravs do projeto ReGra, coordenado pela Prof Maria das Graas Volpe Nunes [NUN 00]. Esse sistema de correo gramatical, alm de possuir um mdulo gramatical que realiza a anlise sinttica, baseado em um conjunto de regras heursticas que servem para detectar, por exemplo, os erros de uso de crase. O sistema tambm possui um outro mdulo, chamado de mdulo mecnico, que trata erros de fcil deteco, tais como: palavras e smbolos de pontuao repetidos, presena de smbolos de pontuao isolados, uso no balanceado de parnteses e aspas, capitalizao inadequada como incio de frase com letra minscula, e ausncia de pontuao no final da sentena. 4.3. Tradutores automticos H diversos sistemas tradutores que se tornaram produtos comerciais (Translator Pro, Tradunet), ou que so de distribuio gratuita e disponveis pela Internet (Alta Vista, Intertran, GO Translator, Enterprise Translator Server). Esses sistemas de traduo so considerados preliminares, no sentido de que fazem uma traduo no refinada; freqente a ocorrncia de erros e imperfeies no resultado final obtido. Uma anlise detalhada da qualidade do resultado obtido por esses tradutores apresentada em [OLI 00]. Diferentes metodologias podem ser empregadas na traduo automtica, entre elas, podemos citar os sistemas diretos, os sistemas transferenciais e os sistemas interlingua. Os sistemas diretos buscam correspondncias diretas entre as palavras, enquanto os sistemas de transferncia efetuam a anlise sinttica da frase da lngua de origem e, atravs de regras de transferncia sinttica, constrem a representao sinttica na lngua alvo. Os sistemas interlinguais trabalham com uma representao intermediria entre as lnguas origem e alvo que, em princpio, pode ser utilizada na traduo de quaisquer lnguas. Mais informaes sobre tradutores automticos podem ser obtidos em [JUR 00]. 4.4. Geradores de textos e resumo A gerao de textos pode ser vista como o processo inverso da interpretao: o gerador recebe como entrada elementos de contedo e objetivos de comunicao, para produzir um texto lingisticamente correto. Deve determinar o que ser dito e de que forma, organizando o discurso e as frases. Um dos desafios da rea o processo de planejamento envolvido na gerao do discurso. Questes relacionadas ao planejamento podem ser abordadas com o aporte das teorias envolvendo agentes [BEA 91]. Em [BAR 96] uma introduo rea de gerao de linguagem natural apresentada. Os geradores de resumo constituem um recurso bastante til no processo de busca de informao. Resumos gerados automaticamente podem auxiliar uma pessoa na deciso sobre a relevncia de um determinado documento. Diferentemente da gerao de textos, a gerao de resumos deve proporcionar o mximo de informao no mnimo de espao, e isso envolve o estudo do uso da linguagem para veicular informao de forma concisa. Nesse tipo de aplicao, d-se uma relao interessante com tcnicas
estatsticas, atravs da identificao dos modos como as palavras so utilizadas pela anlise de grandes corpora. 4.5. Interfaces em linguagem natural Uma das aplicaes mais comuns para interface em linguagem natural a manipulao de base de dados, onde um sistema de processamento de linguagem natural serve de intermedirio entre o usurio e a base de dados, traduzindo as instrues apresentadas em linguagem natural para a linguagem especfica do sistema de gerenciamento de dados. Tais interfaces podem ser baseadas na linguagem escrita ou falada e so, usualmente, denominadas sistemas de perguntas e respostas. Sistemas de perguntas e respostas eficientes so geralmente relativos a um domnio de aplicao bem especificado e limitado, muitas vezes delimitando-se a interao a palavras-chaves. Exemplos que podem ser dados aqui so informaes sobre viagens de uma determinada estao ferroviria, e servio bancrio. 4.6. Recuperao de informao A recuperao de informao a rea de aplicao envolvida com a obteno de documentos relevantes dado um determinado tema, e no est diretamente envolvida com a obteno de uma informao especfica ou com a obteno de resposta a uma dada pergunta. Recuperao de informao pode, ento, ser definida como sendo o conjunto de tcnicas que servem ao propsito de encontrar documentos relevantes de acordo com uma necessidade de informao. Em geral, essas tcnicas so constitudas por indexao, busca, filtragem, organizao, tratamento de mltiplas lnguas e tambm mltiplas mdias. Existem duas abordagens principais distintas, a busca por metadados (cabealhos ou palavras-chaves que descrevem o contedo dos documentos) ou por contedo. Metadados podem ser adicionados aos documentos manualmente (o que dispendioso e muito subjetivo) ou automaticamente (onde se obtm uma qualidade razovel, mas no muito alta). Abordagens baseadas em contedo atingem, em geral, melhores resultados. Note, no entanto, que so abordagens baseadas em tcnicas estatsticas que medem a similaridade de textos e da consulta, e no em compreenso de texto. A compreenso automtica de texto ainda uma rea com baixa efetividade em domnios irrestritos. Pode excepcionalmente ser uma opo mais adequada em domnios restritos. Uma obra importante que apresenta bons elementos para os estudos da rea [BAE 99]. 4.7. Extrao de informao Enquanto sistemas de recuperao de informao encarregam-se de encontrar documentos relevantes em relao a um determinado tema, sistemas de extrao de informao encarregam-se de analisar e transformar a maneira de apresentao da informao contida em um conjunto de documentos relevantes, isolando informaes relevantes contidas em determinados segmentos, e apresentando a informao encontrada em um formato coerente. Sistemas de extrao de informao podem ler um texto no estruturado e coletar informao a ser armazenada em um banco de dados tradicional. Extrao de informao uma rea de interesse para pesquisas em lingstica computacional, pois possui tarefas e problemas bem definidos. Os sistemas utilizam
textos reais e a performance dos sistemas pode ser avaliada de acordo com a performance humana na execuo da mesma tarefa. Tais sistemas motivam, dessa maneira, os pesquisadores em lingstica computacional a migrarem, de sistemas de pequena escala e dados artificiais, para sistemas de larga escala e dados lingsticos reais. A rea de extrao de informao popularizou-se com a srie de competies americana intitulada Message Understanding Conferences (MUCs). Mais informao sobre a rea pode ser obtida em [COW 96]. 4.8. Avaliao de sistemas de processamento de linguagem natural Algumas das aplicaes discutidas nesta seo apresentam uma tradio maior em avaliao de resultados produzidos pelos sistemas, notoriamente a recuperao de informao uma delas. Sistemas de recuperao so usualmente avaliados em termos de alcance e preciso (ou recall e precision). O alcance, nesse contexto, mede o nmero de documentos relevantes encontrados para uma consulta, entre o conjunto total de documentos relevantes (documentos relevantes encontrados / total de documentos relevantes existentes) e a preciso mede o nmero de documentos realmente relevantes entre os indicados como relevantes pelo sistema (documentos relevantes encontrados / documentos encontrados). Sistemas de extrao de informao tambm tm sido sistematicamente avaliados, e conferncias tm sido organizadas em forma de competio para a apresentao desses sistemas (Message Understanding Conference MUC-3 1991, MUC-4 1992, MUC-5 1993, MUC-6 1994). Diferentes aplicaes podem desenvolver ou utilizar critrios prprios. Os critrios considerados podem ter cunho lingstico, operacional ou econmico. Uma avaliao de desempenho de tradutores automticos para a traduo de Ingls-Portugus-Ingls [OLI 00], por exemplo, faz uma avaliao lingstica considerando os nveis: lxico, sinttico e semntico-pragmtico. Em [NUN 00] uma avaliao de desempenho para o corretor ortogrfico da lngua portuguesa (ReGra) apresentada. Corpora anotados so um recurso importante no processo de avaliao de sistemas, uma nova tcnica proposta pode ser avaliada de acordo com um corpus anotado em nvel morfolgico, sinttico ou semntico. Certas informaes lingsticas relacionadas a um discurso podem ter um carter mais subjetivo, o caso da coreferncia um exemplo, dificultando a tarefa de anotao de corpus e, conseqentemente, a de avaliao de sistemas. Nesse caso, algumas medidas tm sido empregadas para avaliar o grau de concordncia entre diferentes sujeitos realizando a anotao de um corpus, de acordo com um dado esquema. Um sistema, nesse caso, pode ser avaliado com uma anotao derivada de vrias anotaes, ou o desempenho pode ser medido atravs do grau de concordncia entre sistema e anotao manual. Em [POE 98] uma avaliao de desempenho de um sistema de resoluo de co-referncia, com essas caractersticas, apresentada. 4.9. Processamento de linguagem natural e sistemas multi-agentes Uma abordagem computacional alternativa, para os sistemas de processamento da linguagem natural, a organizao em sociedades de agentes. Essa abordagem multiagentes foi estudada, para a lngua portuguesa, atravs do projeto NALAMAS [SIL 98, STR 99], desenvolvido em cooperao por cinco grupos brasileiros e um grupo portugus. No estudo realizado, foi dada nfase a diferentes fenmenos lingsticos, entre os quais ambigidade, anforas e elipses, e sua resoluo atravs de
uma abordagem multiagentes. Foram tambm desenvolvidos, utilizando uma plataforma adequada, prottipos de soluo multi-agentes para esses fenmenos em portugus. A respeito desse esforo, algumas concluses so interessantes de mencionar. Primeiramente, necessria uma migrao de todos os analisadores e demais ferramentas disponveis, de modo a orient-los a uma concepo em agentes, e de modo a projetar adequadamente os conhecimentos coletivos e individuais dos agentes. S ento possvel passar-se proposta de solues mais especficas. Pode-se considerar que, nas situaes em que necessria a articulao entre mltiplas fontes de conhecimento, como o caso da resoluo de anforas, na interpretao, ou o processo de planejamento, na gerao de linguagem, a abordagem multiagentes se mostra promissora. Porm, a aplicabilidade dessa abordagem a fenmenos especficos no significa que ela seja interessante totalidade dos nveis de anlise.
5. Processamento de corpus
O trabalho realizado na rea de lingstica de corpus rene, compila e organiza repositrios de trechos de linguagem escrita ou falada, naturalmente e espontaneamente gerados e que servem de base para a pesquisa lingstica. Este trabalho, s foi tornado possvel com a ajuda do computador e, portanto, data dos incios dos anos 60. Recentemente novos repositrios tm sido criados de maneira que informao lingstica sobre os dados seja adicionada ao corpus. A prtica de adicionar informao lingstica interpretativa a um corpus eletrnico, contendo dados lingsticos de fala ou escrita, chamada de anotao de corpus. Um caso tpico e familiar de anotao de corpus a etiquetagem gramatical (comumente conhecida como part-of-speech tagging). Nesse caso, uma etiqueta associada a cada palavra do corpus, indicando sua classe gramatical. Assim como esto divididos os nveis de estudo lingsticos e os diferentes problemas abordados em lingstica computacional, a anotao de corpus tambm se divide em anotao morfolgica ou gramatical, anotao sinttica, semntica, e de discurso. Trabalhos nessa rea podem estar relacionados construo manual de corpus anotado, a criao de padres para a anotao de corpus, criao de ferramentas para auxlio marcao manual de corpus, criao de ferramentas para marcao automtica ou semi-automtica de corpus. Esta ltima envolvendo criao de sistemas que faam a interpretao lingstica de textos, em nvel morfolgico, sinttico ou de discurso, dependendo do tipo de marcao a ser realizada, utilizando muitas vezes um corpus marcado com um tipo de informao, para a realizao da marcao de um novo tipo de informao lingstica. Uma ilustrao dos diferentes tipos de anotao de corpus dada a seguir, para pequenos trechos de um discurso. 5.1. Anotao de corpus 5.1.1. Anotao gramatical O exemplo que segue apresenta a etiquetagem morfolgica (ou POS tagging), que associa a cada palavra de um texto uma etiqueta contendo sua classe gramatical e sua forma lexical cannica. ela _PPR_ele sofre _V_sofrer grande _ADJ_grande rejeio _N_rejeio
de _PREP_de os _ART_o governadores _N_governador Este formalismo foi utilizado em projeto desenvolvido pelo Grupo de Lngua Natural6 do Centro de Investigao em Inteligncia Artificial (CENTRIA) da Universidade Nova de Lisboa em Portugal, coordenado pelo Prof. Gabriel Pereira Lopes. No exemplo dado acima foi utilizado esquema de cdigos para anotao morfolgica, que inclui os seguintes cdigos: ADJ ART N PR PREP V ADJetivo ARTigo Nome (substantivos comuns) Pronome Relativo Preposio Verbo
5.1.2. Anotao sinttica A seguir, apresentada, para o mesmo trecho visto acima, uma anlise sinttica de acordo com a gramtica de restries (Constraint Grammar), tal como utilizado pelo projeto VISL Visual Interactive Syntax Learning. =SUBJ:pron-pers(F 3S NOM/PIV) =MV:v-fin(PR 3S IND) sofre =ACC:np ==>N:adj(M/F S) ==H:n(F S) ==N<:pp ===H:prp(<sam->) ===P<:np ====>N:art(<-sam> <artd> M P) ====H:n(M P) governadores os de grande rejeio ela
Para esclarecer o exemplo dado acima, listamos a seguir algumas dessas convenes, extradas das pginas do projeto7. SYNTACTIC TAGS (etiquetas sintticas) SUBJ subject (sujeito) ACC accusative (direct) object (objeto direto acusativo) MV
6 7
main verb (verbo principal)
http://pc-gpl.di.fct.unl.pt/~glint O conjunto completo de smbolos utilizado para a marcao de anlise sinttica desse projeto apresentado em http://visl.hum.sdu.dk/visl/pt/portsymbol.html.
N< P< H
postnominal adject (attaches to the nearest NP-head to the left, that is not an adnominal itself) (adjunto ps nominal) argument of preposition (argumento da preposio) head (ncleo)
5.1.3. Anotao sinttica parcial (sintagmas nominais) O exemplo apresentado aqui mostra uma anotao de corpus parcial, correspondendo ao conjunto de sintagmas nominais extrados do trecho: ela sofre grande rejeio de os governadores. ['SN',['N',ela] ]. ['SN',os,['N',governadores] ]. ['SN',grande,['N',rejeio],['SP',de,['SN',os,['N',governadores] ] ] ] . As marcas utilizadas so SN para indicar sintagma nominal, N para indicar ncleo do sintagma, e SP para indicar sintagma preposicional. Esta anotao parcial e notao so utilizadas pelo projeto ANACORT Anotao automtica de co-referncia textual, em desenvolvimento na Universidade do Vale do Rio dos Sinos e coordenado pela Prof Renata Vieira. Uma descrio da construo do corpus do projeto ANACORT com anotao parcial de sintagmas nominais apresentada em [VIE 00]. 5.1.4. Anotao de discurso O exemplo a seguir ilustra a marcao de co-referncia, ou seja, indicao de expresses em um discurso que se referem ao mesmo objeto ou entidade. So remotas as chances de aprovao < coref:de ID = de_01 > da atual proposta de projeto de reforma tributria </coref:de >. Embora esteja ainda em fase de discusso, < coref:de ID = de_02 > ela </coref:de > sofre grande rejeio dos governadores. <coref: link type = ident href = coref.xml#id(de_02)> <coref: anchor href = coref .xml#id(de_01)> </coref link> O formalismo apresentado acima segue as diretrizes apresentadas pelo projeto MATE8 - Multilevel annotation tools engineering - para a marcao de co-referncia [POE 00]. O esquema de anotao proposto por esse projeto foi desenvolvido com base na linguagem de marcao XML, onde coref (coreference) indica um elemento ou relao de co-referncia no discurso, de (discourse entity) indica uma entidade de discurso, link, uma ligao entre um elemento e um antecedente identificado por anchor. O projeto MATE tem por objetivo desenvolver ferramentas e um padro para anotao de corpora de dilogos falados. A anotao de corpus apresenta mltiplas funcionalidades, muitas das vantagens de se ter acesso a tais recursos lingsticos so revertidas para a pesquisa e
8
http://mate.mip.ou.dk/
desenvolvimento da rea de lingstica computacional. Um corpus marcado com informao sobre a classe gramatical pode ser til, por exemplo, a um sistema de sntese de fala, onde a diferenciao entre a categoria substantivo ou verbo pode indicar uma alterao na pronncia (o jogo, eu jogo, por exemplo). Outras aplicaes (extrao de informaes lexicogrficas, traduo automtica, ou recuperao de informao) podem tambm se beneficiar de tais recursos. Em [GAR 97] uma apresentao completa da rea de anotao de corpus dada. Cabe ainda mencionar, como exemplo de trabalho realizado nessa rea, o projeto TychoBrahe Parsed Corpus of Historical Portuguese, desenvolvido na UNICAMP e USP [BRI 99].
6. Concluso
A rea de lingstica computacional envolve um grande conjunto de atividades voltadas ao objetivo de tornar possvel a comunicao com as mquinas utilizando as habilidades naturais de comunicao humana. A pesquisa na rea inclui o reconhecimento, interpretao, traduo e gerao de linguagem e requer um esforo de convergncia entre vrias disciplinas: lingstica, computao e psicologia, por exemplo. A rea tem um papel muito importante para a sociedade de informao. Avanos no processamento de fala, texto e imagem so necessrios para tornar mais acessvel, e possibilitar o melhor uso, da grande quantidade de informao que est hoje disponvel na rede mundial de computadores. uma rea promissora, especialmente em relao lngua portuguesa. importante considerar a necessidade de formao de recursos humanos nessa rea relativamente nova, que atualmente, no Brasil, se faz presente mais em cursos de ps-graduao do que na graduao.
7. Bibliografia
[ALL 00] ALLAN, J. Natural Language Processing for Information Retrieval. Tutorial of the NAACL/ANLP Language Technology Joint Conference in Seattle, Washington, April 29, 2000. [ALL 95] ALLEN, J. Natural Language Understanding. Redwood City, CA: The Benjamin/Cummings Publishing Company, Inc., 1995. 654p. [AUS 62] AUSTIN, J.L. How to do things with words. Oxford, Clarendon Press, 1962. [BAE 99] BAEZA-YATES, R.; RIBEIRO-NETO, B. Modern Information Retrieval. New York: ACM Press, 1999. 513 p. [BAR 96] BARROS, F. e ROBIN, J. Processamento de linguagem natural. Jornada de Atualizao em Informtica JAI, Anais do XVI Congresso da Sociedade Brasileira de Computao 1996. [BEA 91] BEARDON, C. et al. Natural Language and Computational Linguistics. Melksham-Wiltshire, England, Ellis Horwood Ltd., 1991.
[BOU 98] BOUILLON, P. Le traitement automatique des langues. Bruxelles, Duculot, 1998. 245p. [BRI 95] BRILL, E. Transformation-based error-driven learning and natural language processing: a case study in part-of-speech tagging. Computational Linguistics, 21(4), 543-566. 1995. [BRI 99] BRITTO, H. & FINGER, M. "Constructing a parsed corpus of Historical Portuguese". ACH/ALLC-99 International Humanities Computing Conference. University of Virginia, Charlottesville, Virginia. Junho, 1999. [CHO 56] CHOMSKY, N. Three models for the description of language. IRE Transactions PGIT, 2. (pp. 113-124), 1956. [CHO 57] CHOMSKY, N. Syntactic structures. The Hague, Mounton. 1957. [COO 83] COOPER, R. Quantification and Syntactic Theory. Reidel, Dordrecht. 1983 [COV 94] COVINGTON, M. A. Natural language processing for Prolog programmers. New Jersey, Prentice Hall. 1994. [COW 96] COWIE, J. and LEHNERT, W. Information Extraction. Communications of the ACM, Vol.39, N 1, January, 1996. [DOW 81] DOWTY, D.R., WALL, R.E. and PETERS, S. Introduction to Montague semantics. Dordrecht, D. Reidel Pub. Co. 1981. [FUC 92] FUCHS, C., LE GOFFIC, P. Les Linguistiques Contemporaines. Paris, Hachette, 1992. 158p.
[GAR 97] GARSIDE, R., LEECH, G. and McENERY, A. (Eds.) Corpus annotation: linguistic information from computer text corpora. Longman, London, 1997. [GAS 00] GASPERIN, C. V. Fundamentos do Processamento Estatstico da Linguagem Natural. Porto Alegre, PPGCC-PUCRS: Trabalho Individual, 2000.
[GAZ 82] GAZDAR, G. Phrase Structure Grammar. In Jacobson and Pullum, (eds): The Nature of Syntactic Representation. Reidel, Dordrecht. 1982. [GAZ 85] GAZDAR, G., KLEIN, E. PULLUM, G. and SAG, I. Generalized Phrase Structure Grammar. Basil Blackwell, 1985. [GEA 52] GEACH, P. and BLACK, M. Translations from the philosophical writings of Gottlob Frege. Totowa, Barnes & Noble Books. 1952.
[GON 00] GONZALEZ M. O lxico gerativo de Pustejovsky sob o enfoque da recuperao de informaes. Porto Alegre, PPGCC-PUCRS: Trabalho Individual. 2000. [GON 00b] GONZALEZ, M. A. I. Representao Semntica de Sentenas em Linguagem Natural e sua aplicao na Recuperao de Informaes. Porto Alegre, PPGCC-PUCRSR: Trabalho Individual, 2000.
[GRE 96] GREEN, D. W. et al. Cognitive Science: an introduction. Cambridge, Blackwell Publishers Ltd., 1996. [GRI 68] GRICE, H. P. Utterers meaning, sentence meaning, and word-meaning. Foundations of Language, 4, (pp. 1-18). 1968 [GRI 75] GRICE, H. P. Logic and conversation. In: Cole, P. and Morgan, J.L. (Eds.) Syntax and semantics, Vol. 3: Speech acts (pp. 225-242). New York, Academic Press, 1975. [JUR 00] JURAFSKY, D., MARTIN, J. Speech and Language Processing. New Jersey, Prentice-Hall, 2000. 934p. [KAY 79] KAY, M. Functional grammar. In Proceedings of the 5th Annual Meeting of the Berkeley Linguistic Society, 1979. [KAM 93] KAMP, H. and REYLE, U. From discourse to logic. Dordrecht, Kluwer. [KLA 96] KLAVANS, J. L. The balancing act : combining symbolic and statistical approaches to language. Cambridge: MIT Press, 1996. [KOW 93] KOWALTOWSKI, T., LUCCHESI, C. L. automata representing large vocabularies. Experience, 23(1), 15-30, 1993. Applications of finite Software Practice and
[LEW 96] LEWIS, D. D. and SPARCK JONES, K. Natural language processing for information retrieval. Communications of the ACM, Vol.39, N 1, January, 1996. [MAN 99] MANNING, C. and SCHTZE, H. Foundations of Statistical natural language processing. Cambridge, MA: The MIT Press, 1999. 680p. [NIJ 88] NIJHOLT, Anton. Computers and languages theory and practice. Amsterdam: Elsevier, 1988. 482p.
[NUN 99] NUNES, M. G. V. et al. Introduo ao Processamento das Lnguas Naturais. Notas didticas do ICMC N 38, So Carlos, 88p., 1999. [NUN 99] NUNES, M. G. V. e OLIVEIRA, N. O. O processo de desenvolvimento do revisor gramatical ReGra. SEMISH Anais do XX Congresso da Sociedade Brasileira de Computao, Curitiba, 2000.
[OLI 00] OLIVEIRA, N. O., et al. A critical analysis of the performance of EnglishPortuguese-English MT systems. Anais do V Encontro para o Processamento do Portugus Escrito e Falado. (pp. 85-92) AtibaiaSP, Novembro, 2000. [PET 99] PETRY, T. O., STRUBE DE LIMA, V. Considerando o uso de centering na resoluo de referncias anafricas pronominais em portugus. In: Actas do IV Encontro para o Processamento da Lngua Portuguesa Escrita e Falada (PROPOR99), vora Portugal. 1999. [POE 00] POESIO, M. Coreference. MATE Dialogue Annotation GuidelinesDeliverable D2.1, January 2000. (http://www.ims.unistuttgart.de/projekte/mate/mdag/cr/cr_1.html). [POE 98] POESIO, M. and VIEIRA, R. A Corpus-based investigation of definite description use. In Computational Linguistics, Vol. 24 (2): 183-216. 1998. [POL 94] POLLARD, C. and SAG, I. A. Head-driven phrase structure grammar. Chicago, The University of Chicago Press. 1994. [PUS 95] PUSTEJOVSKY, J. The generative lexicon. Cambridge, MIT Press. 1995. [SAT 01] SANT'ANNA V. M. e STRUBE DE LIMA V. L. Clculo de Referncias Anafricas Pronominais Demonstrativas na Lngua Portuguesa Escrita. In: Anais do Encontro Nacional de Inteligncia Artificial (ENIA). Fortaleza, 30 jul a 3 ago, 2001. [SEA 69] SEARLE, J. R. Speech acts: an essay in the philosophy of language. Cambridge, Cambridge University Press. 1969. [SHA 49] SHANNON, C. E. and WEAVER, W. The mathematical theory of communication, Illinois, University of Illinois Press. 1949. [SHI 71] SHIEBER, S. M. The design of a computer language for linguistic information. Proceedings of the 10th International Conference on Computational Linguistics COLING, (pp. 362-366), California USA, 1984. [SIL 98] SILVA, J.L.T., ABRAHO, P.R.C., STRUBE DE LIMA, V. Integrating morphological, syntactical and semantical aspects through multi-agent cooperation. In: F. Oliveira (ed.). Advances in Artificial Intelligence: 14th Brazilian Symposium on Artificial Intelligence - SBIA'98, Porto Alegre, Brazil, November 4-6, Proceedings. Lecture Notes in Artificial Intelligence 1515. pp. 83-92. Springer-Verlag. ISBN 3-540-65190-X 1998. [STR 99] STRUBE DE LIMA, V. et al. 1999. NALAMAS Natural Language MultiAgent Systems: studying the subject through NALAMAS project. In: V.
Almeida et al. (eds.). In: Proceedings of the PROTEM-CC99 Projects Evaluation Workshop, Rio de Janeiro, Brazil, May 05-07. pp. 73-98. [TRA 99] TRASK, R. L. Key concepts in Language and Linguistics. Routledge, London, 378p., 1999. [VER 97] VERHAREN, E. M. A language-action perspective on the design of cooperative information agents. Proefschrift Katholieke Universiteit Brabant Tilburg, Nederlands. PhD Thesis. [VIE 98] VIEIRA, R. Definite description processing in unrestricted text. PhD Thesis. Division of Informatics, Edinburgh University. Edinburgh, UK. [VIE 00] VIEIRA, R. Extrao de sintagmas nominais para processamento de coreferncia. Anais do V Encontro para o Processamento do Portugus Escrito e Falado. (pp. 165-174) Atibaia-SP, Novembro, 2000. [VIL 95] VILLAVICENCIO, A. Avaliando um rotulador estatstico de categorias morfo-sintticas para a lngua portuguesa. Porto Alegre, CPGCCUFRGS, 1995. Dissertao de Mestrado. [WOO 70] WOODS, W. A. Transition network grammars for natural language analysis. Communications of the ACM, 13(10), (pp. 591-606), 1970.

Linguística Computacional

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Linguística Computacional

Enviado por

Direitos autorais:

Formatos disponíveis

Lingstica computacional: princpios e aplicaes

Renata Vieira1 , Vera Lcia Strube de Lima2

2. reas de estudos lingsticos

Um assunto neutro e amigvel para um encontro casual o clima.

Se voc o falante, voc ir se referir a voc usando a palavra Eu e no a palavra voc.

3. O processamento da linguagem natural

Unidades de composio fonolgica da lngua.

Um Treebank um corpus de sentenas j corretamente analisadas e marcadas.

Para isso, a DCG deve ser modificada para:

verbo(verbo(usa)) --> [usa].

3.4. Anlise semntica

O analisador ir responder a consultas da seguinte forma:

F persegue (rex, felix)

SV (x) persegue (x, felix)

V (y) (x) persegue (x, y)

persegue Figura 2: Construo da representao semntica

main verb (verbo principal)

Você também pode gostar