Você está na página 1de 2

Morfologia Lexical em Sistema de Tradução

Luan Maciel Duarte Diniz, Rafael Silva Teixeira


Universidade Estadual Paulista (Unesp) – Campus de Rio Claro
{l.diniz, rafael.s.teixeira}@unesp.br

1. Descrição do problema
O artigo que analisamos apresenta um protótipo que visa solucionar um sistema de tradução
automático, para interpretar palavras desconhecidas. Entretanto, tornar este sistema viável,
eficiente e simbólico é um desafio, por isso o tema principal do artigo é justamente analisar a
viabilidade deste projeto, mostrando os pontos que precisam ser desenvolvidos para conseguir
implementar o sistema.

De acordo com os estudos feitos no início deste século, entre 5 e 10% das palavras de um
texto são desconhecidas, e isso é um grande problema pensando em um sistema de tradução, pois
o não conhecimento da palavra pode resultar na alteração de sentido da frase ou até mesmo não
conseguir traduzir a sentença. Normalmente as palavras desconhecidas se baseiam em nomes
próprios, erros de ortografia e neologismos, sendo o último o foco do nosso trabalho.

No projeto apresentado neste artigo, a proposta principal é implementar cenários de


morfologia lexical em Tradução de Máquina.

2. Proposta de solução
O objetivo deste projeto é a análise de neologismos em uma linguagem fonte e sua tradução para a
linguagem alvo através da transferência da informação de construção do neologismo desejado.

Por exemplo, um neologismo em uma língua deve primeiramente ser analisado a fim de
encontrar a regra que o gera e depois a base léxica a qual ela é construída. Segundamente, através
de um mecanismo de transferência (baseado na regra e na base citados anteriormente), uma
tradução consegue ser gerada reconstruindo uma palavra construída. Em um lado mais teórico, o
processo todo é formalizado em um conjunto de regras bi linguais, chamados no inglês de Lexeme
Formation Rules (LFR), ou Regras de formação lexical no português.

Apesar desta aproximação parecer simples e atrativa, estudos de viabilidade e avaliação


devem ser feitos com cuidado. Para fazê-lo foi feito um sistema que traduz neologismos de uma
língua a outra, e para delimitar este projeto e concentrar em quais queres problemas
metodológicos, o processo de prefixação foi focado, e isso em duas línguas relacionadas (Italiano
e Francês), essa escolha se deve ao fato de as duas línguas serem historicamente e
morfologicamente relacionadas e consequentemente línguas “vizinhas” em termos de neologismo.

De forma a avaliar a aproximação descrita anteriormente, foi construído um protótipo de


máquina que possui um sistema especializado em tradução para neologismos construídos. Este
protótipo é composto por dois módulos. O primeiro checa qualquer palavra desconhecida para ver
se ela é potencialmente construída e se for, é performada uma análise morfológica para
individualizar a base léxica e a regra atrelada a ela. O segundo módulo é o módulo de tradução em
si, que analisa o neologismo construído e gera uma tradução possível.

O protótipo inteiro se apoia em uma mão em recursos léxicos e na outra em um conjunto bi


lingual de Regras de formação lexical (LFR). Esses dois conjuntos de informação ajudam nos
passos de análise e geração. Quando um neologismo é olhado, o sistema checa para ver se ele é
construído com algum dos LFRs e se a sua base léxica está no dicionário. Se este for o caso, a
transferência leva relevantes informações léxicas e morfológicas na linguagem algo. O passo de
geração constrói a tradução equivalente, usando a informação provida do LFR e dos recursos
léxicos. Consequentemente o sistema inteiro se apoia na qualidade de ambos os recursos léxicos
e LFR.

3. Implementação
A implementação do LFR (Regras de formação lexical) é configurada através de um banco de
dados em formato de guia, de onde são retiradas as informações para análise e geração dos
neologismos. Esse banco é facilmente modificável, a fim de facilitar os testes. No exemplo
utilizado no artigo, o primeiro setor do banco de dados representa os prefixos da língua analisada
(italiano neste caso), o segundo setor representa o corpo da palavra e o terceiro setor sufixo.

Como se trata de um processo de tradução, serão necessários pelo menos dois bancos de
dados (de duas línguas diferentes) com as informações citadas acima, e quanto maior a quantidade
de informações contidas nele, mais precisa será a tradução. Neste processo de tradução o prefixo é
muito importante, mas não o suficiente, por isso é necessário um grande acervo de bases, que
podem ou não ser “super especificadas” (quando é dado toda a estrutura da palavra). No artigo, a
análise feita em italiano levava em consideração o sufixo da palavra, e em seguida fazia uma
rotina que procurava uma base correspondente.

Referência
"Lexical Morphology in Machine Translation: a Feasibility Study", feito por Bruno Cartoni da
Universidade de Geneva.

Você também pode gostar