Escolar Documentos
Profissional Documentos
Cultura Documentos
1. Descrição do problema
O artigo que analisamos apresenta um protótipo que visa solucionar um sistema de tradução
automático, para interpretar palavras desconhecidas. Entretanto, tornar este sistema viável,
eficiente e simbólico é um desafio, por isso o tema principal do artigo é justamente analisar a
viabilidade deste projeto, mostrando os pontos que precisam ser desenvolvidos para conseguir
implementar o sistema.
De acordo com os estudos feitos no início deste século, entre 5 e 10% das palavras de um
texto são desconhecidas, e isso é um grande problema pensando em um sistema de tradução, pois
o não conhecimento da palavra pode resultar na alteração de sentido da frase ou até mesmo não
conseguir traduzir a sentença. Normalmente as palavras desconhecidas se baseiam em nomes
próprios, erros de ortografia e neologismos, sendo o último o foco do nosso trabalho.
2. Proposta de solução
O objetivo deste projeto é a análise de neologismos em uma linguagem fonte e sua tradução para a
linguagem alvo através da transferência da informação de construção do neologismo desejado.
Por exemplo, um neologismo em uma língua deve primeiramente ser analisado a fim de
encontrar a regra que o gera e depois a base léxica a qual ela é construída. Segundamente, através
de um mecanismo de transferência (baseado na regra e na base citados anteriormente), uma
tradução consegue ser gerada reconstruindo uma palavra construída. Em um lado mais teórico, o
processo todo é formalizado em um conjunto de regras bi linguais, chamados no inglês de Lexeme
Formation Rules (LFR), ou Regras de formação lexical no português.
3. Implementação
A implementação do LFR (Regras de formação lexical) é configurada através de um banco de
dados em formato de guia, de onde são retiradas as informações para análise e geração dos
neologismos. Esse banco é facilmente modificável, a fim de facilitar os testes. No exemplo
utilizado no artigo, o primeiro setor do banco de dados representa os prefixos da língua analisada
(italiano neste caso), o segundo setor representa o corpo da palavra e o terceiro setor sufixo.
Como se trata de um processo de tradução, serão necessários pelo menos dois bancos de
dados (de duas línguas diferentes) com as informações citadas acima, e quanto maior a quantidade
de informações contidas nele, mais precisa será a tradução. Neste processo de tradução o prefixo é
muito importante, mas não o suficiente, por isso é necessário um grande acervo de bases, que
podem ou não ser “super especificadas” (quando é dado toda a estrutura da palavra). No artigo, a
análise feita em italiano levava em consideração o sufixo da palavra, e em seguida fazia uma
rotina que procurava uma base correspondente.
Referência
"Lexical Morphology in Machine Translation: a Feasibility Study", feito por Bruno Cartoni da
Universidade de Geneva.