Organizadores

J.

Novos recursos do Aelius para o processamento computacional raso do português (Leonel Figueiredo de Alencar)

7

2.

Ambiente web para elaboração de produtos terminológicos: e-termos . (Gladis M. de B. Almeida, Leandro H. M. de Oliveira) 21 Proposta para um esquema de anotação da modalidade em um minicorpus oral do Português Brasileiro: desafios preliminares (Luciana Beatriz Ávila, Beliana Mello) A questão da equivalência na anotação de corpus jurídico comframes semântico (Anderson Bertoldi) Anotação e descrição de corpus par~ a investigação de estratégias de sumarização humana multidocumento (Renata Tironi de Camargo, Ariani Di Felippo) Ferramenta para PLN: Catálogo de verbos do PB (Márcia Cançado, Luisa Godoy, Luana Amaral) Modelagem linguÍstico-computacional (Bento Carlos Dias da Silva) de léxicos 89

3.

31

4.

.45

5.

57

Dados Internacionais L315d

de Catalogação-na-publicação

(CIP)

6.

73

Laporte, Éric Dialogar é preciso: linguística para o processamento de línguas Organizadores Éric Laporte; Aucione Smarsaro; Oto Araújo Vale. Vitória- ES: PPGEL/UFES,2013. 268 p.: il.; 15x21cm Inclui bibliografia ISBN: 978-85-8087-104-3 I. Linguística. L Laporte, Éric. 11. Smarsaro, Auclone. Oto Araújo. IV. Título.

7.

8.

Proposta de anotação semântica de verbos do português (Raquel Meister Ko. Freitag) Dictionaries for language processing. Readability and organization ofinformation (Éric Laporte)

105

m. Vale,

9.

119

CDD 410 CDU 801

10.

Tradução automática chinês-português: uma análise dos adverbiais temporais (Siyou Líu, Márcia Schmaltz, Ana LuÍsa Leal) 133

lI.

Descrição sintático-semântica de estruturas sintáticas com os verbosjazer, ter e perder para processamento automático de linguagem natural (Marília dos Santos Mareto, Liliane Alves Santana, Keila Mara Schneider, Aucione Smarsaro) Contribuições da semântica para a definição do significado dos verbos jurídicos (Carolina Müller, Rove Chishman) Descrição do verbo cortar para processamento automático de linguagem natural (Wagner Lúcio Pacheco, Éric Laporte) Redução-beta em Prolog (Luiz Arthur Pagani) Correlações sintático-semânticas entre as construções com os verbos-suporte 'Dar', 'Ter' e 'Fazer' (Amanda Pontes Rassi, Claudia Dias de Barros, Maria Cristina A. dos Santos Turati) Construção verbal livre ou fixa: proposta de descrição sintático-semântica (Aucione Smarsaro) : Recuperação de documentos, extração de informação a partir do texto e leitura estratégica: o que esperar para breve? (Vera Lúcia Strube de Lima) Possibilidades de pesquisa com a linguística de corpus (Stella E. O. Tagnin) Utilisation des entrées adverbiales du DELA issues des tables du lexique-grammaire du français (Eisa Tolone, Stavroula Voyatzi, Claude Martineau) As opiniões nas expressões e a expressão da opinião (Oto Araújo Vale)

OS RECURSOS DO AELIUS PARA O PROCESSAMENTO COMPUTACIONAL RASO DO PORTUGUÊS! 145
LEONEL FIGUEIREDO DE ALENCAR

(UFC) 12. 155 Resumo: A fim de tornar acessível a estudantes e pesquisadores de Letras e Linguística a análise automática de textos por meio de diversas bibliotecas livremente disponíveis e como forma de iniciação na linguística computacional, também por parte de alunos de engenharia e computação, iniciamos o desenvolvimento do Aelius. Esse software, implementado em Python com base no NLTK, constitui-se de ferramentas específicas para o processamento sintático raso do português, complementando, desse modo, essa biblioteca, carente de recursos para essa língua, ao mesmo tempo em que oferece uma interface ainda mais amigável, viabilizando, desse modo, a sua utilização por não programadores. Neste artigo, focamos os novos recursos do Aelius para a toquenização e etiquetagem morfossintática do português, comparando-os com os da biblioteca Apache OpenNLP, aparentemente a caixa de ferramentas para o PALN que mais se aproxima do NLTK. Nessa comparação, o Aelius revelou-se uma alternativa superior no que concerne à toquenização e etiquetagem morfossintática do português, não só por apresentar melhor acurácia, mas também por permitir anotar textos morfossintaticamente segundo estratégias diferentes de toquenização e conforme conjuntos de etiquetas distintos, inclusive por meio de ferramentas externas, a partir de uma única interface. Palavras-chave: Análise sintática rasa. Toquenização. Etiquetagem morfossintática automática. Anotação de corpora linguísticos. NLTK. Python. Introdução Diferentemente do que vem ocorrendo, há várias décadas, em países como a Alemanha (para citar apenas o exemplo com o qual temos mais fami259
1 Agradecemos, aos organizadores do l° LiPrAL, o convite para ministrar mi'1icurso sobre a análise sintática automática do português, a cujos participantes somos gratos pelos interessantes questionamentos e comentários. O presente artigo aprofunda parte do conteúdo apresentado nesse minicurso .

13.

165 177

14.
J S.

193

16.

207

17.

I
219

I

18.

229

19.

I
243

!

lO.

.1

DIALOGAR É PRECISO

ÚNGUISTICA

PARA PROCESSAMENTO DE LINGUAS

liaridade), onde muitos departamentos ou institutos de Iinguística, implícita ou explicitamente, incluem a Iinguística computacionaF, no Brasil as áreas de Computação e Linguística, com raras exceções, são relativamente estanques. Isso significa que estudantes e pesquisadores da primeira, quando trabalham com o processamento automático da linguagem natural (doravante PALN), raramente se referem à produção mais recente da última discipliná, relacionada, por exemplo, à descrição do português (UPRAL, 2012). Em vez disso, mais frequentemente se limitam à consulta de gramáticas de cunho tradicional, cujas limitações têm sido frequentemente expostas pelos linguistas. Além disso, não nos parece constituir prática comum os nossos futuros informatas e cientistas da computação frequentarem disciplinas linguísticas dos cursos de graduação em Letras, pelo menos como parte optativa do currículo. Por outro lado, aparentemente inexiste curso de graduação brasileiro em Letras ou Linguística cuja grade curricular integre disciplinas de natureza mais informática como Introdução à Programação ou Linguística Computacional, área que, aliás, ainda conta, entre nós, com pouquíssimos representantes fora dos cursos de informática, engenharia e correlatos. Essa situação é bastante prejudicial não apenas à indústria de softwares (LIPRAL, 2012), que cada vez mais precisa integrar em seus produtos tecnologias da linguagem natural, mas também para a própria linguística, que, em grande medida, deixa de contar com uma série de ferramentas que desempenham um importante (para muitos linguistas computacionais, indispensável) papel na formulação de descrições linguísticas de maior rigor formal, mais consistentes, de mais sólida fundamentação empírica ou psicolinguisticamente mais plausíveis. O descompasso entre as duas áreas já se reflete na baixa qualidade de um produto relativamente simples como um corretor ortográfico. Por exemplo, o corretor ortográfico do pacote jree/open source software (doravante FOSS) Apache OpenOffice não modela adequadamente os processos produtivos de formação de palavras do português, objeto da morfologia computacional que tem nos autômatos e transdutores de estados finitos a sua implementação mais difundida e mais eficiente (ALENCAR, 2012). Dessa

forma; uma derivação trivial como mensaleirinho não é reconhecida como bem formada na versão atual do Apache OpenOffice3, que erroneamente a sublinha de vermelho, embora mensaleiro, a criação lexical de que deriva regularmente por meio da afixação do produtivo sufixo -inho, esteja listada no respectivo dicionário do português do Brasil. Apesar desse cenário um tanto desolador piua a linguística computacional no Brasil, o contexto nunca antes foi tão favorável à disseminação da disciplina nos nossos cursos de graduação e pós-graduação, especialmente na área de Letras e Linguística. Os seguintes desdobramentos viabilizam uma reversão desse quadro e a instauração de um novo paradigma de maior inserção tecnológica dos cursos de Letras e Linguística e de mais familiaridade com a estrutura e o funcionamento da linguagem humana por parte de informatas que pretendam atuar na área de PALN: Maior acessibilidade a máquinas com sistema operacional do tipo UNIX, seja pela amigabilidade de distribuições do LINUX como o Ubuntu, seja pela redução de preço de computadores com o sistema operacional Mac OS X, da Apple. Disponibilização, cada vez maior, de ferramentas para o PALN que constituem FOSS ou são, pelo menos, gratuitas e multiplataforma e que congregam uma ampla e solidária comunidade de usuários. Difusão da linguagem Python na comunidade de linguística de corpus, linguística computacional e PALN, propiciando um ambiente comum e amigável, sob a forma de dezenas de pacotes FOSS, para a execução das mais diferentes tarefas. Os dois últimos desenvolvimentos caracterizam-se atualmente, sobretudo, pelo Natural Language Toolkit (NLTK) (BIRD; KLEIN; LOPER, 2009), a biblioteca para a linguística de corpus, a linguística computacional e o PALN, implementada em Python e voltada especialmente ao ensino e aprendizagem dessas disciplinas, que é, ao mesmo tempo, a mais abrangente e mais amigável das cerca de uma dezena atualmente disponíveis4. O NLTK

2 Na Universidade de Tübingen, por exemplo, o Instituto de Linguística (Seminal'fiil' Spl'achwissenschajt) constitui-se do Departamento de Linguística Geral e Linguística Computacional e do Departamento de Linguística Computacional Teórica, além de dois outros departamentos. Ver <http://www.sfs.uni-tuebingen.del>.

'1.

3 Trata-se, em dezembro de 2012, da versão 3.4.1., que utiliza o verificador ortográfico Vero 2.1.1. URL: <http://www.broffice.org/?q=verortografico>. , 4 Consultar a URL: <http://en.wikipedia.org/wiki/List_of_ naturaUanguage yrocessing~toolkits>.

8

9

LINGUISTICA , DIALOGAR

PARA

PROCESSAMENTO

DE LINGUAS

É PRECISO

dispõe de ferramentas e recursos para quase todas as etapas da análise textu-

al automática, abarcando da toquenização ao parsing sintático e semântico, passando pela etiquetagem morfossintática, o chunking, o reconhecimento de entidades nomeadas (NER, do inglês Named Entity Recognition) e a classificação de textos. Apesar das vantagens do NLTK, dois fatores ainda impedem a sua ampla utilização no Brasil, sobretudo nos cursos de Letras e Linguística. Em primeiro lugar, o NLTK carece de mais recursos para o processamento do português, que só conta no momento com dois corpora anotados que podem ser manipulados amigavelmente por meio da interface nltk.corpus: a Floresta Sintá(c)tica e o MAC-Morpho. Por outro lado, inexistem nessa biblioteca modeÍos (language models) para a etiquetagem morfossintática e gramáticas do português, entre outras lacunas, como, por exemplo, a disponibilização de toquenizadores mais precisos ou que realizem a segmentação de contrações e ênclises. O outro fator que dificulta a difusão do NLTK entre estudantes e pesquisadores com pouca ou nenhuma experiência em programação é que, apesar da amigabi1idade de Python, tarefas como construir um toquenizador vocabular capaz de lidar com as várias especificidades do português ou treinar um etiquetador que alcance nível de acurácia próximo ao estado da arte e aplicá-lo na anotação de um corpus não são triviais, exigindo conhecimentos de programação de nível intermediário a avançado (ALENCAR, 2010,2011). Visando a aproximar a comunidade brasileira de Letras e Linguística das inúmeras facilidades oferecidas por Python e pelo NLTK para a análise automática de textos, iniciamos a implementação de dois pacotes em Python baseados, sobretudo, nessa biblioteca: o Aelius e o Donatus5. Esses nomes homenageiam o gramático latino Ae1ius Donatus, a quem a tradição gramatical do ocidente deve a classificação das palavras em nomes, verbos, adjetivos, preposições etc. Do termo latino partes orationis derivou a unidade polilexical do inglês parts o/ speech 'partes do discurso' (abreviada como POS) e o verbo to parse 'analisar', dois dos conceitos fundamentais da linguística computacional. O Aelius direciona-se para o processamento raso do português, en5 Disponíveis em <http://aelius.sourceforge.net/> <http://donatus.sourceforge. net/>. e

quanto o Donatus foca o processamento sintático profundo. Ambos objetivam não só fornecer recursos para o processamento do português por meio do NLTK, mas também simplificar a utilização dessa biblioteca na execução das principais tarefas da linguística de corpus e da linguística computacional, oferecendo, além disso, facilidades adicionais, pelo que esperamos que venha a ser útil também para programadores. Neste artigo apresentamos aspectos mais recentes do Aelius não cobertos em trabalhos anteriores (ALENCAR, 2010, 2011), focando duas etapas prévias fundamentais da análise automática de textos e anotação de corpora linguísticos: a toquenização e a etiquetagem morfossintática, que, ao lado do chunking, integram o que se convencionou chamar de processamento raso da linguagem natural. Caixas de ferramentas para as tarefas básicas do PALN A faculdade da linguagem tem uma natureza modular. Dessa forma, o conhecimento de um falante a respeito de sua língua é subdividido em diferentes níveis de análise, dependendo do tipo de unidade envolvida, constituindo as diferentes subdisciplinas da linguística, como fonologia, morfologia, sintaxe e semântica. Uma compartimentalização' análoga ocorre no PALN. Aplicações complexas como tradutores automáticos e sistemas de extração de informações a partir de textos escritos compreendem, tipicamente, módulos para análise em nível lexical, sintático e semântico, integrando uma "linha de produção" (pipeline numa tradução livre) ou fluxograma com uma das configurações de (1) e (2), entre outras possibilidades, dependendo da aplicação e do tipJ de arquitetura adotado (BIRD; KLEIN; LOPER, 2009; JURAFSKY; MARTIN, 2009; DALE, 2010). Para a linguística, o fluxograma (2) é de especial interesse, sobretudo porque representa as diferentes etapas em q~e comumente se decompõe a tarefa de compilação de um corpus semantIcamente anotado, como, por exemplo, um chamado banco de proposições (PropBank) (HAJICOV Á et aI., 2010). (1) pré-processamento> toquenização > etiquetagem morfossintática > chunking> reconhecimento de entidades nomeadas> extração de relações (2) pré-processamento> toquenização > etiquetagem morfossintática

11

10

,
DIALOGAR

É PRECISO
LINGUISTICA PARA' PROCESSAMENTO DE LINGUAS

(POS tagging) > parsing sintático profundo (ou completo) > análise semântica Para a execução de tarefas de análise automática de textos relacionadas aos diferentes componentes de (I) e (2), principalmente os módulos iniciais, existem, como se referiu acima, em torno de uma dezena de caixas de ferramentas (toolkits) que se classificam como FOSS, além de ferramentas especializadas para módulos individuais. A vantagem de utilizar uma dessas caixas de ferramentas em comparação com um conjunto de programas isolados é que oferecem uma interface comum para as diferentes tarefas e . viabilizam uma fácil integração entre os diferentes tipos de análise, permitindo que o output de um módulo constitua input para outro sem necessidade de adaptações. Um levantamento exaustivo das vantagens e desvantagens dessas diferentes caixas de ferramentas extrapolaria o âmbito do presente artigo. Nesse cenário, o NLTK sobressai pela atualidade, abrangência, facilidade de uso e popularidade, em termos de número de usuários como de cont~ibuidores. Como alternativas ao NLTK destacamos o FreeLing (PADRO; STANILOVSKY, 2012) e o Apache OpenNLp6, por integrarem modelos do português. Dado que a primeira biblioteca, embora possua uma amigável interface on-line útil para etiquetagem e parsing sintático raso de pequenos trechos, visa aos desenvolvedores e não aos usuários finais, limitamo-nos aqui a uma comparação entre o Aelius e o Apache OpenNLP. Essa última biblioteca possui uma interface de linha de comando acessível para aplicação, a textos em português, de modelos de toquenização sentencial, toquenização vocabular e etiquetagem morfossintática com base no conjunto de etiquetas do corpus Bosque (FLORESTA, 2009). A questão que se coloca é sobre a qualidade desses modelos, especialmente na segmentação e análise de textos de gêneros distintos dos que constituíram o corpus de treino. Esse é o tema da próxima seção, em que comparamos o desempenho do Apache OpenNLP com o do Aelius nesse quesito.

I

I
I

Aelius versus Apache OpenNLP português

na toquenização

e etiquetagem

do

I
r

I
r

I'

Em sua primeira fase, o Aelius dispunha apenas de modelos para etiquetagem morfossintática, classificados como nativos no Quadro I abaixo, , treinados por algum dos algoritmos de aprendizagem de máquina do NLTK em uma versão modificada do Corpus Histórico do Português Tycho Brahe (GALVES; FARIA, 2010) (doravante CHPTB-M), conforme descrito em Alencar (2010). Em seguida, com a disponibilização de interfaces do NLTK para o HunPos(HALÁCSY; KORNAI; ORAVECZ, 2007) e o StanfordTagger (TOUTANOVA et al., 2003), não só começamos a treinar modelos para esses etiquetadores, como também desenvolvemos interface para o MXPOST (RATNAPARKHI, 1996), ao mesmo tempo em que procuramos diversificar os conjuntos de etiquetas utilizados pelo Aelius e os tipos de texto que é capaz de etiquetar com precisão ao menos próxima do estado da arte de 96%-97% (mRAFSKY; MARTIN, 2009, p. 189). Desse modo, visando à etiquetagem de textos em português do Brasil atual, treinamos, no HunPos, modelo baseado no MAC-Morph07 que alcançou bons resultados. O Quadro 1 mostra o estado atual da etiquetagem morfossintática pelo Aelius8• Salvo indicação contrária, utilizou-se, como conjunto de teste para avaliar os modelos, os oitos primeiros capítulos do romance Luzia-Homem, de Domingos Olímpio, publicado pela primeira vez em 1903, no Rio de Janeiro (OLÍMPIO, 2007). A escolha desse conjunto de teste se deve ao grande número de textos de literatura brasileira que constituem domínio público e estão disponíveis na WWW, mas que ainda não integram um corpus anotado e, portanto, não podem ser adequadamente explorados no âmbito de disciplinas diversas como sociolinguística, análise literária e tradutologia. Todos os modelos, exceto o LX-Tagger (BRANCO; SILVA, 2004), disponibilizado gratuitamente, mas sob licença que impede a redistribuiçãbde produtos derivados9, integram a distribuição do Aelius e, por isso, são classificados no Quadro 1 como internos.
7 O MAC-Morpho é um corpus de textos da Folha de São Paulo do ano 1994, perfazendo, na sua versão destinada ao treino de etiquetadores, 1.221.468 palavras (LÁCIO -WEB, [s.d.]). ,80s textos etiquetados pelos diferentes etiquetadores bem como versões corrigidas atualizadas serão disponibilizadas no site do Aelius. 9 URL: <http://lxcenter.di.fc.ul.pt/tools/en/conteudo/LXTagger.html> .

6

URL: <http://opennlp.apache.orgl>.

12 13

DIJ.\LOGJ1.R É PRECISO

UNGUISTICA

PARA PROCESSAMENTO DE LINGUAS

Mouelo AeliusRlIBT.pkl AelillsBRUBT.pkl AeliusHunPos AelillsMaxEnt AeliusStanfordMM* AeliusHunPosMM* LX-Tagger*

Acurácia 95,29% 95,30% 96,35% 95,81% 92,60% 97,17% 97,71%

Interno
sim

Corpus de Treino CHPTB-M CHPTB-M CHPTB-M CHPTB-M MAC-Morpho MAC-Morpho CINTIL

Arquitetura de aprendizagem máquina I linguagem nltk.TrigrammTagger / Python

de

Nativo sim sim
não não não não não

sim sim sim sim sim não

nltk.FastBrillTaggerTrainer HunPos / OCam! MXPOST / Java StanfordTagger I Java HunPos / OCaml MXPOST / Java

/ Py!hon

Quadro I: Modelos para etiquetagem morfossintática por meio do Aelius. Os modelos assinalados com * foram avaliados com base na etiquetagem do texto Upral (2012).

IOLE 2.6.5 »> import l)S »> os.chdir(" ../an·alises") »> t ••"lipraLedt.txt" »> from Aelius import Extras, Toqueniza, AnotaCorpu$ »> mm-Extras.carrega("AelíusHunPosMacMorpho li) »> AnotaCorpus.anota.-texto(t,mm, "hunpos" ,Toqueniza.TOK-PORT _MM,separacao_contracoes- True) Arquivo anotado: Iipral.edt.hunpos,txt . »> Ix-El<tras.carrega{"lxtagger") »:> AnotaCorpus.anota_tel<to( t,lx, li mxpost", Toqueniza.TOK-PORT _LX,separacao_contracoes.. True) Arquivo anotado: . Iipral.edt,mxpost.txt »> s-Extras.carrega(" AeliusStanfordMM.tagger") »:> ÁnotaCorpus.anota_tel<to( t,s, "stanford", Toqueniza. TOK-PORT_MM,separacao_contracoes- True) Arquivo anotado: Iipral.edt.. stanford. tl<t
»>"

Para não programadores ou iniciantes em programação, a primeira vantagem do Aelius é permitir etiquetar um texto conforme modelos treinados por diferentes programas, de arquiteturas distintas, implementados em diversas linguagens de programação, utilizando uma única interface, como vemos na Figura 1 abaixo. Uma importante dificuldade, principalmente para o alunos de Letras e Linguística, que o Aelius contorna é que os principais corpora do português utilizam estratégias diferentes de toquenização. Por conta disso, um etiquetador morfossintático treinado no Corpus Histórico do Português Tycho Brahe, por exemplo, exige que as contrações não sejam separadas, contrariamente a um modelo treinado no MAC-Morpho. No Aelius, o usuário não precisa se preocupar em toquenizar previamente o texto, bastando, para tanto, especificar o toquenizador adequado para cada modelo. O método clássico de avaliação de uma estratégia de aprendizagem de máquina no âmbito da etiquetagem morfossintática é a técnica da múltipla validação cruzada (JURAFSKY; MARTIN, 2009). O problema do treino de um etiquetador em um corpus uniforme e relativamente pequeno (de menos de 200.000 itens lexicais) como o Bosque, constituído de text9s de apenas dois jornais (o brasileiro Folha de São Paulo e o português Público), é que um alto índice de acurácia obtido por meio dessa metodologia não garante, necessariamente, um desempenho igualmente alto em textos de natureza muito diferente daqueles que constituem o corpus de treino. Aparentemente não há informações disponíveis a respeito da acurácia dos dois modelos do Apache OpenNLP para a etiquetagem morfossintática do português. No entanto, um teste desses modelos com a etiquetagem dos dois primeiros parágrafos de Luzia-Homem (amostra CONJ1) parece corroborar a expectativa de que um modelo treinado em textos jornalísticos da década de

Figura I: Etiquetagem

do texto Upral (2012) no Aelius por meio de três etiquetadores diferentes.

Amostras

Modelos AeliusHunPosMM AeJiusStanfordMM AeliusBRUBT.pkl AeliusHunPos AeliusMaxEnt LX-Tagger pt-pos-maxent.bin

CONJ1 (128 palavras): dois par~grafos iniciais de Luzia-Homem(1903) (OLÍMPIO, 2007) 94,71% 87,06% 96,84% 97,47% 96,20% 95,27% NoTok 80,13%· Tok 90,59%

CONJ2 (619 palavras): texto de português do Brasil atual (LIPRAL, 2012) 97,17% 92,60% 94,36% 91,76% 93,93% 97,71% NoTok 87,50% Tok 95,82% NoTok 87,06% Tok 95,69%

pt-pos-perceptron. bin

NoTok 83,33% Tok 90,59%

Tabela 2: Acurácia de modelos do Aelius e dos dois modelos do Apache OpenNLP na etiquetagem morfossintática de duas amostras. NoTok=contrações e ênclises não separadas pelo toquenizador do OpenNLP, Tok = contrações e ênclises separadas manualmente.

1990 apresenta queda de acurácia quando aplicado a um texto literário de época bastante anterior. Uma comparação entre os índices de acurácia dos dois modelos treinados no MAC-Morpho vai, igualmente, ao encontro dessa hipótese. Por outro lado, os dados relativos aos modelos treinados no CHPTB-M, especialmente no caso do AeliusHunPos, sugerem que o inverso também é verdadeiro.

14
.." ..•••• __ -..e:

15

OlALOGAR É· PRECISO

LINGUISTICA PARA PROCESSAMENTO DE LINGUAS

Na amostra CONJl, que perfaz 156 tokens (sem toquenização das contrações e ênclises); os modelos pt-pos-maxent.bin e pt~pos-perc~ptron. bin, aplicados sobre o output dos toquenizadores sentencial e vocabularéles.: sa biblioteca, alcançaram, respectivamente, índices de acurácia de 80.13% e 83.33%. Em (3), reprOduzimos: a prirneira sentença etiquetada .conforme o modelo pt-pos-maxent.bin, assinalando, com @, os erros cometidos, seguidos da etiqueta correta. Dos 6 erros cometidos nesSe trecho, 3 se devem à não toquenização de contrações. Compare-se essa anotação com a doAeliusHunPosMM em (4), pela qual se pode constatar que a toquenizlilção do Aelius é menos trivial do que a do OpenNLP, uma vez que, n()primeiro caso, é realizada a separação de contrações. Também os pronomes enclíticos são separados das formas verbais pelo AeIius, em conformidade com o padrão do MAC-Morpho. . .
(3) O_art morro_n do_v-ger@prp+art Curral--'prop do_v-pep@prp+art Açougue_ prop emergia _ n@v-fin em--'prp suave _ n@adj declive -,v~fin@n da _ v-pep@prp+art eampina_nondulada _ v-pep .--'pune (4) OIART morrolN de/PREPI+ o/ART CurrallN@NPROP de/PREPI+ o/ART AçouguelN@NPROP emergiaIV em/PREP suave/ADJ deelivelN deIPREPI+ alART eampinaIN onduladalPCP I

Na mesma amostra, o AeliusHunPosMM alcançou acuracla de 94.71 %, não muito longe do estado da arte de 96%-97%, e não foram cometidos erros de toquenização. Isso sugere que um modelo treinado num tipo de texto pode alcançar bons resultados em textos de tipo e época diferentes, se o algoritmo de aprendizagem de máquina é eficiente (o que é o caso do HunPos) e/ou o corpus de treino é suficientemente extenso (o que se aplica ao MAC-Morpho). Nesse contexto, surpreende a dramática redução da acurácia do AeliusHunPos quando aplicado no CONJ2, em comparação com os valores obtidos no romance Luzia-Homem (ver Quadro 1 e Tabela 1). O toquenizador do Aelius também lida corretamente com casos de ponto em abreviaturas no interior de sentenças, como no exemplo (5), etiquetado pelo AeliusHunPosMM, ao passo que a ferramenta análoga do OpenNLP, como se pode verificar em (6), indevidamente separa o ponto da abreviatura no nome Leonel F de Alencar:
(5) LeonellNPROP F.INPROP delNPROP AlenearlNPROP (6) Leonel--'prop F--'prop .--'pune de_prp Alenear--'prop

Na terceira coluna da Tabela 1, pode-se constatar que, na etiquetagem de um texto de 743 tokens (619 palavras) em português do Brasil contemporâneo, a vantagem do Aelius sobre o Apache OpenNLP aumenta significativamente, com o AeliusHunPosMM atingindo o estado da arte com um índice de acurácia de 97.17%, quase dois pontos percentuais acima do que o modelo pt-pos-maxent.bin alcançou na etiquetagem de versão do texto toquenizada manualmente. Usando as ferramentas de toquenização do próprio Apache OpenNLP, a acurácia da etiquetagem cai para menos de 88%. O LX -Tagger, usado a partir do Aelius, apresenta, com 97.71 %, a maior precisão no CONJ2 e tem um desempenho muito bom também no CONJl. No extremo oposto está o AeliusStanfordMM, que, entre os modelos do Aelius, teve o desempenho mais baixo na etiquetagem do CONJl e o segundo mais baixo no CONJ2. Esse resultado surpreende, quando se leva em conta que o StanfordTagger alcançou 97.24% de acurácia no Penn Treebank WSJ (TOUTANOVA et aI., 2003). Em conclusão, as ferramentas de toquenização do Aelius para o português são muito superiores aos recursos análogos do Apache OpenNLP. No que tange à etiquetagem morfossintática, o AeliusHunPosMM saiu-se melhor num conjunto de teste pequeno, constituído de dois únicos textos. Embora uma amostra maior seja necessária para uma avaliação mais conclusiva, não se pode negar que o Aelius, para o usuário final, constitui uma alternativa ao Apache OpenNLP, até pela possibilidade de utilizar ferramentas de diferentes procedências numa mesma interface. Nesse contexto, destacase o LX- Tagger, que, utilizado por meio do Aelius, atinge índice de acurácia de 97,71% no CONJ2, acima dos 97,17% obtidos pelo AeliusHunPosMM. A vantagem deste modelo sobre aquele, porém, é que constitui FOSS. Considerações finais

Partimos da constatação de que há, no Brasil, um descompasso entre a linguística e a informática, prejudicial a ambas as áreas. Para superar o fosso que separa estudantes e pesquisadores da área de Letras das facilidades para o processamento automático de textos proporcionadas por diversas bibliotecas livremente disponíveis e como forma de iniciação na linguística computacional, iniciamos o desenvolvimento do Aelius e do Donatus, pacotes em Python baseados no NLTK com diversas ferramentas para toquenização

16.

17

f DIALOGAR É PRECISO

i ,

r

LINGUISTICA PARA PROCESSAMENTO DE LINGUAS

I
e anotação de textos em diversos níveis. Esses pacotes visam a tornar ainda mais fácil o uso da biblioteca NLTK por não programadores, ao mesmo tempo'em que a complementam com uma série de recursos voltados especificamente para a língua portuguesa. Neste artigo, focamos os novos recursos, do Aelius para a toquenização e etiquetagem morfossintática do português, comparando-os com os oferecidos pela biblioteca Apache OpenNLP, aparentemente a caixa de ferramentas para o PALN que mais se aproxima do NLTK. Nessa comparação, o Aelius revelou-se uma alternativa superior ao Apache OpenNLP, no que concerne à toquenização e etiquetagem morfossintática do português, não só por apresentar melhor acurácia, mas também por permitir anotar textos morfossintaticamente segundo estratégias diferentes de toquenização e conforme conjuntos de etiquetas distintos. t

Referências ALENCAR, L. F. de. Aelius: uma ferramenta para anotação automática de corp6ra usando o NLTK.ln: ENCONTRO DE LINGUÍSTICA DE CORPUS, 9., 2010, Porto Alegre. Apresentações. [S.l.: s.n.], 2010. Disponível em: <http://corpuslg.org/gelc/elc2010.php>Acesso em: 22 set.·2011. ALENCAR, L. F. de. Utilização de informações lexicais extraídas automaticamente de corpora na análise sintática computacional do português. Revista de Estudos da Linguagem, Belo Horizonte, v. 19, n. 1, p. 7-85,2011. ALENCAR, L. F. de. Línguas formais, gramáticas e autômatos no processamento automático das palavras. In: ALENCAR, L. F. de; OTHERO, G. A. (Org.). Abordagens computacionais da teoria da gramática. Campinas, SP: Mercado de Letras, 2012, p. 13-75. BIRD, S.; KLEIN, E.; LOPER, E. Naturallanguage processing with Python: analyzing text with the Natural Language Toolkit. Sebastopol: O' ReiIly, 2009. BRANCO, A.; SILVA, J. Evaluating Solutions for the Rapid Development of State-of-the-Art POS Taggers for Portuguese. In: INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION, 4., 2004, Lisboa. Proceedings ... Paris: ELRA, 2004, p. 507-510. DALE, R. Classical approaches to Natural Language Processing. In: INDURKHYA, N.; DAMERAU, F. J. (Ed.). Handbook o/Natural Language Processing. 2. ed. Boca Raton: CRC, 2010, p. 3-7. FLORESTA Sintá(c)tica. [S.I.]: Linguateca, 2009. Disponível em: <http://www.Iinguateca.pt/ftoresta/corpus.html> Acesso em: 12 dez. 2012. GALVES, c.; FARIA, P. Tycho Brahe Parsed Corpus o/ Historical Portuguese. [S.I.: s.n.], 2010. Disponível em: <http://www.tycho.iel.unicamp.br/~tycho/corpus/en/index.html> Acesso em: 13 dez. 2012. HAJICOV Á, E. et aI. Treebank ilOnotation. In: INDURKHYA, N.; DAMERAU, F. J. (Ed.). Handbook o/Natural Language Processing. 2. ed. Boca Raton: CRC, 2010, p. 167-188. HALÁCSY, P.; KORNAI, A.; ORAVECZ, C. HunPos: an open source trigram tagger. In: ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 45., 2007, Praga. Proceedings ... Stroudsburg: Association for Computational Linguistics, 2007, p. 209-212.
19

I
.11.
f t I
t
I.·

18
.~, ,

JURAFSKY, D.; MARTIN, J.H. Speech and language processing: an introduction to natural language processing, computationallinguistics, and speech recognition. 2. ed. Londres: Pearson International, 2009. LÁCIO-WEB: MAC-Morpho. São Paulo: NILC, [s.d.]. Disponível em: <http://www.nilc.icmc.usp.br/lacioweb/macmorpho.php> Acesso em: 12 dez. 2012'. LIPRAL 2012: Visão geral. Vitória: UFES, 2012. Disponível em: <http://eventos .tifes. br/index. php/I ipral/LiPr AL20 12/schedConf/ overview> Acesso em: 7. dez. 2012. OLÍMPIO, D. Luzia-Homem. [S. I. : s. n.], 2007. Disponível em: <http://pt.wikisource.org/wikilLuzia-Homem> Acesso em: 11 fev; 2011. PADRÓ, L.; STANILOVSKY, E. FreeLing 3.0: Towards Wider Multilinguality. In: INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION, 8.,2012, Istanbul. Proceedings ... [S.I.]: ELRA, 2012. Disponível em: <http://www.lrec-conf.org/proceedings/lrec2012>. Acesso em: 14 dez. 2012. RATNAPARKHI, A. A Maximum Entropy Model for Part-Of-Speech Tagging. In: EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING, 1996, Philadelphia. Proceedings ... Pennsylvannia: University ofPennsylvannia, 1996, p. 133-142. Disponível em: <http://acl.ldc. upenn.edu/W/W96/W96-0213.pdf> Acesso em: 2. Jun. 2011. TOUTANOVA, K. et aI. Feature-Rich Part-of-Speech Tagging with a Cyclic Dependency Network. In: HLT-NAACL, 2003, Edmonton. Proceedings ... [S. I. : s. n.], 2003, p. 252-259. Disponível em: <http://nlp.stanford. edu/~manning/papers/tagging.pdf> Acesso em: 14 dez. 2012.

ENTE WEB PARA ELABORAÇÃO DE PRODUTOS TERMINOLÓGICOS: E-TERMOS
GLADISMARIA DE BARCELLOS ALMEIDA (UFSCAR) LEANDROHENRIQUE MENDONÇA DE OIVElRA (EMBRAPA) Resumo: O e-Termos' é um ambiente computacional colaborativo Web de acesso livre e gratuito, dedicado à gestão terminológica. Resultado de um projeto de pesquisa envolvendo três instituições públicas brasileiras seu principal objetivo é viabilizar a criação de produtos terminológicos, s~jam eles para fins de pesquisa acadêmica, de divulgação ou de ensino, por meio da (semi)automatização das etapas do trabalho terminológico. Apoiado nos pressupostos teóricos de uma terminologia descritiva de base linguística, o e-Termos implementa seis etapas de trabalho, as quais representam as fases de criação de produtos terminológicos. Cada etapa de trabalho abriga tarefas específicas e inerentes à confecção desses produtos, sendo atreladas a elas diferentes ferramentas computacionais. Neste texto, pretende-se apresentar detalhadamente o referido ambiente, bem como as melhorias a serem implementadas. Palavras-chave: Terminologia. Produto terminológico. Ambiente de gestão terminológica. 1. Introdução Existe em geral uma carência de recursos computacionais que sistematizem o trabalho terminológico. Os profissionais que desenvolvem produtos terminológicos operam, na maioria das vezes, com ferramentas adaptadas, não elaboradas especificamente para a finalidade de suas pesquisas e/ ou atividades .

],

.
j

,
~ .

.í;

Conferir em <www.etermos.cnptia.embrapa.br>.

Sign up to vote on this title
UsefulNot useful