Escolar Documentos
Profissional Documentos
Cultura Documentos
ALENCAR, Leonel Figueiredo de. Aelius: uma ferramenta para anotação automática de corpora usando o NLTK. In:
IBAÑOS, Ana Maria T.; MOTTIN, Lívia Pretto; SARMENTO, Simone; BERBER SARDINHA, Tony (Orgs.). Pesquisas e
Perspectivas em Linguística de Corpus. Campinas: Mercado de Letras, 2015. p. 233-282.
Resumo:
Abstract:
1. Introdução
2. Contextualização
O termo partes orationis forneceu a base para duas das mais centrais noções
da lingüística computacional: parts-of-speech ‘classes de palavras’, objeto da
etiquetagem morfossintática (POS tagging em inglês) e parsing (anglicização do
termo latino pars ‘parte’), a análise automática da sentença em constituintes
menores (sintagmas).
4.1. Arquiteturas
Esse erro deixa de ocorrer quando eliminamos a distinção entre VP-RA e VP-
P, o que pode ser facilmente verificado reexecutando os comandos apropriados
acima com as modificações necessárias. Esse exemplo evidencia que uma maior
granularidade das distinções modeladas pelo conjunto de etiquetas pode levar a
uma menor acurácia desse tipo de arquitetura de etiquetadores baseados em n-
gramas. Para compensar a maior granularidade, é necessário aumentar
significativamente o corpus de treino. 8
5. Objetivos
6. O pacote Aelius
c) um TnT
>>> ProcessaCorpus.AnotaTexto(rubt,"isaias.txt","amostra",formato="xml")
Exemplo 1
Figura 8: Anotação em xml do Aelius visualizada no programa Syntex Serna
[('luzia', 'VB-D'), ('encontrara', 'VB-RA'), ('em', 'P'), ('Sobral', 'NPR'), ('abrigo', 'N'),
('e', 'CONJ'), ('f\xc3\xa1ceis', 'ADJ-G-P'), ('meios', 'N-P'), ('de', 'P'), ('subsist\xc3\
xaancia', 'N')]
Exemplo 3: Erro de omissão na etiquetagem de nomes próprios. A palavra Luzia,
minusculizado, deixa de ser reconhecido como nome próprio, sendo falsamente
etiquetado como verbo.
7. Conclusão
Referências bibliográficas
ALENCAR, L. F. de. CORPTEXLIT – Corpus de Língua Portuguesa de Textos
Literários do Século XIX. Fortaleza: [s.n.], 2011. Disponível em:<
http://www.leonel.profusehost.net/corptext.html> Acesso em: 30. set. 2010.
BIRD, S.; KLEIN, E.; LOPER, E. Natural language processing with Python: analyzing
text with the Natural Language Toolkit. Sebastopol, CA: O’Reilly, 2009.
BRANCO, A.; SILVA, J. 2004. Evaluating Solutions for the Rapid Development of
State-of-the-Art POS Taggers for Portuguese. In: LINO, M. T. et al. (Eds.). Paris:
ELRA, 2004, p. 507-510.
CHUN, W. J. Core Python programming. 2. ed. Upper Saddle River, NJ: Prentice
Hall, 2006.
______; ______; ______. Comparison of Unigram, Bigram, HMM and Brill’s POS
Tagging Approaches for some South Asian Languages. Dhaka, Bangladesh: Center
for Research on Bangla Language Processing, BRAC University, 2007. Disponível
em: < http://www.bracu.ac.bd/research/crblp/papers/POS_south_asian_clt07.pdf >
Acesso em: 24 nov. 2011.
PERKINS, J. Part of Speech Tagging with NLTK. [s.l.]: [s.n], 2008. Disponível em:<
http://streamhacker.com/2008/11/03/> Acesso em: 2 out. 2010.
______. Python Text Processing with NLTK 2.0 Cookbook. Birmingham, UK: Packt,
2010.
TEI CONSORTIUM. P5: Guidelines for Electronic Text Encoding and Interchange.
[s.l.]: [s.n], 2010. Disponível em: <http://www.tei-c.org/release/doc/tei-p5-doc/en/html/
index-toc.html> Acesso em: 12 fe. 2011.