Você está na página 1de 6

contedo do corpus.

Alm disso, com outras ferramentas pode-se efe-


tuar buscas de textos especficos baseados na informao presente nos
cdigos das etiquetas.
A etiquetagem do corpus consiste na insero de informaes refe-
rentes a cada unidade do texto (morfolgica, sinttica, semntica, dis-
cursiva). Por ser executada por computador, a etiquetagem automtica
permite o tratamento de grandes quantidades de texto rapidamente. O
tipo de etiquetagem visado aqui morfossinttco, baseado na explici-
tao da classe gramatical de cada palavra.
As etiquetas morfossintticas so, em geral, escritas aps cada
palavra e separadas da palavra em si por meio de um separador (um
cdigo ou caractere incomum na ortografia, por exemplo, casa_s,
onde _s significa etiqueta de substantivo). O primeiro sistema de eti-
quetagem morfossinttica foi o TAGGIT (99), com o qual foi feita a eti-
quetagem do corpus Brown.
A etiquetagem auxilia na desambiguao lexical. Por exemplo,
pela etiquetagem gramatical possvel saber se a palavra casa, isolada,
refere-se ao substantivo moradia ou forma do verbo casar. Essas for-
mas seriam etiquetadas: casa_s e casa_v, respectivamente. Alm disso,
a etiquetagem permite a descrio de padres lxico-gramaticais (35,
82,83).
H vrios conjuntos de etiquetas (tag sets) em utilizao, refe-
rentes a vrios formalismos (exemplos no Captulo 4 e em 88). Visan-
do a adoo de padres mnimos de consistncia na etiquetagem, o
Expert Advisory Group on Language Engineering Standards (Eagles)
sugere que o conjunto mnimo, para qualquer lngua europia
(incluindo, portanto, o portugus), deva corresponder s treze eti-
quetas seguintes:
EXEMPLO DE DESENHO DE CORPUS
1(ijIl;.1iJR!JOiPliI
I 151

j
ISignificado
Conjunto mnimo de etiquetas segundo Eagles.

(17; 151, p.7.)

I
-----------
Substantivo
-----------------
---__---_0._- __.__________________
v Verbo
f-------- -------------
AJ Adjetvo
f------------ --
PD PronomelDetermnante
f---
AT Artigo
-- ---
AV Advrbio
--
AP Aposo
--
e Conjuno
--
NU Numeral
I Interjeo
U nco
R Residual
---
PU Pontuao
Na prtica, entretanto, os conjuntos de etiquetas so definidos de
acordo com os propsitos dos criadores, refletindo e se adaptando aos
interesses especficos, e, como conseqncia, variam bastante de tama-
nho. O Quadro 5.3 mostra o tamanho do conjunto de etiquetas de
alguns corpora e etiquetadores.
Embora Eagles tenha recomendado um conjunto padro mnimo,
no h uma recomendao corrente acerca do tamanho ideal de um con-
junto de etiquetas. Visto que possvel acrescer ou reduzir um conjunto
depois de anotado o corpus, o que importa mesmo que o conjunto seja
criterioso, pois isso permitir o seu aumento ou diminuio (146). Um
,
5.6. ETIQUETAGEM
LlNGUISTICA DE CORPUS 150 I
152 I UI'JGuSTICA DE CORPUS EXEMPLO DE DESENHO DE CORPUS I 1
Quantidade de etiquetas de alguns corpora e etiquetadores,
ll'ti.Xim",
princpio prtico para projetos em fase inicial que o conjunto ser o mais
econmico possvel mais vantajoso, pois isso se traduz em maior facili-
dade e rapidez na anotao manual dos dados para treinamento. Alm
disso, um conjunto maior exige dados de treinamento maiores (28), o
que aumenta ainda mais o tempo despendido no treinamento e aper-
feioamento do etiquetador.
A relevncia maior da etiquetagem vem da possibilidade de ela ser
efetuada por computador em larga escala. Isso traz dois benefcios: a
etiquetagem de quantidades maiores de texto e; talvez mais impor-
ou r I Conjunto
I _
f . .. - ::
r ---=-- ..1
--t--
61
..... -I

J
Etiquetador de Birmingham I Ingls ---;9--- - I
---------l
1
_ I 150 -I
Etiquetador Xerox Portugus 66 I
2 Um exemplo o etiquetador Claws, que foi criado para o corpus LOB
(1982) e depois empregado para etiquetar o BNC (1995).
3 Ver seo 4.4, no Captulo 4, para uma descrio desse etiquetador.
o desafio para a etiquetagem do portugus a escassez de instru-
mentos disponveis. Os etiquetadores para a lngua portuguesa em
existncia relatados na literatura disponvel so em pequeno nmero:
aproximadamente meia dzia (Bick, 1996; Marques, N. M. c., 1995;
Marques, N. M. C. & Lopes, em prep.; Reis, 1996; Villavicencio, Mar-
ques, Lopes, & Villavicencio, 1995; Wittman & Ribeiro, 1998), dis-
tribudos em diversos centros do Brasil e Portugal. Embora haja
etiquetadores, nenhum colocado disposio de' usurios fora
desses centros, exceto em condies especiais, o que restringe a possi-
bilidade de etiquetagem de textos aos membros. O etiquetador do
projeto VISL o nico confivel dentre os disponveis on-line para a
nossa lngua.
3
!'r'- Etiquetadores regidos por regras (rule-based taggers): a desambiguao
feita por meio da aplicao de regras estruturais.
Etiquetadores probabilsticos (probabilistic): a desambiguao efetuada
pela observao das ocorrncias de etiquetas em um corpus.
Etiquetadores hbridos (hybrid): utilizam uma combinao de regras e
probabilidades para desambiguao.
tante, a possibilidade de etiquetagem de outros corpora. U seja, os
instrumentos computacionais criados para a etiquetagem de um cor-
pus no se encerram ao final do projeto no qual foram criados, mas
continuam a valer para outras pesquisas e pesquisadores em outras
pocas.
2
H um grande nmero de etiquetadores por computador em uso,
mas eles se encaixam em trs tipos bsicos:
1
45
34 Portugus
Portugus
Radiobrs
Lusa
(Adaptado em parte de 89,)
154 I L1!'IGuisnCA DE CORPUS
5.6.1. Etiquetadores multilnges -
o exemplo do QTAG
Embora valiosas, as ferramentas on-line so imprprias para lidar
com quantidades grandes de texto como as previstas nesse projeto, pois
aceitam apenas trechos reduzidos de texto de cada vez. Da a importn-
cia do acesso a um etiquetador instalado em uma mquina local.
A criao de um etiquetador computacional novo uma tarefa
complexa que exige, entre outras coisas, grande conhecimento de pro-
gramao na rea de Processamento de Linguagem Natural. Feliz-
mente, h uma alternativa: a utilizao de etiquetadores multilnges
como, por exemplo, QTAG (166) e TnT (45). Estes etiquetadores fazem a
etiquetagem de qualquer idioma desde que sejam fornecidas infor-
maes especficas relativas lngua-alvo que se deseja etiquetar. No
caso desse projeto, a escolha mais adequada recai sobre o etiquetador
QTAG, porque multiplataforma, operarando em Java.'
O QTAG funciona probabilisticamente com dois elementos princi-
pais: o etiquetador em si, que genrico, e as instrues de etique-
tagem, que so especficas de cada idioma. Por ser probabilstico, no
necessita de regras lingsticas pr-definidas, o que facilita sua imple-
mentao em uma lngua nova. As instrues de etiquetagem so
reunidas em um arquivo conhecido por language model (modelo
lingstico). As instrues consistem, basicamente, do conjunto deeti-
quetas e de um conjunto de probabilidade de transies entre etique-
tas, codificados de modo que o etiquetador possa l-los.
O etiquetador fornecido com a distribuio do programa, mas as
informaes especficas que permitem ao etiquetador processar um
idioma especfico (modelo lingstico) devem ser criadas pelo pes-
quisador (ou obtidas prontas de alguma outra fonte). J h modelos
desenvolvidos e disponveis na Internet para ingls e alemo; a apli-
, Ver seo 4.1.4, no Captulo 4, para uma descrio sobre instalao e
operao do etiquetador QTAG. o
L
EXEMPLO DE DESENHO DE CORPUS I 155
cao para o romeno ainda est em preparao (239), e no h mode-
los para o QTAG conhecidos, em desenvolvimento ou no, para o por-
tugus. O presente projeto, seria, ento, pioneiro.
Para criar os modelos de etiquetagem especficos para uma lngua,
necessrio treinar o etiquetador, o que se consegue rodando o pro-
grama em textos etiquetados e/ou corrigidos manualmente. O treina-
mento do etiquetador a aquisio da informao necessria para
desempenhar sua funo: durante o treinamento o etiquetador ali-
mentado com sentenas j etiquetadas e, ao process-las, extrai a infor-
mao necessria para etiquetar outros textos.
Existem tambm etiquetadores treinveis em dados no-etiqueta-
dos (por exemplo, 67), mas o QTAG no desse tipo; e, portanto, no
possvel prescindir de um corpus de treinamento etiquetado. A quanti-
dade de dados necessrios para o treinamento varia. Segundo Lezius et
aI. (154), vrios etiquetadores para o alemo foram treinados em cor-
pora que variavam de 20 mil (o mais comum) a 200 mil palavras (mais
raro). A implementao do QTAG para o romeno foi treinada em um cor-
pus de 245 mil palavras (239). O ndice de acerto variou de 96 a 98%.
Um aumento na quantidade de dados de treinamento auxilia o
desempenho do etiquetador. Villavicencio et aI. (240) melhoraram a
confiabilidade do seu etiquetador de 70 para 84,5% quando passaram
de um corpus de treinamento (usado para aprimorar o etiquetador) de
700 para 13 mil palavras.
O treinamento cclico:
1) Etiquetam-se os dados de treinamento (em geral manualmente).
2) Geram-se os modelos lingsticos.
3) Etiqueta-se um outro conjunto de dados com base nestes modelos.
4) Valida-se o desempenho do etiquetador comparando os resultados com
um corpus de referncia etiquetado.
5) Se a taxa de acerto no for satisfatria, volta-se a (1) e repete-se o ciclo. ou
encerra-se o treinamento.
156! L1NGUiSTICA DE CORPUS
Quando for atingido um ponto em que o pesquisador se sinta
satisfeito com a taxa de acerto do etiquetador, este estar pronto para
ser aplicado no corpus-alvo e tambm em outros dados. Mas se o
treinamento finito, o aperfeioamento do etiquetador, na verdade,
deve ser contnuo: os dados referentes taxa de acerto do etiquetador
devem ser sempre monitorados.
Os etiquetadores computacionais possuem validade na medida em
que desempenham sua funo com confiabilidade, medida por sua taxa
de acerto, isto , a quantidade de etiquetas colocadas corretamente em
relao ao total de etiquetas implantadas. A taxa corrente dos melhores
etiquetadores est em torno de 97%, ou seja, apenas trs entre cada cem
etiquetas, normalmente, est errada.
Uma crtica feita a esses nmeros que eles levam em conta
palavras no-ambguas, isto , que nunca podem ser etiquetadas erro-
neamente (por exemplo, eu, que sempre ser pronome pessoal, ou a vr-
gula) (130); quando se computa apenas as palavras gramaticalmente
ambguas, as taxas caem. Vrias medidas foram propostas para se avaliar
o desempenho dos etiquetadores (239) como, por exemplo, contagem
de palavras ambguas apenas, e desconsiderao da pontuao, mas no
h consenso acerca de qual seria a mais adequada (167). Por outro lado,
possvel dizer que no h palavras 100% no-ambguas j que a lin-
guagem permite a ocorrncia de usos como a palavra eu... , no qual eu
funciona como substantivo no como pronome (157) e, portanto, as
estatsticas devem incluir a contagem de todas as etiquetas.
5.7. COMENTRIOS F I ~ A I S
Este captulo apresentou consideraes relativas compilao de
um corpus computadorizado de portugus voltado para a linguagem
profissional. Embora se refiram a um projeto especfico em curso no
mbito do projeto Direct, o conjunto das decises apresentadas aqui se
mostra relevante para outras situaes, incluindo a criao de corpora
de outras lnguas e com outro perfil. /
EXEMPLO DE DESENHO DE CORPUS I 1 5 ~
Foram apresentadas recomendaes relativas a extenso, amostra-
gem, organizao e distribuio das variedades de texto no corpus.
Alm disso, foi discutido o plano para a anotao do corpus, incluindo
a etiquetagem gramatical e o desenvolvimento de recursos para etique-
tagem do portugus. Espera-se que as recomendaes feitas aqui sejam
vlidas para uma ampla gama de pesquisadores em outros contextos
cujos projetos envolvam, em maior ou menor grau, a compilao de
um corpus computadorizado.
~
1
6
Freqncias de palavras da
lngua portuguesa segundo o
Banco de Portugus
6.1. INTRODUO
No captulo anterior foi apresentado o processo de plane-
jamento, coleta e anotao de um corpus de portugus.
Coletado o corpus, uma das informaes que se pode
extrair mais prontamente so as freqncias das palavras,
usando um listador de palavras como o WordSmith Tools,
apresentado no Captulo 2. Embora seja relativamente fcil de
conseguir (dispondo-se dos programas adequados), a infor-
mao freqencial bastante vlida. Este captulo apresenta
uma anlise das freqncias do corpus Banco de Portugus
(citado no Captulo 1). Ao contrrio do corpus comentado no
captulo anterior, o Banco de Portugus um corpus de lin-
guagem geral, e, portanto, a anlise das freqncias que ele
comporta so de interesse para o entendimento da lngua
como um todo, tomados os devidos cuidados para no se fazer
generalizaes no-autorizadas.
160 OE CORPUS
Uma das utilidades da anlise de freqncias de um corpus grande
e geral como o Banco de Portugus permitir que se determine quais
palavras so freqentes e quais so raras. Essa informao no trivial,
pois no se pode obt-la de outro modo, j que o ser humano no
cognitivamente preparado para armazenar esse tipo de informao:
o ser humano, ao contrrio do que em geral se pensa, no bem organizado
para isolar conscientemente o que central e tpico da linguagem; aquilo
que incomum percebido imediatamente, mas os eventos costumeiros do
dia-a-dia so apreciados subliminarmente. (223, p.151, traduo do autor.)
Portanto, para saber qual a probabilidade de ocorrncia de um
trao ou estrutura, necessria a observao emprica da freqncia de
emprego por diversos usurios em contextos definidos. A intuio de
falante nativo notadamente inadequada para fornecer tal informao,
no permitindo que sirva para informar com exatido a freqncia
exata de uma palavra.
6.2. LISTAS DE FREQNCIA DE
PALAVRAS
As listas de freqncias de palavras (tambm conhecidas por
dicionrios, em alguns contextos) so instrumentos valiosos e, por isso,
costumam ser publicadas de diversas maneiras: integralmente em um
volume especializado, parcialmente em conjunto com outros trabalhos,
eletronicamente na Internet, com comentrios ou apenas com o con-
tedo lexical e numrico. H listas de freqncia disponveis para
diversas lnguas.
No caso do ingls, o levantamento freqencial pioneiro o de
Edward Thorndike (l921). Lanada h mais de 80 anos nos Estados
Unidos, sua lista, baseada em um corpus de 4,5 milhes de palavras,
1
FREQLJt:NCIAS DE PALAVR/,S D,"" lNGUA PORTUGUESA i 1
visava fornecer subsdios para a preparao de materiais de ensino de
leitura. Mais tarde, em 1944, outra verso da lista foi publicada, com a
colaborao de Irving Lorge, contendo 18 milhes de palavras. Essas
listas, incluindo a General Service List of English Words, publicada em
1953 por Michael West (que se valeu do trabalho de Thorndike e
Lorge), foram produzidas manualmente, pois no havia computador
na poca para automatizar a tarefa. Com o aparecimento dos
primeiros computadores, houve uma retomada desses trabalhos:
Kucera e Francis (137) publicaram anlise freqencial do ingls ameri-
cano, usando o corpus Brown; depois Carroll et aI. (52) lanaram o
American Heritage Word Frequency Book, seguidos de Johansson e
Hofland (118), que tabularam as freqncias do corpus LOB. A lista
mais recente a do British National Corpus (150).
Muitas listas da lngua inglesa foram aparecendo em formato digi-
tal atravs da Internet, sem ser publicadas. o caso das fornecidas por
Adam Kilgariff, oriundas do BNC. Vrios levantamentos freqenciais
tambm surgiram integrados a obras de Lingstica de Corpus, como
as disponveis em Kennedy (130).
Alphonse Juilland publicou, sozinho ou em parceria com outros
estudiosos, uma srie de frequency dictionaries de lnguas neolatinas. O
referente ao espanhol foi lanado em meados dos anos de 1960. Logo a
seguir veio o do romeno, seguido anos mais tarde pelo do francs, ter-
minando com o Frequency dictionary afItalian words, lanado em 1973.
Juilland ainda foi editor da srie da editora Mouton, encarregada da
publicao de um dicionrio de freqncias do chins (155). Infeliz-
mente, no foi includo na srie um dicionrio referente ao portugus,
embora Juilland parea ter tido essa idia em seus planos (181).
H relatos de algumas listas de freqncia em portugus. Uma das
primeiras foi a de Kelly (128), que listava apenas 500 palavras. Outra
pioneira a Frequency dictionary of Portuguese words, preparada por
Duncan (1972) como parte de sua tese de doutoramento em Stanford,
a partir de um corpus de portugus europeu com 500 mil palavras. No
Brasil, Maria Tereza Camargo Biderman preparou listas de freqncias

Você também pode gostar