Escolar Documentos
Profissional Documentos
Cultura Documentos
2.1.2.1 Introdução
1
Versão de demonstração (3.0). Disponível em: <http://www.lexically.net/downloads/download.htm>.
Entende-se por etiquetagem (ou anotação2) a inserção automática, semi-automática
ou manual de qualquer tipo de informação em um corpus de estudo com vistas a facilitar
sua análise lingüística. A informação acrescentada é em geral codificada de modo a
permitir sua fácil identificação, seja pelo pesquisador, seja pelos programas computacionais
empregados nas análises.
A etiquetagem pode ser de vários tipos. Os mais conhecidos são:
Sintática (em inglês, parsing) – analisa a sintaxe das frases (sintagma nominal,
sintagma verbal, etc.)5.
Exemplo:
[S[N Nemo_NP1 ,_, [N the_AT killer_NN1 whale_NN1 N] ,_, [Fr[N
who_PNQS N][V 'd_VHD grown_VVN [J too_RG big_JJ [P for_IF [N
his_APP$ pool_NN1 [P on_II [N Clacton_NP1 Pier_NNL1
N]P]N]P]J]V]Fr]N] ,_, [V has_VHZ arrived_VVN safely_RR [P at_II [N
his_APP$ new_JJ home_NN1 [P in_II [N Windsor_NP1 [ safari_NN1
park_NNL1 ]N]P]N]P]V] ._. S]
2
A anotação de um corpus compreende também a colocação de cabeçalhos.
3
Cada código sublinhado representa uma categoria gramatical.
4
Todos os exemplos retirados de: <http://www.comp.lancs.ac.uk/computing/research/ucrel/annotation.html>.
5
Os colchetes indicam a organização dos sintagmas.
6
Aqui foi usado o etiquetador semântico ACADS, após a etiquetagem morfossintática com o programa
CLAWS. E2+, por exemplo, significa que a palavra “like” pertence: (E) – à categoria dos “estados, ações,
eventos e processos emocionais”; (2) – à subcategoria “gostar / não gostar”; (+) – indica ação afirmativa: se
fosse “não gostar”, o sinal seria negativo; Z é usado para indicar as palavras gramaticais.
Exemplo:
S.1 (0) The state Supreme Court has refused to release {1 [2
Rahway State Prison 2] inmate 1}} (1 James Scott 1) on bail .
S.2 (1 The fighter 1) is serving 30-40 years for a 1975 armed
robbery conviction .
S.3 (1 Scott 1) had asked for freedom while <1 he waits for an
appeal decision .
S.4 Meanwhile , [3 <1 his promoter 3] , {{3 Murad Muhammed 3} ,
said Wednesday <3 he netted only $15,250 for (4 [1 Scott 1] 's
nationally televised light heavyweight fight against {5 ranking
contender 5}} (5 Yaqui Lopez 5) last Saturday 4) .
S.5 (4 The fight , in which [1 Scott 1] won a unanimous decision
over (5 Lopez 5) 4) , grossed $135,000 for [6 [3 Muhammed 3] 's
firm 6], {{6 Triangle Productions of Newark 6} , <3 he said .
7
(O exemplo mostra uma anotação das anáforas – cada número representa uma entidade mencionada no texto
e as diferentes realizações anafóricas da mesma. O número 1, por exemplo, representa “James Scott”, que
aparece no texto também como “inmate”, “he”, “The fighter”, “Scott” e “his”. Além disso, são usados
parênteses, colchetes, chaves e sinais de maior e menor para indicar as relações entre os elementos do
discurso).
8
Para dirimir dúvidas sobre o uso do programa WordSmith Tools, consultar apostila online de Teixeira
(vide bibliografia) e/ou Berber Sardinha, 2004.
9
Para maiores informações sobre como adquirir ou para uma listagem das etiquetas usadas neste corpus, vide:
<http://www.essex.ac.uk/linguistics/clmt/w3c/corpus_ling/content/corpora/list/private/LOB/lob.html>.
10
L = left (esquerda); R = right (direita).
Figura 9 - Critérios de pesquisa
11
Também chamada de “nódulo”.
Na tela de resultados, será possível localizar a(s) palavra(s) desejada(s) usando a
barra de rolagem:
na tela superior: a expressão de busca usada foi play*VB* (busca o verbo “play”
em todas as suas formas verbais);
na tela inferior: a expressão usada foi play*NN* (busca o substantivo “play” em
todas as suas formas nominais).
Figura 13 - Busca de “play” como verbo (superior) e como substantivo (inferior)
Esses são apenas alguns exemplos para ilustrar como é possível usar um corpus
previamente etiquetado e quais são os procedimentos mais comuns para se efetuar uma
pesquisa nesse tipo de corpus. O tipo de etiquetagem e quais expressões de busca o
pesquisador vai usar dependerá do tipo de corpus consultado, da ferramenta de busca usada
(alguns corpora etiquetados têm ferramentas de busca próprias) e do objetivo da pesquisa.
Todavia, esperamos que as informações dadas aqui sejam suficientes para introduzir o
assunto ao leitor. Conforme mencionado na Introdução, o presente trabalho não privilegiará
o uso de etiquetadores automáticos, mas a etiquetagem semi-automática e manual de
corpora pequenos e médios.
Se o leitor estiver interessado em conhecer melhor o funcionamento dos vários
etiquetadores automáticos disponíveis12 e aprender como usá-los, sugiro a leitura do
Lingüística de Corpus, de Berber Sardinha (2004). O livro dedica todo o capítulo 4 e parte
do capítulo 5 à etiquetagem, dando instruções de uso precisas, exemplos e endereços
eletrônicos de diversos etiquetadores para ambiente Windows, DOS, Unix e Linux, bem
como de etiquetadores que podem ser usados online – como, por exemplo, o “Etiquetador
morfológico para o português brasileiro”, adaptado para o português pelo próprio autor a
12
Em sua maioria construídos para línguas mais difundidas, como o inglês e o alemão – uma lista dos
etiquetadores automáticos mais conhecidos e seus respectivos endereços eletrônicos pode ser encontrada no
site de David Lee <http://devoted.to/corpora>, no link “Software, Tools, Freq. Lists, etc.”
partir do etiquetador QTAG, criado por Oliver Mason para o inglês13. Ainda para o
português brasileiro, é preciso mencionar o portal do Projeto Lácio-Web14, em que há
também etiquetadores automáticos disponíveis online – neste caso, o corpus inteiro é
enviado e disponibilizado para download logo em seguida, já com as etiquetas.
Caso o leitor esteja interessado em aprofundar seus conhecimentos sobre a
etiquetagem com vistas à construção de um etiquetador próprio, uma boa fonte de consulta
é artigo escrito por Geoffrey Leech, “Adding Linguistic Annotation”, do livro Developing
Linguistic Corpora: a Guide to Good Practice, editado por Martin Wynne e publicado em
200515. Lá ele trata de vários assuntos pertinentes à anotação de corpora; além de dar
definições básicas dos termos mais comuns, tipos de etiquetagem, para que são usadas, etc.,
o autor apresenta uma discussão aprofundada dos princípios teóricos e práticos que devem
nortear a criação de etiquetadores para que estes sejam eficientes e de alta usabilidade para
o maior número possível de pessoas.
13
<http://lael.pucsp.br/corpora/etiquetagem/index.html>.
14
<http://www.nilc.icmc.usp.br/lacioweb/>.
15
Disponível em: <http://www.ahds.ac.uk/creating/guides/linguistic-corpora/chapter2.htm>
Tools – são em geral arquivados em .txt (arquivo do Bloco de Notas, no formato
“somente texto”), alguns elementos gráficos não podem ser mantidos, mas é
importante registrar sua omissão para não comprometer o entendimento do texto,
caso o corpus seja alvo, em um outro momento, de estudos que analisem seqüências
maiores do discurso;
Em corpora de transcrição de fala é possível usar as etiquetas para identificar os
diferentes participantes do discurso. Assim, torna-se possível, posteriormente,
estudar apenas as falas de um determinado sujeito. O mesmo procedimento pode ser
usado em textos teatrais, entrevistas, roteiros de filmes, telejornais, seriados, etc.
Em corpora de traduções de aprendizes – várias traduções de um mesmo original –
pode-se usar etiquetas para separar as sentenças das traduções de acordo com o
original. Dessa forma será possível saber, por exemplo, como cada aluno traduziu a
frase 3 do original bastando, para isso, fazer uma busca das linhas de concordância
com a etiqueta usada para identificar tal frase.
Em corpora de aprendizes de língua estrangeira pode-se, por exemplo, etiquetar os
desvios dos alunos (até o momento não há nenhum programa que faça essa
etiquetagem automaticamente em língua portuguesa) para facilitar a identificação de
problemas no aprendizado.
Como já foi dito anteriormente, toda etiqueta deve ser codificada, ou seja, deve ser
de fácil identificação, seja pelo pesquisador, seja pelo programa de análise lingüística que
se vai usar. Se as mesmas forem colocadas manualmente, é importante criar etiquetas
simples, curtas e fáceis de digitar, pois o maior problema desse tipo de etiquetagem é a
grande margem de erro a que o ser humano está sujeito devido a diversos fatores que, no
ambiente eletrônico, são evitáveis, como: cansaço, distração, erro de digitação, uso
acidental da tecla “Caps Lock”, etc.
O formato das etiquetas automáticas é variado – em geral uma sigla em letras
maiúsculas, precedida por um sinal que pode ser o sublinhado (underscore) “_”, a barra “/”,
o colchete “[“, etc. Teoricamente, qualquer símbolo pode ser usado para a identificação das
etiquetas, com exceção dos caracteres que normalmente são encontrados em textos, como
os parênteses e os sinais de pontuação. No entanto, na etiquetagem manual o símbolo mais
usado para essa identificação é o sinal de menor (<) e maior (>). Fica a critério do
pesquisador escolher o texto que vai nomear sua etiqueta, mas é recomendável levar em
conta as sugestões mencionadas acima, para evitar erros e repetidas correções, bem como o
que já foi convencionalizado entre os pesquisadores que trabalham na área (vide Leech,
2005).
Se a intenção é apenas tornar uma palavra, frase, data ou trecho do texto “invisível”
para os programas de análise, mas visíveis para quem lê o texto corrido num processador de
texto, pode-se usar apenas o sinal de maior e menor no começo e no fim do segmento a ser
ignorado. Por exemplo, se o corpus de estudo é composto de artigos científicos em
português e o objetivo é estudar apenas o português, pode-se colocar um sinal de maior
antes do início do abstract e/ou keywords e outro ao final:
Mas o procedimento mais usado é criar uma etiqueta (ou transferir para o cabeçalho,
ou para outro arquivo) toda informação que julgamos não ser parte integrante do corpo do
texto – nada deve ser excluído pois o que não tem interesse para uma pesquisa pode ser
fundamental para outra.
Como ocorre na maioria das vezes, no entanto, não vamos precisar colocar apenas
uma etiqueta no corpus, mas várias, e além disso, não é tão fácil colocar a etiqueta que
fecha a seção (no exemplo dado, “</Maria>”, para indicar o fim da fala da personagem)
usando a conversão do tipo simples. Assim, é bem provável que o pesquisador precise usar
a opção 2: “or more, using Conversion File”. O nome do arquivo de conversão exibido
automaticamente no campo logo abaixo dessa opção (c:\wsmith\convert.txt) aponta para um
arquivo que já vem com o programa: serve para converter textos em .html para .txt, que não
é o nosso objetivo aqui. Portanto, precisamos criar nosso próprio “arquivo de conversão”
para acrescentar as etiquetas ao corpus. Vamos examinar, a seguir, dois exemplos
aplicados:
Exemplo 1: vamos supor que o objetivo de uma pesquisa seja etiquetar um corpus com
cerca de 5.000 receitas retiradas automaticamente de um site da Internet usando um offline
browser18. Após o tratamento dos textos – conversão de .html para .txt, limpeza de espaços
e parágrafos excedentes, re-nomeação de arquivos, etc. – é preciso estudar a estrutura dos
arquivos do corpus e observar suas regularidades. No caso das receitas, em geral temos a
palavra “Ingredientes” e “Modo de fazer” delimitando suas partes principais. Se, após
verificar algumas receitas do corpus observarmos que não trazem qualquer comentário
entre o título e a lista de ingredientes e nada após o final da descrição dos procedimentos,
posso criar o seguinte “programinha”, usando a sintaxe (uma série de regras) contida no
manual do usuário do WordSmith Tools:
A rotina deve ser digitada em um arquivo tipo .txt (bloco de notas). A estrutura
básica de comando é “X” -> “Y”, ou seja, troque “X” por “Y” (a seta é obtida com a
digitação do sinal de menos e do sinal de maior, sem espaço). Há outros recursos como
“/A” (usado na rotina acima), que significa: acrescente o texto entre aspas no começo
(START) ou no fim do arquivo (END). Para se referir a aspectos da formatação do texto,
como parágrafo, tabulação, aspas invertidas, etc. é usada a estrutura {CHR(código ASCII)}
– para representar o “enter” usa-se, por exemplo, os códigos {CHR(13)}{CHR(10)} juntos,
como mostrado acima. Se fôssemos descrever os comandos contidos nessa rotina seria algo
como:
Após a criação do arquivo em .txt com os comandos necessários, ele deve ser salvo,
de preferência na mesma pasta em que se encontra o arquivo convert.txt, que já vem com o
programa. Para encontrar essa pasta basta procurar em Meu Computador, C:/, WSMITH –
dentro dessa pasta há inúmeros arquivos e três pastas (Concord, Keywords, Wordlist). Salve
fora dessas três pastas com um nome de até oito letras, por exemplo: teste1.txt. Em seguida,
abra a tela principal do Text Converter (Figura 18), escolha os textos a serem etiquetados na
janela da esquerda (“Choose Files”) e troque o nome do arquivo que aparece na janela “or
more, using Conversion File” para o nome dado ao arquivo, por exemplo:
c:\wsmith\teste1.txt. Clique em “go now” – caso os arquivos sejam muitos ou longos,
18
“programa feito para baixar um site inteiro de um servidor da Internet e copiá-lo fielmente no disco rígido
de outra máquina” (Berber Sardinha, 2004: 46).
aparecerá uma barra de progresso (em verde e amarelo); com poucos textos ou textos curtos
o processo é tão rápido que a barra nem aparece. Os arquivos com as etiquetas serão
gravados na pasta de arquivos temporários, que fica em Meu computador, C:/, Temp, ou em
qualquer outra pasta designada pelo usuário. Abra alguns dos arquivos e confira o
resultado.
Caso alguma coisa dê errado e seja necessário fazer mudanças no arquivo de
conversão, jamais escreva sobre o arquivo usado pois, “a emenda pode ficar pior que o
soneto” e, em caso de arquivos grandes, você não conseguirá lembrar o que tinha colocado
antes: grave as alterações com um novo nome, como teste2.txt, teste3.txt, etc.
Exemplo 2: vamos supor agora que temos o roteiro de várias exibições do seriado Friends
em mãos e queremos fazer um estudo comparativo do vocabulário peculiar a cada um dos 6
personagens principais: Rachel, Monica, Phoebe, Chandler, Ross e Joey. Além dos
personagens de interesse para a pesquisa, há também outros personagens e elementos no
texto que podem tornar a etiquetagem semi-automática complicada, como pode ser visto no
trecho a seguir (em itálico):
(Scene: Central Perk, Phoebe is recapping last season, and as she talks we see a montage
of scenes from Ross and Rachel.)
Phoebe: Ok, so this is pretty much what's happened so far. Ross was in love with Rachel
since, you know, forever, but every time he tried to tell her, something kind of got in the
way, like cats, and Italian guys. Finally Chandler was like "forget about her" but when Ross
was in China on his dig, Chandler let it slip that Ross was in love with Rachel. She was
like, "Oh my god." So she went to the airport to meet him when he came back, but what she
didn't know was that Ross was getting off the plane with another woman. Uh-Oh! So, that's
pretty much everything you need to know. But, enough about us. So, how've you been?
(Opening Credits)
(Scene, The Airport, continued from last season, Rachel is waiting for Ross to come off the
plane, when she sees he's coming off with another woman.)
Rachel: Oh my god. Oh my god. [She decides to make a break for it.] Excuse me. Move!
Move! Emergency! Excuse me! [She tries climbing over a bench and falls down.]
Ross: [seeing her] Rach! (...)
É possível observar que além dos nomes dos personagens outros sinais se repetem,
como os parênteses, para indicar a marcação de cena, e os colchetes, usados para indicar a
rubrica. Devido a esse tipo de regularidade torna-se possível a etiquetagem semi-automática
desses textos. Mesmo os personagens ocasionais que surgem a cada capítulo seriam
certamente identificáveis pelo programa uma vez que depois do seu nome e antes do início
de sua fala há um sinal gráfico que se repete – os “dois pontos”. Uma rotina possível para a
etiquetagem das falas dos personagens principais nesse corpus seria:
As linhas de comando da rotina acima poderiam ser explicadas assim:
Lembre-se: é preciso que haja apenas um enter antes da fala de cada um dos
personagens, que seus nomes tenham sido escritos corretamente, que os dois pontos não
tenham sido omitidos, que não haja quebras de linhas, que não esteja faltando nenhum
parênteses ou colchete, etc. para que a rotina funcione adequadamente. Esse é o resultado
obtido na conversão do trecho mencionado usando os comandos descritos na tela acima:
<MCena> Scene: Central Perk, Phoebe is recapping last season, and as she
talks we see a montage of scenes from Ross and Rachel. </MCena>
<Phoebe> Ok, so this is pretty much what's happened so far. Ross was in
love with Rachel since, you know, forever, but every time he tried to
tell her, something kind of got in the way, like cats, and Italian guys.
Finally Chandler was like "forget about her" but when Ross was in China
on his dig, Chandler let it slip that Ross was in love with Rachel. She
was like, "Oh my god." So she went to the airport to meet him when he
came back, but what she didn't know was that Ross was getting off the
plane with another woman. Uh-Oh! So, that's pretty much everything you
need to know. But, enough about us. So, how've you been? </Phoebe>
<Opening Credits>
<MCena> Scene, The Airport, continued from last season, Rachel is waiting
for Ross to come off the plane, when she sees he's coming off with
another woman. </MCena>
<Rachel> Oh my god. Oh my god. <rubrica> She decides to make a break for
it. </rubrica> Excuse me. Move! Move! Emergency! Excuse me! <rubrica> She
tries climbing over a bench and falls down. </rubrica> </Rachel>
<Ross> <rubrica> seeing her </rubrica> Rach! </Ross>
Entradas = ent
Sopas = sop
Pratos principais carnes = ppc
aves = ppa
peixes e frutos do mar = ppp
massas = ppm
Acompanhamentos = aco
Saladas = sal
Sobremesas = sbr
Tortas e Bolos = teb
Pães = pao
Cada uma dessas etiquetas foi digitada manualmente no início e no final das
respectivas seções do texto, logo após a coleta e limpeza. Veja a seguir um exemplo de
receita do corpus já em arquivo do tipo texto (.txt) e com as etiquetas digitadas:
19
Para maiores detalhes sobre a construção e análise deste corpus ver Teixeira 2004; Tagnin & Teixeira
2004a e 2004b.
<ingr> Ingredients:
250g/9oz Cod Fillets, skinned
3 Spring Onions, chopped
2 teasp Soy Sauce
1 Egg White
1 teasp Cornflour
14 Slices White Bread
Oil for deep frying </ingr>
<modFaz> Instructions
1. Place the fish in a food processor and blend until finely chopped.
2. Transfer the fish to a mixing bowl, add the spring onions, Soy sauce,
egg white and cornflour. Mix well.
3. Remove the crusts from the bread and cut the bread into 5mm/1/4inch
cubes at the largest.
4. Using damp hands, roll teaspoons of the fish mixture into balls, toss
in the bread cubes, pressing firmly on, then cover and refrigerate for at
least 30 minutes.
5. Preheat the deep fat fryer to 180C/350F. Deep-fry the fish balls for a
few minutes until golden brown. </modFaz>
<coment> These can be prepared 1 day ahead. Make to stage 4, cover and
refrigerate until required. </coment>
Depois de coletar e preparar todos os textos do corpus (o que, no caso deste estudo,
previa também a colocação de cabeçalhos) tornou-se possível analisá-lo de várias maneiras
usando as etiquetas inseridas. Alguns exemplos:
20
em nosso corpus, delimitado pelas etiquetas <Header> e </Header>.
Figura 17 - Tela principal do Tag List do menu Settings
2.1.2.5 Conclusão
REFERÊNCIAS