Escolar Documentos
Profissional Documentos
Cultura Documentos
2.1.2.1 Introdução
1
Doutoranda do Programa de Estudos Lingüísticos e Literários em Inglês do Departamento de Letras Modernas
da Universidade de São Paulo (elisadut@usp.br)
2
Versão de demonstração (3.0). Disponível em: <http://www.lexically.net/downloads/download.htm>.
2.1.2.2 Etiquetagem: o que é?
Sintática (em inglês, parsing) – analisa a sintaxe das frases (sintagma nominal,
sintagma verbal, etc.)6.
Exemplo:
[S[N Nemo_NP1 ,_, [N the_AT killer_NN1 whale_NN1 N] ,_, [Fr[N
who_PNQS N][V 'd_VHD grown_VVN [J too_RG big_JJ [P for_IF [N his_APP$
pool_NN1 [P on_II [N Clacton_NP1 Pier_NNL1 N]P]N]P]J]V]Fr]N] ,_, [V
has_VHZ arrived_VVN safely_RR [P at_II [N his_APP$ new_JJ home_NN1 [P
in_II [N Windsor_NP1 [ safari_NN1 park_NNL1 ]N]P]N]P]V] ._. S]
3
A anotação de um corpus compreende também a colocação de cabeçalhos.
4
Cada código sublinhado representa uma categoria gramatical.
5
Todos os exemplos retirados de: <http://www.comp.lancs.ac.uk/computing/research/ucrel/annotation.html>.
6
Os colchetes indicam a organização dos sintagmas.
7
Aqui foi usado o etiquetador semântico ACADS, após a etiquetagem morfossintática com o programa
CLAWS. E2+, por exemplo, significa que a palavra “like” pertence: (E) – à categoria dos “estados, ações,
eventos e processos emocionais”; (2) – à subcategoria “gostar / não gostar”; (+) – indica ação afirmativa: se
fosse “não gostar”, o sinal seria negativo; Z é usado para indicar as palavras gramaticais.
Discursiva – anota elementos discursivos de um texto (referentes anafóricos,
marcadores discursivos, etc.)8
Exemplo:
S.1 (0) The state Supreme Court has refused to release {1 [2 Rahway
State Prison 2] inmate 1}} (1 James Scott 1) on bail .
S.2 (1 The fighter 1) is serving 30-40 years for a 1975 armed robbery
conviction .
S.3 (1 Scott 1) had asked for freedom while <1 he waits for an appeal
decision .
S.4 Meanwhile , [3 <1 his promoter 3] , {{3 Murad Muhammed 3} , said
Wednesday <3 he netted only $15,250 for (4 [1 Scott 1] 's nationally
televised light heavyweight fight against {5 ranking contender 5}} (5
Yaqui Lopez 5) last Saturday 4) .
S.5 (4 The fight , in which [1 Scott 1] won a unanimous decision over
(5 Lopez 5) 4) , grossed $135,000 for [6 [3 Muhammed 3] 's firm 6],
{{6 Triangle Productions of Newark 6} , <3 he said .
8
(O exemplo mostra uma anotação das anáforas – cada número representa uma entidade mencionada no texto e
as diferentes realizações anafóricas da mesma. O número 1, por exemplo, representa “James Scott”, que aparece
no texto também como “inmate”, “he”, “The fighter”, “Scott” e “his”. Além disso, são usados parênteses,
colchetes, chaves e sinais de maior e menor para indicar as relações entre os elementos do discurso).
9
Para dirimir dúvidas sobre o uso do programa WordSmith Tools, consultar apostila online de Teixeira (vide
bibliografia) e/ou Berber Sardinha, 2004.
10
Para maiores informações sobre como adquirir ou para uma listagem das etiquetas usadas neste corpus, vide:
<http://www.essex.ac.uk/linguistics/clmt/w3c/corpus_ling/content/corpora/list/private/LOB/lob.html>.
Context word: *_JJ (“palavra” de busca = categoria adjetivo, representada por _JJ); Horizon:
1L; 0R11 (o adjetivo deve ser a primeira palavra à esquerda – 1L – do substantivo).
11
L = left (esquerda); R = right (direita).
12
Também chamada de “nódulo”.
Na tela de resultados, será possível localizar a(s) palavra(s) desejada(s) usando a barra
de rolagem:
13
Em sua maioria construídos para línguas mais difundidas, como o inglês e o alemão – uma lista dos
etiquetadores automáticos mais conhecidos e seus respectivos endereços eletrônicos pode ser encontrada no site
de David Lee <http://devoted.to/corpora>, no link “Software, Tools, Freq. Lists, etc.”
14
<http://lael.pucsp.br/corpora/etiquetagem/index.html>.
15
<http://www.nilc.icmc.usp.br/lacioweb/>.
16
Disponível em: <http://www.ahds.ac.uk/creating/guides/linguistic-corpora/chapter2.htm>
A etiquetagem manual pode ser feita durante a coleta do corpus, após a compilação ou
até mesmo num corpus já pronto, coletado por outro(s) pesquisador(es). No primeiro caso,
após o planejamento do corpus, o pesquisador localiza os textos que pretende coletar na
Internet (ou faz a digitalização e revisão dos textos não disponíveis eletronicamente) e, em
seguida, adiciona as etiquetas de seu interesse. Nos corpora prontos, o pesquisador não
precisa coletar os textos, mas deve conhecer muito bem seu conteúdo antes de planejar a lista
de etiquetas que pretende inserir. Alguns exemplos:
Como já foi dito anteriormente, toda etiqueta deve ser codificada, ou seja, deve ser de
fácil identificação, seja pelo pesquisador, seja pelo programa de análise lingüística que se vai
usar. Se as mesmas forem colocadas manualmente, é importante criar etiquetas simples,
curtas e fáceis de digitar, pois o maior problema desse tipo de etiquetagem é a grande
margem de erro a que o ser humano está sujeito devido a diversos fatores que, no ambiente
eletrônico, são evitáveis, como: cansaço, distração, erro de digitação, uso acidental da tecla
“Caps Lock”, etc.
O formato das etiquetas automáticas é variado – em geral uma sigla em letras
maiúsculas, precedida por um sinal que pode ser o sublinhado (underscore) “_”, a barra “/”, o
colchete “[“, etc. Teoricamente, qualquer símbolo pode ser usado para a identificação das
etiquetas, com exceção dos caracteres que normalmente são encontrados em textos, como os
parênteses e os sinais de pontuação. No entanto, na etiquetagem manual o símbolo mais
usado para essa identificação é o sinal de menor (<) e maior (>). Fica a critério do
pesquisador escolher o texto que vai nomear sua etiqueta, mas é recomendável levar em conta
as sugestões mencionadas acima, para evitar erros e repetidas correções, bem como o que já
foi convencionalizado entre os pesquisadores que trabalham na área (vide Leech, 2005).
Os sinais “<...>” e “</...>” são usados para indicar ao programa de análise lingüística
(no caso, o WordSmith Tools) onde começa e onde termina cada uma das seções
identificadas pelas etiquetas, permitindo assim selecioná-las ou ignorá-las posteriormente a
qualquer momento da pesquisa. Assim, todo trecho etiquetado deve conter uma etiqueta
indicando o início (<etiqueta>) e outra indicando o término (</etiqueta) – o que mostra para o
computador o término de um trecho etiquetado é a barra colocada logo após o sinal de menor
dentro da etiqueta de fim. É importante deixar um espaço em branco entre a etiqueta e o texto
(exemplo: <titRec> Bolo mármore </titRec>) – se a etiqueta estiver “grudada” (exemplo:
<titRec>Bolo mármore</titRec>) o computador pode não ser capaz de reconhecê-la, pois
considerará tudo como uma palavra só (“<titRec>Bolo”).
Se fôssemos etiquetar o presente artigo, por exemplo, poderíamos começar assim
(note-se que as etiquetas não contêm sinais diacríticos ou palavras longas, justamente para
não incorrer no risco de esquecimento ou digitação errada):
Se a intenção é apenas tornar uma palavra, frase, data ou trecho do texto “invisível”
para os programas de análise, mas visíveis para quem lê o texto corrido num processador de
texto, pode-se usar apenas o sinal de maior e menor no começo e no fim do segmento a ser
ignorado. Por exemplo, se o corpus de estudo é composto de artigos científicos em português
e o objetivo é estudar apenas o português, pode-se colocar um sinal de maior antes do início
do abstract e/ou keywords e outro ao final:
Mas o procedimento mais usado é criar uma etiqueta (ou transferir para o cabeçalho, ou
para outro arquivo) toda informação que julgamos não ser parte integrante do corpo do texto
– nada deve ser excluído pois o que não tem interesse para uma pesquisa pode ser
fundamental para outra.
17
“há ainda uma outra tarefa comum na Lingüística de Corpus que o programa WordSmith Tools não dá conta:
a etiquetagem” (Berber Sardinha, 2004: 112).
18
Para conhecer outras possibilidades de uso desse utilitário ver manual do usuário que acompanha o programa.
Figura 15 - Tela principal do Text Converter
Como ocorre na maioria das vezes, no entanto, não vamos precisar colocar apenas
uma etiqueta no corpus, mas várias, e além disso, não é tão fácil colocar a etiqueta que fecha
a seção (no exemplo dado, “</Maria>”, para indicar o fim da fala da personagem) usando a
conversão do tipo simples. Assim, é bem provável que o pesquisador precise usar a opção 2:
“or more, using Conversion File”. O nome do arquivo de conversão exibido automaticamente
no campo logo abaixo dessa opção (c:\wsmith\convert.txt) aponta para um arquivo que já vem
com o programa: serve para converter textos em .html para .txt, que não é o nosso objetivo
aqui. Portanto, precisamos criar nosso próprio “arquivo de conversão” para acrescentar as
etiquetas ao corpus. Vamos examinar, a seguir, dois exemplos aplicados:
Exemplo 1: vamos supor que o objetivo de uma pesquisa seja etiquetar um corpus com cerca
de 5.000 receitas retiradas automaticamente de um site da Internet usando um offline
browser19. Após o tratamento dos textos – conversão de .html para .txt, limpeza de espaços e
parágrafos excedentes, re-nomeação de arquivos, etc. – é preciso estudar a estrutura dos
arquivos do corpus e observar suas regularidades. No caso das receitas, em geral temos a
palavra “Ingredientes” e “Modo de fazer” delimitando suas partes principais. Se, após
verificar algumas receitas do corpus observarmos que não trazem qualquer comentário entre
o título e a lista de ingredientes e nada após o final da descrição dos procedimentos, posso
criar o seguinte “programinha”, usando a sintaxe (uma série de regras) contida no manual do
usuário do WordSmith Tools:
19
“programa feito para baixar um site inteiro de um servidor da Internet e copiá-lo fielmente no disco rígido de
outra máquina” (Berber Sardinha, 2004: 46).
A rotina deve ser digitada em um arquivo tipo .txt (bloco de notas). A estrutura básica
de comando é “X” -> “Y”, ou seja, troque “X” por “Y” (a seta é obtida com a digitação do
sinal de menos e do sinal de maior, sem espaço). Há outros recursos como “/A” (usado na
rotina acima), que significa: acrescente o texto entre aspas no começo (START) ou no fim do
arquivo (END). Para se referir a aspectos da formatação do texto, como parágrafo, tabulação,
aspas invertidas, etc. é usada a estrutura {CHR(código ASCII)} – para representar o “enter”
usa-se, por exemplo, os códigos {CHR(13)}{CHR(10)} juntos, como mostrado acima. Se
fôssemos descrever os comandos contidos nessa rotina seria algo como:
Após a criação do arquivo em .txt com os comandos necessários, ele deve ser salvo,
de preferência na mesma pasta em que se encontra o arquivo convert.txt, que já vem com o
programa. Para encontrar essa pasta basta procurar em Meu Computador, C:/, WSMITH –
dentro dessa pasta há inúmeros arquivos e três pastas (Concord, Keywords, Wordlist). Salve
fora dessas três pastas com um nome de até oito letras, por exemplo: teste1.txt. Em seguida,
abra a tela principal do Text Converter (Figura 18), escolha os textos a serem etiquetados na
janela da esquerda (“Choose Files”) e troque o nome do arquivo que aparece na janela “or
more, using Conversion File” para o nome dado ao arquivo, por exemplo:
c:\wsmith\teste1.txt. Clique em “go now” – caso os arquivos sejam muitos ou longos,
aparecerá uma barra de progresso (em verde e amarelo); com poucos textos ou textos curtos o
processo é tão rápido que a barra nem aparece. Os arquivos com as etiquetas serão gravados
na pasta de arquivos temporários, que fica em Meu computador, C:/, Temp, ou em qualquer
outra pasta designada pelo usuário. Abra alguns dos arquivos e confira o resultado.
Caso alguma coisa dê errado e seja necessário fazer mudanças no arquivo de
conversão, jamais escreva sobre o arquivo usado pois, “a emenda pode ficar pior que o
soneto” e, em caso de arquivos grandes, você não conseguirá lembrar o que tinha colocado
antes: grave as alterações com um novo nome, como teste2.txt, teste3.txt, etc.
Exemplo 2: vamos supor agora que temos o roteiro de várias exibições do seriado Friends
em mãos e queremos fazer um estudo comparativo do vocabulário peculiar a cada um dos 6
personagens principais: Rachel, Monica, Phoebe, Chandler, Ross e Joey. Além dos
personagens de interesse para a pesquisa, há também outros personagens e elementos no texto
que podem tornar a etiquetagem semi-automática complicada, como pode ser visto no trecho
a seguir (em itálico):
(Scene: Central Perk, Phoebe is recapping last season, and as she talks we see a montage of
scenes from Ross and Rachel.)
Phoebe: Ok, so this is pretty much what's happened so far. Ross was in love with Rachel
since, you know, forever, but every time he tried to tell her, something kind of got in the way,
like cats, and Italian guys. Finally Chandler was like "forget about her" but when Ross was in
China on his dig, Chandler let it slip that Ross was in love with Rachel. She was like, "Oh my
god." So she went to the airport to meet him when he came back, but what she didn't know
was that Ross was getting off the plane with another woman. Uh-Oh! So, that's pretty much
everything you need to know. But, enough about us. So, how've you been?
(Opening Credits)
(Scene, The Airport, continued from last season, Rachel is waiting for Ross to come off the
plane, when she sees he's coming off with another woman.)
Rachel: Oh my god. Oh my god. [She decides to make a break for it.] Excuse me. Move!
Move! Emergency! Excuse me! [She tries climbing over a bench and falls down.]
Ross: [seeing her] Rach! (...)
É possível observar que além dos nomes dos personagens outros sinais se repetem,
como os parênteses, para indicar a marcação de cena, e os colchetes, usados para indicar a
rubrica. Devido a esse tipo de regularidade torna-se possível a etiquetagem semi-automática
desses textos. Mesmo os personagens ocasionais que surgem a cada capítulo seriam
certamente identificáveis pelo programa uma vez que depois do seu nome e antes do início de
sua fala há um sinal gráfico que se repete – os “dois pontos”. Uma rotina possível para a
etiquetagem das falas dos personagens principais nesse corpus seria:
Lembre-se: é preciso que haja apenas um enter antes da fala de cada um dos
personagens, que seus nomes tenham sido escritos corretamente, que os dois pontos não
tenham sido omitidos, que não haja quebras de linhas, que não esteja faltando nenhum
parênteses ou colchete, etc. para que a rotina funcione adequadamente. Esse é o resultado
obtido na conversão do trecho mencionado usando os comandos descritos na tela acima:
<MCena> Scene: Central Perk, Phoebe is recapping last season, and as she
talks we see a montage of scenes from Ross and Rachel. </MCena>
<Phoebe> Ok, so this is pretty much what's happened so far. Ross was in
love with Rachel since, you know, forever, but every time he tried to tell
her, something kind of got in the way, like cats, and Italian guys. Finally
Chandler was like "forget about her" but when Ross was in China on his dig,
Chandler let it slip that Ross was in love with Rachel. She was like, "Oh
my god." So she went to the airport to meet him when he came back, but what
she didn't know was that Ross was getting off the plane with another woman.
Uh-Oh! So, that's pretty much everything you need to know. But, enough
about us. So, how've you been? </Phoebe>
<Opening Credits>
<MCena> Scene, The Airport, continued from last season, Rachel is waiting
for Ross to come off the plane, when she sees he's coming off with another
woman. </MCena>
<Rachel> Oh my god. Oh my god. <rubrica> She decides to make a break for
it. </rubrica> Excuse me. Move! Move! Emergency! Excuse me! <rubrica> She
tries climbing over a bench and falls down. </rubrica> </Rachel>
<Ross> <rubrica> seeing her </rubrica> Rach! </Ross>
Entradas = ent
Sopas = sop
Pratos principais carnes = ppc
aves = ppa
peixes e frutos do mar = ppp
massas = ppm
Acompanhamentos = aco
Saladas = sal
Sobremesas = sbr
Tortas e Bolos = teb
Pães = pao
Por ser um corpus comparável, as receitas incluídas possuem um “equivalente” em
cada uma das quatro variantes – todas originalmente escritas naquela variante. A semelhança
entre as receitas baseia-se, sempre que possível, no nome do prato, nos ingredientes que as
compõem e/ou no tipo de processo empregado20. Por exemplo:
Cada uma dessas etiquetas foi digitada manualmente no início e no final das
respectivas seções do texto, logo após a coleta e limpeza. Veja a seguir um exemplo de
receita do corpus já em arquivo do tipo texto (.txt) e com as etiquetas digitadas:
20
Para maiores detalhes sobre a construção e análise deste corpus ver Teixeira 2004; Tagnin & Teixeira 2004a e
2004b.
Depois de coletar e preparar todos os textos do corpus (o que, no caso deste estudo,
previa também a colocação de cabeçalhos) tornou-se possível analisá-lo de várias maneiras
usando as etiquetas inseridas. Alguns exemplos:
21
em nosso corpus, delimitado pelas etiquetas <Header> e </Header>.
Figura 18 - Tela acessada pelo botão Only part of file
2.1.2.5 Conclusão
REFERÊNCIAS