Etiquetagem em Linguística de Corpus - UnB - Elisa Teixeira_

TEIXEIRA, E.D.
Etiquetagem em Lingüística de Corpus: possibilidades de

aplicações. In: GERBER, R. M. e VASILÉVSKI, V. Um percurso para pesquisas
com base em corpus. Florianópolis: Editora da UFSC, 2007, p. 116-148.
2.1.2 ETIQUETAGEM EM LINGÜÍSTICA DE CORPUS: POSSIBILIDADES DE

APLICAÇÃO
Elisa Duarte Teixeira1
2.1.2.1 Introdução
A etiquetagem (ou como preferem alguns autores, etiquetação) é um recurso muito

utilizado por quem trabalha com Lingüística de Corpus. Infelizmente, parece ser uma prática
ainda pouco explorada entre os lingüistas brasileiros que trabalham na área. Isso se dá, por
um lado, porque os etiquetadores automáticos e semi-automáticos em língua portuguesa são
escassos, especialmente na variante brasileira; por outro lado, a etiquetagem exige um
conhecimento mais aprofundado de computação – um quesito que, não raro, é preterido pelos
pesquisadores e profissionais da área de Letras.
A etiquetagem mais usada e difundida é a automática, ou seja, aquela em que um
programa computacional previamente criado por especialistas em Processamento de
Linguagem Natural e lingüistas faz a análise automática do corpus, inserindo etiquetas em
diversos pontos dos textos, com base em inventários previamente elaborados de acordo com o
tipo de análise empregada. Há na literatura e na Internet vários exemplos de uso desse tipo de
ferramenta, em especial para a análise morfossintática – razão pela qual não será o foco
principal deste estudo. O presente trabalho privilegiará a metodologia de inserção manual e
semi-automatizada de etiquetas a corpora pequenos e médios, bem como algumas
possibilidades de uso do programa de análise lingüística WordSmith Tools (Scott, 1996)2
versão 3.0 nesse processo e na leitura dos resultados.
Após uma breve introdução teórico-prática, serão discutidas as possibilidades de
emprego do utilitário “Text Converter” do programa WordSmith Tools como etiquetador
semi-automático para alguns tipos de corpus. Em seguida, será explicado o procedimento
envolvido na etiquetagem manual. Por fim, exemplificarei esta metodologia apresentando um
estudo por mim realizado envolvendo a etiquetagem de um corpus composto de 440 receitas
comparáveis, 110 em cada uma das variantes analisadas (brasileira e européia do português,
americana e britânica do inglês) a que foram acrescentadas manualmente 5 etiquetas
pragmáticas.
1
Doutoranda do Programa de Estudos Lingüísticos e Literários em Inglês do Departamento de Letras Modernas
da Universidade de São Paulo (elisadut@usp.br)
2
Versão de demonstração (3.0). Disponível em: <http://www.lexically.net/downloads/download.htm>.
2.1.2.2 Etiquetagem: o que é?
Entende-se por etiquetagem (ou anotação3) a inserção automática, semi-automática ou

manual de qualquer tipo de informação em um corpus de estudo com vistas a facilitar sua
análise lingüística. A informação acrescentada é em geral codificada de modo a permitir sua
fácil identificação, seja pelo pesquisador, seja pelos programas computacionais empregados
nas análises.
A etiquetagem pode ser de vários tipos. Os mais conhecidos são:
 Morfossintática (em inglês, part of speech ou simplesmente POS Tagging) – indica

a classe gramatical de cada uma das palavras do corpus (artigo, substantivo, verbo,
etc.)4.
Exemplo5:
'_' he_PP3A stole_VBD my_PP$ wallet_NN !_! '_' roared_VBD
Rollinson_NP ._.
 Sintática (em inglês, parsing) – analisa a sintaxe das frases (sintagma nominal,
sintagma verbal, etc.)6.
Exemplo:
[S[N Nemo_NP1 ,_, [N the_AT killer_NN1 whale_NN1 N] ,_, [Fr[N
who_PNQS N][V 'd_VHD grown_VVN [J too_RG big_JJ [P for_IF [N his_APP$
pool_NN1 [P on_II [N Clacton_NP1 Pier_NNL1 N]P]N]P]J]V]Fr]N] ,_, [V
has_VHZ arrived_VVN safely_RR [P at_II [N his_APP$ new_JJ home_NN1 [P
in_II [N Windsor_NP1 [ safari_NN1 park_NNL1 ]N]P]N]P]V] ._. S]
 Semântica – classifica as palavras de conteúdo lexical de acordo com suas

características semânticas. Pode ser usada, por exemplo, para indicar o campo
semântico a que as palavras pertencem (margarida = flor; gato = animal, etc.)7.
Exemplo:
PPIS1 I Z8
VV0 like E2+
AT1 a Z5
JJ particular A4.2+
NN1 shade O4.3
IO of Z5
NN1 lipstick B4
3
A anotação de um corpus compreende também a colocação de cabeçalhos.
4
Cada código sublinhado representa uma categoria gramatical.
5
Todos os exemplos retirados de: <http://www.comp.lancs.ac.uk/computing/research/ucrel/annotation.html>.
6
Os colchetes indicam a organização dos sintagmas.
7
Aqui foi usado o etiquetador semântico ACADS, após a etiquetagem morfossintática com o programa
CLAWS. E2+, por exemplo, significa que a palavra “like” pertence: (E) – à categoria dos “estados, ações,
eventos e processos emocionais”; (2) – à subcategoria “gostar / não gostar”; (+) – indica ação afirmativa: se
fosse “não gostar”, o sinal seria negativo; Z é usado para indicar as palavras gramaticais.
 Discursiva – anota elementos discursivos de um texto (referentes anafóricos,
marcadores discursivos, etc.)8
Exemplo:
S.1 (0) The state Supreme Court has refused to release {1 [2 Rahway
State Prison 2] inmate 1}} (1 James Scott 1) on bail .
S.2 (1 The fighter 1) is serving 30-40 years for a 1975 armed robbery
conviction .
S.3 (1 Scott 1) had asked for freedom while <1 he waits for an appeal
decision .
S.4 Meanwhile , [3 <1 his promoter 3] , {{3 Murad Muhammed 3} , said
Wednesday <3 he netted only $15,250 for (4 [1 Scott 1] 's nationally
televised light heavyweight fight against {5 ranking contender 5}} (5
Yaqui Lopez 5) last Saturday 4) .
S.5 (4 The fight , in which [1 Scott 1] won a unanimous decision over
(5 Lopez 5) 4) , grossed $135,000 for [6 [3 Muhammed 3] 's firm 6],
{{6 Triangle Productions of Newark 6} , <3 he said .
Além dessas, poderíamos citar também a anotação fonética (usada em transcrições de

discursos orais), a pragmática e a estilística (Garside et al., 1997). Cada etiquetador
automático tem seu inventário próprio de etiquetas e segue um determinado modelo de
análise lingüística. A etiquetagem morfossintática é a mais comum e a mais usada pelos
lingüistas de corpus, pois apresenta a menor margem de erro – são considerados bons os
programas que conseguem uma porcentagem de acerto acima de 97% (Berber Sardinha,
2004:156). Os outros tipos de etiquetagem exigem programas mais elaborados que, por
lidarem com unidades de texto maiores que a palavra, têm uma margem de erro muito maior
e, não raro, funcionam melhor com corpora de gênero e/ou tipo textual semelhantes àqueles
para os quais foram criados.
Uma vez etiquetado o corpus é possível fazer buscas específicas utilizando programas
de análise lingüística, como o WordSmith Tools. Assim, num corpus etiquetado
morfossintaticamente é possível identificar, por exemplo, todas as ocorrências da combinação
substantivo + adjetivo: algo que pode ser de grande valia, por exemplo, na identificação de
unidades terminológicas num corpus de especialidade. Usando a ferramenta Concord do
programa9 digita-se, após a escolha do corpus etiquetado em “Choose texts now”, a expressão
de busca correspondente, de acordo com as etiquetas usadas no corpus. Exemplo: usando a
versão etiquetada do corpus London-Oslo-Bergen (LOB)10, usamos o seguinte critério de
busca (vide Figura 9): Search word or phrase: *_NN (a “palavra” de busca será a categoria
gramatical substantivo, representada nesse corpus por _NN); But excluding: em branco;
8
(O exemplo mostra uma anotação das anáforas – cada número representa uma entidade mencionada no texto e
as diferentes realizações anafóricas da mesma. O número 1, por exemplo, representa “James Scott”, que aparece
no texto também como “inmate”, “he”, “The fighter”, “Scott” e “his”. Além disso, são usados parênteses,
colchetes, chaves e sinais de maior e menor para indicar as relações entre os elementos do discurso).
9
Para dirimir dúvidas sobre o uso do programa WordSmith Tools, consultar apostila online de Teixeira (vide
bibliografia) e/ou Berber Sardinha, 2004.
10
Para maiores informações sobre como adquirir ou para uma listagem das etiquetas usadas neste corpus, vide:
<http://www.essex.ac.uk/linguistics/clmt/w3c/corpus_ling/content/corpora/list/private/LOB/lob.html>.
Context word: *_JJ (“palavra” de busca = categoria adjetivo, representada por _JJ); Horizon:
1L; 0R11 (o adjetivo deve ser a primeira palavra à esquerda – 1L – do substantivo).
Figura 9 - Critérios de pesquisa
O programa retorna todas as combinações de adjetivo + substantivo do corpus

etiquetado (mais de 16.000 ocorrências). O pesquisador pode, a partir daí, selecionar o modo
de exibição das linhas de concordância que lhe for mais conveniente. Se quiser saber quais
adjetivos ocorrem com maior freqüência à esquerda de cada substantivo, deve pedir que o
programa re-ordene as linhas: primeiro, pela palavra de busca12 (Main Sort: Centre) e, em
seguida, pelo primeiro colocado à esquerda (then by: 1L).
Figura 10 - Reorganizando as linhas de concordância
11
L = left (esquerda); R = right (direita).
12
Também chamada de “nódulo”.
Na tela de resultados, será possível localizar a(s) palavra(s) desejada(s) usando a barra
de rolagem:
Figura 11- Resultado listado por ordem alfabética do nódulo e da palavra L1
Se quiser visualizar, por exemplo, a recorrência de adjetivos à esquerda da palavra de

busca (neste caso, a categoria substantivo, _NN) em ordem alfabética, basta clicar no ícone
“re-sort” e pedir que as linhas de concordância sejam listadas por ordem alfabética de acordo
com a primeira palavra à esquerda da palavra de busca (Main Sort: L1). O resultado obtido
ordenará as linhas de concordância pela ordem alfabética dos adjetivos, como pode ser
observado na figura na Figura 12.
Outro tipo de busca que só é possível em um corpus morfossintaticamente etiquetado
é de homônimos com diferentes categorias gramaticais. A Figura 13 mostra, na mesma tela,
os 10 primeiros resultados de duas buscas usando o mesmo corpus LOB:
 na tela superior: a expressão de busca usada foi play*VB* (busca o verbo “play” em
todas as suas formas verbais);
 na tela inferior: a expressão usada foi play*NN* (busca o substantivo “play” em todas
as suas formas nominais).
Figura 12 - Resultado listado por ordem alfabética da palavra L1
Figura 13 - Busca de “play” como verbo (superior) e como substantivo (inferior)

Esses são apenas alguns exemplos para ilustrar como é possível usar um corpus
previamente etiquetado e quais são os procedimentos mais comuns para se efetuar uma
pesquisa nesse tipo de corpus. O tipo de etiquetagem e quais expressões de busca o
pesquisador vai usar dependerá do tipo de corpus consultado, da ferramenta de busca usada
(alguns corpora etiquetados têm ferramentas de busca próprias) e do objetivo da pesquisa.
Todavia, esperamos que as informações dadas aqui sejam suficientes para introduzir o
assunto ao leitor. Conforme mencionado na Introdução, o presente trabalho não privilegiará o
uso de etiquetadores automáticos, mas a etiquetagem semi-automática e manual de corpora
pequenos e médios.
Se o leitor estiver interessado em conhecer melhor o funcionamento dos vários
etiquetadores automáticos disponíveis13 e aprender como usá-los, sugiro a leitura do
Lingüística de Corpus, de Berber Sardinha (2004). O livro dedica todo o capítulo 4 e parte do
capítulo 5 à etiquetagem, dando instruções de uso precisas, exemplos e endereços eletrônicos
de diversos etiquetadores para ambiente Windows, DOS, Unix e Linux, bem como de
etiquetadores que podem ser usados online – como, por exemplo, o “Etiquetador morfológico
para o português brasileiro”, adaptado para o português pelo próprio autor a partir do
etiquetador QTAG, criado por Oliver Mason para o inglês14. Ainda para o português
brasileiro, é preciso mencionar o portal do Projeto Lácio-Web15, em que há também
etiquetadores automáticos disponíveis online – neste caso, o corpus inteiro é enviado e
disponibilizado para download logo em seguida, já com as etiquetas.
Caso o leitor esteja interessado em aprofundar seus conhecimentos sobre a
etiquetagem com vistas à construção de um etiquetador próprio, uma boa fonte de consulta é
artigo escrito por Geoffrey Leech, “Adding Linguistic Annotation”, do livro Developing
Linguistic Corpora: a Guide to Good Practice, editado por Martin Wynne e publicado em
200516. Lá ele trata de vários assuntos pertinentes à anotação de corpora; além de dar
definições básicas dos termos mais comuns, tipos de etiquetagem, para que são usadas, etc., o
autor apresenta uma discussão aprofundada dos princípios teóricos e práticos que devem
nortear a criação de etiquetadores para que estes sejam eficientes e de alta usabilidade para o
maior número possível de pessoas.
2.1.2.3 Princípios da etiquetagem manual e semi-automática
Para etiquetar um corpus de estudo é preciso planejar cuidadosamente o

procedimento. Independentemente do tipo de etiquetagem escolhido – manual ou semi-
automática – é essencial manter uma cópia atualizada do corpus original sem etiquetas para o
caso de haver algum problema.
13
Em sua maioria construídos para línguas mais difundidas, como o inglês e o alemão – uma lista dos
etiquetadores automáticos mais conhecidos e seus respectivos endereços eletrônicos pode ser encontrada no site
de David Lee <http://devoted.to/corpora>, no link “Software, Tools, Freq. Lists, etc.”
14
<http://lael.pucsp.br/corpora/etiquetagem/index.html>.
15
<http://www.nilc.icmc.usp.br/lacioweb/>.
16
Disponível em: <http://www.ahds.ac.uk/creating/guides/linguistic-corpora/chapter2.htm>
A etiquetagem manual pode ser feita durante a coleta do corpus, após a compilação ou
até mesmo num corpus já pronto, coletado por outro(s) pesquisador(es). No primeiro caso,
após o planejamento do corpus, o pesquisador localiza os textos que pretende coletar na
Internet (ou faz a digitalização e revisão dos textos não disponíveis eletronicamente) e, em
seguida, adiciona as etiquetas de seu interesse. Nos corpora prontos, o pesquisador não
precisa coletar os textos, mas deve conhecer muito bem seu conteúdo antes de planejar a lista
de etiquetas que pretende inserir. Alguns exemplos:
 Pode ser de interesse do pesquisador etiquetar os vários movimentos argumentativos

de uma publicação científica. Um corpus de artigos na área de ciências biológicas, por
exemplo, poderia conter as seguintes etiquetas: resumo, abstract, palavras-chave,
keywords, introdução, material e métodos, resultados, discussão e bibliografia. Ao
etiquetar o abstract e as keywords, por exemplo, é possível, na hora de trabalhar com
os textos do corpus, excluir esses trechos em língua inglesa das pesquisas em
português;
 Em qualquer tipo de corpus, pode ser vantajoso separar do restante do texto: a
bibliografia, as tabelas, as figuras, os gráficos, as notas de fim e/ou de rodapé, etc.
uma vez que os mesmos, em geral, não são objeto de pesquisas lingüísticas e quase
sempre interferem nas listas de palavras dos corpora. Além disso, como os textos de
um corpus – especialmente se o programa de análise escolhido for o WordSmith
Tools – são em geral arquivados em .txt (arquivo do Bloco de Notas, no formato
“somente texto”), alguns elementos gráficos não podem ser mantidos, mas é
importante registrar sua omissão para não comprometer o entendimento do texto, caso
o corpus seja alvo, em um outro momento, de estudos que analisem seqüências
maiores do discurso;
 Em corpora de transcrição de fala é possível usar as etiquetas para identificar os
diferentes participantes do discurso. Assim, torna-se possível, posteriormente, estudar
apenas as falas de um determinado sujeito. O mesmo procedimento pode ser usado em
textos teatrais, entrevistas, roteiros de filmes, telejornais, seriados, etc.
 Em corpora de traduções de aprendizes – várias traduções de um mesmo original –
pode-se usar etiquetas para separar as sentenças das traduções de acordo com o
original. Dessa forma será possível saber, por exemplo, como cada aluno traduziu a
frase 3 do original bastando, para isso, fazer uma busca das linhas de concordância
com a etiqueta usada para identificar tal frase.
 Em corpora de aprendizes de língua estrangeira pode-se, por exemplo, etiquetar os
desvios dos alunos (até o momento não há nenhum programa que faça essa
etiquetagem automaticamente em língua portuguesa) para facilitar a identificação de
problemas no aprendizado.
Como já foi dito anteriormente, toda etiqueta deve ser codificada, ou seja, deve ser de
fácil identificação, seja pelo pesquisador, seja pelo programa de análise lingüística que se vai
usar. Se as mesmas forem colocadas manualmente, é importante criar etiquetas simples,
curtas e fáceis de digitar, pois o maior problema desse tipo de etiquetagem é a grande
margem de erro a que o ser humano está sujeito devido a diversos fatores que, no ambiente
eletrônico, são evitáveis, como: cansaço, distração, erro de digitação, uso acidental da tecla
“Caps Lock”, etc.
O formato das etiquetas automáticas é variado – em geral uma sigla em letras
maiúsculas, precedida por um sinal que pode ser o sublinhado (underscore) “_”, a barra “/”, o
colchete “[“, etc. Teoricamente, qualquer símbolo pode ser usado para a identificação das
etiquetas, com exceção dos caracteres que normalmente são encontrados em textos, como os
parênteses e os sinais de pontuação. No entanto, na etiquetagem manual o símbolo mais
usado para essa identificação é o sinal de menor (<) e maior (>). Fica a critério do
pesquisador escolher o texto que vai nomear sua etiqueta, mas é recomendável levar em conta
as sugestões mencionadas acima, para evitar erros e repetidas correções, bem como o que já
foi convencionalizado entre os pesquisadores que trabalham na área (vide Leech, 2005).
2.1.2.3.1 Etiquetagem manual
Os sinais “<...>” e “</...>” são usados para indicar ao programa de análise lingüística
(no caso, o WordSmith Tools) onde começa e onde termina cada uma das seções
identificadas pelas etiquetas, permitindo assim selecioná-las ou ignorá-las posteriormente a
qualquer momento da pesquisa. Assim, todo trecho etiquetado deve conter uma etiqueta
indicando o início (<etiqueta>) e outra indicando o término (</etiqueta) – o que mostra para o
computador o término de um trecho etiquetado é a barra colocada logo após o sinal de menor
dentro da etiqueta de fim. É importante deixar um espaço em branco entre a etiqueta e o texto
(exemplo: <titRec> Bolo mármore </titRec>) – se a etiqueta estiver “grudada” (exemplo:
<titRec>Bolo mármore</titRec>) o computador pode não ser capaz de reconhecê-la, pois
considerará tudo como uma palavra só (“<titRec>Bolo”).
Se fôssemos etiquetar o presente artigo, por exemplo, poderíamos começar assim
(note-se que as etiquetas não contêm sinais diacríticos ou palavras longas, justamente para
não incorrer no risco de esquecimento ou digitação errada):
<tit> Etiquetagem em Lingüística de Corpus – possibilidades de

aplicação </tit>
<intro> 1. Introdução
A etiquetagem (ou, como preferem alguns autores, etiquetação) é um
recurso (...) a que foram acrescentadas manualmente 5 etiquetas
pragmáticas. </intro>
<sec2> 2. Etiquetagem: o que é?
Entende-se por etiquetagem (ou anotação) a inserção automática, (...) e
de alta usabilidade para o maior número possível de pessoas. </sec2>
<sec3> ...
Se a intenção é apenas tornar uma palavra, frase, data ou trecho do texto “invisível”
para os programas de análise, mas visíveis para quem lê o texto corrido num processador de
texto, pode-se usar apenas o sinal de maior e menor no começo e no fim do segmento a ser
ignorado. Por exemplo, se o corpus de estudo é composto de artigos científicos em português
e o objetivo é estudar apenas o português, pode-se colocar um sinal de maior antes do início
do abstract e/ou keywords e outro ao final:
<ABSTRACT: The purpose of this dissertation is to elicit the

distinctiveness of translating texts within the technical area of
Cooking (...) as a technical area of translation.
KEYWORDS: Cooking technical translation; corpus linguistics;
contrastive studies; translator training; translation strategies. >
Mas o procedimento mais usado é criar uma etiqueta (ou transferir para o cabeçalho, ou
para outro arquivo) toda informação que julgamos não ser parte integrante do corpo do texto
– nada deve ser excluído pois o que não tem interesse para uma pesquisa pode ser
fundamental para outra.
2.1.2.3.2 Etiquetagem semi-automática com o WordSmith Tools Text Converter
A etiquetagem semi-automática de textos usando o utilitário Text Converter do

WordSmith Tools é algo para ser tentado por pessoas que já tenham algum conhecimento
do programa, pois exige a criação de uma espécie de “programinha” (arquivo de conversão)
que, ainda que seja na linguagem mais simples possível, pode parecer complicado para quem
nunca viu ou ouviu falar de nenhuma linguagem de programação. O Text Converter pode ser
localizado no menu Utilities da barra de ferramentas da tela principal do programa:
Figura 14 - Localizando o utilitário Text Converter

Um alerta: como é possível observar no manual do programa, bem como nas palavras
de Berber Sardinha17, o utilitário Text Converter não foi criado com a finalidade de ser usado
como etiquetador, e não tenho notícia de outra pesquisa que o tenha usado para esse fim, mas
verifiquei durante meu mestrado que a tarefa pode ser perfeitamente possível, desde que
sejam tomadas algumas precauções: a principal delas é a necessidade de os textos do corpus
apresentarem algum tipo de regularidade, ou seja, palavras e/ou expressões, sinais de
pontuação, etc. que se repitam em todos os textos do corpus e que fiquem próximos (ou
coincidam) com os trechos que se pretende etiquetar. Caso contrário, somente a etiquetagem
manual será possível.
Na tela principal do utilitário (Figura 15), é possível executar várias tarefas, como:
renomear arquivos, criar subcorpora a partir de um corpus maior usando campos do
cabeçalho ou etiquetas previamente colocadas, corrigir erros acidentais do corpus, mudar o
nome de etiquetas já inseridas no corpus, entre outras18. No presente trabalho, vamos nos ater
apenas à função “Text conversion”, na porção direita da tela, e seu possível uso na
etiquetagem semi-automática de textos.
À direita da tela é possível identificar dois tipos possíveis de conversão: aquela em
que apenas uma alteração é feita, por exemplo, substituir todas as ocorrências de “Maria:” em
uma peça teatral por “<Maria>” – nesse caso seleciona-se a opção “Just one change, so” e
digita-se a palavra que se encontra no original, e que se deseja mudar/substituir, no campo da
esquerda (nesse exemplo, “Maria:”, sem as aspas – não esquecer os dois pontos, ou serão
trocadas todas as ocorrências do nome da personagem em todas as falas em que for
mencionado) e, no campo da direita, a palavra que vai substituí-la (no nosso caso, trocaremos
o nome da personagem por uma etiqueta, <Maria>). Deve-se selecionar sempre a opção “or
(safer) copy to” (em vez de “Over-write Source Texts”), já que a primeira grava uma cópia
do arquivo com as alterações na pasta de arquivos temporários (ou qualquer outra
determinada pelo usuário) e a segunda altera o corpus original, gravando as modificações
diretamente nos arquivos de origem – o que pode ser desastroso se a alteração feita estiver
errada e não houver uma cópia-reserva do corpus, atualizada. Atenção: não existe a tecla
“Desfazer” no WordSmith Tools versão 3!
17
“há ainda uma outra tarefa comum na Lingüística de Corpus que o programa WordSmith Tools não dá conta:
a etiquetagem” (Berber Sardinha, 2004: 112).
18
Para conhecer outras possibilidades de uso desse utilitário ver manual do usuário que acompanha o programa.
Figura 15 - Tela principal do Text Converter
Como ocorre na maioria das vezes, no entanto, não vamos precisar colocar apenas
uma etiqueta no corpus, mas várias, e além disso, não é tão fácil colocar a etiqueta que fecha
a seção (no exemplo dado, “</Maria>”, para indicar o fim da fala da personagem) usando a
conversão do tipo simples. Assim, é bem provável que o pesquisador precise usar a opção 2:
“or more, using Conversion File”. O nome do arquivo de conversão exibido automaticamente
no campo logo abaixo dessa opção (c:\wsmith\convert.txt) aponta para um arquivo que já vem
com o programa: serve para converter textos em .html para .txt, que não é o nosso objetivo
aqui. Portanto, precisamos criar nosso próprio “arquivo de conversão” para acrescentar as
etiquetas ao corpus. Vamos examinar, a seguir, dois exemplos aplicados:
Exemplo 1: vamos supor que o objetivo de uma pesquisa seja etiquetar um corpus com cerca
de 5.000 receitas retiradas automaticamente de um site da Internet usando um offline
browser19. Após o tratamento dos textos – conversão de .html para .txt, limpeza de espaços e
parágrafos excedentes, re-nomeação de arquivos, etc. – é preciso estudar a estrutura dos
arquivos do corpus e observar suas regularidades. No caso das receitas, em geral temos a
palavra “Ingredientes” e “Modo de fazer” delimitando suas partes principais. Se, após
verificar algumas receitas do corpus observarmos que não trazem qualquer comentário entre
o título e a lista de ingredientes e nada após o final da descrição dos procedimentos, posso
criar o seguinte “programinha”, usando a sintaxe (uma série de regras) contida no manual do
usuário do WordSmith Tools:
19
“programa feito para baixar um site inteiro de um servidor da Internet e copiá-lo fielmente no disco rígido de
outra máquina” (Berber Sardinha, 2004: 46).
A rotina deve ser digitada em um arquivo tipo .txt (bloco de notas). A estrutura básica
de comando é “X” -> “Y”, ou seja, troque “X” por “Y” (a seta é obtida com a digitação do
sinal de menos e do sinal de maior, sem espaço). Há outros recursos como “/A” (usado na
rotina acima), que significa: acrescente o texto entre aspas no começo (START) ou no fim do
arquivo (END). Para se referir a aspectos da formatação do texto, como parágrafo, tabulação,
aspas invertidas, etc. é usada a estrutura {CHR(código ASCII)} – para representar o “enter”
usa-se, por exemplo, os códigos {CHR(13)}{CHR(10)} juntos, como mostrado acima. Se
fôssemos descrever os comandos contidos nessa rotina seria algo como:
Linha 1: acrescente a etiqueta <titRec> + espaço em branco no começo do arquivo

Linha 2: procure um enter seguido de “Ingredientes:” e acrescente, antes desse enter, um
espaço em branco + a etiqueta </titRec> e, depois dele, a etiqueta <ingr> + espaço
em branco
Linha 3: procure um enter seguido de “Modo de fazer:” e acrescente, antes desse enter, um
espaço em branco + a etiqueta </ingr> e, depois dele, a etiqueta <modFaz> +
espaço em branco
Linha 4: acrescente a etiqueta </modFaz> no final do arquivo.
Após a criação do arquivo em .txt com os comandos necessários, ele deve ser salvo,
de preferência na mesma pasta em que se encontra o arquivo convert.txt, que já vem com o
programa. Para encontrar essa pasta basta procurar em Meu Computador, C:/, WSMITH –
dentro dessa pasta há inúmeros arquivos e três pastas (Concord, Keywords, Wordlist). Salve
fora dessas três pastas com um nome de até oito letras, por exemplo: teste1.txt. Em seguida,
abra a tela principal do Text Converter (Figura 18), escolha os textos a serem etiquetados na
janela da esquerda (“Choose Files”) e troque o nome do arquivo que aparece na janela “or
more, using Conversion File” para o nome dado ao arquivo, por exemplo:
c:\wsmith\teste1.txt. Clique em “go now” – caso os arquivos sejam muitos ou longos,
aparecerá uma barra de progresso (em verde e amarelo); com poucos textos ou textos curtos o
processo é tão rápido que a barra nem aparece. Os arquivos com as etiquetas serão gravados
na pasta de arquivos temporários, que fica em Meu computador, C:/, Temp, ou em qualquer
outra pasta designada pelo usuário. Abra alguns dos arquivos e confira o resultado.
Caso alguma coisa dê errado e seja necessário fazer mudanças no arquivo de
conversão, jamais escreva sobre o arquivo usado pois, “a emenda pode ficar pior que o
soneto” e, em caso de arquivos grandes, você não conseguirá lembrar o que tinha colocado
antes: grave as alterações com um novo nome, como teste2.txt, teste3.txt, etc.
Exemplo 2: vamos supor agora que temos o roteiro de várias exibições do seriado Friends
em mãos e queremos fazer um estudo comparativo do vocabulário peculiar a cada um dos 6
personagens principais: Rachel, Monica, Phoebe, Chandler, Ross e Joey. Além dos
personagens de interesse para a pesquisa, há também outros personagens e elementos no texto
que podem tornar a etiquetagem semi-automática complicada, como pode ser visto no trecho
a seguir (em itálico):
(Scene: Central Perk, Phoebe is recapping last season, and as she talks we see a montage of
scenes from Ross and Rachel.)
Phoebe: Ok, so this is pretty much what's happened so far. Ross was in love with Rachel
since, you know, forever, but every time he tried to tell her, something kind of got in the way,
like cats, and Italian guys. Finally Chandler was like "forget about her" but when Ross was in
China on his dig, Chandler let it slip that Ross was in love with Rachel. She was like, "Oh my
god." So she went to the airport to meet him when he came back, but what she didn't know
was that Ross was getting off the plane with another woman. Uh-Oh! So, that's pretty much
everything you need to know. But, enough about us. So, how've you been?
(Opening Credits)
(Scene, The Airport, continued from last season, Rachel is waiting for Ross to come off the
plane, when she sees he's coming off with another woman.)
Rachel: Oh my god. Oh my god. [She decides to make a break for it.] Excuse me. Move!
Move! Emergency! Excuse me! [She tries climbing over a bench and falls down.]
Ross: [seeing her] Rach! (...)
É possível observar que além dos nomes dos personagens outros sinais se repetem,
como os parênteses, para indicar a marcação de cena, e os colchetes, usados para indicar a
rubrica. Devido a esse tipo de regularidade torna-se possível a etiquetagem semi-automática
desses textos. Mesmo os personagens ocasionais que surgem a cada capítulo seriam
certamente identificáveis pelo programa uma vez que depois do seu nome e antes do início de
sua fala há um sinal gráfico que se repete – os “dois pontos”. Uma rotina possível para a
etiquetagem das falas dos personagens principais nesse corpus seria:
As linhas de comando da rotina acima poderiam ser explicadas assim:
Linha 1: encontre as ocorrências de “Phoebe: (...)” seguidas de um enter, troque “Phoebe:”

pela etiqueta <Phoebe> e acrescente uma etiqueta de fechamento, </Phoebe>, antes
de enter.
Linha 2: faça o mesmo com “Monica: (...)” + enter
Linha 3: faça o mesmo com “Joey: (...)” + enter
Linha 4: faça o mesmo com “Chandler: (...)” + enter
Linha 5: faça o mesmo com “Ross: (...)” + enter
Linha 6: faça o mesmo com “Rachel: (...)” + enter
Linha 7: troque os parêntesis de “(Opening Credits)” por sinais de maior e menor (< >) –
isso é feito para que tal expressão seja ignorada pelos programas de análise
lingüística em estudos futuros (mas ela continua visível “a olho nu”)
Linha 8: troque todos os colchetes de início (“[“) pela etiqueta <rubrica>
Linha 9: troque todos os colchetes de fim (“]”) pela etiqueta </rubrica>
Linha 10: troque todos os parênteses de início (“(“) pela etiqueta <MCena>
Linha 11: troque todos os parênteses de fim (“)“) pela etiqueta </MCena>
Lembre-se: é preciso que haja apenas um enter antes da fala de cada um dos
personagens, que seus nomes tenham sido escritos corretamente, que os dois pontos não
tenham sido omitidos, que não haja quebras de linhas, que não esteja faltando nenhum
parênteses ou colchete, etc. para que a rotina funcione adequadamente. Esse é o resultado
obtido na conversão do trecho mencionado usando os comandos descritos na tela acima:
<MCena> Scene: Central Perk, Phoebe is recapping last season, and as she
talks we see a montage of scenes from Ross and Rachel. </MCena>
<Phoebe> Ok, so this is pretty much what's happened so far. Ross was in
love with Rachel since, you know, forever, but every time he tried to tell
her, something kind of got in the way, like cats, and Italian guys. Finally
Chandler was like "forget about her" but when Ross was in China on his dig,
Chandler let it slip that Ross was in love with Rachel. She was like, "Oh
my god." So she went to the airport to meet him when he came back, but what
she didn't know was that Ross was getting off the plane with another woman.
Uh-Oh! So, that's pretty much everything you need to know. But, enough
about us. So, how've you been? </Phoebe>
<Opening Credits>
<MCena> Scene, The Airport, continued from last season, Rachel is waiting
for Ross to come off the plane, when she sees he's coming off with another
woman. </MCena>
<Rachel> Oh my god. Oh my god. <rubrica> She decides to make a break for
it. </rubrica> Excuse me. Move! Move! Emergency! Excuse me! <rubrica> She
tries climbing over a bench and falls down. </rubrica> </Rachel>
<Ross> <rubrica> seeing her </rubrica> Rach! </Ross>
Para testar o resultado obtido, seja na etiquetagem semi-automática, seja na manual,

pode-se usar a ferramenta Concord do WordSmith Tools. Uma busca por cada uma das
etiquetas acrescentadas pode indicar possíveis problemas tanto na etiqueta para a qual se
pediu a linha de concordância quanto nas outras que estarão em seu entorno.
Conforme tentamos demonstrar aqui, é possível usar o utilitário Text Converter do
WordSmith Tools para colocar etiquetas, de forma semi-automática, em corpora de textos
que apresentem regularidades. Descobrir o porque das falhas apresentadas no resultado final
é um trabalho árduo pois, muitas vezes, são características ocultas do texto que atrapalham o
desempenho do utilitário (como, por exemplo, haver apenas uma quebra de linha e não um
enter entre duas linhas – algo que não é visível para o olho humano, mas que o computador
entende como duas coisas distintas). O sucesso de uma rotina depende do conhecimento que
o pesquisador tem do seu corpus, da regularidade verificada na formatação dos textos e,
acima de tudo, de paciência e criatividade para tentar várias alternativas até chegar ao
funcionamento ideal. Há várias outras regras de sintaxe para a construção dessas rotinas que
podem ser consultadas no Help do Text Converter, localizado na página principal do
programa, conforme pode ser visto abaixo:
Figura 16 - Localização do Help do Text Converter
2.1.2.4 Um exemplo: etiquetagem e análise de um corpus comparável de receitas
O Corpus Quadricultural Comparável de Culinária (Tagnin & Teixeira, 2004a) foi

compilado com o intuito de verificar diferenças varietais entre receitas escritas em português
brasileiro (POB) e europeu (POP), inglês americano (IOA) e britânico (IOB). É composto de
440 receitas, 110 em cada uma dessas variantes, 10 em cada uma das categorias abaixo:
 Entradas = ent
 Sopas = sop
 Pratos principais carnes = ppc
aves = ppa
peixes e frutos do mar = ppp
massas = ppm
 Acompanhamentos = aco
 Saladas = sal
 Sobremesas = sbr
 Tortas e Bolos = teb
 Pães = pao
Por ser um corpus comparável, as receitas incluídas possuem um “equivalente” em
cada uma das quatro variantes – todas originalmente escritas naquela variante. A semelhança
entre as receitas baseia-se, sempre que possível, no nome do prato, nos ingredientes que as
compõem e/ou no tipo de processo empregado20. Por exemplo:
Português brasileiro: “Torradinhas de alho” europeu: “Pão com alho”

Inglês americano: “Garlic bread” britânico: “Garlic bread”
Durante a coleta, foram acrescentadas manualmente 5 etiquetas “pragmáticas” (ou

“discursivas”) com o objetivo de delimitar as principais partes da receita, a saber:
 <titRec> título da receita </titRec>
 <coment> comentários do autor da receita, como “ótima para os dias quentes de verão”,
ou “essa receita minha vó fazia quando eu era criança”, etc. </coment>
 <ingr> lista de ingredientes </ingr>
 <modFaz> descrição dos procedimentos da receita </modFaz>
 <class> informações dadas pela receita quanto ao rendimento, tipo de prato, valor
calórico, custo, etc. </class>
Cada uma dessas etiquetas foi digitada manualmente no início e no final das
respectivas seções do texto, logo após a coleta e limpeza. Veja a seguir um exemplo de
receita do corpus já em arquivo do tipo texto (.txt) e com as etiquetas digitadas:
<titRec> Crispy Cod Balls </titRec>

<class> 30mins plus chilling; Makes approx. 40; Hot; Party Food; Buffet;
Appetizer </class>
<ingr> Ingredients:
250g/9oz Cod Fillets, skinned
3 Spring Onions, chopped
2 teasp Soy Sauce
1 Egg White
1 teasp Cornflour
14 Slices White Bread
Oil for deep frying </ingr>
<modFaz> Instructions
1. Place the fish in a food processor and blend until finely chopped.
2. Transfer the fish to a mixing bowl, add the spring onions, Soy sauce,
egg white and cornflour. Mix well.
3. Remove the crusts from the bread and cut the bread into 5mm/1/4inch
cubes at the largest.
4. Using damp hands, roll teaspoons of the fish mixture into balls, toss in
the bread cubes, pressing firmly on, then cover and refrigerate for at
least 30 minutes.
5. Preheat the deep fat fryer to 180C/350F. Deep-fry the fish balls for a
few minutes until golden brown. </modFaz>
<coment> These can be prepared 1 day ahead. Make to stage 4, cover and
refrigerate until required. </coment>
20
Para maiores detalhes sobre a construção e análise deste corpus ver Teixeira 2004; Tagnin & Teixeira 2004a e
2004b.
Depois de coletar e preparar todos os textos do corpus (o que, no caso deste estudo,
previa também a colocação de cabeçalhos) tornou-se possível analisá-lo de várias maneiras
usando as etiquetas inseridas. Alguns exemplos:
A. Fazer a lista de palavras (Wordlist) de cada seção da receita

 No menu Tools da tela principal do programa, selecione a ferramenta Wordlist
 Selecione os textos (por exemplo, todas as receitas em POB)
 Na barra de ferramentas, selecione Settings e em seguida Tag List (vide Figura 17)
 Nesta tela, na opção “Tags to ingore” o box “Activated” deve estar habilitado (ticado)
– isso fará com que as etiquetas propriamente ditas não entrem na contagem do
corpus.
 Na mesma tela, clique o botão “Only part of file”. Uma nova tela deve aparecer (vide
Figura 18).
 Nesta tela, é possível excluir o cabeçalho21 em “Sections to cut”, bem como
selecionar a seção do corpus que será usada na Wordlist (“Sections to use”) – por
exemplo, para fazer uma lista de palavras dos títulos das receitas basta digitar as
etiquetas (<titRec> e </titRec>) nos espaços reservados. Atenção: digite o nome da
etiqueta exatamente como está no corpus. Qualquer diferença de maiúscula /
minúscula, espaço, etc. provocará um erro de leitura.
 Não se esqueça de selecionar os boxes “Activated”. Dê OK e inicie a Wordlist.
Figura 17 - Tela principal do Tag List do menu Settings
21
em nosso corpus, delimitado pelas etiquetas <Header> e </Header>.
Figura 18 - Tela acessada pelo botão Only part of file
O resultado será disposto em três telas diferentes: na primeira, as palavras da seção

selecionada aparecerão por ordem de freqüência; na segunda, por ordem alfabética e, na
terceira tela, aparecerão os dados estatísticos e quantitativos da seção analisada. Para
exemplificar os resultados obtidos, organizamos na Tabela 8 uma lista com as primeiras 25
palavras, por ordem de freqüência, das 5 seções da receita na variante POB (Português
Original do Brasil):
<titRec> <coment> <class> <ingr> <modFaz>

DE DE DE DE E
COM O RENDIMENTO SOPA O
AO A PORÇÕES CHÁ DE
PÃO E TEMPO COLHERES A
SOPA PARA PREPARO COLHER COM
FRANGO COM DIFICULDADE XÍCARA EM
À UM PESSOAS EM POR
SALADA DO FÁCIL INGREDIENTES UMA
MOLHO OU MINUTOS SAL OS
BOLO É CATEGORIA E AS
E QUE MIN A COLOQUE
LEGUMES SE COZINHA G MINUTOS
ARROZ NO GRAU LEITE PARA
BATATA EM SERVE PICADA ATÉ
DOCE DA PARA PARA FOGO
FEIJÃO UMA BRASILEIRA GOSTO DO
TORTA CALDO CUSTO CEBOLA DEIXE
ASSADO MAIS TIPOS FARINHA PANELA
CASEIRO ESTA PRATO ALHO SAL
CHOCOLATE NÃO PRINCIPAL AÇÚCAR UM
DO OS RECEITA MANTEIGA QUE
FRUTOS ÁGUA A SEM JUNTE
INTEGRAL AS DA TRIGO BEM
LIMÃO DICA E ÁGUA AO
MAR ARROZ G O LEVE
Tabela 8 - Lista de palavras por ordem de freqüência do corpus POB

B. Fazer a lista de palavras-chave (Keywords) de cada seção da receita
 Após fazer e salvar a lista de palavras (Wordlist) de cada seção, é preciso fazer o mesmo
com o corpus total menos a parte que se pretende estudar. Por exemplo, para saber o
vocabulário peculiar ao “modo de fazer” das receitas é necessário fazer, primeiramente, a
lista de palavras dessa seção (usar as instruções acima). Em seguida, faz-se a lista do
corpus total daquela mesma variante menos a seção “modo de fazer” (<modFaz>). Isso
pode ser feito da seguinte forma:
 Na tela acessada pelo botão “Only part of file” (Figura 18), o campo “Sections to
use” fica em branco e o box “Activate” desativado. No campo “Sections to cut”,
além do cabeçalho (<Header> e </Header>, no caso deste corpus) deve-se
preencher a janela à direita desta com <modFaz> e </modFaz>.
 O mesmo deve ser feito com todas as etiquetas e, a cada procedimento realizado, a lista
de palavras resultante deve ser salva no local indicado pelo programa (nunca apague a
extensão “.lst” dos arquivos ou eles não serão reconhecidos).
 Feito isso, abra a ferramenta Keyword no menu Tools da tela principal do programa e faça
o procedimento normal de feitura de lista de palavras-chave, comparando a wordlist de
cada seção com o corpus total menos aquela seção. Por exemplo, podemos comparar a
lista de palavras dos ingredientes (<ingr>) com o corpus total menos esta seção da receita.
Na Tabela 9 listamos as primeiras 25 palavras-chave da seção “ingredientes” obtidas nas
quatro variantes estudadas.
POB POP IOA IOB

DE DE CUP OZ
CHÁ INGREDIENTES TEASPOON TBSP
SOPA Q CHOPPED CHOPPED
COLHERES B CUPS TSP
XÍCARA GR FRESH INGREDIENTS
COLHER G TABLESPOONS FRESH
G SOPA OUNCES FRESHLY
INGREDIENTES DL SLICED GROUND
PICADA COLHERES INGREDIENTS PLAIN
GOSTO GRS GROUND SLICED
KG S TSP FINELY
XÍCARAS COLHER TABLESPOON CLOVES
DENTES KG TB G
PICADO SAL MINCED BLACK
SEM CHÁ DRIED PINT
XÍC GRAMAS LB SALT
SAL PÓ OZ ML
PÓ PIMENTA PEELED GRATED
FRESCO C CLOVES PEPPER
PIMENTA-DO-REINO PACOTE DICED TEASP
PICADOS FARINHA POUND PEELED
LATA ALHO FINELY WHITE
CORTADO DENTES SALT LB
LEITE CH C CUP
PICADAS OVOS TEASPOONS TEASPOON
DE DE CUP OZ
Tabela 9 - Lista de palavras-chave de ingredientes por ordem de freqüência
C. Comparar as listas de palavras das variantes

Para o tipo de estudo que pretendíamos com esse corpus, interessava-nos também
fazer a comparação entre as duas variantes do português e do inglês, o que pôde ser feito
usando o recurso “Compare 2 Wordlists” (menu Comparison da barra de ferramentas do
Wordlist). Com isso foi possível identificar o vocabulário peculiar a cada uma delas em cada
seção da receita bastando, para tal, comparar a lista de palavras obtidas para a seção “modo
de fazer” de POB, por exemplo, com a obtida para POP. Nesse tipo de comparação, assim
como nas listas de palavras-chave, o que é diferente fica em evidência, pois o programa
compara a freqüência relativa que cada palavra teve no corpus de estudo com a freqüência
relativa da mesma no corpus usado na comparação. Por exemplo, na Figura 19 organizamos
os dados obtidos na comparação da seção “modo de fazer” nas duas variantes de cada língua.
Na lista da esquerda, POB está representado pelas palavras-chave positivas (as primeiras da
lista) e as palavras-chave negativas (as últimas da lista – aparecem na tela original do
programa em cor diferente) representam POP. O mesmo pode ser dito de IOB e IOA,
respectivamente, na lista de palavras-chave à direita.
N WORD N WORD
1 FOGO 1 THE
2 COLOQUE 2 METHOD
3 PREPARO 3 GAS
4 PANELA 4 LEAVE
5 POR IOB 5 FRYING
6 MODO 6 FRY
7 BAIXO 7 LITTLE
8 ACRESCENTE 8 MARK
9 COZINHE 9 CENTRE
POB 10 SUCO 10 FURTHER
11 RESERVE 11 OVER
12 PARA 12 MEDIUM
13 REFOGUE 13 SHRIMP
14 UMA 14 CUPS
15 GELADEIRA IOA 15 SKILLET
16 FÔRMA 16 CUP
17 DO 17 DEGREES
18 MAIS 18 LET
19 PIMENTA-DO-REINO 19 DIRECTIONS
20 DOURAR
21 ENTRETANTO
22 PASSADOR
23 LEVEDAR
24 POUCO
25 COZA
26 BOCADOS
27 DEITA-SE
28 PURÉ
29 ALOURAR
30 LEVA-SE
31 TAPE
32 MARGARINA
33 COM
34 JUNTA-SE
35 ARREFECER
36 TACHO
37 SUMO
38 DEIXA-SE
POP 39 DEITE
40 NATAS
41 CONFECÇÃO
42 DURANTE
43 PREPARAÇÃO
44 COZER
45 LUME
Figura 19 - Comparação entre variantes das Wordlists de <modFaz>
É muito significativa a diferença entre o número de palavras-chave obtidas na

comparação das variantes do português (19 em POB e 26 em POP = 45) e inglês (10 em IOB
e 9 em IOA = 19), uma vez que os mesmos critérios foram empregados em ambas as
comparações. Isso mostra, entre outras coisas, que há muito mais diferenças lexicais entre as
variantes brasileira e européia do português do que entre as variantes americana e européia do
inglês nessa área de especialidade: a Culinária.
Essas são apenas algumas das pesquisas possíveis em um corpus com etiquetas
“pragmáticas / discursivas” como o que foi construído para este estudo. Há muitas outras
pesquisas possíveis como, por exemplo, verificar o número de ocorrências de um
determinado vocábulo (como “bolo”) excluindo sua ocorrência nos títulos, ou em alguma
outra parte das receitas, ou contabilizar as ocorrências de verbos que indicam processos
apenas junto à lista de ingredientes, tais como “fatia*” (fatiado, fatiada, em fatias, etc.), entre
outras. Cabe a cada pesquisador determinar, de acordo com seus objetivos e o tipo de corpus
utilizado, quais etiquetas pretende inserir e qual a maneira mais produtiva de utilizá-las.
2.1.2.5 Conclusão
Procuramos apresentar aqui algumas noções básicas envolvidas no uso de etiquetagem

na pesquisa lingüística com corpora. Começamos com uma explicação e exemplificação dos
tipos de etiquetagem automática mais usados para, em seguida, dedicarmo-nos à metodologia
de colocação manual e semi-automática de etiquetas. Usamos o programa WordSmith
Tools como ferramenta de análise dos textos etiquetados e seu utilitário Text Converter
como possível ferramenta de etiquetagem semi-automática de corpora cujos textos
apresentem algum tipo de regularidade. A título de exemplificação, apresentamos um estudo
com receitas etiquetadas manualmente com o intuito de demonstrar as várias possibilidades
de pesquisa oferecidas por um corpus etiquetado.
Esperamos, com isso, ter oferecido as informações mínimas necessárias para que o
leitor se inicie na prática da etiquetagem e possa tirar proveito dessa metodologia em suas
pesquisas.
REFERÊNCIAS
BERBER SARDINHA, T. Lingüística de Corpus. Barueri: Manole, 2004.

GARSIDE, R.; LEECH, G. N.; McENERY, T. Corpus annotation: linguistic information
from computer text corpora. London: Longman, 1997.
LEECH, G. 2005. Adding Linguistic Annotation. In: WYNNE, M. (ed.). Developing
Linguistic Corpora: a Guide to Good Practice. Oxford: Oxbow Books: 17-29. Available
online from <http://ahds.ac.uk/linguistic-corpora/>. Accesso em: ago. 2006.
TAGNIN, S. E. O.; TEIXEIRA, E. D. Lingüística de corpus e tradução técnica – relato da
montagem de um corpus multivarietal de culinária. In: Tradterm 10. São Paulo:
Humanitas / FFLCH-USP, 2004a.
TAGNIN, S. E. O.; TEIXEIRA, E.D. British vs. American English, Brazilian vs. European
Portuguese: How close or how far apart? – A corpus-driven study. In: Lewandowska-
Tomaszczyk, B. (ed.). Lodz Studies in Language 9. Europe/New York: Peter Lang.,
2004b.
TEIXEIRA, E. D. Receita qualquer um traduz. Será? – a Culinária como área técnica de
tradução. Dissertação de mestrado apresentada ao Programa de Estudos Lingüísticos e
Literários em Inglês do Departamento de Letras Modernas da Universidade de São Paulo,
2004.
TEIXEIRA, E. D. Como usar o WordSmith Tools. Apostila disponível em:
<http://www.fflch.usp.br/dlm/comet/>, no link “Apresentações & Publicações”. Acesso
em: ago. 2006.

Etiquetagem em Linguística de Corpus - UnB - Elisa Teixeira_

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Etiquetagem em Linguística de Corpus - UnB - Elisa Teixeira_

Enviado por

Direitos autorais:

Formatos disponíveis

TEIXEIRA, E.D.

Etiquetagem em Lingüística de Corpus: possibilidades de

2.1.2 ETIQUETAGEM EM LINGÜÍSTICA DE CORPUS: POSSIBILIDADES DE

Elisa Duarte Teixeira1

A etiquetagem (ou como preferem alguns autores, etiquetação) é um recurso muito

Entende-se por etiquetagem (ou anotação3) a inserção automática, semi-automática ou

 Morfossintática (em inglês, part of speech ou simplesmente POS Tagging) – indica

 Semântica – classifica as palavras de conteúdo lexical de acordo com suas

Além dessas, poderíamos citar também a anotação fonética (usada em transcrições de

Figura 9 - Critérios de pesquisa

O programa retorna todas as combinações de adjetivo + substantivo do corpus

Figura 10 - Reorganizando as linhas de concordância

Figura 11- Resultado listado por ordem alfabética do nódulo e da palavra L1

Se quiser visualizar, por exemplo, a recorrência de adjetivos à esquerda da palavra de

Figura 13 - Busca de “play” como verbo (superior) e como substantivo (inferior)

2.1.2.3 Princípios da etiquetagem manual e semi-automática

Para etiquetar um corpus de estudo é preciso planejar cuidadosamente o

 Pode ser de interesse do pesquisador etiquetar os vários movimentos argumentativos

2.1.2.3.1 Etiquetagem manual

<tit> Etiquetagem em Lingüística de Corpus – possibilidades de

<ABSTRACT: The purpose of this dissertation is to elicit the

2.1.2.3.2 Etiquetagem semi-automática com o WordSmith Tools Text Converter

A etiquetagem semi-automática de textos usando o utilitário Text Converter do

Figura 14 - Localizando o utilitário Text Converter

Linha 1: acrescente a etiqueta <titRec> + espaço em branco no começo do arquivo

As linhas de comando da rotina acima poderiam ser explicadas assim:

Linha 1: encontre as ocorrências de “Phoebe: (...)” seguidas de um enter, troque “Phoebe:”

Para testar o resultado obtido, seja na etiquetagem semi-automática, seja na manual,

Figura 16 - Localização do Help do Text Converter

2.1.2.4 Um exemplo: etiquetagem e análise de um corpus comparável de receitas

O Corpus Quadricultural Comparável de Culinária (Tagnin & Teixeira, 2004a) foi

Português brasileiro: “Torradinhas de alho” europeu: “Pão com alho”

Durante a coleta, foram acrescentadas manualmente 5 etiquetas “pragmáticas” (ou

<titRec> Crispy Cod Balls </titRec>

A. Fazer a lista de palavras (Wordlist) de cada seção da receita

Figura 17 - Tela principal do Tag List do menu Settings

O resultado será disposto em três telas diferentes: na primeira, as palavras da seção

<titRec> <coment> <class> <ingr> <modFaz>

Tabela 8 - Lista de palavras por ordem de freqüência do corpus POB

POB POP IOA IOB

Tabela 9 - Lista de palavras-chave de ingredientes por ordem de freqüência

C. Comparar as listas de palavras das variantes

Figura 19 - Comparação entre variantes das Wordlists de <modFaz>

É muito significativa a diferença entre o número de palavras-chave obtidas na

Procuramos apresentar aqui algumas noções básicas envolvidas no uso de etiquetagem

BERBER SARDINHA, T. Lingüística de Corpus. Barueri: Manole, 2004.

Você também pode gostar