Etiquetagem em LC - 2006

COMO CITAR:
TEIXEIRA, E. D. Etiquetagem em Lingüística de Corpus: possibilidades de aplicação. In:

GERBER, R.M. & VASILÉVSKI, V. (Eds.) Um percurso para pesquisas com base em corpus.
Florianópolis: EDUFSC, 2007, pp. 116-148.
2.1.2 ETIQUETAGEM EM LINGÜÍSTICA DE CORPUS: POSSIBILIDADES DE

APLICAÇÃO
Elisa Duarte Teixeira

Doutoranda do Programa de Estudos Lingüísticos e Literários em Inglês
do Departamento de Letras Modernas da Universidade de São Paulo
(elisadut@usp.br)
2.1.2.1 Introdução
A etiquetagem (ou como preferem alguns autores, etiquetação) é um recurso muito

utilizado por quem trabalha com Lingüística de Corpus. Infelizmente, parece ser uma
prática ainda pouco explorada entre os lingüistas brasileiros que trabalham na área. Isso se
dá, por um lado, porque os etiquetadores automáticos e semi-automáticos em língua
portuguesa são escassos, especialmente na variante brasileira; por outro lado, a etiquetagem
exige um conhecimento mais aprofundado de computação – um quesito que, não raro, é
preterido pelos pesquisadores e profissionais da área de Letras.
A etiquetagem mais usada e difundida é a automática, ou seja, aquela em que um
programa computacional previamente criado por especialistas em Processamento de
Linguagem Natural e lingüistas faz a análise automática do corpus, inserindo etiquetas em
diversos pontos dos textos, com base em inventários previamente elaborados de acordo
com o tipo de análise empregada. Há na literatura e na Internet vários exemplos de uso
desse tipo de ferramenta, em especial para a análise morfossintática – razão pela qual não
será o foco principal deste estudo. O presente trabalho privilegiará a metodologia de
inserção manual e semi-automatizada de etiquetas a corpora pequenos e médios, bem como
algumas possibilidades de uso do programa de análise lingüística WordSmith Tools
(Scott, 1996)1 versão 3.0 nesse processo e na leitura dos resultados.
Após uma breve introdução teórico-prática, serão discutidas as possibilidades de
emprego do utilitário “Text Converter” do programa WordSmith Tools como etiquetador
semi-automático para alguns tipos de corpus. Em seguida, será explicado o procedimento
envolvido na etiquetagem manual. Por fim, exemplificarei esta metodologia apresentando
um estudo por mim realizado envolvendo a etiquetagem de um corpus composto de 440
receitas comparáveis, 110 em cada uma das variantes analisadas (brasileira e européia do
português, americana e britânica do inglês) a que foram acrescentadas manualmente 5
etiquetas pragmáticas.
2.1.2.2 Etiquetagem: o que é?
1
Versão de demonstração (3.0). Disponível em: <http://www.lexically.net/downloads/download.htm>.
Entende-se por etiquetagem (ou anotação2) a inserção automática, semi-automática
ou manual de qualquer tipo de informação em um corpus de estudo com vistas a facilitar
sua análise lingüística. A informação acrescentada é em geral codificada de modo a
permitir sua fácil identificação, seja pelo pesquisador, seja pelos programas computacionais
empregados nas análises.
A etiquetagem pode ser de vários tipos. Os mais conhecidos são:
 Morfossintática (em inglês, part of speech ou simplesmente POS Tagging) –

indica a classe gramatical de cada uma das palavras do corpus (artigo, substantivo,
verbo, etc.)3.
Exemplo4:
'_' he_PP3A stole_VBD my_PP$ wallet_NN !_! '_' roared_VBD
Rollinson_NP ._.
 Sintática (em inglês, parsing) – analisa a sintaxe das frases (sintagma nominal,
sintagma verbal, etc.)5.
Exemplo:
[S[N Nemo_NP1 ,_, [N the_AT killer_NN1 whale_NN1 N] ,_, [Fr[N
who_PNQS N][V 'd_VHD grown_VVN [J too_RG big_JJ [P for_IF [N
his_APP$ pool_NN1 [P on_II [N Clacton_NP1 Pier_NNL1
N]P]N]P]J]V]Fr]N] ,_, [V has_VHZ arrived_VVN safely_RR [P at_II [N
his_APP$ new_JJ home_NN1 [P in_II [N Windsor_NP1 [ safari_NN1
park_NNL1 ]N]P]N]P]V] ._. S]
 Semântica – classifica as palavras de conteúdo lexical de acordo com suas

características semânticas. Pode ser usada, por exemplo, para indicar o campo
semântico a que as palavras pertencem (margarida = flor; gato = animal, etc.)6.
Exemplo:
PPIS1 I Z8
VV0 like E2+
AT1 a Z5
JJ particular A4.2+
NN1 shade O4.3
IO of Z5
NN1 lipstick B4
 Discursiva – anota elementos discursivos de um texto (referentes anafóricos,

marcadores discursivos, etc.)7
2
A anotação de um corpus compreende também a colocação de cabeçalhos.
3
Cada código sublinhado representa uma categoria gramatical.
4
Todos os exemplos retirados de: <http://www.comp.lancs.ac.uk/computing/research/ucrel/annotation.html>.
5
Os colchetes indicam a organização dos sintagmas.
6
Aqui foi usado o etiquetador semântico ACADS, após a etiquetagem morfossintática com o programa
CLAWS. E2+, por exemplo, significa que a palavra “like” pertence: (E) – à categoria dos “estados, ações,
eventos e processos emocionais”; (2) – à subcategoria “gostar / não gostar”; (+) – indica ação afirmativa: se
fosse “não gostar”, o sinal seria negativo; Z é usado para indicar as palavras gramaticais.
Exemplo:
S.1 (0) The state Supreme Court has refused to release {1 [2
Rahway State Prison 2] inmate 1}} (1 James Scott 1) on bail .
S.2 (1 The fighter 1) is serving 30-40 years for a 1975 armed
robbery conviction .
S.3 (1 Scott 1) had asked for freedom while <1 he waits for an
appeal decision .
S.4 Meanwhile , [3 <1 his promoter 3] , {{3 Murad Muhammed 3} ,
said Wednesday <3 he netted only $15,250 for (4 [1 Scott 1] 's
nationally televised light heavyweight fight against {5 ranking
contender 5}} (5 Yaqui Lopez 5) last Saturday 4) .
S.5 (4 The fight , in which [1 Scott 1] won a unanimous decision
over (5 Lopez 5) 4) , grossed $135,000 for [6 [3 Muhammed 3] 's
firm 6], {{6 Triangle Productions of Newark 6} , <3 he said .
Além dessas, poderíamos citar também a anotação fonética (usada em transcrições

de discursos orais), a pragmática e a estilística (Garside et al., 1997). Cada etiquetador
automático tem seu inventário próprio de etiquetas e segue um determinado modelo de
análise lingüística. A etiquetagem morfossintática é a mais comum e a mais usada pelos
lingüistas de corpus, pois apresenta a menor margem de erro – são considerados bons os
programas que conseguem uma porcentagem de acerto acima de 97% (Berber Sardinha,
2004:156). Os outros tipos de etiquetagem exigem programas mais elaborados que, por
lidarem com unidades de texto maiores que a palavra, têm uma margem de erro muito
maior e, não raro, funcionam melhor com corpora de gênero e/ou tipo textual semelhantes
àqueles para os quais foram criados.
Uma vez etiquetado o corpus é possível fazer buscas específicas utilizando
programas de análise lingüística, como o WordSmith Tools. Assim, num corpus
etiquetado morfossintaticamente é possível identificar, por exemplo, todas as ocorrências
da combinação substantivo + adjetivo: algo que pode ser de grande valia, por exemplo, na
identificação de unidades terminológicas num corpus de especialidade. Usando a
ferramenta Concord do programa8 digita-se, após a escolha do corpus etiquetado em
“Choose texts now”, a expressão de busca correspondente, de acordo com as etiquetas
usadas no corpus. Exemplo: usando a versão etiquetada do corpus London-Oslo-Bergen
(LOB)9, usamos o seguinte critério de busca (vide Figura 9): Search word or phrase:
*_NN (a “palavra” de busca será a categoria gramatical substantivo, representada nesse
corpus por _NN); But excluding: em branco; Context word: *_JJ (“palavra” de busca =
categoria adjetivo, representada por _JJ); Horizon: 1L; 0R10 (o adjetivo deve ser a primeira
palavra à esquerda – 1L – do substantivo).
7
(O exemplo mostra uma anotação das anáforas – cada número representa uma entidade mencionada no texto
e as diferentes realizações anafóricas da mesma. O número 1, por exemplo, representa “James Scott”, que
aparece no texto também como “inmate”, “he”, “The fighter”, “Scott” e “his”. Além disso, são usados
parênteses, colchetes, chaves e sinais de maior e menor para indicar as relações entre os elementos do
discurso).
8
Para dirimir dúvidas sobre o uso do programa WordSmith Tools, consultar apostila online de Teixeira
(vide bibliografia) e/ou Berber Sardinha, 2004.
9
Para maiores informações sobre como adquirir ou para uma listagem das etiquetas usadas neste corpus, vide:
<http://www.essex.ac.uk/linguistics/clmt/w3c/corpus_ling/content/corpora/list/private/LOB/lob.html>.
10
L = left (esquerda); R = right (direita).
Figura 9 - Critérios de pesquisa
O programa retorna todas as combinações de adjetivo + substantivo do corpus

etiquetado (mais de 16.000 ocorrências). O pesquisador pode, a partir daí, selecionar o
modo de exibição das linhas de concordância que lhe for mais conveniente. Se quiser saber
quais adjetivos ocorrem com maior freqüência à esquerda de cada substantivo, deve pedir
que o programa re-ordene as linhas: primeiro, pela palavra de busca11 (Main Sort: Centre)
e, em seguida, pelo primeiro colocado à esquerda (then by: 1L).
Figura 10 - Reorganizando as linhas de concordância
11
Também chamada de “nódulo”.
Na tela de resultados, será possível localizar a(s) palavra(s) desejada(s) usando a
barra de rolagem:
Figura 11- Resultado listado por ordem alfabética do nódulo e da palavra L1
Se quiser visualizar, por exemplo, a recorrência de adjetivos à esquerda da palavra

de busca (neste caso, a categoria substantivo, _NN) em ordem alfabética, basta clicar no
ícone “re-sort” e pedir que as linhas de concordância sejam listadas por ordem alfabética de
acordo com a primeira palavra à esquerda da palavra de busca (Main Sort: L1). O resultado
obtido ordenará as linhas de concordância pela ordem alfabética dos adjetivos, como pode
ser observado na figura a seguir:
Figura 12 - Resultado listado por ordem alfabética da palavra L1
Outro tipo de busca que só é possível em um corpus morfossintaticamente

etiquetado é de homônimos com diferentes categorias gramaticais. A Figura 13 mostra, na
mesma tela, os 10 primeiros resultados de duas buscas usando o mesmo corpus LOB:
 na tela superior: a expressão de busca usada foi play*VB* (busca o verbo “play”
em todas as suas formas verbais);
 na tela inferior: a expressão usada foi play*NN* (busca o substantivo “play” em
todas as suas formas nominais).
Figura 13 - Busca de “play” como verbo (superior) e como substantivo (inferior)
Esses são apenas alguns exemplos para ilustrar como é possível usar um corpus
previamente etiquetado e quais são os procedimentos mais comuns para se efetuar uma
pesquisa nesse tipo de corpus. O tipo de etiquetagem e quais expressões de busca o
pesquisador vai usar dependerá do tipo de corpus consultado, da ferramenta de busca usada
(alguns corpora etiquetados têm ferramentas de busca próprias) e do objetivo da pesquisa.
Todavia, esperamos que as informações dadas aqui sejam suficientes para introduzir o
assunto ao leitor. Conforme mencionado na Introdução, o presente trabalho não privilegiará
o uso de etiquetadores automáticos, mas a etiquetagem semi-automática e manual de
corpora pequenos e médios.
Se o leitor estiver interessado em conhecer melhor o funcionamento dos vários
etiquetadores automáticos disponíveis12 e aprender como usá-los, sugiro a leitura do
Lingüística de Corpus, de Berber Sardinha (2004). O livro dedica todo o capítulo 4 e parte
do capítulo 5 à etiquetagem, dando instruções de uso precisas, exemplos e endereços
eletrônicos de diversos etiquetadores para ambiente Windows, DOS, Unix e Linux, bem
como de etiquetadores que podem ser usados online – como, por exemplo, o “Etiquetador
morfológico para o português brasileiro”, adaptado para o português pelo próprio autor a
12
Em sua maioria construídos para línguas mais difundidas, como o inglês e o alemão – uma lista dos
etiquetadores automáticos mais conhecidos e seus respectivos endereços eletrônicos pode ser encontrada no
site de David Lee <http://devoted.to/corpora>, no link “Software, Tools, Freq. Lists, etc.”
partir do etiquetador QTAG, criado por Oliver Mason para o inglês13. Ainda para o
português brasileiro, é preciso mencionar o portal do Projeto Lácio-Web14, em que há
também etiquetadores automáticos disponíveis online – neste caso, o corpus inteiro é
enviado e disponibilizado para download logo em seguida, já com as etiquetas.
Caso o leitor esteja interessado em aprofundar seus conhecimentos sobre a
etiquetagem com vistas à construção de um etiquetador próprio, uma boa fonte de consulta
é artigo escrito por Geoffrey Leech, “Adding Linguistic Annotation”, do livro Developing
Linguistic Corpora: a Guide to Good Practice, editado por Martin Wynne e publicado em
200515. Lá ele trata de vários assuntos pertinentes à anotação de corpora; além de dar
definições básicas dos termos mais comuns, tipos de etiquetagem, para que são usadas, etc.,
o autor apresenta uma discussão aprofundada dos princípios teóricos e práticos que devem
nortear a criação de etiquetadores para que estes sejam eficientes e de alta usabilidade para
o maior número possível de pessoas.
2.1.2.3 Princípios da etiquetagem manual e semi-automática
Para etiquetar um corpus de estudo é preciso planejar cuidadosamente o

procedimento. Independentemente do tipo de etiquetagem escolhido – manual ou semi-
automática – é essencial manter uma cópia atualizada do corpus original sem etiquetas para
o caso de haver algum problema.
A etiquetagem manual pode ser feita durante a coleta do corpus, após a compilação
ou até mesmo num corpus já pronto, coletado por outro(s) pesquisador(es). No primeiro
caso, após o planejamento do corpus, o pesquisador localiza os textos que pretende coletar
na Internet (ou faz a digitalização e revisão dos textos não disponíveis eletronicamente) e,
em seguida, adiciona as etiquetas de seu interesse. Nos corpora prontos, o pesquisador não
precisa coletar os textos, mas deve conhecer muito bem seu conteúdo antes de planejar a
lista de etiquetas que pretende inserir. Alguns exemplos:
 Pode ser de interesse do pesquisador etiquetar os vários movimentos

argumentativos de uma publicação científica. Um corpus de artigos na área de
ciências biológicas, por exemplo, poderia conter as seguintes etiquetas: resumo,
abstract, palavras-chave, keywords, introdução, material e métodos, resultados,
discussão e bibliografia. Ao etiquetar o abstract e as keywords, por exemplo, é
possível, na hora de trabalhar com os textos do corpus, excluir esses trechos em
língua inglesa das pesquisas em português;
 Em qualquer tipo de corpus, pode ser vantajoso separar do restante do texto: a
bibliografia, as tabelas, as figuras, os gráficos, as notas de fim e/ou de rodapé, etc.
uma vez que os mesmos, em geral, não são objeto de pesquisas lingüísticas e quase
sempre interferem nas listas de palavras dos corpora. Além disso, como os textos de
um corpus – especialmente se o programa de análise escolhido for o WordSmith
13
<http://lael.pucsp.br/corpora/etiquetagem/index.html>.
14
<http://www.nilc.icmc.usp.br/lacioweb/>.
15
Disponível em: <http://www.ahds.ac.uk/creating/guides/linguistic-corpora/chapter2.htm>
Tools – são em geral arquivados em .txt (arquivo do Bloco de Notas, no formato
“somente texto”), alguns elementos gráficos não podem ser mantidos, mas é
importante registrar sua omissão para não comprometer o entendimento do texto,
caso o corpus seja alvo, em um outro momento, de estudos que analisem seqüências
maiores do discurso;
 Em corpora de transcrição de fala é possível usar as etiquetas para identificar os
diferentes participantes do discurso. Assim, torna-se possível, posteriormente,
estudar apenas as falas de um determinado sujeito. O mesmo procedimento pode ser
usado em textos teatrais, entrevistas, roteiros de filmes, telejornais, seriados, etc.
 Em corpora de traduções de aprendizes – várias traduções de um mesmo original –
pode-se usar etiquetas para separar as sentenças das traduções de acordo com o
original. Dessa forma será possível saber, por exemplo, como cada aluno traduziu a
frase 3 do original bastando, para isso, fazer uma busca das linhas de concordância
com a etiqueta usada para identificar tal frase.
 Em corpora de aprendizes de língua estrangeira pode-se, por exemplo, etiquetar os
desvios dos alunos (até o momento não há nenhum programa que faça essa
etiquetagem automaticamente em língua portuguesa) para facilitar a identificação de
problemas no aprendizado.
Como já foi dito anteriormente, toda etiqueta deve ser codificada, ou seja, deve ser
de fácil identificação, seja pelo pesquisador, seja pelo programa de análise lingüística que
se vai usar. Se as mesmas forem colocadas manualmente, é importante criar etiquetas
simples, curtas e fáceis de digitar, pois o maior problema desse tipo de etiquetagem é a
grande margem de erro a que o ser humano está sujeito devido a diversos fatores que, no
ambiente eletrônico, são evitáveis, como: cansaço, distração, erro de digitação, uso
acidental da tecla “Caps Lock”, etc.
O formato das etiquetas automáticas é variado – em geral uma sigla em letras
maiúsculas, precedida por um sinal que pode ser o sublinhado (underscore) “_”, a barra “/”,
o colchete “[“, etc. Teoricamente, qualquer símbolo pode ser usado para a identificação das
etiquetas, com exceção dos caracteres que normalmente são encontrados em textos, como
os parênteses e os sinais de pontuação. No entanto, na etiquetagem manual o símbolo mais
usado para essa identificação é o sinal de menor (<) e maior (>). Fica a critério do
pesquisador escolher o texto que vai nomear sua etiqueta, mas é recomendável levar em
conta as sugestões mencionadas acima, para evitar erros e repetidas correções, bem como o
que já foi convencionalizado entre os pesquisadores que trabalham na área (vide Leech,
2005).
2.1.2.3.1 Etiquetagem manual
Os sinais “<...>” e “</...>” são usados para indicar ao programa de análise

lingüística (no caso, o WordSmith Tools) onde começa e onde termina cada uma das
seções identificadas pelas etiquetas, permitindo assim selecioná-las ou ignorá-las
posteriormente a qualquer momento da pesquisa. Assim, todo trecho etiquetado deve conter
uma etiqueta indicando o início (<etiqueta>) e outra indicando o término (</etiqueta) – o
que mostra para o computador o término de um trecho etiquetado é a barra colocada logo
após o sinal de menor dentro da etiqueta de fim. É importante deixar um espaço em branco
entre a etiqueta e o texto (exemplo: <titRec> Bolo mármore </titRec>) – se a etiqueta
estiver “grudada” (exemplo: <titRec>Bolo mármore</titRec>) o computador pode não ser
capaz de reconhecê-la, pois considerará tudo como uma palavra só (“<titRec>Bolo”).
Se fôssemos etiquetar o presente artigo, por exemplo, poderíamos começar assim
(note-se que as etiquetas não contêm sinais diacríticos ou palavras longas, justamente para
não incorrer no risco de esquecimento ou digitação errada):
<tit> Etiquetagem em Lingüística de Corpus – possibilidades de

aplicação </tit>
<intro> 1. Introdução
A etiquetagem (ou, como preferem alguns autores, etiquetação) é um
recurso (...) a que foram acrescentadas manualmente 5 etiquetas
pragmáticas. </intro>
<sec2> 2. Etiquetagem: o que é?
Entende-se por etiquetagem (ou anotação) a inserção automática, (...)
e de alta usabilidade para o maior número possível de pessoas. </sec2>
<sec3> ...
Se a intenção é apenas tornar uma palavra, frase, data ou trecho do texto “invisível”
para os programas de análise, mas visíveis para quem lê o texto corrido num processador de
texto, pode-se usar apenas o sinal de maior e menor no começo e no fim do segmento a ser
ignorado. Por exemplo, se o corpus de estudo é composto de artigos científicos em
português e o objetivo é estudar apenas o português, pode-se colocar um sinal de maior
antes do início do abstract e/ou keywords e outro ao final:
<ABSTRACT: The purpose of this dissertation is to elicit the

distinctiveness of translating texts within the technical area of
Cooking (...) as a technical area of translation.
KEYWORDS: Cooking technical translation; corpus linguistics;
contrastive studies; translator training; translation strategies.>
Mas o procedimento mais usado é criar uma etiqueta (ou transferir para o cabeçalho,
ou para outro arquivo) toda informação que julgamos não ser parte integrante do corpo do
texto – nada deve ser excluído pois o que não tem interesse para uma pesquisa pode ser
fundamental para outra.
2.1.2.3.2 Etiquetagem semi-automática com o WordSmith Tools Text Converter
A etiquetagem semi-automática de textos usando o utilitário Text Converter do

WordSmith Tools é algo para ser tentado por pessoas que já tenham algum conhecimento
do programa, pois exige a criação de uma espécie de “programinha” (arquivo de conversão)
que, ainda que seja na linguagem mais simples possível, pode parecer complicado para
quem nunca viu ou ouviu falar de nenhuma linguagem de programação. O Text Converter
pode ser localizado no menu Utilities da barra de ferramentas da tela principal do
programa:
Figura 14 - Localizando o utilitário Text Converter
Um alerta: como é possível observar no manual do programa, bem como nas

palavras de Berber Sardinha16, o utilitário Text Converter não foi criado com a finalidade
de ser usado como etiquetador, e não tenho notícia de outra pesquisa que o tenha usado
para esse fim, mas verifiquei durante meu mestrado que a tarefa pode ser perfeitamente
possível, desde que sejam tomadas algumas precauções: a principal delas é a necessidade
de os textos do corpus apresentarem algum tipo de regularidade, ou seja, palavras e/ou
expressões, sinais de pontuação, etc. que se repitam em todos os textos do corpus e que
fiquem próximos (ou coincidam) com os trechos que se pretende etiquetar. Caso contrário,
somente a etiquetagem manual será possível.
Na tela principal do utilitário (Figura 15), é possível executar várias tarefas, como:
renomear arquivos, criar subcorpora a partir de um corpus maior usando campos do
cabeçalho ou etiquetas previamente colocadas, corrigir erros acidentais do corpus, mudar o
nome de etiquetas já inseridas no corpus, entre outras17. No presente trabalho, vamos nos
ater apenas à função “Text conversion”, na porção direita da tela, e seu possível uso na
etiquetagem semi-automática de textos.
À direita da tela é possível identificar dois tipos possíveis de conversão: aquela em
que apenas uma alteração é feita, por exemplo, substituir todas as ocorrências de “Maria:”
em uma peça teatral por “<Maria>” – nesse caso seleciona-se a opção “Just one change, so”
e digita-se a palavra que se encontra no original, e que se deseja mudar/substituir, no campo
16
“há ainda uma outra tarefa comum na Lingüística de Corpus que o programa WordSmith Tools não dá
conta: a etiquetagem” (Berber Sardinha, 2004: 112).
17
Para conhecer outras possibilidades de uso desse utilitário ver manual do usuário que acompanha o
programa.
da esquerda (nesse exemplo, “Maria:”, sem as aspas – não esquecer os dois pontos, ou
serão trocadas todas as ocorrências do nome da personagem em todas as falas em que for
mencionado) e, no campo da direita, a palavra que vai substituí-la (no nosso caso,
trocaremos o nome da personagem por uma etiqueta, <Maria>). Deve-se selecionar sempre
a opção “or (safer) copy to” (em vez de “Over-write Source Texts”), já que a primeira
grava uma cópia do arquivo com as alterações na pasta de arquivos temporários (ou
qualquer outra determinada pelo usuário) e a segunda altera o corpus original, gravando as
modificações diretamente nos arquivos de origem – o que pode ser desastroso se a alteração
feita estiver errada e não houver uma cópia-reserva do corpus, atualizada. Atenção: não
existe a tecla “Desfazer” no WordSmith Tools versão 3!
Figura 15 - Tela principal do Text Converter
Como ocorre na maioria das vezes, no entanto, não vamos precisar colocar apenas
uma etiqueta no corpus, mas várias, e além disso, não é tão fácil colocar a etiqueta que
fecha a seção (no exemplo dado, “</Maria>”, para indicar o fim da fala da personagem)
usando a conversão do tipo simples. Assim, é bem provável que o pesquisador precise usar
a opção 2: “or more, using Conversion File”. O nome do arquivo de conversão exibido
automaticamente no campo logo abaixo dessa opção (c:\wsmith\convert.txt) aponta para um
arquivo que já vem com o programa: serve para converter textos em .html para .txt, que não
é o nosso objetivo aqui. Portanto, precisamos criar nosso próprio “arquivo de conversão”
para acrescentar as etiquetas ao corpus. Vamos examinar, a seguir, dois exemplos
aplicados:
Exemplo 1: vamos supor que o objetivo de uma pesquisa seja etiquetar um corpus com
cerca de 5.000 receitas retiradas automaticamente de um site da Internet usando um offline
browser18. Após o tratamento dos textos – conversão de .html para .txt, limpeza de espaços
e parágrafos excedentes, re-nomeação de arquivos, etc. – é preciso estudar a estrutura dos
arquivos do corpus e observar suas regularidades. No caso das receitas, em geral temos a
palavra “Ingredientes” e “Modo de fazer” delimitando suas partes principais. Se, após
verificar algumas receitas do corpus observarmos que não trazem qualquer comentário
entre o título e a lista de ingredientes e nada após o final da descrição dos procedimentos,
posso criar o seguinte “programinha”, usando a sintaxe (uma série de regras) contida no
manual do usuário do WordSmith Tools:
A rotina deve ser digitada em um arquivo tipo .txt (bloco de notas). A estrutura
básica de comando é “X” -> “Y”, ou seja, troque “X” por “Y” (a seta é obtida com a
digitação do sinal de menos e do sinal de maior, sem espaço). Há outros recursos como
“/A” (usado na rotina acima), que significa: acrescente o texto entre aspas no começo
(START) ou no fim do arquivo (END). Para se referir a aspectos da formatação do texto,
como parágrafo, tabulação, aspas invertidas, etc. é usada a estrutura {CHR(código ASCII)}
– para representar o “enter” usa-se, por exemplo, os códigos {CHR(13)}{CHR(10)} juntos,
como mostrado acima. Se fôssemos descrever os comandos contidos nessa rotina seria algo
como:
Linha 1: acrescente a etiqueta <titRec> + espaço em branco no começo do arquivo

Linha 2: procure um enter seguido de “Ingredientes:” e acrescente, antes desse enter, um
espaço em branco + a etiqueta </titRec> e, depois dele, a etiqueta <ingr> +
espaço em branco
Linha 3: procure um enter seguido de “Modo de fazer:” e acrescente, antes desse enter, um
espaço em branco + a etiqueta </ingr> e, depois dele, a etiqueta <modFaz> +
espaço em branco
Linha 4: acrescente a etiqueta </modFaz> no final do arquivo.
Após a criação do arquivo em .txt com os comandos necessários, ele deve ser salvo,
de preferência na mesma pasta em que se encontra o arquivo convert.txt, que já vem com o
programa. Para encontrar essa pasta basta procurar em Meu Computador, C:/, WSMITH –
dentro dessa pasta há inúmeros arquivos e três pastas (Concord, Keywords, Wordlist). Salve
fora dessas três pastas com um nome de até oito letras, por exemplo: teste1.txt. Em seguida,
abra a tela principal do Text Converter (Figura 18), escolha os textos a serem etiquetados na
janela da esquerda (“Choose Files”) e troque o nome do arquivo que aparece na janela “or
more, using Conversion File” para o nome dado ao arquivo, por exemplo:
c:\wsmith\teste1.txt. Clique em “go now” – caso os arquivos sejam muitos ou longos,
18
“programa feito para baixar um site inteiro de um servidor da Internet e copiá-lo fielmente no disco rígido
de outra máquina” (Berber Sardinha, 2004: 46).
aparecerá uma barra de progresso (em verde e amarelo); com poucos textos ou textos curtos
o processo é tão rápido que a barra nem aparece. Os arquivos com as etiquetas serão
gravados na pasta de arquivos temporários, que fica em Meu computador, C:/, Temp, ou em
qualquer outra pasta designada pelo usuário. Abra alguns dos arquivos e confira o
resultado.
Caso alguma coisa dê errado e seja necessário fazer mudanças no arquivo de
conversão, jamais escreva sobre o arquivo usado pois, “a emenda pode ficar pior que o
soneto” e, em caso de arquivos grandes, você não conseguirá lembrar o que tinha colocado
antes: grave as alterações com um novo nome, como teste2.txt, teste3.txt, etc.
Exemplo 2: vamos supor agora que temos o roteiro de várias exibições do seriado Friends
em mãos e queremos fazer um estudo comparativo do vocabulário peculiar a cada um dos 6
personagens principais: Rachel, Monica, Phoebe, Chandler, Ross e Joey. Além dos
personagens de interesse para a pesquisa, há também outros personagens e elementos no
texto que podem tornar a etiquetagem semi-automática complicada, como pode ser visto no
trecho a seguir (em itálico):
(Scene: Central Perk, Phoebe is recapping last season, and as she talks we see a montage
of scenes from Ross and Rachel.)
Phoebe: Ok, so this is pretty much what's happened so far. Ross was in love with Rachel
since, you know, forever, but every time he tried to tell her, something kind of got in the
way, like cats, and Italian guys. Finally Chandler was like "forget about her" but when Ross
was in China on his dig, Chandler let it slip that Ross was in love with Rachel. She was
like, "Oh my god." So she went to the airport to meet him when he came back, but what she
didn't know was that Ross was getting off the plane with another woman. Uh-Oh! So, that's
pretty much everything you need to know. But, enough about us. So, how've you been?
(Opening Credits)
(Scene, The Airport, continued from last season, Rachel is waiting for Ross to come off the
plane, when she sees he's coming off with another woman.)
Rachel: Oh my god. Oh my god. [She decides to make a break for it.] Excuse me. Move!
Move! Emergency! Excuse me! [She tries climbing over a bench and falls down.]
Ross: [seeing her] Rach! (...)
É possível observar que além dos nomes dos personagens outros sinais se repetem,
como os parênteses, para indicar a marcação de cena, e os colchetes, usados para indicar a
rubrica. Devido a esse tipo de regularidade torna-se possível a etiquetagem semi-automática
desses textos. Mesmo os personagens ocasionais que surgem a cada capítulo seriam
certamente identificáveis pelo programa uma vez que depois do seu nome e antes do início
de sua fala há um sinal gráfico que se repete – os “dois pontos”. Uma rotina possível para a
etiquetagem das falas dos personagens principais nesse corpus seria:
As linhas de comando da rotina acima poderiam ser explicadas assim:
Linha 1: encontre as ocorrências de “Phoebe: (...)” seguidas de um enter, troque “Phoebe:”

pela etiqueta <Phoebe> e acrescente uma etiqueta de fechamento, </Phoebe>,
antes de enter.
Linha 2: faça o mesmo com “Monica: (...)” + enter
Linha 3: faça o mesmo com “Joey: (...)” + enter
Linha 4: faça o mesmo com “Chandler: (...)” + enter
Linha 5: faça o mesmo com “Ross: (...)” + enter
Linha 6: faça o mesmo com “Rachel: (...)” + enter
Linha 7: troque os parêntesis de “(Opening Credits)” por sinais de maior e menor (< >) –
isso é feito para que tal expressão seja ignorada pelos programas de análise
lingüística em estudos futuros (mas ela continua visível “a olho nu”)
Linha 8: troque todos os colchetes de início (“[“) pela etiqueta <rubrica>
Linha 9: troque todos os colchetes de fim (“]”) pela etiqueta </rubrica>
Linha 10: troque todos os parênteses de início (“(“) pela etiqueta <MCena>
Linha 11: troque todos os parênteses de fim (“)“) pela etiqueta </MCena>
Lembre-se: é preciso que haja apenas um enter antes da fala de cada um dos
personagens, que seus nomes tenham sido escritos corretamente, que os dois pontos não
tenham sido omitidos, que não haja quebras de linhas, que não esteja faltando nenhum
parênteses ou colchete, etc. para que a rotina funcione adequadamente. Esse é o resultado
obtido na conversão do trecho mencionado usando os comandos descritos na tela acima:
<MCena> Scene: Central Perk, Phoebe is recapping last season, and as she
talks we see a montage of scenes from Ross and Rachel. </MCena>
<Phoebe> Ok, so this is pretty much what's happened so far. Ross was in
love with Rachel since, you know, forever, but every time he tried to
tell her, something kind of got in the way, like cats, and Italian guys.
Finally Chandler was like "forget about her" but when Ross was in China
on his dig, Chandler let it slip that Ross was in love with Rachel. She
was like, "Oh my god." So she went to the airport to meet him when he
came back, but what she didn't know was that Ross was getting off the
plane with another woman. Uh-Oh! So, that's pretty much everything you
need to know. But, enough about us. So, how've you been? </Phoebe>
<Opening Credits>
<MCena> Scene, The Airport, continued from last season, Rachel is waiting
for Ross to come off the plane, when she sees he's coming off with
another woman. </MCena>
<Rachel> Oh my god. Oh my god. <rubrica> She decides to make a break for
it. </rubrica> Excuse me. Move! Move! Emergency! Excuse me! <rubrica> She
tries climbing over a bench and falls down. </rubrica> </Rachel>
<Ross> <rubrica> seeing her </rubrica> Rach! </Ross>
Para testar o resultado obtido, seja na etiquetagem semi-automática, seja na manual,

pode-se usar a ferramenta Concord do WordSmith Tools. Uma busca por cada uma das
etiquetas acrescentadas pode indicar possíveis problemas tanto na etiqueta para a qual se
pediu a linha de concordância quanto nas outras que estarão em seu entorno.
Conforme tentamos demonstrar aqui, é possível usar o utilitário Text Converter do
WordSmith Tools para colocar etiquetas, de forma semi-automática, em corpora de textos
que apresentem regularidades. Descobrir o porque das falhas apresentadas no resultado
final é um trabalho árduo pois, muitas vezes, são características ocultas do texto que
atrapalham o desempenho do utilitário (como, por exemplo, haver apenas uma quebra de
linha e não um enter entre duas linhas – algo que não é visível para o olho humano, mas
que o computador entende como duas coisas distintas). O sucesso de uma rotina depende
do conhecimento que o pesquisador tem do seu corpus, da regularidade verificada na
formatação dos textos e, acima de tudo, de paciência e criatividade para tentar várias
alternativas até chegar ao funcionamento ideal. Há várias outras regras de sintaxe para a
construção dessas rotinas que podem ser consultadas no Help do Text Converter, localizado
na página principal do programa, conforme pode ser visto abaixo:
Figura 16 - Localização do Help do Text Converter
2.1.2.4 Um exemplo: etiquetagem e análise de um corpus comparável de receitas
O Corpus Quadricultural Comparável de Culinária (Tagnin & Teixeira, 2004a) foi

compilado com o intuito de verificar diferenças varietais entre receitas escritas em
português brasileiro (POB) e europeu (POP), inglês americano (IOA) e britânico (IOB). É
composto de 440 receitas, 110 em cada uma dessas variantes, 10 em cada uma das
categorias abaixo:
 Entradas = ent
 Sopas = sop
 Pratos principais carnes = ppc
aves = ppa
peixes e frutos do mar = ppp
massas = ppm
 Acompanhamentos = aco
 Saladas = sal
 Sobremesas = sbr
 Tortas e Bolos = teb
 Pães = pao
Por ser um corpus comparável, as receitas incluídas possuem um “equivalente” em

cada uma das quatro variantes – todas originalmente escritas naquela variante. A
semelhança entre as receitas baseia-se, sempre que possível, no nome do prato, nos
ingredientes que as compõem e/ou no tipo de processo empregado19. Por exemplo:
Português brasileiro: “Torradinhas de alho” europeu: “Pão com alho”

Inglês americano: “Garlic bread” britânico: “Garlic bread”
Durante a coleta, foram acrescentadas manualmente 5 etiquetas “pragmáticas” (ou

“discursivas”) com o objetivo de delimitar as principais partes da receita, a saber:
 <titRec> título da receita </titRec>
 <coment> comentários do autor da receita, como “ótima para os dias quentes de
verão”, ou “essa receita minha vó fazia quando eu era criança”, etc. </coment>
 <ingr> lista de ingredientes </ingr>
 <modFaz> descrição dos procedimentos da receita </modFaz>
 <class> informações dadas pela receita quanto ao rendimento, tipo de prato, valor
calórico, custo, etc. </class>
Cada uma dessas etiquetas foi digitada manualmente no início e no final das
respectivas seções do texto, logo após a coleta e limpeza. Veja a seguir um exemplo de
receita do corpus já em arquivo do tipo texto (.txt) e com as etiquetas digitadas:
<titRec> Crispy Cod Balls </titRec>

<class> 30mins plus chilling; Makes approx. 40; Hot; Party Food; Buffet;
Appetizer </class>
19
Para maiores detalhes sobre a construção e análise deste corpus ver Teixeira 2004; Tagnin & Teixeira
2004a e 2004b.
<ingr> Ingredients:
250g/9oz Cod Fillets, skinned
3 Spring Onions, chopped
2 teasp Soy Sauce
1 Egg White
1 teasp Cornflour
14 Slices White Bread
Oil for deep frying </ingr>
<modFaz> Instructions
1. Place the fish in a food processor and blend until finely chopped.
2. Transfer the fish to a mixing bowl, add the spring onions, Soy sauce,
egg white and cornflour. Mix well.
3. Remove the crusts from the bread and cut the bread into 5mm/1/4inch
cubes at the largest.
4. Using damp hands, roll teaspoons of the fish mixture into balls, toss
in the bread cubes, pressing firmly on, then cover and refrigerate for at
least 30 minutes.
5. Preheat the deep fat fryer to 180C/350F. Deep-fry the fish balls for a
few minutes until golden brown. </modFaz>
<coment> These can be prepared 1 day ahead. Make to stage 4, cover and
refrigerate until required. </coment>
Depois de coletar e preparar todos os textos do corpus (o que, no caso deste estudo,
previa também a colocação de cabeçalhos) tornou-se possível analisá-lo de várias maneiras
usando as etiquetas inseridas. Alguns exemplos:
A. Fazer a lista de palavras (Wordlist) de cada seção da receita

 No menu Tools da tela principal do programa, selecione a ferramenta Wordlist
 Selecione os textos (por exemplo, todas as receitas em POB)
 Na barra de ferramentas, selecione Settings e em seguida Tag List (vide Figura 17)
 Nesta tela, na opção “Tags to ingore” o box “Activated” deve estar habilitado
(ticado) – isso fará com que as etiquetas propriamente ditas não entrem na contagem
do corpus.
 Na mesma tela, clique o botão “Only part of file”. Uma nova tela deve aparecer
(vide Figura 18).
 Nesta tela, é possível excluir o cabeçalho20 em “Sections to cut”, bem como
selecionar a seção do corpus que será usada na Wordlist (“Sections to use”) – por
exemplo, para fazer uma lista de palavras dos títulos das receitas basta digitar as
etiquetas (<titRec> e </titRec>) nos espaços reservados. Atenção: digite o nome da
etiqueta exatamente como está no corpus. Qualquer diferença de maiúscula /
minúscula, espaço, etc. provocará um erro de leitura.
 Não se esqueça de selecionar os boxes “Activated”. Dê OK e inicie a Wordlist.
20
em nosso corpus, delimitado pelas etiquetas <Header> e </Header>.
Figura 17 - Tela principal do Tag List do menu Settings
Figura 18 - Tela acessada pelo botão Only part of file
O resultado será disposto em três telas diferentes: na primeira, as palavras da seção

selecionada aparecerão por ordem de freqüência; na segunda, por ordem alfabética e, na
terceira tela, aparecerão os dados estatísticos e quantitativos da seção analisada. Para
exemplificar os resultados obtidos, organizamos na Tabela 8 uma lista com as primeiras 25
palavras, por ordem de freqüência, das 5 seções da receita na variante POB (Português
Original do Brasil):
Tabela 8 - Lista de palavras por ordem de freqüência do corpus POB
<titRec> <coment> <class> <ingr> <modFaz>

DE DE DE DE E
COM O RENDIMENTO SOPA O
AO A PORÇÕES CHÁ DE
PÃO E TEMPO COLHERES A
SOPA PARA PREPARO COLHER COM
FRANGO COM DIFICULDADE XÍCARA EM
À UM PESSOAS EM POR
SALADA DO FÁCIL INGREDIENTES UMA
MOLHO OU MINUTOS SAL OS
BOLO É CATEGORIA E AS
E QUE MIN A COLOQUE
LEGUMES SE COZINHA G MINUTOS
ARROZ NO GRAU LEITE PARA
BATATA EM SERVE PICADA ATÉ
DOCE DA PARA PARA FOGO
FEIJÃO UMA BRASILEIRA GOSTO DO
TORTA CALDO CUSTO CEBOLA DEIXE
ASSADO MAIS TIPOS FARINHA PANELA
CASEIRO ESTA PRATO ALHO SAL
CHOCOLATE NÃO PRINCIPAL AÇÚCAR UM
DO OS RECEITA MANTEIGA QUE
FRUTOS ÁGUA A SEM JUNTE
INTEGRAL AS DA TRIGO BEM
LIMÃO DICA E ÁGUA AO
MAR ARROZ G O LEVE
B. Fazer a lista de palavras-chave (Keywords) de cada seção da receita

 Após fazer e salvar a lista de palavras (Wordlist) de cada seção, é preciso fazer o
mesmo com o corpus total menos a parte que se pretende estudar. Por exemplo, para
saber o vocabulário peculiar ao “modo de fazer” das receitas é necessário fazer,
primeiramente, a lista de palavras dessa seção (usar as instruções acima). Em seguida,
faz-se a lista do corpus total daquela mesma variante menos a seção “modo de fazer”
(<modFaz>). Isso pode ser feito da seguinte forma:
 Na tela acessada pelo botão “Only part of file” (Figura 18), o campo “Sections
to use” fica em branco e o box “Activate” desativado. No campo “Sections to
cut”, além do cabeçalho (<Header> e </Header>, no caso deste corpus) deve-se
preencher a janela à direita desta com <modFaz> e </modFaz>.
 O mesmo deve ser feito com todas as etiquetas e, a cada procedimento realizado, a lista
de palavras resultante deve ser salva no local indicado pelo programa (nunca apague a
extensão “.lst” dos arquivos ou eles não serão reconhecidos).
 Feito isso, abra a ferramenta Keyword no menu Tools da tela principal do programa e
faça o procedimento normal de feitura de lista de palavras-chave, comparando a
wordlist de cada seção com o corpus total menos aquela seção. Por exemplo, podemos
comparar a lista de palavras dos ingredientes (<ingr>) com o corpus total menos esta
seção da receita. Na Tabela 9 listamos as primeiras 25 palavras-chave da seção
“ingredientes” obtidas nas quatro variantes estudadas.
Tabela 9 - Lista de palavras-chave de ingredientes por ordem de freqüência
POB POP IOA IOB

DE DE CUP OZ
CHÁ INGREDIENTES TEASPOON TBSP
SOPA Q CHOPPED CHOPPED
COLHERES B CUPS TSP
XÍCARA GR FRESH INGREDIENTS
COLHER G TABLESPOONS FRESH
G SOPA OUNCES FRESHLY
INGREDIENTES DL SLICED GROUND
PICADA COLHERES INGREDIENTS PLAIN
GOSTO GRS GROUND SLICED
KG S TSP FINELY
XÍCARAS COLHER TABLESPOON CLOVES
DENTES KG TB G
PICADO SAL MINCED BLACK
SEM CHÁ DRIED PINT
XÍC GRAMAS LB SALT
SAL PÓ OZ ML
PÓ PIMENTA PEELED GRATED
FRESCO C CLOVES PEPPER
PIMENTA-DO-REINO PACOTE DICED TEASP
PICADOS FARINHA POUND PEELED
LATA ALHO FINELY WHITE
CORTADO DENTES SALT LB
LEITE CH C CUP
PICADAS OVOS TEASPOONS TEASPOON
DE DE CUP OZ
C. Comparar as listas de palavras das variantes

Para o tipo de estudo que pretendíamos com esse corpus, interessava-nos também
fazer a comparação entre as duas variantes do português e do inglês, o que pôde ser feito
usando o recurso “Compare 2 Wordlists” (menu Comparison da barra de ferramentas do
Wordlist). Com isso foi possível identificar o vocabulário peculiar a cada uma delas em
cada seção da receita bastando, para tal, comparar a lista de palavras obtidas para a seção
“modo de fazer” de POB, por exemplo, com a obtida para POP. Nesse tipo de comparação,
assim como nas listas de palavras-chave, o que é diferente fica em evidência, pois o
programa compara a freqüência relativa que cada palavra teve no corpus de estudo com a
freqüência relativa da mesma no corpus usado na comparação. Por exemplo, na Figura 19
organizamos os dados obtidos na comparação da seção “modo de fazer” nas duas variantes
de cada língua. Na lista da esquerda, POB está representado pelas palavras-chave positivas
(as primeiras da lista) e as palavras-chave negativas (as últimas da lista – aparecem na tela
original do programa em cor diferente) representam POP. O mesmo pode ser dito de IOB e
IOA, respectivamente, na lista de palavras-chave à direita.
N WORD FREQ. N WORD FREQ.
1 FOGO 130 1 THE 1.572
2 COLOQUE 166 2 METHOD 59
3 PREPARO 65 3 GAS 47
4 PANELA 111 4 LEAVE 47
5 POR 235
IOB 5 FRYING 23
6 MODO 76 6 FRY 41
7 BAIXO 41 7 LITTLE 51
8 ACRESCENTE 78 8 MARK 26
9 COZINHE 54 9 CENTRE 16
POB
10 SUCO 27 10 FURTHER 15
11 RESERVE 57 11 OVER 72
12 PARA 143 12 MEDIUM 13
13 REFOGUE 36 13 SHRIMP 0
14 UMA 206
IOA 14 CUPS 0
15 GELADEIRA 22 15 SKILLET 4
16 FÔRMA 19 16 CUP 5
17 DO 129 17 DEGREES 5
18 MAIS 62 18 LET 5
19 PIMENTA-DO-REINO 17 19 DIRECTIONS 1
20 DOURAR 30
21 ENTRETANTO 0
22 PASSADOR 0
23 LEVEDAR 0
24 POUCO 34
25 COZA 0
26 BOCADOS 0
27 DEITA-SE 0
28 PURÉ 0
29 ALOURAR 0
30 LEVA-SE 0
31 TAPE 0
32 MARGARINA 7
33 COM 350
34 JUNTA-SE 0
POP 35 ARREFECER 0
36 TACHO 0
37 SUMO 0
38 DEIXA-SE 0
39 DEITE 0
40 NATAS 0
41 CONFECÇÃO 0
42 DURANTE 7
43 PREPARAÇÃO 1
44 COZER 0
45 LUME 0
Figura 19 - Comparação entre variantes das Wordlists de <modFaz>
É muito significativa a diferença entre o número de palavras-chave obtidas na

comparação das variantes do português (19 em POB e 26 em POP = 45) e inglês (10 em
IOB e 9 em IOA = 19), uma vez que os mesmos critérios foram empregados em ambas as
comparações. Isso mostra, entre outras coisas, que há muito mais diferenças lexicais entre
as variantes brasileira e européia do português do que entre as variantes americana e
européia do inglês nessa área de especialidade: a Culinária.
Essas são apenas algumas das pesquisas possíveis em um corpus com etiquetas
“pragmáticas / discursivas” como o que foi construído para este estudo. Há muitas outras
pesquisas possíveis como, por exemplo, verificar o número de ocorrências de um
determinado vocábulo (como “bolo”) excluindo sua ocorrência nos títulos, ou em alguma
outra parte das receitas, ou contabilizar as ocorrências de verbos que indicam processos
apenas junto à lista de ingredientes, tais como “fatia*” (fatiado, fatiada, em fatias, etc.),
entre outras. Cabe a cada pesquisador determinar, de acordo com seus objetivos e o tipo de
corpus utilizado, quais etiquetas pretende inserir e qual a maneira mais produtiva de utilizá-
las.
2.1.2.5 Conclusão
Procuramos apresentar aqui algumas noções básicas envolvidas no uso de

etiquetagem na pesquisa lingüística com corpora. Começamos com uma explicação e
exemplificação dos tipos de etiquetagem automática mais usados para, em seguida,
dedicarmo-nos à metodologia de colocação manual e semi-automática de etiquetas. Usamos
o programa WordSmith Tools como ferramenta de análise dos textos etiquetados e seu
utilitário Text Converter como possível ferramenta de etiquetagem semi-automática de
corpora cujos textos apresentem algum tipo de regularidade. A título de exemplificação,
apresentamos um estudo com receitas etiquetadas manualmente com o intuito de
demonstrar as várias possibilidades de pesquisa oferecidas por um corpus etiquetado.
Esperamos, com isso, ter oferecido as informações mínimas necessárias para que o
leitor se inicie na prática da etiquetagem e possa tirar proveito dessa metodologia em suas
pesquisas.
REFERÊNCIAS
BERBER SARDINHA, T. Lingüística de Corpus. Barueri: Manole, 2004.

GARSIDE, R.; LEECH, G. N.; McENERY, T. Corpus annotation: linguistic information
from computer text corpora. London: Longman, 1997.
LEECH, G. 2005. Adding Linguistic Annotation. In: WYNNE, M. (ed.). Developing
Linguistic Corpora: a Guide to Good Practice. Oxford: Oxbow Books: 17-29.
Available online from <http://ahds.ac.uk/linguistic-corpora/>. Accesso em: ago. 2006.
TAGNIN, S. E. O.; TEIXEIRA, E. D. Lingüística de corpus e tradução técnica – relato da
montagem de um corpus multivarietal de culinária. In: Tradterm 10. São Paulo:
Humanitas / FFLCH-USP, 2004a.
TAGNIN, S. E. O.; TEIXEIRA, E.D. British vs. American English, Brazilian vs. European
Portuguese: How close or how far apart? – A corpus-driven study. In: Lewandowska-
Tomaszczyk, B. (ed.). Lodz Studies in Language 9. Europe/New York: Peter Lang.,
2004b.
TEIXEIRA, E. D. Receita qualquer um traduz. Será? – a Culinária como área técnica de
tradução. Dissertação de mestrado apresentada ao Programa de Estudos Lingüísticos e
Literários em Inglês do Departamento de Letras Modernas da Universidade de São
Paulo, 2004.
TEIXEIRA, E. D. Como usar o WordSmith Tools. Apostila disponível em:
<http://www.fflch.usp.br/dlm/comet/>, no link “Apresentações & Publicações”. Acesso
em: ago. 2006.

Etiquetagem em LC - 2006

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Etiquetagem em LC - 2006

Enviado por

Direitos autorais:

Formatos disponíveis

COMO CITAR:

TEIXEIRA, E. D. Etiquetagem em Lingüística de Corpus: possibilidades de aplicação. In:

2.1.2 ETIQUETAGEM EM LINGÜÍSTICA DE CORPUS: POSSIBILIDADES DE

Elisa Duarte Teixeira

A etiquetagem (ou como preferem alguns autores, etiquetação) é um recurso muito

2.1.2.2 Etiquetagem: o que é?

 Morfossintática (em inglês, part of speech ou simplesmente POS Tagging) –

 Semântica – classifica as palavras de conteúdo lexical de acordo com suas

 Discursiva – anota elementos discursivos de um texto (referentes anafóricos,

Além dessas, poderíamos citar também a anotação fonética (usada em transcrições

O programa retorna todas as combinações de adjetivo + substantivo do corpus

Figura 10 - Reorganizando as linhas de concordância

Figura 11- Resultado listado por ordem alfabética do nódulo e da palavra L1

Se quiser visualizar, por exemplo, a recorrência de adjetivos à esquerda da palavra

Outro tipo de busca que só é possível em um corpus morfossintaticamente

2.1.2.3 Princípios da etiquetagem manual e semi-automática

Para etiquetar um corpus de estudo é preciso planejar cuidadosamente o

 Pode ser de interesse do pesquisador etiquetar os vários movimentos

2.1.2.3.1 Etiquetagem manual

Os sinais “<...>” e “</...>” são usados para indicar ao programa de análise

<tit> Etiquetagem em Lingüística de Corpus – possibilidades de

<ABSTRACT: The purpose of this dissertation is to elicit the

2.1.2.3.2 Etiquetagem semi-automática com o WordSmith Tools Text Converter

A etiquetagem semi-automática de textos usando o utilitário Text Converter do

Figura 14 - Localizando o utilitário Text Converter

Um alerta: como é possível observar no manual do programa, bem como nas

Figura 15 - Tela principal do Text Converter

Linha 1: acrescente a etiqueta <titRec> + espaço em branco no começo do arquivo

Linha 1: encontre as ocorrências de “Phoebe: (...)” seguidas de um enter, troque “Phoebe:”

Para testar o resultado obtido, seja na etiquetagem semi-automática, seja na manual,

Figura 16 - Localização do Help do Text Converter

2.1.2.4 Um exemplo: etiquetagem e análise de um corpus comparável de receitas

O Corpus Quadricultural Comparável de Culinária (Tagnin & Teixeira, 2004a) foi

Por ser um corpus comparável, as receitas incluídas possuem um “equivalente” em

Português brasileiro: “Torradinhas de alho” europeu: “Pão com alho”

Durante a coleta, foram acrescentadas manualmente 5 etiquetas “pragmáticas” (ou

<titRec> Crispy Cod Balls </titRec>

A. Fazer a lista de palavras (Wordlist) de cada seção da receita

Figura 18 - Tela acessada pelo botão Only part of file

O resultado será disposto em três telas diferentes: na primeira, as palavras da seção

<titRec> <coment> <class> <ingr> <modFaz>

B. Fazer a lista de palavras-chave (Keywords) de cada seção da receita

Tabela 9 - Lista de palavras-chave de ingredientes por ordem de freqüência

POB POP IOA IOB

C. Comparar as listas de palavras das variantes

Figura 19 - Comparação entre variantes das Wordlists de <modFaz>

É muito significativa a diferença entre o número de palavras-chave obtidas na

Procuramos apresentar aqui algumas noções básicas envolvidas no uso de

BERBER SARDINHA, T. Lingüística de Corpus. Barueri: Manole, 2004.

Você também pode gostar