Escolar Documentos
Profissional Documentos
Cultura Documentos
DIRECT Papers 40
ISSN 1413-442x
1999
1. Introduo
Tem havido uma crescente popularizao dos computadores na vida cotidiana, e por
isso cada vez o computador se faz presente nos mais diversos tipos de ambiente. Hoje
em dia h computadores nas fbricas, bancos, consultrios mdicos, estacionamentos, e
restaurantes, para citar apenas alguns lugares. O computador tambm est presente em
vrios objetos do dia-a-dia, como automveis, telefones, e relgios. Desta forma, o
computador est influindo na vida pessoal e profissional de um nmero maior de
indivduos.
Ferramentas:
1. WordList
2. KeyWords
3. Concord
Utilitrios:
1. Renamer
2. Text Converter
3. Splitter
4. Viewer
WordList:
1. Lista de palavras individuais (wordlist).
2. Lista de mlti-palavras (wordlist, clusters activated).
3. Lista de palavras de consistncia individuais (detailed consistency).
4. Lista de mlti-palavras2 de consistncia (detailed consistency, clusters
activated).
5. Lista de dimenses e densidade lexical (statistics).
Concord:
1. Concordncia (concordance).
2. Lista de colocados (collocates).
3. Lista de agrupamentos lexicais3 (clusters).
4. Lista de padres de colocados (patterns).
5. Grfico de distribuio da palavra de busca (plot).
KeyWords:
1. Lista de palavras chave (keywords).
2. Banco de dados de listas de palavras chave (database).
3. Lista de palavras chave chave (key keywords).
4. Lista de palavras chave associadas (associates).
5. Lista de agrupamentos textuais (clumps).
6. Grfico de distribuio de palavra chave (keyword plot).
7. Listagem de elos entre palavras chave (keyword plot links).
1
O menu Tools / Utilities apresenta um quinto utilitrio, que File Manager, mas este na verdade
nada mais do que o Gerenciador de Arquivos do prprio Windows.
2
Assim chamadas nesse trabalho porque esse o termo corrente na literatura na rea da fraseologia
(multi-word units, MWUs, polywords, etc.; xxx). Outro termo compatvel n-grama, comum na
rea de Processamento de Linguagem Natural (xxx). Mais especificamente, usa-se bi-grama para
conjuntos de duas palavras, tri-grama para trs, e assim por diante.
3
Tambm conhecidos por lexias complexas em um outro programa de computador similar
(Hyperbase, xxx).
As funes principais distribudas nas trs ferramentas so:
3. Princpios abstratos
(3) Co-ocorrncia. Os itens devem estar na presena de outros. Um item isolado muito
pouco informativo. Ele obtm significncia na medida que interpretado como parte
de um conjunto formado por outros itens. A co-ocorrncia no implica em apario
sequencial, ou seja, os itens podem ou no ter co-ocorrido em sequncia no
discurso. O horizonte de co-ocorrncia uma janela que pode ir de algumas palavras
ao redor de um item, s fronteiras do texto, ou at mesmo compreender um corpus
multi-textual inteiro. Em outras palavras, a orientao da pesquisa que vai
determinar a amplitude desta janela de co-ocorrncia. Por exemplo, o fato do item
carta aparecer no mesmo texto de registrada (portanto numa janela do tamanho
do texto) pode ser to relevante quanto estes dois itens aparecerem imediatamente
adjacentes (portanto numa janela de duas palavras de largura) formando a expresso
carta registrada.
4. As ferramentas
4.1. WordList
5
Esses comandos e os sugeridos na apresentao das demais ferramentas se referem verso 2.0 do
WordSmith Tools. Outras verses podem apresentar comandos ou telas diferentes.
(3) Na janela Getting Started, clique em Choose Texts Now se estiver fazendo a
primeira lista desde que iniciou o programa. Se j tiver escolhido os textos e quiser
mant-los, clique em Make a WordList Now, mas se quiser mudar de textos,
clique em Change Selection. Na janela Choose Texts, clique em Clear Previous
e faa a seleo segundo as instrues a seguir.
(4) Na janela Choose Texts, clique na pasta onde se encontram os textos, depois nos
textos que deseja, e por fim em OK. Se os textos estiverem em mais de uma pasta,
clique em Store ao terminar de selecionar os textos da primeira pasta, mude de
pasta, selecione os outros textos, e s quando tiver escolhidos os textos de todas as
pastas clique em OK.
(5) Na janela Getting Started, clique em Make a WordList Now.
6
H vrias outras estatsticas menos importantes para os tipos de anlise considerados neste trabalho
includas na janela, e para estas o usurio pode recorrer ao help do programa para maiores explicaes.
portugus), na sua forma tradicional, obtida dividindo-se o total de formas pelo
total de itens. Na frase acima, a razo FI 0,8 (4 5). No WordList, entretanto,
transforma-se este valor em porcentagem; assim, divide-se o total de formas pelo
total de itens dividido por cem. Na frase o Joo viu o Pedro, portanto, o valor da
razo fornecido pelo programa seria 8,0, ou seja, 4 (5 100). Na prtica, a razo
forma/item indica a riqueza lexical do texto. Quanto maior o seu valor, mais
palavras diferentes o texto conter. Em contraposio, um valor baixo indicar um
nmero alto de repeties, o que pode indicar um texto menos rico ou variado do
ponto de vista de seu vocabulrio;
Standardised Type-Token: a razo forma/item padronizada. No clculo da razo FI
demonstrado acima, leva-se em conta todas as palavras do(s) texto(s) selecionado(s).
A forma FI padronizada, pelo contrrio, calcula FI em intervalos regulares, ou seja,
faz este mesmo clculo por partes do texto, e depois tira a mdia dos valores FI
entre os vrios trechos. Por exemplo, o texto o Joo viu o Pedro. O Paulo,
entretanto, viu o Joo mas no o Pedro possui uma razo FI igual a 60,0 (9 formas,
15 itens, ou seja, 9 (15 100)). Mas se dividirmos o texto na metade, teremos uma
parte que consiste de o Joo viu o Pedro. O Paulo, entretanto, com 6 formas e 8
ocorrncias (portanto FI = 75,0), e outra que corresponde a viu o Joo mas no o
Pedro, com 6 formas e 7 itens (FI = 85,7). Tirando-se a mdia aritmtica, chega-se
a 80,3 (75 + 85,7 2), que seria o valor da razo FI padronizada. A forma
padronizada empregada para neutralizar a influncia do tamanho do texto na
computao da razo FI, j que textos maiores por natureza apresentam mais
repeties e por isso tendem a possuir valores de FI mais baixos do que textos
curtos. A razo FI portanto sensvel extenso do material textual, no sendo
assim confivel para uso em comparaes entre textos de tamanhos diferentes (que
so a norma, alis; textos autnticos de extenso igual so extremamente raros). A
diferena entre os valores de FI simples (60,0) e padronizado (85,7) obtidos acima
ilustra este efeito. O texto inteiro, por ser maior, d mais espao para repeties, as
quais de fato ocorreram, e da seu valor FI mais baixo. O clculo padronizado, por
sua vez, impediu que se levasse em conta a repetio de palavras ocorridas no outro
trecho, resultando assim em um valor mdio mais alto.
4.2. KeyWords
Esta ferramenta permite a seleo de itens de uma lista de palavras (ou mais) por meio
da comparao de suas frequncias com uma lista de referncias. KeyWords contrasta
uma lista de palavras (ou mais de uma) de um corpus de estudo com uma lista de
palavras de um corpus de referncia. O resultado do contraste uma lista de palavras
chave, ou palavras cujas frequncias so estatisticamente diferentes no corpus de estudo
e no corpus de referncia.
Os componentes principais de uma anlise de palavras chave so, portanto, dois:
(a) um corpus de estudo, representado por uma lista de frequncia de palavras. O corpus
de estudo aquele que se pretende descrever. A ferramenta KeyWords aceita a
anlise simultnea de mais de um corpus de estudo.
(b) um corpus de referncia, tambm formatado como uma lista de frequncia de
palavras. Tambm conhecido como corpus de controle, e funciona como termo
de comparao para a anlise. A sua funo a de fornecer uma norma com a qual
se far a comparao das frequncias do corpus de estudo. A comparao feita
atravs de uma prova estatstica selecionada pelo usurio (qui-quadrado ou log-
likelihood). As palavras cujas frequncias no corpus de estudo forem
significativamente maiores segundo o resultado da prova estatstica so
consideradas chave, e passam a compor uma listagem especfica de palavras chave.
O procedimento seguido pelo programa para extrao de palavras chave pode ser
resumido segundo o algoritmo abaixo:
(1) O tamanho mnimo necessrio para um corpus de estudo depende (a) do que se
pretende estudar, e (b) da especializao do corpus. Em se tratando de categorias
morfo-sintticas, Berber Sardinha (2000) aplicou a metodologia de estimao de
amostras lingusticas significativas sugerida por Biber (Biber, 1990, 1993) e
encontrou os seguintes valores, em quantidade de palavras, como amostras mnimas
para o ingls escrito:
Corpus
Item Geral Especializado
And 142.346 36.703
Be 747.168 504.269
Can 2.191.802 978.534
Have 775.047 203.149
I 4.109.098 55.397
May 3.569.167 1.651.178
My 6.470.793 110.162
The 102.787 38.637
This 659.339 306.823
Will 2.763.524 860.985
You 4.800.634 267.837
Your 10.708.661 342.020
Para se ter uma idia do tipo de filtragem que pode vir a ocorrer nas palavras chave,
pode-se utilizar um quadro semelhante ao mostrado abaixo. Na coluna 2, deve-se
colocar as caractersticas referentes ao corpus de estudo, um por linha. Faz-se o
mesmo com o corpus de referncia, na coluna 3. As caractersticas que coincidirem,
entre as duas colunas, so passveis promoverem filtragem entre as palavras chave.
Por outro lado, as caractersticas que diferirem, entre os dois corpora, tendem a se
manter entre as palavras chave na forma que aparecem no corpus de estudo. Ou
seja, a caracterstica referente ao corpus de estudo se mantm. O quadro a seguir
ilustra uma situao hipottica de comparao de dois corpora:
1 2 3 4
Caracterstica Corpus de Corpus de Resultado
estudo referncia
Modo Falado Escrito Trao retido:
Linguagem falada
Gnero Aulas de ingls Jornais Trao retido:
Gnero aula de ingls
Assunto Vrios Vrios Trao filtrado:
Assuntos variados em
comum
Perodo Contemporneo Contemporneo Trao filtrado:
Tpicos em comum
relativos ao cotidiano
A execuo dos comandos acima traz tela uma lista de palavras chave em uma janela
separada. As informaes constantes na lista, da esquerda para a direita, so:
Os passos seguidos pelo programa KeyWords para a obteno de palavras chave chave
so, resumidamente, os seguintes:
4.2.4.1.Comandos
Para se obter uma lista de palavras chave chave, deve-se seguir os seguintes comandos:
4.3. Concord
7
O termo key word usado na literatura juntamente com search word (ou ainda search term, node,
node word) para se referir palavra central da concordncia. Prefere-se search word e sua traduo
qual a palavra de busca aparece centralizada, e ladeada por pores contnuas do texto
de origem. As concordncias so instrumentos reconhecidamente indispensveis no
estudo da colocao e da padronizao lexical, e por isso uma pea chave na
investigao de corpora. No WordSmith Tools, pode-se usar o Concord em separado,
fazendo-se concordncias avulsas, ou pode-se us-lo em conjunto com as ferramentas
WordList e KeyWords, chamando-o a partir desses programas. Para tanto, basta
selecionar um item de uma lista de palavras ou de palavras chave e clicar no boto C
na barra de tarefas do WordList ou KeyWords que o Concord chamado e uma
concordncia do item selecionado produzida, a partir dos textos selecionados quando
da produo da lista de palavras ou palavras chave. importante notar que se essa
chamada automtica no funciona caso a lista tenha sido salva e os textos de onde foi
feita no estiverem mais nas pastas originais. Nesse caso, a concordncia retornada
vazia.
4.3.2. Concordncia
palavra de busca porque key word possui um sentido especializado no WordSmith Tools, e portanto
prefervel reservar palavras chave para se falar das palavras identificadas pelo programa KeyWords.
minsculas).
(4) Coluna Tag: A etiqueta mais prxima do termo de busca. til para ajudar a ver,
por exemplo, em qual parte do texto a palavra ocorreu, ou por qual falante foi
proferida. Se o texto for de uma conversa, na transcrio pode-se digitar a
identificao dos falantes com cdigos especiais como [Joo], [Maria], etc. Essa
opo do Concord s funciona se a funo de reconhecimento de etiquetas tiver
ativa. Para ativ-la, crie um arquivo texto com as etiquetas (e.g. [Joo], [Maria],
etc.), salve-o, clique em Settings, Tags, e na caixa Tags to be included digite o
nome do arquivo. Depois selecione a opo Activated. Se a opo Tags to ignore
estiver com Activated selecionado, certifique-se de que o formato das etiquetas
que aparece na caixa nesse espao no o mesmo dos cdigos de falante. Se em
Tags to Ignore aparecer [*], o Concord ir ignorar as etiquetas de falantes
especificadas, pois elas correspondem ao formato [*]. Por fim, clique em OK.
(5) Coluna Word No.: o nmero correspondente posio sequencial da palavra no
corpus de estudo selecionado.
(6) Coluna File: o arquivo no qual a palavra aparece.
(7) Coluna %: a posio sequencial da palavra em termos de porcentagem do total do
corpus de estudo selecionado.
Nessa seo feita uma apresentao breve dos instrumentos disponveis em cada
ferramenta:
WordList
1. Lista de palavras individuais (wordlist): Lista contendo todas as palavras do
arquivo ou arquivos selecionados, elencadas em conjunto com suas frequncias
8
Caso no se tenha alterado as posies relativas pr-definidas no menu Settings, Horizons.
9
Idem nota 8.
absolutas e percentuais. apresentada em duas verses: ordenada por frequncia
e por ordem alfabtica.
2. Lista de mlti-palavras (wordlist, clusters activated): Semelhante lista
descrita acima, s que possui itens compostos, isto , conjuntos de palavras, em
vez de palavras individuais.
3. Lista de palavras de consistncia individuais (detailed consistency): Lista que
combina duas ou mais listas de palavras, com palavras idnticas colocadas lado
a lado. A lista mostra ainda o total de arquivos em que cada item aparece, e as
frequncias de cada item nas listas originais.
4. Lista de mlti-palavras de consistncia (detailed consistency, clusters
activated): Idntica a anterior, s que cada item corresponde a palavras
compostas.
5. Lista de dimenses do corpus e densidade lexical (statistics): Lista de
estatsticas descritivas dos arquivos selecionados. Apresenta vrias contagens
relativas aos textos, tais como o tamanho em itens (tokens) e formas (types),
a densidade lexical simples e em intervalos (isto , a razo entre itens e formas,
para o texto todo e reiniciada em intervalos regulares; vide discusso acima), e a
quantidade de pargrafos e sentenas.
Concord
1. Concordncia (concordance): Lista contendo uma palavra especfica (chamada
de palavra de busca ou ndulo) juntamente com parte do texto ao seu redor (o
co-texto).
2. Lista de colocados (collocates): Lista de palavras que ocorrem ao redor da
palavra de busca, em posies determinadas. A posio da primeira palavra
direita da palavra de busca representada no programa por R1 (Right 1, ou
uma direita), a segunda por R2, a terceira por R3, etc., at R5 (quinta posio
direita). O mesmo esquema aplicado esquerda: L1 (Left 1) para primeira
palavra esquerda, L2 para a segunda, etc. at L5 (quinta palavra esquerda). A
coluna central da listagem refere-se (s) palavra(s) de busca.
3. Lista de agrupamentos lexicais (clusters): Lista de sequncias fixas de palavras
recorrentes na concordncia. Ou seja, so mlti-palavras extradas da
concordncia. Em geral so mlti-palavras que incluem a palavra de busca, mas
podem no ser, pois o programa busca os itens recorrentes na concordncia, sem
se limitar a trechos nos quais aparece a palavra de busca.
4. Lista de padres de colocados (patterns): Lista de resumo dos colocados. Eles
so agrupados nas posies em que so mais frequentes. Deve-se ter cuidado
para no se ler a listagem como se os itens formassem mlti-palavras, pois no
h garantia de que houve os encadeamentos sequenciais aparentes na lista.
5. Grfico de distribuio da palavra de busca (plot): Grfico no qual as
ocorrncias da palavra de busca so marcadas por um pequeno trao (|),
desenhadas em um retngulo que representa o texto (ou corpus). Um trao pode
representar mais do que uma ocorrncia, pois a pouca definio da tela do
computador no permite que se reserve um espao exclusivo para cada palavra.
KeyWords
1. Lista de palavras chave (keywords): Lista extrada da lista original de palavras
do corpus de estudo, produzida a partir da comparao do corpus de estudo com
um de referncia. As palavra chave so de dois tipos: positivas e negativas. As
palavras chave positivas so aquelas cujas frequncias so estatisticamente
superiores no corpus de estudo em relao ao de referncia. As negativas so
aquelas cujas frequncias so estatisticamente menores no corpus de estudo. As
positivas aparecem no topo da lista, e as negativas, no fim, em vermelho.
2. Banco de dados de listas de palavras chave (database): Um arquivo especial
que rene vrias listas de palavras chave. um pr-requisito para a obteno de
palavras chave chave.
3. Lista de palavras chave chave (key keywords): Lista de palavras chave que
aparecem em um nmero de arquivos determinado. Indica, portanto, as palavras
chave compartilhadas por dois ou mais arquivos.
4. Lista de palavras chave associadas (associates): Lista de palavras chave que
ocorrem nos textos nos quais uma certa palavra chave chave aparece.
5. Lista de agrupamentos textuais (clumps): Lista textos que compartilham
palavras chave, e nos quais ocorre uma ou mais palavra chave associada.
6. Grfico de distribuio de palavra chave (keyword plot): Semelhante ao
grfico de distribuio da palavra de busca da ferramenta Concord. As
ocorrncias das palavras chave so indicadas por uma pequena marca (|), ao
longo de um retngulo representando o texto (ou corpus). s vezes o trao
representa mais do que uma ocorrncia de uma mesma palavra chave.
7. Listagem de elos entre palavras chave (keyword plot links): Listagem do
nmero de vezes em que duas ou mais palavras chave ocorrem dentro do
horizonte colocacional definido pelo usurio.
6. Aplicaes
Pode-se tratar dessa questo de dois modos. No primeiro, o que se pergunta o que h
de mais distintivo, caracterizador ou tpico no gnero em questo. Basicamente, o que se
deve fazer buscar saber como esse gnero difere de outros. Para tanto, exige-se um
contraste dos dados do corpus de estudo com o de um corpus de referncia. Os
procedimentos principais seriam:
A segunda maneira pela qual se pode tentar responder a essa questo perguntando-se
quais seriam os itens lexicais recorrentes, independente de serem chave. O instrumento
principal, nesse caso, no seriam as palavras chave mas as palavras de consistncia. Os
procedimentos seriam os seguintes:
(a) Feitura de uma lista de palavras para cada texto do corpus de estudo.
(b) Identificao dos itens recorrentes em um nmero determinado de textos.
(a) Lista de palavras, com possvel opo de feitura por lote (batch).
(b) Lista detalhada de palavras de consistncia.
Em termos simples, nessa questo busca-se saber quais os acrscimos que ocorreram de
um perodo de tempo anterior para outro posterior. Para tanto, h duas opes, que
variam de acordo com o conceito de acrscimo que se emprega.
Se qualquer diferena entre frequncias for tida como acrscimo, ento pode-se usar os
procedimentos a seguir:
(a) Feitura de uma lista de palavras para o corpus de estudo referente ao perodo
anterior;
(b) Feitura de uma lista de palavras para o corpus de estudo referente ao perodo
posterior;
(c) Descoberta dos itens que possuem frequncia zero no corpus anterior e mais que
zero no corpus posterior.
(a) Feitura de uma lista de palavras para o corpus de estudo referente ao perodo
anterior;
(b) Feitura de uma lista de palavras para o corpus de estudo referente ao perodo
posterior;
(c) Descoberta dos itens acrescidos de modo estatisticamente significante, ou seja, que
so chave no corpus posterior. Para tanto, deve-se escolher o corpus posterior como
sendo o de estudo, e o anterior como o corpus de referncia.
Nessa questo est embutida a identificao de textos diferentes que possuem itens
lexicais compartilhados. Os procedimentos seriam:
(a) Feitura de uma lista de palavras para cada texto do corpus de estudo.
(b) Feitura de uma lista de palavras para o corpus de referncia, caso no haja.
(c) Feitura de um recorte na lista de palavras de cada texto do corpus de estudo, por
meio da comparao do corpus de estudo com o de referncia, extraindo-se assim as
palavras chave de cada texto.
(d) Identificao de itens compartilhados entre os textos, por meio da localizao de
palavras chave chave, ou seja, palavras chave que recorrem em um nmero crtico
de textos.
(e) Identificao dos textos que compartilhem palavras chave.
Aqui busca-se saber se h e quais so os padres de uso mais tpicos de um item lexical.
Assume-se que o item lexical seja conhecido de antemo. Os procedimentos seriam os
seguintes:
(a) Feitura de uma concordncia tendo-se o item lexical em questo como palavra de
busca, para se observar o co-texto tpico no qual est inserido o item.
(b) Feitura de uma listagem agrupamentos lexicais, a fim de se examinar os padres
fixos ou fraseologias do qual o item faz parte (note que em geral necessrio
descartar os agrupamentos que no incluem a palavra de busca).
(c) Feitura de uma listagem de colocados, para se observar o padres colocacionais.
(a) Concordncia.
(b) Listagem de agrupamentos lexicais (clusters).
(c) Lista de colocados e, opcionalmente, lista de padres de colocados (patterns).
(a) Feitura de uma lista de palavras para o texto, ou para cada um dos textos.
(b) Feitura de uma lista de palavras para o corpus de referncia, caso no haja.
(c) Feitura de um recorte na lista de palavras de cada texto do corpus de estudo, por
meio da comparao do corpus de estudo com o de referncia, extraindo-se assim as
palavras chave de cada texto.
(d) Feitura de um grfico de distribuio das palavras chave no texto.
(c) Feitura de uma lista de palavras para cada texto do corpus de estudo.
(d) Identificao dos itens recorrentes em um nmero determinado de textos.
(c) Lista de palavras, com possvel opo de feitura por lote (batch).
(d) Lista detalhada de palavras de consistncia.
7. Comentrios finais
Referncias