Sardinha 1999 PDF

Usando WordSmith Tools na investigao da linguagem
Tony Berber Sardinha

LAEL, PUCSP
Programa de Estudos Ps-Graduados em Lingustica Aplicada e Estudos da Linguagem
Pontifcia Universidade Catlica de So Paulo
Rua Monte Alegre 984
05014-001 So Paulo, SP, Brazil
tony4@uol.com.br
http://sites.uol.com.br/tony4/homepage.html
DIRECT Papers 40
ISSN 1413-442x
1999
1. Introduo
Tem havido uma crescente popularizao dos computadores na vida cotidiana, e por
isso cada vez o computador se faz presente nos mais diversos tipos de ambiente. Hoje
em dia h computadores nas fbricas, bancos, consultrios mdicos, estacionamentos, e
restaurantes, para citar apenas alguns lugares. O computador tambm est presente em
vrios objetos do dia-a-dia, como automveis, telefones, e relgios. Desta forma, o
computador est influindo na vida pessoal e profissional de um nmero maior de
indivduos.
Esta influncia, no entanto, no nova. O computador tem entrado nos ambientes

profissionais h um bom tempo, pelo menos h 48 anos, quando foi lanado o primeiro
computador digital comercial, o UNIVAC 1, pela IBM. Num nvel mais pessoal, a
entrada do computador se deu mais tarde, por volta do final dos anos 70, com a
comercializao dos primeiros computadores pessoais, e j tem, portanto, cerca de 20
anos.
Em uma esfera da atividade humana, contudo, a adoo do computador como

ferramenta de trabalho tem acontecido de modo mais tardio: a anlise da linguagem. A
bem da verdade, o emprego de computadores no armazenamento de dados para anlise
lingustica j tem por volta de 40 anos, contados a partir do incio da coleta do corpus
Brown, o primeiro corpus lingustico computadorizado. Desde ento, e devido
popularizao dos computadores nas universidades, tem havido um aumento vertiginoso
de estudos que se valem do computador como instrumento de anlise ou
armazenamento de dados. Mesmo assim, a parcela da pesquisa lingustica assistida por
computador ainda minoritria. A maioria dos estudos da linguagem ainda se faz em
cima de pequenas quantidades de dados, coletados, mantidos, e analisados mo. O
comentrio de Phillips (1989) de 20 anos atrs segundo o qual a lingustica se limita
anlise de dados que cabem no quadro-negro ainda se aplica aos dias de hoje,
infelizmente.
As razes para esta escassez do computador na pesquisa lingustica so vrias. Uma

delas a falta de conhecimento dos instrumentos disponveis. Muitos pesquisadores
acatam com prazer o computador e software de anlise quando mostrados como utilizar
ferramentas computacionais na sua pesquisa acadmica. Uma outra razo a rejeio do
computador e dos modelos de anlise da natureza mais emprica que ele favorece. Esta
atitude em geral vem como consequncia de um posicionamento em relao pesquisa
lingustica que no v a necessidade de anlise de dados empricos na pesquisa da
linguagem.
Um maior emprego de computadores na investigao da linguagem seria benfica. Em

primeiro lugar, eles so consistentes. Os computadores no se cansam, e assim podem
fazer tarefas tediosas (como contar palavras, identificar todas as ocorrncias de um
termo, classificar a ordem dos itens listados, etc.) de modo eficiente e confivel (Biber
et al., 1998; Stubbs, 1996, p.232). Em segundo lugar, eles permitem maior abrangncia
no quantidade de dados que se pode lidar (Biber, 1988). O exame de um corpus de 1
milho de palavras uma tarefa quase impossvel para o ser humano, mas para um
computador, mesmo um do tipo pessoal de mesa, algo que se faz em poucos segundos.
As vantagens relativas consistncia e abrangncia no so as nicas, porm.
Uma outra vantagem diz respeito possibilidade da descoberta de fatos novos, ou

mesmo da contestao de opinies e crenas estabelecidas (Stubbs, 1996, p.232). A
incorporao do computador anlise da linguagem pode ser comparada introduo
do microscpio nas cincias, sculos atrs:
Dentro de um curto perodo de tempo, os linguistas adquiriram novas tcnicas

de observao. A situao semelhante ao perodo imediatamente anterior
inveno do microscpio e do telescpio, os quais de repente permitiram que os
cientistas observassem coisas que jamais tinham visto. (Stubbs, 1996, p.231,
traduo minha)
Alm de permitir enxergar fenmenos novos, o computador pode tambm modificar

como se enxerga a linguagem:
o desenvolvimento do computador com memria poderosa seria para a

lingustica o que o desenvolvimento do microscpio com lentes poderosas foi
para a biologia uma oportunidade no somente de ampliar nosso conhecimento
mas de transform-lo (Hoey, 1993; traduo minha)
Um dos fatores que pode favorecer o emprego maior de ferramentas computacionais na

anlise lingustica a existncia de programas flexveis e fceis de usar. Neste sentido,
um dos programas que cumpre estas exigncias WordSmith Tools, escrito por Mike
Scott, e publicado pela Oxford University Press. WordSmith Tools j tem pelo menos 5
anos de existncia (desde o lanamento em pequena escala de seus prottipos), e est
em vias de aparecer na sua terceira verso.
Apesar de fcil de flexvel e fcil de usar, o programa coloca disposio do analista

uma srie de recursos, os quais, se bem usados, so extremamente teis e poderosos na
anlise de vrios aspectos da linguagem. Entre estes aspectos, esto a composio
lexical, a temtica de textos selecionados, e a organizao retrica e composicional de
gneros discursivos. O presente trabalho pretende oferecer uma viso geral dos recursos
do programa, e como estes recursos podem ser empregados, direta ou indiretamente, na
consecuo de vrios tipos de investigao acerca da linguagem.
2. Componentes
O WordSmith Tools composto de (a) ferramentas, (b) utilitrios, (c) instrumentos, e

(d) funes.
H trs ferramentas e quatro utilitrios1, nomeadamente:
Ferramentas:
1. WordList
2. KeyWords
3. Concord
Utilitrios:
1. Renamer
2. Text Converter
3. Splitter
4. Viewer
Os instrumentos de anlise disponveis nas trs ferramentas totalizam 17, e so os

seguintes (com os nomes em ingls usados no programa em parnteses):
WordList:
1. Lista de palavras individuais (wordlist).
2. Lista de mlti-palavras (wordlist, clusters activated).
3. Lista de palavras de consistncia individuais (detailed consistency).
4. Lista de mlti-palavras2 de consistncia (detailed consistency, clusters
activated).
5. Lista de dimenses e densidade lexical (statistics).
Concord:
1. Concordncia (concordance).
2. Lista de colocados (collocates).
3. Lista de agrupamentos lexicais3 (clusters).
4. Lista de padres de colocados (patterns).
5. Grfico de distribuio da palavra de busca (plot).
KeyWords:
1. Lista de palavras chave (keywords).
2. Banco de dados de listas de palavras chave (database).
3. Lista de palavras chave chave (key keywords).
4. Lista de palavras chave associadas (associates).
5. Lista de agrupamentos textuais (clumps).
6. Grfico de distribuio de palavra chave (keyword plot).
7. Listagem de elos entre palavras chave (keyword plot links).
1
O menu Tools / Utilities apresenta um quinto utilitrio, que File Manager, mas este na verdade
nada mais do que o Gerenciador de Arquivos do prprio Windows.
2
Assim chamadas nesse trabalho porque esse o termo corrente na literatura na rea da fraseologia
(multi-word units, MWUs, polywords, etc.; xxx). Outro termo compatvel n-grama, comum na
rea de Processamento de Linguagem Natural (xxx). Mais especificamente, usa-se bi-grama para
conjuntos de duas palavras, tri-grama para trs, e assim por diante.
3
Tambm conhecidos por lexias complexas em um outro programa de computador similar
(Hyperbase, xxx).
As funes principais distribudas nas trs ferramentas so:
1. Lematizao: agrupamento de duas ou mais formas diferentes em um mesmo item.

Por exemplo, as formas correm e correram podem ser agrupadas sob o lema4
correr.
2. Classificao: ordenao de listas e concordncias por ordem alfabtica, frequencial,
ou por posio (na lista de colocados).
3. Delimitao: escolha de quais partes do corpus sero lidas pelo programa. til
porque permite ignorar cabealhos de textos etiquetados.
O funcionamento das ferramentas influenciado por alguns tipos de ajustes que o

usurio pode efetuar:
1. Horizonte de concordncia: Janela, ou quantidade de palavras, dentro da qual o

programa calcula os colocados. Esse valor tambm usado na listagem de elos entre
palavras chave (keyword plot links).
2. Tamanho da mlti-palavra: Determina o tamanho que ter cada mlti-palavra (em
palavras, ou seja, tamanho 2 indica mlti-palavras de dois elementos, tamanho 3 de
trs elementos, e assim em diante).
3. Tamanho do agrupamento lexical: Semelhante ao anterior, s que influencia os
agrupamentos encontrados na concordncia, e na produo de listas de palavras.
4. Prova estatstica para identificao das palavra chave: Teste estatstico que ser
executado durante a comparao das frequncias do corpus de estudo com o de
referncia.
5. Frequncia mnima: Nmero mnimo que um item deve possuir para se tornar
elegvel para um instrumento. Vrios instrumentos possuem ajustes independentes
de frequncias mnimas.
6. Extenso mxima: Nmero mximo de ocorrncias de uma concordncia ou de uma
lista de palavras chave, por exemplo. O analista deve ter conscincia desse valor
pois a listagem ou concordncia pode ser incompleta, caso haja mais casos do que o
nmero mximo estipulado.
A apresentao do programa ser feita em trs etapas. Na primeira, sero descritas as

ferramentas. A seguir, passar-se- apresentao dos instrumentos, e por fim sero
feitas recomendaes de procedimentos possveis de serem utilizados para se responder
algumas questes de pesquisa tpicas. Para uma descrio detalhada dos comandos
necessrios para se acessar as ferramentas e instrumentos, o leitor deve se referir ao
manual do programa WordSmith Tools (no arquivo manual.doc que acompanha a
distribuio).
3. Princpios abstratos
O programa WordSmith Tools, assim como outros programas de computador para

anlise lingustica, funciona com base em trs princpios abstratos bsicos:
(1) Ocorrncia. Os itens devem estar presentes; itens que no ocorreram no so

incorporados porque no so observveis; na presena de regras pr-definidas
possvel prever quais itens deveriam ocorrer, mas na ausncia destes construtos
prvios no possvel fazer tal previso.
4
Tambm conhecido por lexema na lingustica.
(2) Recorrncia. Os itens devem estar presentes pelo menos duas vezes; isto no
significa que itens de frequncia 1 no tenham relevncia. Pelo contrrio, enquanto
um nvel de frequncia (ranking) eles so importantes, tanto que so conhecidos
por um rtulo especfico, qual seja o de hapax legomena. Sabe-se que os hapax
formam a maioria dos itens da linguagem, por isso um corpus representativo na
medida em que representa estes itens. Itens de frequncia 1 so em geral raros, e a
existncia de itens raros que pressupe a necessidade de corpora grandes na
pesquisa, pois corpora maiores do mais chance de itens raros aparecerem.
(3) Co-ocorrncia. Os itens devem estar na presena de outros. Um item isolado muito
pouco informativo. Ele obtm significncia na medida que interpretado como parte
de um conjunto formado por outros itens. A co-ocorrncia no implica em apario
sequencial, ou seja, os itens podem ou no ter co-ocorrido em sequncia no
discurso. O horizonte de co-ocorrncia uma janela que pode ir de algumas palavras
ao redor de um item, s fronteiras do texto, ou at mesmo compreender um corpus
multi-textual inteiro. Em outras palavras, a orientao da pesquisa que vai
determinar a amplitude desta janela de co-ocorrncia. Por exemplo, o fato do item
carta aparecer no mesmo texto de registrada (portanto numa janela do tamanho
do texto) pode ser to relevante quanto estes dois itens aparecerem imediatamente
adjacentes (portanto numa janela de duas palavras de largura) formando a expresso
carta registrada.
4. As ferramentas
A seguir feita uma descrio das ferramantes e de seus principais instrumentos.
4.1. WordList
Esta ferramenta propicia a feitura de listas de palavras. O programa pr-definido para

produzir, a cada vez, duas listas de palavras, uma ordenada alfabeticamente
(identificada pela letra A entre parnteses) e outra classificada por ordem de
frequncia das palavras (com a palavra mais frequente encabeando a lista). Cada uma
destas listas apresentada em uma janela diferente, e juntamente com as duas janelas
correspondentes lista alfabtica (A) e por frequncia (F), o programa oferece uma
terceira janela (S) na qual aparecem estatsticas relativas aos dados usados para
produo das listas. Assim, para cada vez que o WordList chamado para fazer uma
lista de palavras, trs janelas so produzidas: uma contendo uma lista de palavras
ordenada por ordem alfabtica, outra com uma lista classificada pela frequncia das
palavras, e uma terceira janela com estatsticas simples a respeito dos dados.
4.1.1. Comandos principais5
Para se obter uma lista de palavras, os comandos bsicos so os seguintes:
(1) No Controller (a primeira janela que aparece ao se inicializar o programa), clique

em Tools e depois em WordList;
(2) Na janela do WordList, clique em File e depois em Start;
5
Esses comandos e os sugeridos na apresentao das demais ferramentas se referem verso 2.0 do
WordSmith Tools. Outras verses podem apresentar comandos ou telas diferentes.
(3) Na janela Getting Started, clique em Choose Texts Now se estiver fazendo a
primeira lista desde que iniciou o programa. Se j tiver escolhido os textos e quiser
mant-los, clique em Make a WordList Now, mas se quiser mudar de textos,
clique em Change Selection. Na janela Choose Texts, clique em Clear Previous
e faa a seleo segundo as instrues a seguir.
(4) Na janela Choose Texts, clique na pasta onde se encontram os textos, depois nos
textos que deseja, e por fim em OK. Se os textos estiverem em mais de uma pasta,
clique em Store ao terminar de selecionar os textos da primeira pasta, mude de
pasta, selecione os outros textos, e s quando tiver escolhidos os textos de todas as
pastas clique em OK.
(5) Na janela Getting Started, clique em Make a WordList Now.
4.1.2. Listas alfabtica e freqencial
A lista de palavras ordenada alfabeticamente possui os seguintes elementos:
Coluna Word: os itens (em geral palavras) contidos no(s) texto(s);

Coluna Freq.: quantas vezes cada item ocorreu;
Coluna %: a percentagem do total de itens do texto a que corresponde cada item;
Coluna Lemmas: outros itens cujas frequncias foram adicionadas ao item
corrente. Lemas (lemmas ou lemmata, em ingls e latim) so itens lexicais que
incorporam formas derivadas. Por exemplo, o lema correr pode compreender as
formas corro, corre, correndo, correr, corrido, etc. anlogo ao conceito de
lexema. Para fazer a lematizao, siga os passos abaixo:
Clique no item que ser o lema (head);
Pressione F5 ou clique no boto mark/unmark;
Clique nas demais formas que sero includas no lema;
Pressione F5 ou clique no boto mark/unmark;
Clique em join. As formas selecionadas mudam para a cor cinza e passam a
constar na coluna Lemmas ao lado do lema (head). A frequncia do item
tambm muda, mostrando a somatria das frequncias das vrias formas
includas no lema;
Para que as formas na cor cinza desapaream, clique em Zap. Ao fazer isto, a
janela de estatsticas fica vazia.
4.1.3. Lista de estatsticas
Os principais elementos6 constantes dessa janela so:
Coluna 1, 2, 3, : nmero de cada arquivo;

Text File: nome do arquivo;
Tokens: nmero de itens (ou ocorrncias); por exemplo, a frase o Joo viu o
Pedro possui cinco itens: o (1), Joo (2), viu (3), o (4), Pedro (5);
Types: nmero de formas (ou vocbulos); a frase acima possui quatro formas: o
(2), Joo (2), viu (3), Pedro (4);
Type-Token Ratio: a razo forma/item (ou vocbulo/ocorrncia) expressa em
porcentagem; a razo forma/item (cuja abreviao TT em ingls, e VO ou FI em
6
H vrias outras estatsticas menos importantes para os tipos de anlise considerados neste trabalho
includas na janela, e para estas o usurio pode recorrer ao help do programa para maiores explicaes.
portugus), na sua forma tradicional, obtida dividindo-se o total de formas pelo
total de itens. Na frase acima, a razo FI 0,8 (4 5). No WordList, entretanto,
transforma-se este valor em porcentagem; assim, divide-se o total de formas pelo
total de itens dividido por cem. Na frase o Joo viu o Pedro, portanto, o valor da
razo fornecido pelo programa seria 8,0, ou seja, 4 (5 100). Na prtica, a razo
forma/item indica a riqueza lexical do texto. Quanto maior o seu valor, mais
palavras diferentes o texto conter. Em contraposio, um valor baixo indicar um
nmero alto de repeties, o que pode indicar um texto menos rico ou variado do
ponto de vista de seu vocabulrio;
Standardised Type-Token: a razo forma/item padronizada. No clculo da razo FI
demonstrado acima, leva-se em conta todas as palavras do(s) texto(s) selecionado(s).
A forma FI padronizada, pelo contrrio, calcula FI em intervalos regulares, ou seja,
faz este mesmo clculo por partes do texto, e depois tira a mdia dos valores FI
entre os vrios trechos. Por exemplo, o texto o Joo viu o Pedro. O Paulo,
entretanto, viu o Joo mas no o Pedro possui uma razo FI igual a 60,0 (9 formas,
15 itens, ou seja, 9 (15 100)). Mas se dividirmos o texto na metade, teremos uma
parte que consiste de o Joo viu o Pedro. O Paulo, entretanto, com 6 formas e 8
ocorrncias (portanto FI = 75,0), e outra que corresponde a viu o Joo mas no o
Pedro, com 6 formas e 7 itens (FI = 85,7). Tirando-se a mdia aritmtica, chega-se
a 80,3 (75 + 85,7 2), que seria o valor da razo FI padronizada. A forma
padronizada empregada para neutralizar a influncia do tamanho do texto na
computao da razo FI, j que textos maiores por natureza apresentam mais
repeties e por isso tendem a possuir valores de FI mais baixos do que textos
curtos. A razo FI portanto sensvel extenso do material textual, no sendo
assim confivel para uso em comparaes entre textos de tamanhos diferentes (que
so a norma, alis; textos autnticos de extenso igual so extremamente raros). A
diferena entre os valores de FI simples (60,0) e padronizado (85,7) obtidos acima
ilustra este efeito. O texto inteiro, por ser maior, d mais espao para repeties, as
quais de fato ocorreram, e da seu valor FI mais baixo. O clculo padronizado, por
sua vez, impediu que se levasse em conta a repetio de palavras ocorridas no outro
trecho, resultando assim em um valor mdio mais alto.
Note que as estatsticas relativas ao nmero de sentenas ou perodos (sentences) e

pargrafos (paragraph) dependem das convenes usadas para definir tais unidades, e
por isso necessrio ter certeza de que os textos usados respeitam estas convenes.
Segundo os ajustes pr-definidos, o programa identifica como sentena o espao de
caracteres entre marcas de pontuao (.!?), e como pargrafo o espao de texto que
termina com uma linha em branco (conseguido ao se pressionar duas vezes consecutivas
a tecla enter). Assim, a menos que os textos escolhidos tenham seguido rigorosamente
estas convenes de delimitao de sentena e pargrafo, as contagens apresentadas
pelo programa sero incorretas.
4.2. KeyWords
Esta ferramenta permite a seleo de itens de uma lista de palavras (ou mais) por meio
da comparao de suas frequncias com uma lista de referncias. KeyWords contrasta
uma lista de palavras (ou mais de uma) de um corpus de estudo com uma lista de
palavras de um corpus de referncia. O resultado do contraste uma lista de palavras
chave, ou palavras cujas frequncias so estatisticamente diferentes no corpus de estudo
e no corpus de referncia.
Os componentes principais de uma anlise de palavras chave so, portanto, dois:
(a) um corpus de estudo, representado por uma lista de frequncia de palavras. O corpus
de estudo aquele que se pretende descrever. A ferramenta KeyWords aceita a
anlise simultnea de mais de um corpus de estudo.
(b) um corpus de referncia, tambm formatado como uma lista de frequncia de
palavras. Tambm conhecido como corpus de controle, e funciona como termo
de comparao para a anlise. A sua funo a de fornecer uma norma com a qual
se far a comparao das frequncias do corpus de estudo. A comparao feita
atravs de uma prova estatstica selecionada pelo usurio (qui-quadrado ou log-
likelihood). As palavras cujas frequncias no corpus de estudo forem
significativamente maiores segundo o resultado da prova estatstica so
consideradas chave, e passam a compor uma listagem especfica de palavras chave.
O procedimento seguido pelo programa para extrao de palavras chave pode ser
resumido segundo o algoritmo abaixo:
(1) Selecione o primeiro item na lista de palavras do corpus de estudo;

(2) Procure por este item na lista de palavras do corpus de referncia;
(3) Se o item constar do corpus de referncia, v para o passo a seguir, seno passe para
o passo 7;
(4) Compare as frequncias atravs de uma prova estatstica escolhida pelo usurio
(log-likelihood default, mas qui-quadrado tambm est disponvel);
(5) Se o resultado da comparao for estatisticamente significante (segundo o nvel de
significncia definido pelo usurio), copie esta palavra para uma nova lista, e
chame-a de lista de palavras chave;
(6) Repita este procedimento at o ltimo item da lista de palavras do corpus de estudo;
(7) Se um item constante da lista de palavras do corpus de estudo no aparecer na lista
de palavras do corpus de referncia, assuma frequncia 0 para o item no corpus de
referncia;
(8) Execute os passos 4, 5, e 6.
4.2.1. Critrios de escolha dos corpora
So apresentados abaixo alguns critrios para seleo dos corpora de estudo e

referncia, quanto sua extenso e composio.
(1) O tamanho mnimo necessrio para um corpus de estudo depende (a) do que se
pretende estudar, e (b) da especializao do corpus. Em se tratando de categorias
morfo-sintticas, Berber Sardinha (2000) aplicou a metodologia de estimao de
amostras lingusticas significativas sugerida por Biber (Biber, 1990, 1993) e
encontrou os seguintes valores, em quantidade de palavras, como amostras mnimas
para o ingls escrito:
Categoria Corpus Corpus

geral especializado
Verbo 67.187 13.848
Substantivo 74.551 8.555
Adjetivo 149.694 21.234
Advrbio 205.206 68.953
Pronome 913.256 40.945
Numeral 1.180.815 91.161
Em termos do tamanho total do corpus em nmero de palavras, os achados de Berber

Sardinha (2000) indicam os seguintes valores mnimos para categorias morfo-sintticas:
Corpus Todas as Excluindo-se Palavras de

categorias a mais rara contedo
Geral 5.495.048 1.180.815 205.206
Especializado 91.161 65.432 68.953
Em relao a itens lexicais especficos, os tamanhos mnimos representativos de

amostras tambm variam de acordo com a lngua e a especializao do corpus. Segundo
Berber Sardinha (2000), no caso do ingls escrito, as amostras mnimas para alguns
itens seriam:
Corpus
Item Geral Especializado
And 142.346 36.703
Be 747.168 504.269
Can 2.191.802 978.534
Have 775.047 203.149
I 4.109.098 55.397
May 3.569.167 1.651.178
My 6.470.793 110.162
The 102.787 38.637
This 659.339 306.823
Will 2.763.524 860.985
You 4.800.634 267.837
Your 10.708.661 342.020
(2) O corpus de referncia no deve conter o corpus de estudo, pelo menos no

deliberadamente e por completo. H duas razes para isso. A primeira refere-se aos
valores absolutos: devido soma das frequncias, as frequncias mais salientes no
corpus de estudo tendem a se obscurecer, e portanto, a deixar de indicar palavras
chave. Por exemplo, se no corpus de estudo a palavra casa tem frequncia 10, e no
corpus de referncia 1, a diferena ser grande (10) e possivelmente significativa, ou
seja, a palavra casa tem chances de ser chave. Mas se os corpus de estudo for
adicionado ao de referncia, as frequncias passam a ser 10 no corpus de estudo e 11
no de referncia, ou seja, um diferena de apenas 1, o que diminui as chances de a
palavra ser chave.
A segunda razo diz respeito s frequncias relativas: a soma pouco altera a

diferena entre as percentagens, e portanto desnecessrio unir-se os corpora (caso
o corpus de referncia seja 5 vezes maior no mnimo; vide discusso abaixo acerca
do valor crtico de 5). Tomando-se o exemplo acima, se o corpus de estudo possuir
100 itens, a frequncia 10 de casa seria 10% (10/100), e se o corpus de referncia
tiver 500 itens, a frequncia 1 seria equivalente a 0.2% (1/500). Juntando-se os
corpora, a frequncia no corpus de referncia passa a ser de 11, ou 1.8% (11/600),
ou seja, a palavra casa ainda continua com propenso a ser chave. Com palavras de
frequncias menos discrepantes, a diferena tambm pouco altera a propenso
chavicidade. Por exemplo, se em vez de 10, casa tiver frequncia de 1 no corpus
de estudo, as percentagens antes da unio dos corpora seriam 1% no corpus de
estudo (1/100) e 0.2% no de referncia (1/500); depois da unio, a frequncia no
corpus de referncia passaria a 0.3% (2/600), pouco aumentando as chances de
chavicidade da palavra casa.
(3) A composio do corpus de referncia influencia os tipos de palavra que podem se

tornar chave. Um corpus de caractersticas genricas semelhantes ao corpus de
estudo tende a filtrar, ou seja, eliminar, os elementos genricos (i.e. relativos a um
mesmo gnero) em comum, resultando em uma lista de palavras chave que no
inclui estes elementos. Alguns traos lingusticos que podem vir a ser filtrados so,
entre outros, marcadores discursivos privilegiados, escolhas lexicais tpicas, e
formas verbais flexionadas em comum. Por exemplo, se se comparar um corpus de
estudo de artigos de pesquisa acadmicos de medicina com um corpus de referncia
do mesmo tipo, pode se esperar que palavras como resultados, anlise, sugerem
no se tornem chave. J um corpus de referncia de um gnero distinto do de estudo
tende a no excluir tais palavras genricas. Por isso, um corpus de referncia geral,
que inclua vrios gneros, tida como a escolha no-marcada para estudos de
palavras chave.
Para se ter uma idia do tipo de filtragem que pode vir a ocorrer nas palavras chave,
pode-se utilizar um quadro semelhante ao mostrado abaixo. Na coluna 2, deve-se
colocar as caractersticas referentes ao corpus de estudo, um por linha. Faz-se o
mesmo com o corpus de referncia, na coluna 3. As caractersticas que coincidirem,
entre as duas colunas, so passveis promoverem filtragem entre as palavras chave.
Por outro lado, as caractersticas que diferirem, entre os dois corpora, tendem a se
manter entre as palavras chave na forma que aparecem no corpus de estudo. Ou
seja, a caracterstica referente ao corpus de estudo se mantm. O quadro a seguir
ilustra uma situao hipottica de comparao de dois corpora:
1 2 3 4
Caracterstica Corpus de Corpus de Resultado
estudo referncia
Modo Falado Escrito Trao retido:
Linguagem falada
Gnero Aulas de ingls Jornais Trao retido:
Gnero aula de ingls
Assunto Vrios Vrios Trao filtrado:
Assuntos variados em
comum
Perodo Contemporneo Contemporneo Trao filtrado:
Tpicos em comum
relativos ao cotidiano
(4) O tamanho do corpus de referncia influencia a quantidade de palavras chave

obtidas. Os tamanhos crticos de corpora de referncia so 2, 3 e 5 vezes o tamanho
do corpus de estudo. Corpora de referncia com estas dimenses retornam
significativamente mais palavras chave do que corpora de tamanhos menores. Um
corpus de referncia que o dobro do tamanho do corpus de estudo retornou cerca
de 7% das palavras (do corpus de estudo) como chave; com um corpus de referncia
que o triplo, 9%; e com um corpus de referncia que o quintuplo, 14% das
palavras do corpus de estudo eram chave.
A quantidade de palavras chave num corpus de estudo pode ser prevista

matematicamente. A frmula abaixo permite estimar-se de antemo, de modo
estatisticamente significativo, a quantidade de palavras chave obtidas quando se
sabe o tamanho dos corpora de estudo e referncia empregados na anlise.
Palavras chave= 95,890582 + 0,011432 (itens do corpus estudo) + 0,009217

(formas do corpus de referncia) 0,000105 (itens do corpus
de referncia)
Equao 1: Frmula para previso do total de palavras chave
(5) O tamanho recomendado de um corpus de referncia cinco vezes o tamanho do

corpus de estudo. Um pesquisador no necessita, necessariamente, coletar ou
procurar um corpus de referncia maior do que este valor, pois a quantidade de
palavras chave a serem obtidas seria igualvel a quantidades obtidas com corpora
maiores.
4.2.2. Comandos principais
Os comandos necessrios para se conseguir uma lista de palavras chave so:

em Tools e depois em KeyWords;
(2) Na janela do KeyWords, clique em Settings e depois em Min/Max Frequencies.
(3) Na janela WordSmith Tools Settings, faa os ajustes que julgar necessrios e
clique em OK;
(4) Volte janela KeyWords, clique em File e depois em Start;
(5) Na janela Choose WordLists, selecione a pasta e depois o arquivo que contm o
corpus de estudo, na janela esquerda (WordList). Na janela direita, selecione a
lista que contm o corpus de referncia. Clique em OK.
4.2.3. Lista de palavras chave
A execuo dos comandos acima traz tela uma lista de palavras chave em uma janela
separada. As informaes constantes na lista, da esquerda para a direita, so:
Coluna Word: os itens do(s) texto(s);

Coluna Freq: a frequncia do item no corpus de estudo;
Coluna <nome do arquivo> %: a percentagem do item em relao ao total do corpus
de estudo;
Coluna Freq: a frequncia do item no corpus de referncia;
Coluna <nome do arquivo> %: a percentagem do item em relao ao total do corpus
de referncia;
Keyness: o resultado da estatstica de comparao (log-likelihood ou qui-quadrado);
P: o valor da significncia estatstica atingido pelo resultado da estatstica.
4.2.4. Palavras chave chave
O programa KeyWords tambm proporciona a possibilidade da contagem de quantas

vezes algumas palavras foram chave em vrias listas. Palavras que foram chave em um
nmero determinado de listas so chamadas de palavras chave chave (key key words).
Os passos seguidos pelo programa KeyWords para a obteno de palavras chave chave
so, resumidamente, os seguintes:
(1) Abrir um conjunto de listas de palavras chave;

(2) Identificar as palavras chave em comum entre a primeira lista e a segunda;
(3) Se as palavras em comum tiverem uma frequncia igual ou superior ao valor
mnimo estabelecido pelo usurio, copie-as para uma lista de palavras chave chave;
(4) Repetir os passos 2 e 3 acima at ter comparado cada listas com todas as outras.
4.2.4.1.Comandos
Para se obter uma lista de palavras chave chave, deve-se seguir os seguintes comandos:

em Tools e depois em KeyWords;
(2) Na janela do KeyWords, clique em Settings e depois em Min/Max Frequencies.
(3) Na janela WordSmith Tools Settings, faa os ajustes que julgar necessrios e
clique em OK;
(4) Volte janela KeyWords, clique em File e depois em New Database;
(6) Na janela Choose WordLists, no quadro esquerda (WordList), selecione a pasta
e depois os arquivos que contm os corpora de estudo. No quadro direita,
selecione a lista que contm o corpus de referncia. Clique em OK.
(5) Na janela Batch of Files, digite o nome da pasta onde ser salvo o arquivo
database no quadro directory, e selecione a opo store in a database. Clique
em OK.
(6) Quando a janela Files Created se tornar ativa, veja o nome do arquivo criado e
clique em OK.
(7) Volte janela KeyWords, clique em File e depois em Open Database;
(8) Na janela Open 1 KeyWords Database File clique na pasta escolhida no passo (5)
acima, e depois em no nome do arquivo surgido durante a execuo do passo (6)
acima. As palavras listadas so as palavras chave chave.
4.3. Concord
Essa ferramenta produz concordncias, ou listagens das ocorrncias de um item

especfico (chamado palavra de busca ou ndulo, que pode ser formado por uma ou
mais palavras) acompanhado do texto ao seu redor (o co-texto). H vrios tipos de
concordncia possveis, de acordo com a posio do item de busca na listagem. A mais
comum a KWIC, sigla de Key Word in Context, ou palavra chave7 no contexto, na
7
O termo key word usado na literatura juntamente com search word (ou ainda search term, node,
node word) para se referir palavra central da concordncia. Prefere-se search word e sua traduo
qual a palavra de busca aparece centralizada, e ladeada por pores contnuas do texto
de origem. As concordncias so instrumentos reconhecidamente indispensveis no
estudo da colocao e da padronizao lexical, e por isso uma pea chave na
investigao de corpora. No WordSmith Tools, pode-se usar o Concord em separado,
fazendo-se concordncias avulsas, ou pode-se us-lo em conjunto com as ferramentas
WordList e KeyWords, chamando-o a partir desses programas. Para tanto, basta
selecionar um item de uma lista de palavras ou de palavras chave e clicar no boto C
na barra de tarefas do WordList ou KeyWords que o Concord chamado e uma
concordncia do item selecionado produzida, a partir dos textos selecionados quando
da produo da lista de palavras ou palavras chave. importante notar que se essa
chamada automtica no funciona caso a lista tenha sido salva e os textos de onde foi
feita no estiverem mais nas pastas originais. Nesse caso, a concordncia retornada
vazia.
4.3.1. Comandos principais
Os comandos necessrios para se produzir uma concordncia so:

em Tools e depois em Concord.
(2) Na janela do Concord, clique em Settings, Choose Texts, e selecione os arquivos
a partir dos quais deseja fazer a concordncia. Clique em OK.
(3) Clique em Settings, Horizons, faa os ajustes desejados, e clique em OK.
(4) Volte ao Concord, clique em Settings, Search Word, e digite a palavra de busca,
na caixa Search Word or Phrase. Para buscar palavras com variaes, use um
asterisco; por exemplo, para capturar casa, casar, casou, etc., digite casa*. Se
quiser fazer a concordncia j, clique em Go Now; se quiser fazer mais alguma
definio, clique em OK.
(5) Opcionalmente, se quiser encontrar a palavra de busca somente em companhia de
outra, digite essa palavra de contexto na caixa Context Word. Nas caixas
Context Search Horizon escolha a distncia mxima, em relao palavra de
busca, que a palavra de contexto pode estar. Por exemplo, se quiser encontrar as
formas casa da sogra e suas variantes casa da minha sogra e casa l da minha
sogra, mas no sogra em casa, digite sogra na caixa Context Word e escolha
0L e 4R como Context Search Horizon. 0L significa que o programa deve ignorar
as ocorrncias de sogra esquerda de casa, mas deve aceitar todas as ocorrncias
de sogra at quatro palavras direita de casa (para permitir casa l (1R) da (2R)
minha (3R) sogra (4R)). Clique em Go Now para fazer a concordncia, ou em OK
para efetuar mais algum ajuste.
4.3.2. Concordncia
A tela da concordncia possui os seguintes elementos:
(1) Coluna N: O nmero sequencial da linha da concordncia.

(2) Coluna Concordance: A concordncia em si.
(3) Coluna Set: Espao reservado para o analista inserir cdigos de classificao das
linhas da concordncia. Os cdigos podem ser as letras do alfabeto (maisculas ou
palavra de busca porque key word possui um sentido especializado no WordSmith Tools, e portanto
prefervel reservar palavras chave para se falar das palavras identificadas pelo programa KeyWords.
minsculas).
(4) Coluna Tag: A etiqueta mais prxima do termo de busca. til para ajudar a ver,
por exemplo, em qual parte do texto a palavra ocorreu, ou por qual falante foi
proferida. Se o texto for de uma conversa, na transcrio pode-se digitar a
identificao dos falantes com cdigos especiais como [Joo], [Maria], etc. Essa
opo do Concord s funciona se a funo de reconhecimento de etiquetas tiver
ativa. Para ativ-la, crie um arquivo texto com as etiquetas (e.g. [Joo], [Maria],
etc.), salve-o, clique em Settings, Tags, e na caixa Tags to be included digite o
nome do arquivo. Depois selecione a opo Activated. Se a opo Tags to ignore
estiver com Activated selecionado, certifique-se de que o formato das etiquetas
que aparece na caixa nesse espao no o mesmo dos cdigos de falante. Se em
Tags to Ignore aparecer [*], o Concord ir ignorar as etiquetas de falantes
especificadas, pois elas correspondem ao formato [*]. Por fim, clique em OK.
(5) Coluna Word No.: o nmero correspondente posio sequencial da palavra no
corpus de estudo selecionado.
(6) Coluna File: o arquivo no qual a palavra aparece.
(7) Coluna %: a posio sequencial da palavra em termos de porcentagem do total do
corpus de estudo selecionado.
4.3.3. Lista de colocados
A lista de colocados mostrada clicando-se no boto Show Collocates na barra de

tarefas. A janela dos colocados possui os seguintes elementos principais:
(1) Coluna Word: O colocado em questo.

(2) Coluna Total: O total de ocorrncias do colocado ao redor da palavra de busca. a
soma das colunas Left, Right e * (vide abaixo).
(3) Coluna Left: O total de ocorrncias do colocado esquerda da palavra de busca
(colunas L5 8 a L1).
(4) Coluna Right: O total de ocorrncias do colocado direita da palavra de busca
(soma das colunas R1 a R59).
(5) Coluna L5: O total de ocorrncias do colocado na posio referente a cinco palavras
esquerda da palavra de busca.
(6) Colunas L4 a L1: Semelhante a L5, mas refere-se s posies referentes a quatro,
trs, duas, e uma palavra esquerda da palavra de busca.
(7) Coluna *: O total de ocorrncias do colocado enquanto termo de busca. S til se
houver mais de uma palavra de busca na mesma concordncia.
(8) Colunas R1 a R5: Semelhantes a L1 a L5, descritas acima, s que se referem s
posies relativas direita da palavra de busca.
5. O que cada instrumento
Nessa seo feita uma apresentao breve dos instrumentos disponveis em cada
ferramenta:
WordList
1. Lista de palavras individuais (wordlist): Lista contendo todas as palavras do
arquivo ou arquivos selecionados, elencadas em conjunto com suas frequncias
8
Caso no se tenha alterado as posies relativas pr-definidas no menu Settings, Horizons.
9
Idem nota 8.
absolutas e percentuais. apresentada em duas verses: ordenada por frequncia
e por ordem alfabtica.
2. Lista de mlti-palavras (wordlist, clusters activated): Semelhante lista
descrita acima, s que possui itens compostos, isto , conjuntos de palavras, em
vez de palavras individuais.
3. Lista de palavras de consistncia individuais (detailed consistency): Lista que
combina duas ou mais listas de palavras, com palavras idnticas colocadas lado
a lado. A lista mostra ainda o total de arquivos em que cada item aparece, e as
frequncias de cada item nas listas originais.
4. Lista de mlti-palavras de consistncia (detailed consistency, clusters
activated): Idntica a anterior, s que cada item corresponde a palavras
compostas.
5. Lista de dimenses do corpus e densidade lexical (statistics): Lista de
estatsticas descritivas dos arquivos selecionados. Apresenta vrias contagens
relativas aos textos, tais como o tamanho em itens (tokens) e formas (types),
a densidade lexical simples e em intervalos (isto , a razo entre itens e formas,
para o texto todo e reiniciada em intervalos regulares; vide discusso acima), e a
quantidade de pargrafos e sentenas.
Concord
1. Concordncia (concordance): Lista contendo uma palavra especfica (chamada
de palavra de busca ou ndulo) juntamente com parte do texto ao seu redor (o
co-texto).
2. Lista de colocados (collocates): Lista de palavras que ocorrem ao redor da
palavra de busca, em posies determinadas. A posio da primeira palavra
direita da palavra de busca representada no programa por R1 (Right 1, ou
uma direita), a segunda por R2, a terceira por R3, etc., at R5 (quinta posio
direita). O mesmo esquema aplicado esquerda: L1 (Left 1) para primeira
palavra esquerda, L2 para a segunda, etc. at L5 (quinta palavra esquerda). A
coluna central da listagem refere-se (s) palavra(s) de busca.
3. Lista de agrupamentos lexicais (clusters): Lista de sequncias fixas de palavras
recorrentes na concordncia. Ou seja, so mlti-palavras extradas da
concordncia. Em geral so mlti-palavras que incluem a palavra de busca, mas
podem no ser, pois o programa busca os itens recorrentes na concordncia, sem
se limitar a trechos nos quais aparece a palavra de busca.
4. Lista de padres de colocados (patterns): Lista de resumo dos colocados. Eles
so agrupados nas posies em que so mais frequentes. Deve-se ter cuidado
para no se ler a listagem como se os itens formassem mlti-palavras, pois no
h garantia de que houve os encadeamentos sequenciais aparentes na lista.
5. Grfico de distribuio da palavra de busca (plot): Grfico no qual as
ocorrncias da palavra de busca so marcadas por um pequeno trao (|),
desenhadas em um retngulo que representa o texto (ou corpus). Um trao pode
representar mais do que uma ocorrncia, pois a pouca definio da tela do
computador no permite que se reserve um espao exclusivo para cada palavra.
KeyWords
1. Lista de palavras chave (keywords): Lista extrada da lista original de palavras
do corpus de estudo, produzida a partir da comparao do corpus de estudo com
um de referncia. As palavra chave so de dois tipos: positivas e negativas. As
palavras chave positivas so aquelas cujas frequncias so estatisticamente
superiores no corpus de estudo em relao ao de referncia. As negativas so
aquelas cujas frequncias so estatisticamente menores no corpus de estudo. As
positivas aparecem no topo da lista, e as negativas, no fim, em vermelho.
2. Banco de dados de listas de palavras chave (database): Um arquivo especial
que rene vrias listas de palavras chave. um pr-requisito para a obteno de
palavras chave chave.
3. Lista de palavras chave chave (key keywords): Lista de palavras chave que
aparecem em um nmero de arquivos determinado. Indica, portanto, as palavras
chave compartilhadas por dois ou mais arquivos.
4. Lista de palavras chave associadas (associates): Lista de palavras chave que
ocorrem nos textos nos quais uma certa palavra chave chave aparece.
5. Lista de agrupamentos textuais (clumps): Lista textos que compartilham
palavras chave, e nos quais ocorre uma ou mais palavra chave associada.
6. Grfico de distribuio de palavra chave (keyword plot): Semelhante ao
grfico de distribuio da palavra de busca da ferramenta Concord. As
ocorrncias das palavras chave so indicadas por uma pequena marca (|), ao
longo de um retngulo representando o texto (ou corpus). s vezes o trao
representa mais do que uma ocorrncia de uma mesma palavra chave.
7. Listagem de elos entre palavras chave (keyword plot links): Listagem do
nmero de vezes em que duas ou mais palavras chave ocorrem dentro do
horizonte colocacional definido pelo usurio.
6. Aplicaes
H vrias aplicaes no estudo da linguagem para o programa WordSmith Tools.

Abaixo so apresentadas algumas questes comuns no estudo da linguagem que podem
ser operacionalizadas por meio do uso dos recursos disponveis no programa.
6.1. Como se caracteriza um gnero especfico?
Pode-se tratar dessa questo de dois modos. No primeiro, o que se pergunta o que h
de mais distintivo, caracterizador ou tpico no gnero em questo. Basicamente, o que se
deve fazer buscar saber como esse gnero difere de outros. Para tanto, exige-se um
contraste dos dados do corpus de estudo com o de um corpus de referncia. Os
procedimentos principais seriam:
(a) Feitura de uma lista de palavras para o corpus de estudo.

(b) Feitura de uma lista de palavras para o corpus de referncia, caso no haja.
(c) Feitura de um recorte na lista de palavras do corpus de estudo, por meio da
comparao do corpus de estudo com o de referncia, extraindo-se assim as palavras
chave.
Os instrumentos necessrios para cada etapa acima seriam:
(a), (b) Lista de palavras

(c) Lista de palavras chave
A segunda maneira pela qual se pode tentar responder a essa questo perguntando-se
quais seriam os itens lexicais recorrentes, independente de serem chave. O instrumento
principal, nesse caso, no seriam as palavras chave mas as palavras de consistncia. Os
procedimentos seriam os seguintes:
(a) Feitura de uma lista de palavras para cada texto do corpus de estudo.
(b) Identificao dos itens recorrentes em um nmero determinado de textos.
Os instrumentos aplicados seriam:
(a) Lista de palavras, com possvel opo de feitura por lote (batch).
(b) Lista detalhada de palavras de consistncia.
6.2. Qual o estilo de um autor especfico ou perodo histrico?
Para se estudar essa questo so necessrios os mesmos procedimentos da questo

acima, j que se busca descobrir quais os elementos mais tpicos do autor ou do perodo
histrico por meio de um contraste.
6.3. Quais as inovaes vocabulares de um perodo de tempo determinado?
Em termos simples, nessa questo busca-se saber quais os acrscimos que ocorreram de
um perodo de tempo anterior para outro posterior. Para tanto, h duas opes, que
variam de acordo com o conceito de acrscimo que se emprega.
Se qualquer diferena entre frequncias for tida como acrscimo, ento pode-se usar os
procedimentos a seguir:
(a) Feitura de uma lista de palavras para o corpus de estudo referente ao perodo
anterior;
(b) Feitura de uma lista de palavras para o corpus de estudo referente ao perodo
posterior;
(c) Descoberta dos itens que possuem frequncia zero no corpus anterior e mais que
zero no corpus posterior.
E os instrumentos empregados seriam:

(c) Lista detalhada de palavras de consistncia, com aplicao da funo de
classificao por frequncia.
Por outro lado, se o conceito de acrscimo implicar em uma diferena estatstica

significativa, ento deve-se recorrer a palavras chave, e portanto os procedimentos
seriam:
(a) Feitura de uma lista de palavras para o corpus de estudo referente ao perodo
anterior;
(b) Feitura de uma lista de palavras para o corpus de estudo referente ao perodo
posterior;
(c) Descoberta dos itens acrescidos de modo estatisticamente significante, ou seja, que
so chave no corpus posterior. Para tanto, deve-se escolher o corpus posterior como
sendo o de estudo, e o anterior como o corpus de referncia.
Seriam empregados os seguintes instrumentos em cada etapa:

6.4. Que agrupamentos de textos existem?
Nessa questo est embutida a identificao de textos diferentes que possuem itens
lexicais compartilhados. Os procedimentos seriam:
(a) Feitura de uma lista de palavras para cada texto do corpus de estudo.
(c) Feitura de um recorte na lista de palavras de cada texto do corpus de estudo, por
meio da comparao do corpus de estudo com o de referncia, extraindo-se assim as
palavras chave de cada texto.
(d) Identificao de itens compartilhados entre os textos, por meio da localizao de
palavras chave chave, ou seja, palavras chave que recorrem em um nmero crtico
de textos.
(e) Identificao dos textos que compartilhem palavras chave.
Os instrumentos necessrios para perfazer essas etapas so:

(d) Banco de dados de palavras chave
(e) Lista de palavras chave associadas e lista de agrupamentos textuais (clumps)
6.5. Quais os usos tpicos de uma palavra determinada?
Aqui busca-se saber se h e quais so os padres de uso mais tpicos de um item lexical.
Assume-se que o item lexical seja conhecido de antemo. Os procedimentos seriam os
seguintes:
(a) Feitura de uma concordncia tendo-se o item lexical em questo como palavra de
busca, para se observar o co-texto tpico no qual est inserido o item.
(b) Feitura de uma listagem agrupamentos lexicais, a fim de se examinar os padres
fixos ou fraseologias do qual o item faz parte (note que em geral necessrio
descartar os agrupamentos que no incluem a palavra de busca).
(c) Feitura de uma listagem de colocados, para se observar o padres colocacionais.
Os instrumentos empregados seriam os seguintes:
(a) Concordncia.
(b) Listagem de agrupamentos lexicais (clusters).
(c) Lista de colocados e, opcionalmente, lista de padres de colocados (patterns).
6.6. Em quantas partes se divide o texto?
O objetivo dessa questo descobrir quais os segmentos do texto e se h uma

correspondncia entre os segmentos e a ocorrncia de itens lexicais. Para se saber se h
correspondncia deve-se examinar uma representao grfica da localizao das
palavras chave no texto. importante frisar que o arquivo de onde se fez a lista de
palavras chave deve corresponder a um texto, e no a um conjunto de textos, seno no
possvel descobrir-se as divises internas do texto em si, mas sim do corpus (o que
mais difcil de justificar).
Para tanto deve-se executar os seguintes procedimentos:
(a) Feitura de uma lista de palavras para o texto, ou para cada um dos textos.
(c) Feitura de um recorte na lista de palavras de cada texto do corpus de estudo, por
meio da comparao do corpus de estudo com o de referncia, extraindo-se assim as
palavras chave de cada texto.
(d) Feitura de um grfico de distribuio das palavras chave no texto.
Os instrumentos exigidos so os seguintes:

(d) Grfico de distribuio de palavra chave, com aplicao da funo de
classificao por ordem de primeira ocorrncia
6.7. Qual a temtica recorrente?
Essa questo enfoca mais diretamente o contedo do corpus de estudo, mais

especificamente quais seriam os itens indicativos de um contedo recorrente por vrios
textos, corpora, ou perodos histricos. H duas alternativas de procedimentos. Na
primeira, trata-se essa questo como um problema de identificao de grupos de textos
com elementos chave compartilhados, nesse caso a temtica. Por isso, as etapas a serem
percorridas nesse caso no diferem daquelas discutidas acima em 6.4. Na segunda
alternativa, v-se essa questo como um problema de localizao de itens recorrentes.
Essa opo seria realizada seguindo-se os procedimentos abaixo:
(c) Feitura de uma lista de palavras para cada texto do corpus de estudo.
(d) Identificao dos itens recorrentes em um nmero determinado de textos.
Os instrumentos necessrios seriam:
(c) Lista de palavras, com possvel opo de feitura por lote (batch).
(d) Lista detalhada de palavras de consistncia.
7. Comentrios finais
O objetivo do trabalho apresentado aqui foi o de apresentar um panorama geral do

programa WordSmith Tools. A apresentao visou a familiarizao do leitor com os
comandos relativos s principais ferramentas disponibilizadas pelo software. Espera-se,
desse modo, ter-se contribudo para tornar o programa mais acessvel a uma gama maior
de lingistas de vrias orientaes.
Referncias
BERBER SARDINHA , A. P. (2000) Representatividade de corpus. DIRECT Papers, 45.
BIBER, D. (1988). Variation across Speech and Writing. Cambridge: Cambridge

University Press.
---. (1990) Methodological issues regarding corpus-based analyses of linguistic variation.
Literary and Linguistic Computing, 5: 257-269.
---. (1993) Representativeness in corpus design. Literary and Linguistic Computing, 8:

243-257.
BIBER, D. ET AL (1998). Corpus linguistics - Investigating language structure and use.

Cambridge: Cambridge University Press.
HOEY, M. (1993). Introduction. IN: M. HOEY (org.). Data, Description, Discourse --

Papers on the English Language in Honour of John McH Sinclair on his Sixtieth
Birthday. London: HarperCollins.
PHILLIPS , M. (1989). Lexical Structure of Text (Discourse analysis monographs: 12).

Birmingham: ELR, University of Birmingham.
STUBBS , M. (1996). Text and Corpus Analysis -- Computer-Assisted Studies of Language

and Culture. Oxford: Blackwell.

Sardinha 1999 PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Sardinha 1999 PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Usando WordSmith Tools na investigao da linguagem

Tony Berber Sardinha

Esta influncia, no entanto, no nova. O computador tem entrado nos ambientes

Em uma esfera da atividade humana, contudo, a adoo do computador como

As razes para esta escassez do computador na pesquisa lingustica so vrias. Uma

Um maior emprego de computadores na investigao da linguagem seria benfica. Em

Uma outra vantagem diz respeito possibilidade da descoberta de fatos novos, ou

Dentro de um curto perodo de tempo, os linguistas adquiriram novas tcnicas

Alm de permitir enxergar fenmenos novos, o computador pode tambm modificar

o desenvolvimento do computador com memria poderosa seria para a

Um dos fatores que pode favorecer o emprego maior de ferramentas computacionais na

Apesar de fcil de flexvel e fcil de usar, o programa coloca disposio do analista

O WordSmith Tools composto de (a) ferramentas, (b) utilitrios, (c) instrumentos, e

H trs ferramentas e quatro utilitrios1, nomeadamente:

Os instrumentos de anlise disponveis nas trs ferramentas totalizam 17, e so os

1. Lematizao: agrupamento de duas ou mais formas diferentes em um mesmo item.

O funcionamento das ferramentas influenciado por alguns tipos de ajustes que o

1. Horizonte de concordncia: Janela, ou quantidade de palavras, dentro da qual o

A apresentao do programa ser feita em trs etapas. Na primeira, sero descritas as

O programa WordSmith Tools, assim como outros programas de computador para

(1) Ocorrncia. Os itens devem estar presentes; itens que no ocorreram no so

A seguir feita uma descrio das ferramantes e de seus principais instrumentos.

Esta ferramenta propicia a feitura de listas de palavras. O programa pr-definido para

4.1.1. Comandos principais5

Para se obter uma lista de palavras, os comandos bsicos so os seguintes:

(1) No Controller (a primeira janela que aparece ao se inicializar o programa), clique

4.1.2. Listas alfabtica e freqencial

A lista de palavras ordenada alfabeticamente possui os seguintes elementos:

Coluna Word: os itens (em geral palavras) contidos no(s) texto(s);

4.1.3. Lista de estatsticas

Os principais elementos6 constantes dessa janela so:

Coluna 1, 2, 3, : nmero de cada arquivo;

Note que as estatsticas relativas ao nmero de sentenas ou perodos (sentences) e

(1) Selecione o primeiro item na lista de palavras do corpus de estudo;

4.2.1. Critrios de escolha dos corpora

So apresentados abaixo alguns critrios para seleo dos corpora de estudo e

Categoria Corpus Corpus

Em termos do tamanho total do corpus em nmero de palavras, os achados de Berber

Corpus Todas as Excluindo-se Palavras de

Em relao a itens lexicais especficos, os tamanhos mnimos representativos de

(2) O corpus de referncia no deve conter o corpus de estudo, pelo menos no

A segunda razo diz respeito s frequncias relativas: a soma pouco altera a

(3) A composio do corpus de referncia influencia os tipos de palavra que podem se

(4) O tamanho do corpus de referncia influencia a quantidade de palavras chave

A quantidade de palavras chave num corpus de estudo pode ser prevista

Palavras chave= 95,890582 + 0,011432 (itens do corpus estudo) + 0,009217

Equao 1: Frmula para previso do total de palavras chave

(5) O tamanho recomendado de um corpus de referncia cinco vezes o tamanho do

4.2.2. Comandos principais

Os comandos necessrios para se conseguir uma lista de palavras chave so:

(1) No Controller (a primeira janela que aparece ao se inicializar o programa), clique

4.2.3. Lista de palavras chave

Coluna Word: os itens do(s) texto(s);

4.2.4. Palavras chave chave

O programa KeyWords tambm proporciona a possibilidade da contagem de quantas

(1) Abrir um conjunto de listas de palavras chave;

(1) No Controller (a primeira janela que aparece ao se inicializar o programa), clique

Essa ferramenta produz concordncias, ou listagens das ocorrncias de um item

4.3.1. Comandos principais

Os comandos necessrios para se produzir uma concordncia so:

(1) No Controller (a primeira janela que aparece ao se inicializar o programa), clique

A tela da concordncia possui os seguintes elementos:

(1) Coluna N: O nmero sequencial da linha da concordncia.