Escolar Documentos
Profissional Documentos
Cultura Documentos
com
1,1 Introdução
língua. Em vez disso, é uma área que se concentra em um conjunto de procedimentos, ou métodos, para estudar a linguagem
(embora, como veremos, pelo menos uma grande escola de linguistas de corpus não concorde com a caracterização da linguística
de corpus como metodologia). Os próprios procedimentos ainda estão em desenvolvimento e permanecem um conjunto mal
delineado - embora alguns deles, como a concordância, estejam bem estabelecidos e sejam vistos como centrais para a
abordagem. Dados esses procedimentos, podemos adotar uma abordagem baseada em corpus para muitas áreas da linguística.
No entanto, precisamente por causa disso, como este livro irá mostrar, a linguística de corpus tem o potencial de reorientar toda
a nossa abordagem para o estudo da linguagem. Pode refinar e redefinir uma série de teorias da linguagem. Também pode nos
permitir usar teorias da linguagem que eram, na melhor das hipóteses, difíceis de explorar antes do desenvolvimento de corpora
de tamanho adequado e máquinas com poder suficiente para explorá-los. É importante ressaltar que o desenvolvimento da
linguística de corpus também gerou, ou pelo menos facilitou a exploração de, novas teorias da linguagem - teorias que se
inspiram no uso comprovado da linguagem e nas descobertas dela derivadas. Neste livro, esses impactos da linguística de corpus
serão apresentados, explorados e avaliados. ou, pelo menos, facilitou a exploração de novas teorias da linguagem - teorias que se
inspiram no uso comprovado da linguagem e nas descobertas dele derivadas. Neste livro, esses impactos da linguística de corpus
serão apresentados, explorados e avaliados. ou, pelo menos, facilitou a exploração de novas teorias da linguagem - teorias que se
inspiram no uso comprovado da linguagem e nas descobertas dele derivadas. Neste livro, esses impactos da linguística de corpus
1
2 o que é corpus l ingui st i cs?
com é geralmente de um tamanho que desafia a análise manual e visual dentro de qualquer período
de tempo razoável. É a grande escala dos dados usados que explica o uso de texto legível por
máquina. A menos que usemos um computador para ler, pesquisar e manipular os dados, trabalhar
com conjuntos de dados extremamente grandes não é viável devido ao tempo que um analista
humano, ou equipe de analistas, levaria para pesquisar o texto. Certamente, é extremamente difícil
pesquisar um corpus tão grande à mão de uma forma que não garanta nenhum erro. A próxima
generalização segue a partir desta observação: os corpora são invariavelmente explorados usando
ferramentas que permitem aos usuários pesquisá-los de forma rápida e confiável. Algumas dessas
ferramentas, nomeadamente concordadores, permitem que os usuários vejam as palavras no
contexto.1 A maioria dessas ferramentas também permite a produção de dados de frequência de
alguma descrição, por exemplo, uma lista de frequência de palavras, que lista todas as palavras que
aparecem em um corpus e especifica para cada palavra quantas vezes ela ocorre naquele corpus. Os
dados de concordância e frequência exemplificam, respectivamente, as duas formas de análise, a
saber, a qualitativa e a quantitativa, igualmente importantes para a linguística de corpus.
A importância de nossas descobertas de um corpus, seja quantitativo ou qualitativo, depende de outro fator geral que se aplica a todos os tipos de linguística de corpus: os
dados do corpus que selecionamos para explorar uma questão de pesquisa devem ser bem combinados com essa questão de pesquisa. Até certo ponto, isso é autoevidente - um
corpus é mais bem usado para responder a uma pergunta de pesquisa para a qual é bem composto. Para dar um exemplo extremo, não haveria muito sentido em explorar o
sistema de classificação de substantivos do suaíli examinando um corpus de textos de jornais em inglês. Mais sutilmente, não podemos (ou podemos apenas com alguma cautela)
fazer afirmações gerais sobre a natureza de uma dada língua com base em um corpus contendo apenas um tipo de texto ou um número limitado de tipos de texto. Finalmente, e
mais sutilmente ainda, devemos estar cientes de que os textos dentro de um corpus que assumimos homogêneo podem, de fato, apresentar diferenças. Por exemplo, uma
coleção de amostras de um jornal, até mesmo do mesmo jornal no mesmo dia, pode exibir diferenças inteiramente previsíveis umas das outras - a seção de esportes, por
exemplo, usará léxico diferente da seção de notícias internacionais. Os usuários de um corpus devem estar cientes de suas variações internas, e os pesquisadores às vezes usam
técnicas estatísticas para examinar o grau de variabilidade dentro de um determinado corpus antes de usá-lo (consulte Gries 2006c para um exemplo de como explorar essa
variabilidade dentro de um corpus). O grau de homogeneidade de um corpus é, então, outro fator para determinar o quão bem ele corresponde a questões de pesquisa
específicas. uma coleção de amostras de um jornal, até mesmo do mesmo jornal no mesmo dia, pode exibir diferenças inteiramente previsíveis umas das outras - a seção de
esportes, por exemplo, usará léxico diferente da seção de notícias internacionais. Os usuários de um corpus devem estar cientes de suas variações internas, e os pesquisadores às
vezes usam técnicas estatísticas para examinar o grau de variabilidade dentro de um determinado corpus antes de usá-lo (consulte Gries 2006c para um exemplo de como
explorar essa variabilidade dentro de um corpus). O grau de homogeneidade de um corpus é, então, outro fator para determinar o quão bem ele corresponde a questões de
pesquisa específicas. uma coleção de amostras de um jornal, até mesmo do mesmo jornal no mesmo dia, pode exibir diferenças inteiramente previsíveis umas das outras - a
seção de esportes, por exemplo, usará léxico diferente da seção de notícias internacionais. Os usuários de um corpus devem estar cientes de suas variações internas, e os
pesquisadores às vezes usam técnicas estatísticas para examinar o grau de variabilidade dentro de um determinado corpus antes de usá-lo (consulte Gries 2006c para um
exemplo de como explorar essa variabilidade dentro de um corpus). O grau de homogeneidade de um corpus é, então, outro fator para determinar o quão bem ele corresponde
a questões de pesquisa específicas. contará com léxico diferente da seção de notícias internacionais. Os usuários de um corpus devem estar cientes de suas variações internas, e
os pesquisadores às vezes usam técnicas estatísticas para examinar o grau de variabilidade dentro de um determinado corpus antes de usá-lo (consulte Gries 2006c para um exemplo de como explorar essa variabilidade dentro de
Temos discutido as características dos textos dentro de um corpus. Deve-se notar que o
termotexto aqui denota um arquivo de dados legíveis por máquina. Normalmente, na
linguística de corpus, estes são de fato textuais na forma, de modo que cada arquivo
representa, por exemplo, um artigo de jornal ou uma transcrição ortográfica de alguma língua
falada. No entanto, os arquivos de computador dentro de um corpus não precisam ser
textuais, e certamente existem exemplos hoje em dia de arquivos de dados de vídeo sendo
usados como textos de corpus, como discutiremos na próxima seção.
Este último ponto destaca um problema, mesmo com as generalizações grosseiras que
fizemos até agora - elas são geralmente precisas, mas muitas vezes podemos encontrar
1.2 Modo de comunicação 3
exemplos que os desafiam. Por exemplo, embora tenhamos afirmado que a linguística de
corpus sempre usa texto legível por máquina, na verdade, historicamente, muito trabalho foi
realizado em corpora mantidos em papel; por exemplo, Fries (1952) produziu uma gramática
do inglês baseada nesse corpus. Além disso, embora seja verdade que muitas pesquisas
usando métodos de corpus (por exemplo, McEnery 2005; Davies 2009b; Millar 2009; e muitos
outros) usam corpora de milhões de palavras, existem outros estudos, como os de Ghadessy e
Gao (2001) e McEnery e Kifle (2001) que, apropriadamente, usam corpora menores e
especializados que podem ter sido analisados manualmente. No entanto, apesar das
exceções, as generalizações acima caracterizam grande parte do trabalho que pode ser
razoavelmente descrito como linguística de corpus. Olhando além dessas generalizações, a
pesquisa na área pode ser dividida com base em uma série de critérios que discriminam de
maneira bastante nítida entre os tipos de trabalho. As seguintes características são aquelas
que, em nossa opinião, mais tipicamente distinguem diferentes tipos de estudos em linguística
de corpus:
- Modo de comunicação;
- Linguística baseada em corpus versus linguística baseada em corpus;
- Regime de coleta de dados;
- O uso de corpora anotados versus não anotados;
- Responsabilidade total versus seleção de dados; Corpora
- multilíngue versus corpora monolíngue.
os sistemas de escrita do mundo, atuais e extintos. Corpora escritos ainda podem ser
demorados e sujeitos a erros de produção nos casos em que os materiais precisam ser
digitalizados ou digitados a partir de documentos originais impressos (isto é particularmente
verdadeiro para material manuscrito - ver Smithet al. 1998). No entanto, como discutiremos
mais adiante neste capítulo, a crescente disponibilidade de uma ampla gama de gêneros em
formato legível por máquina para a maioria das principais línguas significa que a construção de
corpora escritos, exceto no contexto da pesquisa linguística histórica, nunca foi tão fácil .
Dados problemas como esses, não é de surpreender que os dados do corpus falado
sejam produzidos com mais frequência gravando interações e depois transcrevendo-as.
As transcrições ortográficas e / ou fonêmicas de materiais falados podem ser compiladas
em um corpus de fala que pode ser pesquisado por computador. Essas transcrições
podem ser vinculadas sistematicamente à gravação original por meio de um processo
denominado alinhamento de tempo para que, por meio do computador, seja possível
pesquisar facilmente um corpus falado e ouvir a parte da gravação que corresponde a
um determinado resultado da pesquisa. Isso é possível, por exemplo, com o corpus COLT
do discurso de adolescentes de Londres (Stenströmet al. 2002), o componente do Corpus
Internacional Inglês Britânico (ICE-GB)4 e o corpus Origins of New Zealand English (ONZE)
(Fromont e Hay 2008). A forma ortográfica de um corpus falado geralmente normaliza a
forma das palavras no texto para a grafia padrão, o que significa que o material
transcrito ortograficamente raramente é uma fonte confiável de evidência para
pesquisas sobre variações na pronúncia. O material transcrito fonemicamente é muito
mais útil a esse respeito, embora tenda a ser mais útil quando formas variantes podem
ser pesquisadas por referência a uma forma padronizada, normalmente
1.3 Linguística baseada em corpus versus baseada em corpus 5
que percorre este livro. Os estudos baseados em corpus normalmente usam dados de corpus
para explorar uma teoria ou hipótese, normalmente uma estabelecida na literatura atual, a fim
de validá-la, refutá-la ou refiná-la. A definição da linguística de corpus como ummétodo
sustenta esta abordagem para o uso de dados de corpus em linguística. A linguística orientada
por corpus rejeita a caracterização da linguística de corpus como um método e afirma, em vez
disso, que o corpusem si deve ser a única fonte de nossas hipóteses sobre a linguagem.
Afirma-se, portanto, que o próprio corpus incorpora sua própria teoria da linguagem (Tognini-
Bonelli 2001: 84-5). Essa noção de linguística orientada por corpus está intimamente associada
ao trabalho de estudiosos aos quais nos referiremos como 'neo-Firthians', que serão
explorados em profundidade no Capítulo 6. Nesse capítulo, também revisitaremos e
problematizaremos os conceitos baseados em corpus. versus distinção baseada em corpus.
Para aqueles que a aceitam, a dicotomia baseada em corpus versus orientada por corpus cria
uma distinção binária básica, sob a qual a maioria dos trabalhos de pesquisa linguística de
corpus podem ser classificados em um ou outro grupo. No entanto, nossa própria perspectiva
rejeita a noção de que o próprio corpus tem um status teórico e, portanto, também rejeita a
distinção binária entre linguística baseada em corpus e linguística dirigida por corpus.tudo a
linguística de corpus pode ser justamente descrita como baseada em corpus. Esse ponto de
controvérsia será explorado no Capítulo 6.
níveis de linguagem na web, representa uma questão significativa que os usuários da web
como um corpus devem abordar. No entanto, a web, sem dúvida, fornece um volume
substancial de dados que podem ser selecionados e preparados para produzir corpora
adequados para uma ampla variedade de fins.
A título de ilustração, se você quiser examinar a frase bastante carregadaSwanning around
no BNC, você encontraria apenas 13 exemplos nos quais basear suas observações. Usando o
Google, recuperamos 32.300 exemplos de textos contendo essa frase. É certo que esses
milhares de exemplos precisariam ser classificados e peneirados antes que pudessem ser
usados para explorar a frase de maneira confiável. No entanto, há poucas dúvidas de que os
milhares de exemplos do Google permitiriam uma investigação mais sutil desta frase em
particular do que a dúzia ou mais de exemplos no BNC. Portanto, a web é uma fonte de
evidências útil e prontamente disponível, que pode ser inestimável nos casos em que você
precisa de uma grande quantidade de dados para lidar com uma baixa frequência de
ocorrência. No entanto, há um problema associado a esta oportunidade: para palavras ou
frases frequentes, o número de exemplos retornados por um mecanismo de pesquisa na web
pode ser simplesmente esmagador, e uma grande quantidade de dados pode ter que ser
descartada. Isso deve ser feito de acordo com alguma heurística que idealmente deve ser
aplicada de forma consistente em todas as análises. Por exemplo, se estudarmos palavras
frequentes comoreceber usando a web como um corpus, podemos querer estudar apenas os
primeiros 100 exemplos que são retornados. Se fizermos isso por uma palavra no estudo,
devemos fazê-lo portudo palavras nesse estudo, quando necessário. Outro problema existe
com todos os estudos baseados em dados da web que não são baixados e arquivados de
forma adequada: a web está sempre mudando. É difícil replicar um estudo feito na web há
quatro anos, por exemplo, porque a web terá mudado significativamente. Dada a importância
da replicabilidade em procedimentos experimentais (que discutiremos na seção 1.6.1), esta é
uma desvantagem óbvia e urgente para a abordagem da Web como Corpus.
Em contraste com o monitor corpora, corpora equilibrado, também conhecido como sam-
ple corpora, tente representar um tipo específico de idioma em um período específico de
tempo. Ao fazer isso, eles procuram serequilibrado e representante dentro de um particular
quadro de amostragem que define o tipo de linguagem, o população, que gostaríamos de
caracterizar. A população é o espaço nocional dentro do qual a linguagem está sendo
amostrada. Então, por exemplo, se quisermos olhar para a linguagem das interações de
serviço em lojas no Reino Unido no final da década de 1990, o quadro de amostragem é claro -
só aceitaríamos dados em nosso corpus que representem interações de serviço em lojas no
Reino Unido na década de 1990 . No entanto, se coletássemos apenas os dados coletados em
cafeterias, não obteríamos um conjunto equilibrado de dados para essa população - léxico
relativamente específico do contexto, comocafé com leite e frapuccino, provavelmente
ocorreriam com muito mais frequência do que nas interações de serviço em geral. Frases que
são típicas de outros tipos de interações de serviço, comoDevo embrulhar para você?, pode
nem ocorrer. Seguindo o princípio deSaldo, iríamos buscar
1.4 Regimes de coleta de dados 9
para caracterizar o faixa de lojas cujo idioma queríamos amostrar e coletar dados
uniformemente em toda essa gama.
Mesmo se decidíssemos que estávamos interessados apenas em livrarias, cafeterias
e supermercados, ainda poderíamos desejar garantir que as lojas da amostra estivessem
em algum sentido típica, e que coletamos dados deles de forma a evitar a introdução de
distorções em nosso conjunto de dados. Portanto, poderíamos nos preocupar em
garantir que não retirássemos amostras de livrarias que vendem apenas livros de
antiquários, se estivéssemos preocupados que as interações ali pudessem ser atípicas
nas livrarias em geral. Da mesma forma, podemos querer garantir que as proporções de
dados em nosso corpus reflitam, de alguma forma, os números de cada tipo de interação
de interesse que realmente ocorre. Se tivéssemos 90 por cento de nossos dados de
livrarias, 8 por cento de cafeterias e 2 por cento de supermercados, quando sabemos que
existem cem supermercados para cada livraria, poderíamos muito bem sentir que o
design de nosso corpus foi menos do que o ideal . Teríamos que escolher os locais de
amostragem e as proporções relativas dos diferentes tipos de dados a coletar, com o
objetivo de alcançarrepresentatividade para os dados em um corpus. Claro, este exemplo
simples apresenta apenas uma abordagem para representatividade; ver Leech (2007)
para uma exploração crítica desse conceito.
Corpora que buscam equilíbrio e representatividade dentro de uma determinada estrutura
de amostragem são instantâneo corpora. Um bom exemplo de corpus instantâneo é o corpus
Lancaster-Oslo / Bergen (LOB). Isso representa um "instantâneo" da forma escrita padrão do
inglês britânico moderno no início dos anos 1960. A Tabela 1.1 fornece a estrutura de
amostragem dentro da qual os dados para o corpus LOB foram reunidos.
Para cada categoria, amostras de dados foram coletadas, com cada amostra
sendo aproximadamente semelhante (2.000 palavras). As amostras foram retiradas
de uma variedade de fontes dentro de cada amplo domínio de amostragem. O
corpus resultante tem 1 milhão de palavras. O corpus LOB demonstra como um
corpus instantâneo, usado em conjunto com corpora construídos usando o mesmo
quadro de amostragem, pode nos permitir realizar uma ampla gama de contrastes
e comparações. A mesma base de amostragem usada para LOB também foi usada
para coletar corpora de inglês britânico escrito em intervalos espaçados
(principalmente de trinta anos) ao longo do século XX e início do século XXI. Isso
permite que os efeitos da mudança diacrônica sejam estudados nesta variedade de
inglês (ver Leech 2004; Baker 2009; Leechet al. 2009). Esta abordagem para explorar
a mudança diacrônica é análoga à fotografia em movimento - mudanças lentas
tornam-se visíveis quando um instantâneo é tirado em intervalos descontínuos.
Também é possível estudar a mudança diacrônica com um grande corpo de
monitor, embora diferentes técnicas possam ser necessárias para capturar a
mudança lenta ao longo do tempo. Usando corpora de instantâneos, também
podemos observar as diferenças sincrônicas nas variedades do inglês. O quadro de
amostragem LOB foi adotado de um desenvolvido originalmente para construir um
corpus de inglês americano escrito de 1961, o Brown Corpus (Francis e Kučera 1964;
Kučera e Francis 1967) - comparando LOB e Brown, podemos investigar diferenças
nos dois idiomas variedades enquanto controla a amostragem e os efeitos da
mudança diacrônica.
10 o que é corpus l ingui st i cs?
Número de texto
Categoria amostras neste
mnemônico Descrição categoria
problemas relativos à evolução ao longo do tempo dos gêneros que se equilibram nesses
corpora. A natureza mutável do gênero torna as afirmações de comparabilidade ao observar a
variação diacrônica muito mais tendenciosas do que afirmações semelhantes para a
comparação Sincrônica de Brown / LOB, por exemplo. Como Leech (2007: 143-4) observa, o
debate em torno do equilíbrio, representatividade e comparabilidade pode levar os
pesquisadores:
rejeitar esses conceitos como mal definidos, problemáticos e inatingíveis. Minha atitude
é diferente desta. . . essas são considerações importantes e, mesmo que não possamos
alcançá-las 100 por cento, não devemos abandonar a tentativa de defini-las e alcançá-
las. Devemos almejar uma aproximação gradual a esses objetivos, como desideratos
cruciais do design de corpus. É melhor reconhecer que esses objetivos não são um
tudo ou nada: há uma escala de representatividade, de equilíbrio, de comparabilidade.
Devemos buscar definir posições realisticamente alcançáveis nessas escalas, ao invés
de abandoná-las completamente.
É provável que, para idiomas com uma forma escrita, cada vez mais material textual
legível por máquinas se torne disponível com o tempo, permitindo que sejam
prontamente estudados. Considere a divisão geral das línguas em quatro grandes tipos
sugeridos por McEnery e Ostler (2000):
É justo dizer que os tipos 1 e 2 são melhor supridos com dados do corpus do que 3 e 4
por uma série de razões não linguísticas. Os idiomas oficiais geralmente têm governos
com dinheiro associado a eles. Esses governos geralmente publicam material no idioma
oficial, geralmente na web. Eles também, às vezes, financiam projetos de construção de
corpus. As línguas não oficiais sofrem com a falta de reconhecimento oficial e, portanto,
de financiamento estatal. Além disso, se a linguagem estiver associada a um grupo
oprimido, a própria linguagem pode ser suprimida. O problema com as línguas
ameaçadas de extinção é óbvio - muito poucos falantes produzem pouco material em
relação às línguas maiores. Também pode acontecer que as línguas em perigo também
sejam suprimidas, tornando a sua situação ainda pior.
Um problema significativo surge no contexto de analistas que abordam dados falados em
particular: converter gravações faladas em transcrições legíveis por máquina é uma tarefa que
consome muito tempo. Isso por si só significa que, sem suporte financeiro significativo ou muito
tempo disponível, alguns analistas optam por trabalhar em conjuntos de dados pequenos, quando
conjuntos de dados muito maiores seriam indiscutivelmente mais apropriados para sua tarefa. Os
analistas podem sentir, com razão, dados os recursos disponíveis, que trabalhar com uma pequena
amostra pode ser suficiente para seus propósitos e que, embora um conjunto de dados maior possa
produzir resultados ligeiramente diferentes, eles enfrentam a perspectiva de 'uma enorme
quantidade de trabalho e planejamento para muito pequenos retornos ”(Holmes 1996: 168). Um
pesquisador às vezes deve ser guiado pelo pragmatismo.
Finalmente, mesmo com uma enorme quantidade de trabalho e planejamento, pode ser
simplesmente impossível construir um corpus ideal para uma dada linguagem - se a linguagem
estiver morta ou morrendo e o material para construir um corpus grande e equilibrado não
estiver disponível e simplesmente nunca vai ser. Para considerar um exemplo extremo, as
civilizações do Vale do Indo baseadas em Harappa e Mohenjo-daro floresceram entre
aproximadamente 2.500 e 1.900 aC. O estoque total de material escrito que resta para
representar a linguagem usada por aquela civilização consiste em 3.700 objetos inscritos
(Robinson 2009: 268). É improvável que futuras escavações arqueológicas alterem
significativamente a extensão desse estoque de texto. Se quisermos construir um corpus a
partir desses objetos, talvez para tentar decodificar esse script ainda não decifrado, a
quantidade de material para desenhar é bastante finita - a linguagem está morta e o sistema
de escrita não é mais usado. Com toda a probabilidade, já temos a grande maioria dos "textos"
sobreviventes em nossa posse. Nenhum falante nativo do
1.5 corpora anotado versus não anotado 13
língua do Vale do Indo existirá novamente para produzir mais textos usando este
sistema de escrita. Ao lidar com uma língua extinta para a qual um maior corpo de
literatura sobrevive, como o latim clássico, gótico ou inglês antigo, nossa situação é
diferente em grau, mas não em espécie, do caso do Vale do Indo: nossa única opção
na construção de um corpus é selecione alguns ou todos os textos que
sobreviveram ao longo dos séculos.
Em resumo, embora as noções de corpora de monitor e instantâneo nos
forneçam modelos relativamente idealizados de construção de corpus, deve-se
notar, e aceitar, que os corpora que usamos e construímos devem às vezes ser
determinados por considerações pragmáticas.
Outra maneira pela qual os estudos em linguística de corpus variam está relacionada com
se as análises linguísticas estão ou não codificadas nos próprios dados do corpus. Essa
codificação, chamadaanotação de corpus, pode ser alcançado editando os dados para
incluir neles alguma análise ou tendo a análise armazenada separadamente, mas
vinculada aos dados. Por exemplo, podemos desejar anotar um corpus para mostrar
classes gramaticais, atribuindo a cada palavra a categoria gramatical que afirmamos ter
em seu contexto. Então, por exemplo, quando vemos a palavrafalar na frase Eu ouvi a
conversa de John e era a mesma coisa, atribuiríamos a ele a categoria 'substantivo' nesse
contexto. Ao fazer isso, podemos editar o texto diretamente, atribuindo algum código
mnemônico (como N) para deixar claro que, neste caso, a palavra é um substantivo. Em
um caso simples, podemos apenas anexar o código mnemônico à palavra em questão
com um sublinhado -talk_N.7 Em vez de editar o texto diretamente, no entanto, também é
possível armazenar anotações como essa separadamente dos próprios dados, usando
programas de computador para combinar, integrar e desembaraçar o texto e as
anotações como o analista deseja. Esta anotação chamada 'stand-off' é a preferida por
alguns analistas (por exemplo, Thompson e McKelvie 1997). No entanto, dada uma
codificação sistemática de anotações diretamente em um corpus, é uma questão trivial
removê-las, se desejado, então os argumentos a favor da anotação distanciada parecem
se resumir mais a uma questão de limpeza metódica ou elegância em vez de denotar
qualquer coisa fundamental na natureza.8
Enquanto a frase anotação de corpus pode não ser familiar para alguns linguistas, a
operação básica que ele descreve não é - é diretamente análoga às análises de dados que
foram feitas usando mãos, olhos e caneta por décadas. A anotação de corpus é, então, um
lugar-comum da linguística. Se for diferente da prática usual, é na escala em que é aplicado.
Em Chomsky (1965), vinte e quatro sentenças inventadas são analisadas; na versão analisada
do LOB, um milhão de palavras são anotadas com árvores de análise. No entanto, é importante
notar que, deixando de lado a escala, a anotação de corpus é em grande parte o processo de
fornecer - de uma forma sistemática e acessível - aquelas análises que um linguista, com toda a
probabilidade, faria de qualquer maneira em quaisquer dados com os quais trabalhava.
14 o que é corpus l ingui st i cs?
Com base nesta descrição um tanto breve da anotação do corpus, o leitor seria
perdoado por pensar que a distinção entre corpora anotados e não anotados se baseia
simplesmente em se o corpus foi ou não analisado de uma maneira particular ainda. Os
corpora que já foram analisados de alguma forma são anotados, os que ainda não
foram analisados não. Essa distinção em si, entretanto, é tão trivial que dificilmente
constituiria uma dimensão importante ao longo da qual a pesquisa em linguística de
corpus pode variar. O que torna esta dimensão saliente é o fato de que alguns linguistas
se opõem à anotação - seja per se, ou quando realizada manualmente em vez de
automaticamente por um computador. A oposição à anotação está tipicamente associada
à linguística de corpus neo-Firthiana e à abordagem baseada em corpus, como será
discutido no Capítulo 6. No entanto, em resumo, os argumentos contra a anotação são
amplamente baseados na pureza dos próprios textos do corpus, com as análises sendo
visto como uma forma de impureza. Isso ocorre porque eles impõem uma análise aos
usuários dos dados, mas também porque as próprias anotações podem ser imprecisas
ou inconsistentes (Sinclair 1992). Tais afirmações são interessantes porque, como foi
observado, a anotação de corpus é a manifestação dentro da esfera da linguística de
corpus de processos de análise que são comuns na maioria das áreas da linguística.
Identificar problemas com precisão e consistência na anotação de corpus é, em princípio,
pelo menos, identificar falhas com procedimentos analíticos em toda a linguística. É por
causa das questões de precisão e consistência, em particular, que alguns linguistas
preferem usar corpora não anotados. Mas isso não significa que tais linguistas não
analisem os dados que usam; em vez disso, significa que eles não deixam nenhum
registro sistemático de suas análises ou de seus erros, que podem ser fácil e
prontamente vinculados aos próprios dados do corpus.
Até agora, nos concentramos nas maneiras pelas quais os corpora variam em seu design.
Os corpora também podem variar, no entanto, na forma como são usados pelos analistas que os
exploram. Uma diferença fundamental aqui é o contraste entreresponsabilidade total e seleção de
dados.
uma abordagem, mesmo em princípio. Como tal, esta abordagem vai contra uma das
principais características do método científico identificado por Popper ([1934] 2006: 18), a
saber,falseabilidade. O princípio da responsabilidade total é, simplesmente, que nósNão
deve selecione um subconjunto favorável de dados dessa maneira. Ao abordar o corpus
com uma hipótese, uma forma de satisfazer a falseabilidade é usar todo o corpus - e
todas as evidências relevantes emergentes da análise do corpus - para testar a hipótese.
Este princípio é a razão da natureza quantitativa de muitos métodos baseados em
corpus. No mínimo, entretanto, onde há muitas evidências de que o uso de todo o corpus
seja prático, o analista deve pelo menos, como sugere Leech, evitar a seleção consciente
de dados. Sem usar o corpus em sua totalidade, a responsabilidade total pode, em
princípio, ser preservada usando uma subamostra imparcial (por exemplo, randomizada)
dos exemplos no corpus. Se fosse permitido, na pesquisa do corpus, filtrar ou ignorar
exemplos ou estatísticas do corpus que não se enquadram na hipótese sob investigação,
então, o corpus poderia apoiar uma variedade tão desconcertante de hipóteses
potencialmente contraditórias de que o uso dos dados do corpus seria fatalmente
minado. Para simplificar, não deve haver seleção motivada de exemplos para favorecer
aqueles exemplos que se encaixam na hipótese, e nenhuma seleção de exemplos
inconvenientes. Tal afirmação representa um ideal para o uso de dados de corpus que
muitos teriam dificuldade em contestar.
No entanto, há uma crítica a ser feita a tal abordagem: o corpusem si é necessariamente um
subconjunto finito de uma entidade muito maior (e em princípio não finita), a linguagem.
Portanto, o próprio corpus representa uma seleção e triagem de dados. Portanto, qualquer
reivindicação de responsabilidade total em linguística de corpus deve ser moderada. Só
podemos buscar responsabilidade total em relação ao conjunto de dados que estamos usando,
não à totalidade da linguagem em si. Essa crítica não é, é claro, exclusiva da linguística. Um
paralelo óbvio é a astronomia, onde os astrônomos teorizam com base no subconjunto do
Universo que é visível para eles. Eles expandem seu conjunto de dados ao longo do tempo, e
cada geração de astrônomos busca falsificar as descobertas das gerações anteriores de
astrônomos à medida que avançam os limites do campo. Um modelo muito semelhante está se
desenvolvendo em linguística, agora que se tornou possível expor as teorias linguísticas a
testes por observação em larga escala. Com base nessa analogia, podemos dizer que, como
um astrônomo, um linguista de corpus pode trabalhar de acordo com o método científico e
produzir resultados potencialmente falsificáveis, embora não seja totalmente responsável no
sentido mais estrito.
Mas moderar a reivindicação de responsabilidade total à luz do tamanho finito do corpus
levanta uma possibilidade preocupante. Um analista pode, por acaso ou projeto, construir um
conjunto de dados que deturpe a linguagem, de modo que a análise desse conjunto de dados
apóie uma teoria falha. Embora devamos estar cientes dessa possibilidade, uma analogia com
a astronomia pode ajudar mais uma vez. Imaginemos um astrônomo, em algum momento do
passado, procurando desenvolver um modelo de luas baseado em dados da Terra, Marte e
Júpiter. Eles então concluem, a partir desse conjunto de dados, que todos os planetas têm luas.
O problema aqui é com o conjunto de dados - ele foi inconscientemente extraído de um
conjunto de planetas que por acaso têm luas. Se Mercúrio ou Vênus, que não têm luas,
estivessem no conjunto de dados, a conclusão teria sido
16 o que é corpus l ingui st i cs?
Considerando o que foi dito sobre responsabilidade total, você pode se perguntar
que os analistas abordariam um corpus buscando um único exemplo, ou um subconjunto de
exemplos cuidadosamente selecionados. Não apenas alguns analistas fazem exatamente isso;
em certas circunstâncias, pode realmente ser a coisa certa a se fazer. De fato, em um sentido
importante, abordar um corpus em busca de um tipo específico de resultado pode estar
inteiramente de acordo com o método científico. Mais importante ainda, podemos buscar em
um corpus um exemplo específico que, por si só, falsifique uma hipótese - tornando assim a
totalidade dos dados em algum sentido irrelevante. Um exemplo por si só pode ser suficiente
para falsificar uma alegação. Em um corpus de um milhão de frases, a única frase que
1.6 Responsabilidade total versus seleção de dados 17
não se conforma a uma hipótese é a única sentença que realmente importa para se
considerar a hipótese em questão. Isso pode ser ilustrado voltando ao nosso paralelo
astronômico. Dada a hipótese de que todos os planetas têm luas, se tivermos dados de
mil planetas disponíveis, o fato de 999 deles possuírem luas não é tão importante - do
ponto de vista da defesa da hipótese - quanto o fato de um planeta não ter luas em tudo.
Da mesma forma, se a hipótese que estamos examinando é que alguma forma
linguística particular nunca ocorre, então a única parte do corpus que é realmente
relevante é a parte em que essa forma linguísticafaz ocorrer, falsificando assim a
hipótese. Para colocar isso em termos gerais, um único exemplo pode falsificar uma
hipótese, levando à revisão, ou abandono, daquela hipótese específica. Nesse sentido, a
abordagem de um corpus para encontrar um único exemplo é inteiramente consistente
tanto com o método científico quanto com o princípio da responsabilidade total.
afirmações gerais sobre o uso da linguagem na sociedade. Com o tempo, conforme as evidências da análise de textos individuais foram se acumulando, surgiram teorias
abrangentes sobre como os discursos funcionam na sociedade; e afirmações genéricas sobre a estrutura e a natureza de tal discurso, focadas, por exemplo, em palavras ou
classes de palavras específicas, como pronomes, foram feitas. Essas observações gerais, baseadas em um pequeno número de textos, foram exploradas dentro de uma estrutura
teórica abrangente baseada em alguma teoria das relações de poder. Desde meados da década de 1990, tentativas foram feitas para integrar a abordagem metodológica geral
da linguística de corpus com CDA por pesquisadores como Mautner (ver Hardt-Mautner 1995, 2000; Mautner 2009), Koller e Mautner (2004), O'Halloran e Coffin (2004), Baker
(2004, 2006, 2009) e Orpin (2005). Um problema geral com a maioria dessas tentativas de integração tem sido o equilíbrio - os estudos tendem a se concentrar principalmente na
linguística de corpus ou na CDA em detrimento do outro. Os estudos baseados em corpus podem ter explorado o discurso e sua relação com o poder, mas normalmente não
foram explicitamente informados pela teoria CDA e seus métodos tradicionais, ou então não objetivaram contribuir para uma teoria orientada para o discurso específica (por
exemplo, Stubbs 1994; Krishnamurthy 1996). De forma similar, O'Halloran e Coffin (2004), Baker (2004, 2006, 2009) e Orpin (2005). Um problema geral com a maioria dessas
tentativas de integração tem sido o equilíbrio - os estudos tendem a se concentrar principalmente na linguística de corpus ou na CDA em detrimento do outro. Os estudos
baseados em corpus podem ter explorado o discurso e sua relação com o poder, mas normalmente não foram explicitamente informados pela teoria CDA e seus métodos
tradicionais, ou então não objetivaram contribuir para uma teoria orientada para o discurso específica (por exemplo, Stubbs 1994; Krishnamurthy 1996). De forma similar,
O'Halloran e Coffin (2004), Baker (2004, 2006, 2009) e Orpin (2005). Um problema geral com a maioria dessas tentativas de integração tem sido o equilíbrio - os estudos tendem a
se concentrar principalmente na linguística de corpus ou na CDA em detrimento do outro. Os estudos baseados em corpus podem ter explorado o discurso e sua relação com o
poder, mas normalmente não foram explicitamente informados pela teoria CDA e seus métodos tradicionais, ou então não objetivaram contribuir para uma teoria orientada para
o discurso específica (por exemplo, Stubbs 1994; Krishnamurthy 1996). De forma similar, Os estudos baseados em corpus podem ter explorado o discurso e sua relação com o
poder, mas normalmente não foram explicitamente informados pela teoria CDA e seus métodos tradicionais, ou então não objetivaram contribuir para uma teoria orientada para
o discurso específica (por exemplo, Stubbs 1994; Krishnamurthy 1996). De forma similar, Os estudos baseados em corpus podem ter explorado o discurso e sua relação com o poder, mas normalmente não foram explicitamente informado
18 o que é corpus l ingui st i cs?
Os pesquisadores do CDA às vezes usaram dados e técnicas que são, sem dúvida, inspirados
no trabalho em linguística de corpus, mas não procuraram se envolver totalmente com a
abordagem de corpus (por exemplo, Fairclough 2000; Kovàcs e Wodak 2003). A pesquisa que é
principalmente orientada para o CDA tende a fazer uso limitado ou casual de um corpus ou de
técnicas baseadas em corpus. Às vezes, o corpus é usado simplesmente como um repositório
de exemplos (por exemplo, Flowerdew 1997) e nenhum esforço é feito para aplicar o princípio
de responsabilidade total que é geralmente aceito na linguística de corpus. Além disso, os
estudos de CDA que fazem uso de corpora tendem, em geral, a evitar a realização de análises
quantitativas além da mais simples das estatísticas descritivas (ver também Stubbs 1997: 104),
preferindo realizar análises qualitativas usando concordâncias.
Por que alguns pesquisadores em CDA se envolvem minimamente com os dados do corpus?
Um argumento importante apresentado por tais pesquisadores diz respeito à profundidade da
análise que desejam com os dados de que dispõem - desejam realizar uma análise detalhada
de uma pequena quantidade de dados, levando em consideração não apenas o texto em si,
mas também o contexto social. em que foi produzido e o contexto social em que foi
interpretado. Este trabalho é tão trabalhoso que um estudo em larga escala usando o corpus
pode não ser possível.9 Este argumento tem algum peso. No entanto, também existe a
possibilidade de se chegar a um equilíbrio onde os próprios dados do corpus são utilizados no
quadro da responsabilização total, mas a análise detalhada é reservada para um subconjunto
dos dados, uma vez que aquelas hipóteses que são testáveis em termos práticos em geral
corpus foram testados (KhosraviNik 2009). No entanto, ainda é o caso que muitos
pesquisadores preferem trabalhar com pequenas quantidades de dados em detalhes, em vez
de se envolver com grandes corpora.
Outra maneira óbvia pela qual os corpora variam está relacionada ao número
das línguas representadas no corpus.10 Muitos corpora são monolíngües no sentido
de que, embora possam representar uma gama de variedades e gêneros de uma
determinada língua, eles são, no entanto, limitados a essa língua. Portanto, o
Corpus Internacional do Inglês (ICE; ver também a seção 4.2), por exemplo, é um
grande corpus monolíngue - ele representa uma língua, o inglês, embora permita
aos lingüistas comparar e contrastar uma série de variedades internacionais dessa
língua. O monolinguismo nos corpora pode ser uma questão de grau, e não de
absoluto. O BNC, por exemplo, contém algumas palavras estrangeiras e fala
produzida por falantes não nativos de inglês (Aston e Burnard 1998: 127). No
entanto, o aparecimento de tais dados no BNC não reflete seu objetivo principal,
que é representar o inglês britânico moderno. O fato de que algum material em um
idioma diferente do inglês foi inadvertidamente coletado não significa que devemos
considerar esse corpus como algo diferente do que afirma ser - um corpus
monolíngue de inglês. No entanto, o BNC poderia ser considerado (parte de) um
corpus multilíngue se fosse reunido com
1.7 corpora monolíngue versus multilíngue 19
Diferentes termos têm sido usados para descrever esses tipos de corpora. Para
Aijmeret al. (1996) e Granger (1996: 38), o tipo A é umcorpus de tradução enquanto o tipo
B é um corpus paralelo; para Baker (1993: 248; 1995, 1999), McEnery e Wilson (2001: 70) e
Hunston (2002: 15), o tipo A é umcorpus paralelo enquanto o tipo B é umcorpus
comparável; e para Johansson e Hofland (1994) e Johansson (1998: 4-5), o termocorpus
paralelo aplica-se a ambos os tipos - A e B. Barlow (1995, 2000: 110) certamente
interpretou um corpus 'paralelo' como tipo A quando desenvolveu o ParaConc
ferramenta corpus. É claro que alguma confusão gira em torno do termoparalelo.
é ilógico, entretanto, referir-se a corpora do tipo A como corpora de 'tradução' pelo critério de
conteúdo, enquanto se refere a corpora do tipo B como corpora 'comparável' pelo critério de
forma. Consequentemente, neste livro, seguiremos a terminologia de Baker ao nos referirmos
ao tipo A como corpora paralelos e ao tipo B como corpora comparáveis. Como o tipo C é uma
mistura dos dois, os corpora desse tipo devem ser chamados de corpora comparáveis em
sentido estrito.
Um corpus comparável pode, portanto, ser definido como um corpus contendo
componentes que são coletados usando o mesmo método de amostragem, por exemplo, o
mesmas proporçõesdos textos do mesmos gêneros no mesmos domínios em uma gama de
idiomas diferentes no mesmo período de amostragem. Observamos anteriormente que o BNC
poderia se tornar uma subparte de um corpus comparável se corpora semelhantes ao BNC
fossem coletados em uma variedade de idiomas. A coleção de corpora resultante pode ser vista
como um corpus multilíngue. No entanto, as subpartes deste corpus multilíngue também
podem ser consideradas corpora monolíngües por direito próprio. Onde houver uma
equivalência de quadros de amostragem entre corpora em diferentes idiomas, eles podem ser
visualizados e usados como corpora monolíngüe ou multilíngue, conforme necessário. As
subcorpora de um corpus comparável não são traduções umas das outras. Em vez disso, sua
comparabilidade reside na similaridade de seus quadros de amostragem.
1,8 Resumo
Atividades práticas
Conforme explicado no prefácio, projetamos os exercícios neste livro para serem concluídos com
algum concordancer e com quaisquer dados corpus que você tenha disponível. Os exercícios
práticos para o Capítulo 1 são um conjunto de tarefas muito gerais que devem ajudá-lo a
encontrar seu caminho em torno do concordador, se você não estiver totalmente familiarizado
com ele. Usando o arquivo de 'ajuda' do software ou simplesmente por tentativa e erro, tente
descobrir as seguintes coisas sobre o seu concordador - todas as quais você precisará saber para
exercícios posteriores neste livro.
(A1-1) Em primeiro lugar, investigue os procedimentos básicos de configuração do seu software.
- Como você carrega um corpus em sua ferramenta de concordância?
- Como você muda para um corpus diferente?
- O corpus inteiro precisa estar em um único arquivo de texto ou seu concordador
pode lidar com um corpus composto por muitos arquivos?
- O seu concordador precisa que os textos estejam em um formato específico ou
texto simples está OK?
(A1-2) A seguir, veja como funciona a função de concordância.
- Como você procura uma palavra específica?
Questões para discussão 23
- Você pode pesquisar anotações como tags de classes gramaticais, lemas ou tags
semânticas - supondo, é claro, que elas estejam presentes em seu corpus?
- As pesquisas diferenciam maiúsculas de minúsculas (tratar -A- e -a- de maneira diferente) ou não diferenciam
maiúsculas de minúsculas (trate-as da mesma forma)? Você pode mudar esse comportamento?
- Você pode afinar concordâncias, ou seja, reduzir o número de resultados
exibidos?
- Como você salva ou exporta uma concordância para referência posterior? Finalmente,
(A1-3) descubra quais são as capacidades estatísticas do seu concordador.
- Como você pode obter uma lista de frequência (de palavras ou tags) em
seu concordador?
- Você pode obter estatísticas básicas de resumo do corpus - como número total de palavras
(tokens), proporção de tipo-token e assim por diante?
- Você pode produzir tabelas de estatísticas de colocação a partir de uma concordância?
- Existe uma função de palavras-chave? se sim, como isso funciona? Ele pode ser
ajustado para analisar tags-chave?
- Você pode obter uma lista de frequência de n-gramas (também conhecido como clusters ou
Número de
Tipo de texto palavras