Linguística de corpus: introdução aos métodos e aplicações

Traduzido do Inglês para o Português - www.onlinedoctranslator.
com
1 O que é linguística de corpus?
1,1 Introdução
O que é linguística de corpus? Certamente é bastante distinto da maioria

outros tópicos que você pode estudar em linguística, já que não se trata diretamente do estudo de nenhum aspecto particular da
língua. Em vez disso, é uma área que se concentra em um conjunto de procedimentos, ou métodos, para estudar a linguagem
(embora, como veremos, pelo menos uma grande escola de linguistas de corpus não concorde com a caracterização da linguística
de corpus como metodologia). Os próprios procedimentos ainda estão em desenvolvimento e permanecem um conjunto mal
delineado - embora alguns deles, como a concordância, estejam bem estabelecidos e sejam vistos como centrais para a
abordagem. Dados esses procedimentos, podemos adotar uma abordagem baseada em corpus para muitas áreas da linguística.
No entanto, precisamente por causa disso, como este livro irá mostrar, a linguística de corpus tem o potencial de reorientar toda
a nossa abordagem para o estudo da linguagem. Pode refinar e redefinir uma série de teorias da linguagem. Também pode nos
permitir usar teorias da linguagem que eram, na melhor das hipóteses, difíceis de explorar antes do desenvolvimento de corpora
de tamanho adequado e máquinas com poder suficiente para explorá-los. É importante ressaltar que o desenvolvimento da
linguística de corpus também gerou, ou pelo menos facilitou a exploração de, novas teorias da linguagem - teorias que se
inspiram no uso comprovado da linguagem e nas descobertas dela derivadas. Neste livro, esses impactos da linguística de corpus
serão apresentados, explorados e avaliados. ou, pelo menos, facilitou a exploração de novas teorias da linguagem - teorias que se
inspiram no uso comprovado da linguagem e nas descobertas dele derivadas. Neste livro, esses impactos da linguística de corpus
serão apresentados, explorados e avaliados. ou, pelo menos, facilitou a exploração de novas teorias da linguagem - teorias que se
inspiram no uso comprovado da linguagem e nas descobertas dele derivadas. Neste livro, esses impactos da linguística de corpus
serão apresentados, explorados e avaliados.
Antes de explorar o impacto dos corpora na lingüística em geral, entretanto, vamos

retornar à observação de que a linguística de corpus se concentra em um grupo de métodos
para estudar a linguagem. Esta é uma observação importante, mas precisa ser qualificada. A
lingüística de corpus não é um conjunto de métodos e procedimentos monolíticos e
consensualmente aceitos para a exploração da linguagem. Embora algumas generalizações
possam ser feitas para caracterizar muito do que é chamado de 'linguística de corpus', é muito
importante perceber que a linguística de corpus é um campo heterogêneo. Existem diferenças
dentro da linguística de corpus que separam e subcategorizam abordagens variadas para o
uso de dados de corpus. Mas vamos primeiro lidar com as generalizações. Poderíamos
razoavelmente definir a linguística de corpus como lidando com algum conjunto de textos
legíveis por máquina que é considerado uma base apropriada para estudar um conjunto
específico de questões de pesquisa. O conjunto de textos oucorpus tratado
1
2 o que é corpus l ingui st i cs?
com é geralmente de um tamanho que desafia a análise manual e visual dentro de qualquer período
de tempo razoável. É a grande escala dos dados usados que explica o uso de texto legível por
máquina. A menos que usemos um computador para ler, pesquisar e manipular os dados, trabalhar
com conjuntos de dados extremamente grandes não é viável devido ao tempo que um analista
humano, ou equipe de analistas, levaria para pesquisar o texto. Certamente, é extremamente difícil
pesquisar um corpus tão grande à mão de uma forma que não garanta nenhum erro. A próxima
generalização segue a partir desta observação: os corpora são invariavelmente explorados usando
ferramentas que permitem aos usuários pesquisá-los de forma rápida e confiável. Algumas dessas
ferramentas, nomeadamente concordadores, permitem que os usuários vejam as palavras no
contexto.1 A maioria dessas ferramentas também permite a produção de dados de frequência de
alguma descrição, por exemplo, uma lista de frequência de palavras, que lista todas as palavras que
aparecem em um corpus e especifica para cada palavra quantas vezes ela ocorre naquele corpus. Os
dados de concordância e frequência exemplificam, respectivamente, as duas formas de análise, a
saber, a qualitativa e a quantitativa, igualmente importantes para a linguística de corpus.
A importância de nossas descobertas de um corpus, seja quantitativo ou qualitativo, depende de outro fator geral que se aplica a todos os tipos de linguística de corpus: os
dados do corpus que selecionamos para explorar uma questão de pesquisa devem ser bem combinados com essa questão de pesquisa. Até certo ponto, isso é autoevidente - um
corpus é mais bem usado para responder a uma pergunta de pesquisa para a qual é bem composto. Para dar um exemplo extremo, não haveria muito sentido em explorar o
sistema de classificação de substantivos do suaíli examinando um corpus de textos de jornais em inglês. Mais sutilmente, não podemos (ou podemos apenas com alguma cautela)
fazer afirmações gerais sobre a natureza de uma dada língua com base em um corpus contendo apenas um tipo de texto ou um número limitado de tipos de texto. Finalmente, e
mais sutilmente ainda, devemos estar cientes de que os textos dentro de um corpus que assumimos homogêneo podem, de fato, apresentar diferenças. Por exemplo, uma
coleção de amostras de um jornal, até mesmo do mesmo jornal no mesmo dia, pode exibir diferenças inteiramente previsíveis umas das outras - a seção de esportes, por
exemplo, usará léxico diferente da seção de notícias internacionais. Os usuários de um corpus devem estar cientes de suas variações internas, e os pesquisadores às vezes usam
técnicas estatísticas para examinar o grau de variabilidade dentro de um determinado corpus antes de usá-lo (consulte Gries 2006c para um exemplo de como explorar essa
variabilidade dentro de um corpus). O grau de homogeneidade de um corpus é, então, outro fator para determinar o quão bem ele corresponde a questões de pesquisa
específicas. uma coleção de amostras de um jornal, até mesmo do mesmo jornal no mesmo dia, pode exibir diferenças inteiramente previsíveis umas das outras - a seção de
esportes, por exemplo, usará léxico diferente da seção de notícias internacionais. Os usuários de um corpus devem estar cientes de suas variações internas, e os pesquisadores às
vezes usam técnicas estatísticas para examinar o grau de variabilidade dentro de um determinado corpus antes de usá-lo (consulte Gries 2006c para um exemplo de como
explorar essa variabilidade dentro de um corpus). O grau de homogeneidade de um corpus é, então, outro fator para determinar o quão bem ele corresponde a questões de
pesquisa específicas. uma coleção de amostras de um jornal, até mesmo do mesmo jornal no mesmo dia, pode exibir diferenças inteiramente previsíveis umas das outras - a
seção de esportes, por exemplo, usará léxico diferente da seção de notícias internacionais. Os usuários de um corpus devem estar cientes de suas variações internas, e os
pesquisadores às vezes usam técnicas estatísticas para examinar o grau de variabilidade dentro de um determinado corpus antes de usá-lo (consulte Gries 2006c para um
exemplo de como explorar essa variabilidade dentro de um corpus). O grau de homogeneidade de um corpus é, então, outro fator para determinar o quão bem ele corresponde
a questões de pesquisa específicas. contará com léxico diferente da seção de notícias internacionais. Os usuários de um corpus devem estar cientes de suas variações internas, e
os pesquisadores às vezes usam técnicas estatísticas para examinar o grau de variabilidade dentro de um determinado corpus antes de usá-lo (consulte Gries 2006c para um exemplo de como explorar essa variabilidade dentro de
Temos discutido as características dos textos dentro de um corpus. Deve-se notar que o
termotexto aqui denota um arquivo de dados legíveis por máquina. Normalmente, na
linguística de corpus, estes são de fato textuais na forma, de modo que cada arquivo
representa, por exemplo, um artigo de jornal ou uma transcrição ortográfica de alguma língua
falada. No entanto, os arquivos de computador dentro de um corpus não precisam ser
textuais, e certamente existem exemplos hoje em dia de arquivos de dados de vídeo sendo
usados como textos de corpus, como discutiremos na próxima seção.
Este último ponto destaca um problema, mesmo com as generalizações grosseiras que
fizemos até agora - elas são geralmente precisas, mas muitas vezes podemos encontrar
1.2 Modo de comunicação 3
exemplos que os desafiam. Por exemplo, embora tenhamos afirmado que a linguística de
corpus sempre usa texto legível por máquina, na verdade, historicamente, muito trabalho foi
realizado em corpora mantidos em papel; por exemplo, Fries (1952) produziu uma gramática
do inglês baseada nesse corpus. Além disso, embora seja verdade que muitas pesquisas
usando métodos de corpus (por exemplo, McEnery 2005; Davies 2009b; Millar 2009; e muitos
outros) usam corpora de milhões de palavras, existem outros estudos, como os de Ghadessy e
Gao (2001) e McEnery e Kifle (2001) que, apropriadamente, usam corpora menores e
especializados que podem ter sido analisados manualmente. No entanto, apesar das
exceções, as generalizações acima caracterizam grande parte do trabalho que pode ser
razoavelmente descrito como linguística de corpus. Olhando além dessas generalizações, a
pesquisa na área pode ser dividida com base em uma série de critérios que discriminam de
maneira bastante nítida entre os tipos de trabalho. As seguintes características são aquelas
que, em nossa opinião, mais tipicamente distinguem diferentes tipos de estudos em linguística
de corpus:
- Modo de comunicação;
- Linguística baseada em corpus versus linguística baseada em corpus;
- Regime de coleta de dados;
- O uso de corpora anotados versus não anotados;
- Responsabilidade total versus seleção de dados; Corpora
- multilíngue versus corpora monolíngue.
Usando esses recursos, podemos começar a elaborar uma tipologia aproximada de

pesquisa linguística de corpus, pelo menos em termos dos princípios subjacentes ao uso
de corpora em tais estudos. Vários dos últimos capítulos deste livro serão dedicados ao
desenvolvimento de visões gerais críticas de alguns dos tipos de linguística de corpus
delineados nesta tipologia, incluindo a tradição 'neo-Firthiana' (Capítulo 6) e a tradição
variacionista (Capítulo 5). No entanto, para entender completamente essa tipologia,
precisamos claramente definir as oposições acima com alguns detalhes.
1,2 Modo de comunicação
O Corpora pode codificar a linguagem produzida em qualquer modo - por exemplo

ple, existem corpora de linguagem falada e existem corpora de linguagem escrita.
Além disso, alguns corpora de vídeo registram características paralinguísticas, como
gestos (Knightet al. 2009), e corpora de língua de sinais foram construídos (Johnston
e Schembri 2006; Crasborn 2008).
Corpora que representa a forma escrita de uma linguagem geralmente apresenta o menor
desafio técnico de construir. Até recentemente, a codificação - e a representação confiável na
tela - de sistemas de escrita diferentes do alfabeto romano estava sujeita a erros (Bakeret al.
2000).2 No entanto, com o advento do Unicode (Unicode Consortium 2006), esse problema está
sendo relegado à história; O Unicode permite que os computadores armazenem, troquem e
exibam material textual de forma confiável em quase todos os
os sistemas de escrita do mundo, atuais e extintos. Corpora escritos ainda podem ser
demorados e sujeitos a erros de produção nos casos em que os materiais precisam ser
digitalizados ou digitados a partir de documentos originais impressos (isto é particularmente
verdadeiro para material manuscrito - ver Smithet al. 1998). No entanto, como discutiremos
mais adiante neste capítulo, a crescente disponibilidade de uma ampla gama de gêneros em
formato legível por máquina para a maioria das principais línguas significa que a construção de
corpora escritos, exceto no contexto da pesquisa linguística histórica, nunca foi tão fácil .
O material para um corpus falado, no entanto, é demorado para reunir e transcrever.

Algum material pode ser obtido de fontes como a World Wide Web - por exemplo,
transcrições de debates parlamentares, chamados de relatórios Hansard, são produzidos
no Reino Unido. Eles estão facilmente acessíveis na web.3 Além disso, Hoffmann (2007a)
reuniu transcrições de noticiários da web para representar o discurso. No entanto,
transcrições como essas não foram projetadas como materiais confiáveis para a
exploração linguística da linguagem falada. Conseqüentemente, há “sérios riscos
envolvidos se as transcrições feitas por não-lingüistas para seus próprios objetivos forem
usadas para análise lingüística” (Mollin 2007: 188). Mollin (2007: 208) descreve os perigos
do uso de dados como Hansard, cujas transcrições são conhecidas por fazer certas
mudanças no que foi realmente dito:
Algumas das mudanças se devem ao fato de que Hansard transforma a conversa

baseada no aqui e agora da situação em um relato descontextualizado e compreensível
para o leitor distante. Adicionando informações sobre palestrantes e pessoas
referidas. . . Além disso, Hansard omite certas referências interpessoais e situacionais,
resultando em uma redução das fórmulas parlamentares muito típicas, por exemplo,
aquelas de tomada de turnos. A imagem transmitida ao leitor é aquela em que os
parlamentares falam ordenadamente, um após o outro, sem qualquer meta-
comentário aparente sobre como e quando falar.
Dados problemas como esses, não é de surpreender que os dados do corpus falado
sejam produzidos com mais frequência gravando interações e depois transcrevendo-as.
As transcrições ortográficas e / ou fonêmicas de materiais falados podem ser compiladas
em um corpus de fala que pode ser pesquisado por computador. Essas transcrições
podem ser vinculadas sistematicamente à gravação original por meio de um processo
denominado alinhamento de tempo para que, por meio do computador, seja possível
pesquisar facilmente um corpus falado e ouvir a parte da gravação que corresponde a
um determinado resultado da pesquisa. Isso é possível, por exemplo, com o corpus COLT
do discurso de adolescentes de Londres (Stenströmet al. 2002), o componente do Corpus
Internacional Inglês Britânico (ICE-GB)4 e o corpus Origins of New Zealand English (ONZE)
(Fromont e Hay 2008). A forma ortográfica de um corpus falado geralmente normaliza a
forma das palavras no texto para a grafia padrão, o que significa que o material
transcrito ortograficamente raramente é uma fonte confiável de evidência para
pesquisas sobre variações na pronúncia. O material transcrito fonemicamente é muito
mais útil a esse respeito, embora tenda a ser mais útil quando formas variantes podem
ser pesquisadas por referência a uma forma padronizada, normalmente
1.3 Linguística baseada em corpus versus baseada em corpus 5
a transcrição ortográfica. Desta forma, as diferentes transcrições fonêmicas

correspondentes a uma única forma padronizada em diferentes contextos podem ser
comparadas e contrastadas (como é possível, por exemplo, no Spoken English Corpus;
Knowleset al. 1996). Uma questão interessante surge ao compilar ou analisar um corpus
falado de uma língua para a qual não existe forma escrita, ou onde a forma escrita não é
facilmente reproduzida em forma legível por máquina. Nesse caso, pode ser necessário
confiar apenas na transcrição fonêmica ou decidir sobre um esquema de transcrição
ortográfica que permita a recuperação de formas equivalentes, mas que variam
foneticamente.
Os corpora que incluem o gesto, seja como canal primário para a linguagem
(como nos corpora da língua de sinais) ou como meio de comunicação paralelo à
fala, são relativamente novos. A integração da análise de vídeo com a análise textual
é claramente crucial para o desenvolvimento e uso de tais corpora. Isso pode ser
feito usando pacotes de software, como Eudico (Brugmanet al. 2002) e o Digital
Replay System,5 que permitem que texto, som e vídeo sejam alinhados uns com os
outros para fins de pesquisa e análise de dados. Dados os avanços na tecnologia
necessários para lidar com esses dados, não é surpreendente que os estudos
linguísticos de corpus com foco no meio visual estejam apenas começando a ser
realizados em uma escala verdadeiramente grande, por exemplo, investigando a
relação entre gesto e fala ( Carter e Adolphs 2008), ou a construção de grandes
corpora de material em linguagem de sinais (Johnston e Schembri 2006). Novos
esquemas analíticos também precisaram ser desenvolvidos para iniciar o processo
de análise dos fluxos de vídeo que formam os dados brutos desses tipos de corpora
(para exemplos, consulte Wittenburget al. 2002 e Knightet al. 2009).
Essas distinções básicas no modo de comunicação não são mapeadas
simplesmente nos dados do corpus - muitos corpora contêm dados de mais de um
modo, como o British National Corpus (BNC; Aston e Burnard 1998), que contém
fala e escrita. No entanto, o próprio meio de comunicação produz uma distinção
que é linguisticamente significativa. O trabalho em grande escala contrastando a
linguagem falada e escrita levou a uma apreciação muito mais profunda de como as
duas podem ser notavelmente diferentes, como é mostrado no nível da gramática,
por exemplo, por Biberet al. (1999) e Carter e McCarthy (1995). As diferenças são
tais que alguns linguistas, notadamente o Brasil (1995), afirmaram que a gramática
da fala e da escrita não são apenas distintas, mas inteiramente diferentes (ver seção
4.6). Conseqüentemente, pensar em corpora em termos de modo de produção não
é apenas uma questão de coleta de dados diferente e questões técnicas; diríamos
que é, ao contrário, uma distinção linguística muito real.
1,3 Linguística baseada em corpus versus linguística baseada em corpus
A diferença entre linguagem baseada em corpus e linguagem dirigida por corpus

estudo (para usar os termos originalmente introduzidos por Tognini-Bonelli 2001) é um tópico
que percorre este livro. Os estudos baseados em corpus normalmente usam dados de corpus
para explorar uma teoria ou hipótese, normalmente uma estabelecida na literatura atual, a fim
de validá-la, refutá-la ou refiná-la. A definição da linguística de corpus como ummétodo
sustenta esta abordagem para o uso de dados de corpus em linguística. A linguística orientada
por corpus rejeita a caracterização da linguística de corpus como um método e afirma, em vez
disso, que o corpusem si deve ser a única fonte de nossas hipóteses sobre a linguagem.
Afirma-se, portanto, que o próprio corpus incorpora sua própria teoria da linguagem (Tognini-
Bonelli 2001: 84-5). Essa noção de linguística orientada por corpus está intimamente associada
ao trabalho de estudiosos aos quais nos referiremos como 'neo-Firthians', que serão
explorados em profundidade no Capítulo 6. Nesse capítulo, também revisitaremos e
problematizaremos os conceitos baseados em corpus. versus distinção baseada em corpus.
Para aqueles que a aceitam, a dicotomia baseada em corpus versus orientada por corpus cria
uma distinção binária básica, sob a qual a maioria dos trabalhos de pesquisa linguística de
corpus podem ser classificados em um ou outro grupo. No entanto, nossa própria perspectiva
rejeita a noção de que o próprio corpus tem um status teórico e, portanto, também rejeita a
distinção binária entre linguística baseada em corpus e linguística dirigida por corpus.tudo a
linguística de corpus pode ser justamente descrita como baseada em corpus. Esse ponto de
controvérsia será explorado no Capítulo 6.
1,4 Regimes de coleta de dados
Uma questão importante decorre da observação de que o estudo de corpus

s devem combinar seus dados com sua pergunta de pesquisa. Como podemos garantir que a
correspondência é boa o suficiente? Se quisermos explorar recursos gramaticais no inglês
moderno, é claro que precisamos comparar os dados que usamos com as afirmações que
desejamos fazer. Para fazer afirmações gerais sobre o inglês falado, precisaríamos de um
conjunto de dados falado adequado. É improvável que a fala de uma pessoa sozinha forneça
uma base adequada para tais generalizações. Portanto, a construção de corpus, e em
particular a coleta de dados, surge como uma questão crítica para a linguística de corpus. Duas
abordagens amplas para a questão de escolher quais dados coletar surgiram: omonitorar
corpus abordagem (ver Sinclair 1991: 24–6), onde o corpus se expande continuamente para
incluir mais e mais textos ao longo do tempo; e acorpus equilibrado ou amostra de corpus
abordagem (ver Biber 1993 e Leech 2007), onde um corpus de amostra cuidadoso, refletindo a
linguagem como ela existe em um determinado ponto no tempo, é construído de acordo com
uma estrutura de amostragem específica.
1.4.1 Monitorar corpora -------------------------------------------------- -----------------------------------------------
A abordagem do monitor corpus, proposta principalmente por John Sin-

Clair, procura desenvolver um conjunto de dados que cresce em tamanho com o tempo e que contém
uma variedade de materiais. As proporções relativas dos diferentes tipos de materiais podem variar
com o tempo. Pode-se dizer que monitorar corpora equilibra qualquer necessidade de ser
1.4 Regimes de coleta de dados 7
preciso sobre a composição de um corpus em relação ao tamanho absoluto - à medida que o

corpus cresce, podemos supor que qualquer distorção nos dados se autocorrige naturalmente,
uma vez que não há consistente distorção na entrada de dados. O Bank of English (BoE),
desenvolvido na University of Birmingham, é o exemplo mais conhecido de corpus de
monitores. O BoE foi iniciado na década de 1980 (Hunston 2002: 15) e tem sido continuamente
expandido desde então. No momento da redação, o corpus contém mais de meio bilhão de
palavras, organizado em uma seção geral em inglês (450 milhões de palavras) e uma seção
contendo materiais do corpus para uso em pedagogia da linguagem (56 milhões de palavras).
O BoE representa uma abordagem ao corpus do monitor; o Corpus of Contemporary American
English (COCA; Davies 2009b) representa outro.6
O COCA se expande com o tempo como um corpus de monitor, embora o faça de acordo com
um design muito mais explícito do que o BoE. Cada seção extra adicionada ao COCA obedece
ao mesmo, discriminação de variedades de texto. Indiscutivelmente, este corpus representa
algo como uma casa intermediária entre a abordagem de corpus de amostra e a abordagem
de corpus de monitor - um corpus de monitor que prossegue de acordo com uma estrutura de
amostragem e regime de amostragem regular.
Embora o BoE e o COCA sejam impressionantes em escala, há indiscutivelmente um corpus
de monitores muito maior em construção que cobre uma ampla gama de linguagens e contém
um registro crescente dessas linguagens ao longo do tempo - a World Wide Web.
1.4.2 A Web como Corpus -------------------------------------------------- ----------------------------------------
O conceito de Web como Corpus (Kilgarriff e Grefenstette 2003)

é muito semelhante em muitos aspectos à ideia do corpus do monitor. Ele toma como ponto
de partida uma enorme coleção de dados em constante crescimento e os usa para o estudo da
linguagem (ver, por exemplo, o estudo baseado na web de antônimos de Joneset al. 2007,
como um bom exemplo da utilização da web como corpus). Além de usar mecanismos de
busca padrão como o Google para explorar a web como um corpus, os pesquisadores também
desenvolveram interfaces projetadas especificamente para apoiar esse uso da web, como o
WebCorp (Renouf 2003). A abordagem da Web como Corpus tem alguns problemas específicos.
Em contraste com a maioria dos corpora, a web é uma mistura de textos cuidadosamente
preparados e editados, e o que pode ser chamado de material 'preparado casualmente'. O
conteúdo da web também não é dividido por gênero - portanto, o material retornado de uma
pesquisa na web tende a ser uma massa indiferenciada, que pode exigir muito processamento
para classificar em grupos de textos significativos. Além disso, há poucas dúvidas de que
muitos textos na web contêm erros de todos os tipos. Por exemplo, ao escrever este livro,
digitamosreceber e receberno Google - receber marcou 300 milhões de acessos, receber
marcou 8.670.000 acessos. É claro que isso pode ser útil - se você deseja investigar erros
ortográficos comuns, por exemplo. Dados como esse também podem ser a base para um
estudo muito interessante em apoio à reforma ortográfica. No entanto, se esse não é o tipo de
coisa em que você está interessado, tais erros nos dados podem muito bem fornecer um ruído
indesejável quando o analista aborda a web como um corpus. Dado que este tipo de ruído
existe
níveis de linguagem na web, representa uma questão significativa que os usuários da web
como um corpus devem abordar. No entanto, a web, sem dúvida, fornece um volume
substancial de dados que podem ser selecionados e preparados para produzir corpora
adequados para uma ampla variedade de fins.
A título de ilustração, se você quiser examinar a frase bastante carregadaSwanning around
no BNC, você encontraria apenas 13 exemplos nos quais basear suas observações. Usando o
Google, recuperamos 32.300 exemplos de textos contendo essa frase. É certo que esses
milhares de exemplos precisariam ser classificados e peneirados antes que pudessem ser
usados para explorar a frase de maneira confiável. No entanto, há poucas dúvidas de que os
milhares de exemplos do Google permitiriam uma investigação mais sutil desta frase em
particular do que a dúzia ou mais de exemplos no BNC. Portanto, a web é uma fonte de
evidências útil e prontamente disponível, que pode ser inestimável nos casos em que você
precisa de uma grande quantidade de dados para lidar com uma baixa frequência de
ocorrência. No entanto, há um problema associado a esta oportunidade: para palavras ou
frases frequentes, o número de exemplos retornados por um mecanismo de pesquisa na web
pode ser simplesmente esmagador, e uma grande quantidade de dados pode ter que ser
descartada. Isso deve ser feito de acordo com alguma heurística que idealmente deve ser
aplicada de forma consistente em todas as análises. Por exemplo, se estudarmos palavras
frequentes comoreceber usando a web como um corpus, podemos querer estudar apenas os
primeiros 100 exemplos que são retornados. Se fizermos isso por uma palavra no estudo,
devemos fazê-lo portudo palavras nesse estudo, quando necessário. Outro problema existe
com todos os estudos baseados em dados da web que não são baixados e arquivados de
forma adequada: a web está sempre mudando. É difícil replicar um estudo feito na web há
quatro anos, por exemplo, porque a web terá mudado significativamente. Dada a importância
da replicabilidade em procedimentos experimentais (que discutiremos na seção 1.6.1), esta é
uma desvantagem óbvia e urgente para a abordagem da Web como Corpus.
1.4.3 A abordagem de corpus de amostra -------------------------------------------------- -------------------
Em contraste com o monitor corpora, corpora equilibrado, também conhecido como sam-
ple corpora, tente representar um tipo específico de idioma em um período específico de
tempo. Ao fazer isso, eles procuram serequilibrado e representante dentro de um particular
quadro de amostragem que define o tipo de linguagem, o população, que gostaríamos de
caracterizar. A população é o espaço nocional dentro do qual a linguagem está sendo
amostrada. Então, por exemplo, se quisermos olhar para a linguagem das interações de
serviço em lojas no Reino Unido no final da década de 1990, o quadro de amostragem é claro -
só aceitaríamos dados em nosso corpus que representem interações de serviço em lojas no
Reino Unido na década de 1990 . No entanto, se coletássemos apenas os dados coletados em
cafeterias, não obteríamos um conjunto equilibrado de dados para essa população - léxico
relativamente específico do contexto, comocafé com leite e frapuccino, provavelmente
ocorreriam com muito mais frequência do que nas interações de serviço em geral. Frases que
são típicas de outros tipos de interações de serviço, comoDevo embrulhar para você?, pode
nem ocorrer. Seguindo o princípio deSaldo, iríamos buscar
para caracterizar o faixa de lojas cujo idioma queríamos amostrar e coletar dados
uniformemente em toda essa gama.
Mesmo se decidíssemos que estávamos interessados apenas em livrarias, cafeterias
e supermercados, ainda poderíamos desejar garantir que as lojas da amostra estivessem
em algum sentido típica, e que coletamos dados deles de forma a evitar a introdução de
distorções em nosso conjunto de dados. Portanto, poderíamos nos preocupar em
garantir que não retirássemos amostras de livrarias que vendem apenas livros de
antiquários, se estivéssemos preocupados que as interações ali pudessem ser atípicas
nas livrarias em geral. Da mesma forma, podemos querer garantir que as proporções de
dados em nosso corpus reflitam, de alguma forma, os números de cada tipo de interação
de interesse que realmente ocorre. Se tivéssemos 90 por cento de nossos dados de
livrarias, 8 por cento de cafeterias e 2 por cento de supermercados, quando sabemos que
existem cem supermercados para cada livraria, poderíamos muito bem sentir que o
design de nosso corpus foi menos do que o ideal . Teríamos que escolher os locais de
amostragem e as proporções relativas dos diferentes tipos de dados a coletar, com o
objetivo de alcançarrepresentatividade para os dados em um corpus. Claro, este exemplo
simples apresenta apenas uma abordagem para representatividade; ver Leech (2007)
para uma exploração crítica desse conceito.
Corpora que buscam equilíbrio e representatividade dentro de uma determinada estrutura
de amostragem são instantâneo corpora. Um bom exemplo de corpus instantâneo é o corpus
Lancaster-Oslo / Bergen (LOB). Isso representa um "instantâneo" da forma escrita padrão do
inglês britânico moderno no início dos anos 1960. A Tabela 1.1 fornece a estrutura de
amostragem dentro da qual os dados para o corpus LOB foram reunidos.
Para cada categoria, amostras de dados foram coletadas, com cada amostra
sendo aproximadamente semelhante (2.000 palavras). As amostras foram retiradas
de uma variedade de fontes dentro de cada amplo domínio de amostragem. O
corpus resultante tem 1 milhão de palavras. O corpus LOB demonstra como um
corpus instantâneo, usado em conjunto com corpora construídos usando o mesmo
quadro de amostragem, pode nos permitir realizar uma ampla gama de contrastes
e comparações. A mesma base de amostragem usada para LOB também foi usada
para coletar corpora de inglês britânico escrito em intervalos espaçados
(principalmente de trinta anos) ao longo do século XX e início do século XXI. Isso
permite que os efeitos da mudança diacrônica sejam estudados nesta variedade de
inglês (ver Leech 2004; Baker 2009; Leechet al. 2009). Esta abordagem para explorar
a mudança diacrônica é análoga à fotografia em movimento - mudanças lentas
tornam-se visíveis quando um instantâneo é tirado em intervalos descontínuos.
Também é possível estudar a mudança diacrônica com um grande corpo de
monitor, embora diferentes técnicas possam ser necessárias para capturar a
mudança lenta ao longo do tempo. Usando corpora de instantâneos, também
podemos observar as diferenças sincrônicas nas variedades do inglês. O quadro de
amostragem LOB foi adotado de um desenvolvido originalmente para construir um
corpus de inglês americano escrito de 1961, o Brown Corpus (Francis e Kučera 1964;
Kučera e Francis 1967) - comparando LOB e Brown, podemos investigar diferenças
nos dois idiomas variedades enquanto controla a amostragem e os efeitos da
mudança diacrônica.
Tabela 1.1 The LOB Corpus Sampling Frame (após Hofland e

Johansson 1982: 2)
Número de texto
Categoria amostras neste
mnemônico Descrição categoria
UMA Imprensa: reportagem 44

B Imprensa: editorial 27
C Imprensa: comentários 17
D Religião 17
E Habilidades, negócios e hobbies 38
F Conhecimento popular 44
G Letras de Belles, biografia, ensaios 77
H Diversos (documentos do governo, 30
relatórios de fundações, relatórios da
indústria, faculdade, catálogo, órgão da
indústria)
J Escritas eruditas e científicas 80
K Ficção geral 29
eu Ficção de mistério e detetive 24
M Ficção científica 6
N Aventura e ficção ocidental 29
P Romance e história de amor 29
R Humor 9
Total 500
1.4.4 Equilíbrio, representatividade e comparabilidade -----------------------------
Equilíbrio, representatividade e comparabilidade são ideais que correspondem

os construtores de pus buscam, mas raramente, ou nunca, conseguem. Na verdade, as
medidas de equilíbrio e representatividade são uma questão de grau. Váradi (2001) criticou a
falha dos linguistas de corpus em definir e realizar plenamente um corpus equilibrado e
representativo. Mesmo propostas, como as de Biber (1993), para a produção de corpora
representativos empiricamente determinados não foram efetivamente perseguidas. A
proposta de Biber para que a representatividade seja realizada medindo a variação interna
dentro de um corpus - isto é, um corpus é representativo se capta totalmente a variabilidade
de uma linguagem - ainda não foi adotada na prática. É também apenas uma das muitas
definições potenciais de representatividade, como aponta Leech (2007). No entanto, embora o
equilíbrio e a representatividade continuem sendo noções amplamente heurísticas, decidido
com base no julgamento dos linguistas quando estão construindo um corpus, isso não significa
que os conceitos não tenham valor. Da mesma forma, enquanto alguns corpora concebidos
para serem comparáveis uns aos outros podem claramente reivindicar equilíbrio e
representatividade, outros podem fazê-lo apenas até certo ponto. Leech (2007: 141-3) resume
de forma útil uma série de problemas encontrados na construção de corpora comparáveis de
inglês britânico para explorar a variação diacrônica: notavelmente,
problemas relativos à evolução ao longo do tempo dos gêneros que se equilibram nesses
corpora. A natureza mutável do gênero torna as afirmações de comparabilidade ao observar a
variação diacrônica muito mais tendenciosas do que afirmações semelhantes para a
comparação Sincrônica de Brown / LOB, por exemplo. Como Leech (2007: 143-4) observa, o
debate em torno do equilíbrio, representatividade e comparabilidade pode levar os
pesquisadores:
rejeitar esses conceitos como mal definidos, problemáticos e inatingíveis. Minha atitude
é diferente desta. . . essas são considerações importantes e, mesmo que não possamos
alcançá-las 100 por cento, não devemos abandonar a tentativa de defini-las e alcançá-
las. Devemos almejar uma aproximação gradual a esses objetivos, como desideratos
cruciais do design de corpus. É melhor reconhecer que esses objetivos não são um
tudo ou nada: há uma escala de representatividade, de equilíbrio, de comparabilidade.
Devemos buscar definir posições realisticamente alcançáveis nessas escalas, ao invés
de abandoná-las completamente.
Não há dúvida de que, à medida que a abordagem do corpus da linguagem se desenvolve, os

conceitos de equilíbrio e representatividade passarão por um exame crítico mais aprofundado.
Isso, por sua vez, deve levar a definições cada vez melhores desses termos.
1.4.5 Corpora 'oportunistas' e minoritários e ameaçados

línguas -------------------------------------------------- -------------------------------------------------- ----------
A distinção entre monitor e corpus de instantâneo nos fornece uma

estrutura pronta para categorizar corpora que afirmam representar uma linguagem
particular em geral. No entanto, também deve ser observado que há muitas coleções de
dados, razoavelmente descritos como corpora, que não correspondem necessariamente
à descrição de um monitor ou de um corpus de instantâneo de maneira confortável.
Esses corpora são melhor descritos comooportunista corpora. Esses corpora não têm a
pretensão de aderir a uma estrutura de amostragem rigorosa, nem aspiram a lidar com
questões de distorção pela coleta de um corpo cada vez maior de dados, como pode
acontecer com os corpora de monitores. Em vez disso, eles representam nada mais nada
menos do que os dados que foi possível reunir para uma tarefa específica. Às vezes, as
restrições técnicas impedem a coleta de grandes volumes de dados para preencher
alguma estrutura de amostragem idealizada. Isso era particularmente verdadeiro antes
da introdução generalizada da publicação eletrônica e da disponibilidade geral do texto
eletrônico em uma variedade de idiomas na web. Alguns corpora iniciais não foram
construídos ao longo de linhas de princípios de acordo com as demandas de uma
questão de pesquisa específica; em vez disso, eles foram construídos usando qualquer
material relevante que pudesse ser acessado em formato eletrônico.et al. 1993) e o
Hansard Corpus (Bergeret al. 1994) foram construídos a fim de explorar materiais do que
eram, na época, dois dos poucos produtores de texto que criaram versões de textos
legíveis por máquina. Esse problema claramente não se aplica mais ao inglês ou à
maioria dos outros idiomas importantes, mas ainda persiste para alguns idiomas.
É provável que, para idiomas com uma forma escrita, cada vez mais material textual
legível por máquinas se torne disponível com o tempo, permitindo que sejam
prontamente estudados. Considere a divisão geral das línguas em quatro grandes tipos
sugeridos por McEnery e Ostler (2000):
1 Línguas majoritárias oficiais (por exemplo, inglês no Reino Unido, português em

Portugal).
2 Línguas oficiais minoritárias (por exemplo, galês no Reino Unido).
3 Línguas não oficiais (ambas grandes, por exemplo, curdo na Turquia, e relativamente pequenas, por
exemplo, Sylheti no Reino Unido).
4 Idiomas ameaçados (por exemplo, Guugu Yimidhirr na Austrália).
É justo dizer que os tipos 1 e 2 são melhor supridos com dados do corpus do que 3 e 4
por uma série de razões não linguísticas. Os idiomas oficiais geralmente têm governos
com dinheiro associado a eles. Esses governos geralmente publicam material no idioma
oficial, geralmente na web. Eles também, às vezes, financiam projetos de construção de
corpus. As línguas não oficiais sofrem com a falta de reconhecimento oficial e, portanto,
de financiamento estatal. Além disso, se a linguagem estiver associada a um grupo
oprimido, a própria linguagem pode ser suprimida. O problema com as línguas
ameaçadas de extinção é óbvio - muito poucos falantes produzem pouco material em
relação às línguas maiores. Também pode acontecer que as línguas em perigo também
sejam suprimidas, tornando a sua situação ainda pior.
Um problema significativo surge no contexto de analistas que abordam dados falados em
particular: converter gravações faladas em transcrições legíveis por máquina é uma tarefa que
consome muito tempo. Isso por si só significa que, sem suporte financeiro significativo ou muito
tempo disponível, alguns analistas optam por trabalhar em conjuntos de dados pequenos, quando
conjuntos de dados muito maiores seriam indiscutivelmente mais apropriados para sua tarefa. Os
analistas podem sentir, com razão, dados os recursos disponíveis, que trabalhar com uma pequena
amostra pode ser suficiente para seus propósitos e que, embora um conjunto de dados maior possa
produzir resultados ligeiramente diferentes, eles enfrentam a perspectiva de 'uma enorme
quantidade de trabalho e planejamento para muito pequenos retornos ”(Holmes 1996: 168). Um
pesquisador às vezes deve ser guiado pelo pragmatismo.
Finalmente, mesmo com uma enorme quantidade de trabalho e planejamento, pode ser
simplesmente impossível construir um corpus ideal para uma dada linguagem - se a linguagem
estiver morta ou morrendo e o material para construir um corpus grande e equilibrado não
estiver disponível e simplesmente nunca vai ser. Para considerar um exemplo extremo, as
civilizações do Vale do Indo baseadas em Harappa e Mohenjo-daro floresceram entre
aproximadamente 2.500 e 1.900 aC. O estoque total de material escrito que resta para
representar a linguagem usada por aquela civilização consiste em 3.700 objetos inscritos
(Robinson 2009: 268). É improvável que futuras escavações arqueológicas alterem
significativamente a extensão desse estoque de texto. Se quisermos construir um corpus a
partir desses objetos, talvez para tentar decodificar esse script ainda não decifrado, a
quantidade de material para desenhar é bastante finita - a linguagem está morta e o sistema
de escrita não é mais usado. Com toda a probabilidade, já temos a grande maioria dos "textos"
sobreviventes em nossa posse. Nenhum falante nativo do
1.5 corpora anotado versus não anotado 13
língua do Vale do Indo existirá novamente para produzir mais textos usando este
sistema de escrita. Ao lidar com uma língua extinta para a qual um maior corpo de
literatura sobrevive, como o latim clássico, gótico ou inglês antigo, nossa situação é
diferente em grau, mas não em espécie, do caso do Vale do Indo: nossa única opção
na construção de um corpus é selecione alguns ou todos os textos que
sobreviveram ao longo dos séculos.
Em resumo, embora as noções de corpora de monitor e instantâneo nos
forneçam modelos relativamente idealizados de construção de corpus, deve-se
notar, e aceitar, que os corpora que usamos e construímos devem às vezes ser
determinados por considerações pragmáticas.
1,5 Corpora anotados versus não anotados
Outra maneira pela qual os estudos em linguística de corpus variam está relacionada com
se as análises linguísticas estão ou não codificadas nos próprios dados do corpus. Essa
codificação, chamadaanotação de corpus, pode ser alcançado editando os dados para
incluir neles alguma análise ou tendo a análise armazenada separadamente, mas
vinculada aos dados. Por exemplo, podemos desejar anotar um corpus para mostrar
classes gramaticais, atribuindo a cada palavra a categoria gramatical que afirmamos ter
em seu contexto. Então, por exemplo, quando vemos a palavrafalar na frase Eu ouvi a
conversa de John e era a mesma coisa, atribuiríamos a ele a categoria 'substantivo' nesse
contexto. Ao fazer isso, podemos editar o texto diretamente, atribuindo algum código
mnemônico (como N) para deixar claro que, neste caso, a palavra é um substantivo. Em
um caso simples, podemos apenas anexar o código mnemônico à palavra em questão
com um sublinhado -talk_N.7 Em vez de editar o texto diretamente, no entanto, também é
possível armazenar anotações como essa separadamente dos próprios dados, usando
programas de computador para combinar, integrar e desembaraçar o texto e as
anotações como o analista deseja. Esta anotação chamada 'stand-off' é a preferida por
alguns analistas (por exemplo, Thompson e McKelvie 1997). No entanto, dada uma
codificação sistemática de anotações diretamente em um corpus, é uma questão trivial
removê-las, se desejado, então os argumentos a favor da anotação distanciada parecem
se resumir mais a uma questão de limpeza metódica ou elegância em vez de denotar
qualquer coisa fundamental na natureza.8
Enquanto a frase anotação de corpus pode não ser familiar para alguns linguistas, a
operação básica que ele descreve não é - é diretamente análoga às análises de dados que
foram feitas usando mãos, olhos e caneta por décadas. A anotação de corpus é, então, um
lugar-comum da linguística. Se for diferente da prática usual, é na escala em que é aplicado.
Em Chomsky (1965), vinte e quatro sentenças inventadas são analisadas; na versão analisada
do LOB, um milhão de palavras são anotadas com árvores de análise. No entanto, é importante
notar que, deixando de lado a escala, a anotação de corpus é em grande parte o processo de
fornecer - de uma forma sistemática e acessível - aquelas análises que um linguista, com toda a
probabilidade, faria de qualquer maneira em quaisquer dados com os quais trabalhava.
Com base nesta descrição um tanto breve da anotação do corpus, o leitor seria
perdoado por pensar que a distinção entre corpora anotados e não anotados se baseia
simplesmente em se o corpus foi ou não analisado de uma maneira particular ainda. Os
corpora que já foram analisados de alguma forma são anotados, os que ainda não
foram analisados não. Essa distinção em si, entretanto, é tão trivial que dificilmente
constituiria uma dimensão importante ao longo da qual a pesquisa em linguística de
corpus pode variar. O que torna esta dimensão saliente é o fato de que alguns linguistas
se opõem à anotação - seja per se, ou quando realizada manualmente em vez de
automaticamente por um computador. A oposição à anotação está tipicamente associada
à linguística de corpus neo-Firthiana e à abordagem baseada em corpus, como será
discutido no Capítulo 6. No entanto, em resumo, os argumentos contra a anotação são
amplamente baseados na pureza dos próprios textos do corpus, com as análises sendo
visto como uma forma de impureza. Isso ocorre porque eles impõem uma análise aos
usuários dos dados, mas também porque as próprias anotações podem ser imprecisas
ou inconsistentes (Sinclair 1992). Tais afirmações são interessantes porque, como foi
observado, a anotação de corpus é a manifestação dentro da esfera da linguística de
corpus de processos de análise que são comuns na maioria das áreas da linguística.
Identificar problemas com precisão e consistência na anotação de corpus é, em princípio,
pelo menos, identificar falhas com procedimentos analíticos em toda a linguística. É por
causa das questões de precisão e consistência, em particular, que alguns linguistas
preferem usar corpora não anotados. Mas isso não significa que tais linguistas não
analisem os dados que usam; em vez disso, significa que eles não deixam nenhum
registro sistemático de suas análises ou de seus erros, que podem ser fácil e
prontamente vinculados aos próprios dados do corpus.
1,6 Responsabilidade total versus seleção de dados
Até agora, nos concentramos nas maneiras pelas quais os corpora variam em seu design.
Os corpora também podem variar, no entanto, na forma como são usados pelos analistas que os
exploram. Uma diferença fundamental aqui é o contraste entreresponsabilidade total e seleção de
dados.
1.6.1 Responsabilidade total, falseabilidade e replicabilidade -----------------------
Tem-se argumentado que uma vantagem significativa do uso de corpora é que

os corpora permitem que os analistas abordem o estudo da linguagem no contexto do
método científico (Leech 1992). Um princípio fundamental da abordagem de Leech
dentro desta estrutura é a responsabilidade total (Leech 1992: 112). Se você abordar um
corpus com uma teoria específica em mente, pode ser fácil focar involuntariamente e
retirar apenas os exemplos do corpus que apóiam a teoria (isso é tecnicamente chamado
deviés de confirmação) Mas a teoria nunca pode ser considerada falsa por tal
1.6 Responsabilidade total versus seleção de dados 15
uma abordagem, mesmo em princípio. Como tal, esta abordagem vai contra uma das
principais características do método científico identificado por Popper ([1934] 2006: 18), a
saber,falseabilidade. O princípio da responsabilidade total é, simplesmente, que nósNão
deve selecione um subconjunto favorável de dados dessa maneira. Ao abordar o corpus
com uma hipótese, uma forma de satisfazer a falseabilidade é usar todo o corpus - e
todas as evidências relevantes emergentes da análise do corpus - para testar a hipótese.
Este princípio é a razão da natureza quantitativa de muitos métodos baseados em
corpus. No mínimo, entretanto, onde há muitas evidências de que o uso de todo o corpus
seja prático, o analista deve pelo menos, como sugere Leech, evitar a seleção consciente
de dados. Sem usar o corpus em sua totalidade, a responsabilidade total pode, em
princípio, ser preservada usando uma subamostra imparcial (por exemplo, randomizada)
dos exemplos no corpus. Se fosse permitido, na pesquisa do corpus, filtrar ou ignorar
exemplos ou estatísticas do corpus que não se enquadram na hipótese sob investigação,
então, o corpus poderia apoiar uma variedade tão desconcertante de hipóteses
potencialmente contraditórias de que o uso dos dados do corpus seria fatalmente
minado. Para simplificar, não deve haver seleção motivada de exemplos para favorecer
aqueles exemplos que se encaixam na hipótese, e nenhuma seleção de exemplos
inconvenientes. Tal afirmação representa um ideal para o uso de dados de corpus que
muitos teriam dificuldade em contestar.
No entanto, há uma crítica a ser feita a tal abordagem: o corpusem si é necessariamente um
subconjunto finito de uma entidade muito maior (e em princípio não finita), a linguagem.
Portanto, o próprio corpus representa uma seleção e triagem de dados. Portanto, qualquer
reivindicação de responsabilidade total em linguística de corpus deve ser moderada. Só
podemos buscar responsabilidade total em relação ao conjunto de dados que estamos usando,
não à totalidade da linguagem em si. Essa crítica não é, é claro, exclusiva da linguística. Um
paralelo óbvio é a astronomia, onde os astrônomos teorizam com base no subconjunto do
Universo que é visível para eles. Eles expandem seu conjunto de dados ao longo do tempo, e
cada geração de astrônomos busca falsificar as descobertas das gerações anteriores de
astrônomos à medida que avançam os limites do campo. Um modelo muito semelhante está se
desenvolvendo em linguística, agora que se tornou possível expor as teorias linguísticas a
testes por observação em larga escala. Com base nessa analogia, podemos dizer que, como
um astrônomo, um linguista de corpus pode trabalhar de acordo com o método científico e
produzir resultados potencialmente falsificáveis, embora não seja totalmente responsável no
sentido mais estrito.
Mas moderar a reivindicação de responsabilidade total à luz do tamanho finito do corpus
levanta uma possibilidade preocupante. Um analista pode, por acaso ou projeto, construir um
conjunto de dados que deturpe a linguagem, de modo que a análise desse conjunto de dados
apóie uma teoria falha. Embora devamos estar cientes dessa possibilidade, uma analogia com
a astronomia pode ajudar mais uma vez. Imaginemos um astrônomo, em algum momento do
passado, procurando desenvolver um modelo de luas baseado em dados da Terra, Marte e
Júpiter. Eles então concluem, a partir desse conjunto de dados, que todos os planetas têm luas.
O problema aqui é com o conjunto de dados - ele foi inconscientemente extraído de um
conjunto de planetas que por acaso têm luas. Se Mercúrio ou Vênus, que não têm luas,
estivessem no conjunto de dados, a conclusão teria sido
diferente. A resposta para o problema na astronomia é a mesma que na linguística e surge de

outra característica fundamental do método científico:replicabilidade. Um resultado é
considerado replicável se uma reaplicação dos métodos que levaram a ele produzir
consistentemente o mesmo resultado. Este processo de verificação e verificação pode ser feito
com o mesmo conjunto de dados ou pode ser feito com novos conjuntos de dados. Na teoria
de Popper, a falseabilidade é de maior prioridade do que a replicabilidade como uma chave
para a verificação no método científico. A capacidade de replicar um resultado, seja
experimental ou observacional, é, no entanto, claramente central para a prática científica. Em
todas as ciências, novos resultados são tipicamente considerados provisórios até que sejam
conhecidos como replicáveis - e em muitos casos, é precisamente por meio desse processo de
verificação contínua de resultados à medida que as teorias se desenvolvem e se expandem que
a falseabilidade é alcançada.
Como as ciências naturais, a linguística de corpus em muitos casos apelou para a noção do
resultado replicável para credibilidade (ver Doyle 2005 para uma boa visão crítica do
envolvimento da linguística de corpus com replicabilidade). Em particular, a replicabilidade nos
ajuda a resolver o problema do conjunto de dados limitado descrito acima. As tentativas de
replicar o resultado astronômico de que todos os planetas têm luas irão, eventualmente,
descobrir que em um conjunto de dados mais amplo de planetas, a regra não se aplica. Da
mesma forma, é provável que um resultado incorreto ou incompleto decorrente do tamanho
finito de um corpus seja descoberto quando os linguistas de corpus verificam novamente esse
resultado em relação a outros conjuntos de dados. Portanto, enquanto esse processo de
verificação e replicação seguir seu curso e receber tempo e dados suficientes, o viés nos dados
do tipo que descrevemos é rotineiramente descoberto e removido. Há evidências de que isso
aconteça já na linguística em geral e na linguística de corpus em particular. Um bom exemplo
de trabalho realizado em um corpus sendo revisado quando mais dados de corpus se
tornaram disponíveis é o trabalho de Leech (1971, 2004a) sobre verbos não finitos (ver também
seção 2.2). Em suma, então, a responsabilidade total para com os dados disponíveis garante
que nossas reivindicações atendam ao padrão de falseabilidade; responsabilidade total parade
outrosos dados no processo de verificação e verificação garantem que atendam ao padrão de
replicabilidade; e a combinação de falseabilidade e replicação pode nos tornar cada vez mais
confiantes na validade da linguística de corpus como um empreendimento científico empírico.
1.6.2 Seleção de dados - não (necessariamente) uma coisa ruim --------------------------------
Considerando o que foi dito sobre responsabilidade total, você pode se perguntar
que os analistas abordariam um corpus buscando um único exemplo, ou um subconjunto de
exemplos cuidadosamente selecionados. Não apenas alguns analistas fazem exatamente isso;
em certas circunstâncias, pode realmente ser a coisa certa a se fazer. De fato, em um sentido
importante, abordar um corpus em busca de um tipo específico de resultado pode estar
inteiramente de acordo com o método científico. Mais importante ainda, podemos buscar em
um corpus um exemplo específico que, por si só, falsifique uma hipótese - tornando assim a
totalidade dos dados em algum sentido irrelevante. Um exemplo por si só pode ser suficiente
para falsificar uma alegação. Em um corpus de um milhão de frases, a única frase que
1.6 Responsabilidade total versus seleção de dados 17
não se conforma a uma hipótese é a única sentença que realmente importa para se
considerar a hipótese em questão. Isso pode ser ilustrado voltando ao nosso paralelo
astronômico. Dada a hipótese de que todos os planetas têm luas, se tivermos dados de
mil planetas disponíveis, o fato de 999 deles possuírem luas não é tão importante - do
ponto de vista da defesa da hipótese - quanto o fato de um planeta não ter luas em tudo.
Da mesma forma, se a hipótese que estamos examinando é que alguma forma
linguística particular nunca ocorre, então a única parte do corpus que é realmente
relevante é a parte em que essa forma linguísticafaz ocorrer, falsificando assim a
hipótese. Para colocar isso em termos gerais, um único exemplo pode falsificar uma
hipótese, levando à revisão, ou abandono, daquela hipótese específica. Nesse sentido, a
abordagem de um corpus para encontrar um único exemplo é inteiramente consistente
tanto com o método científico quanto com o princípio da responsabilidade total.
Uma manifestação mais contenciosa de utilizar apenas partes selecionadas de um

corpus surge quando os pesquisadores usam o corpus simplesmente como um banco de
exemplos para ilustrar uma teoria que estão desenvolvendo - isso às vezes é chamado
corpus informado pesquisar. Isso claramente vai contra o método científico, na medida
em que não há nenhuma tentativa de explicar o resto das evidências (potencialmente
falsificadoras) do corpus. No entanto, alguns pesquisadores articularam uma motivação
interessante para usar corpora dessa forma. A premissa não é diferente daquela que leva
a linguística de corpus a validar e revalidar hipóteses - a saber, que o corpus é finito, mas
a linguagem não. Alguns pesquisadores argumentam que os corpora, embora sejam um
guia útil ou fonte de exemplos, não podem dar acesso suficiente à linguagem a ponto de
as chamadas abordagens 'qualitativas' dos dados serem abandonadas. Um bom exemplo
disso surgiu na Análise Crítica do Discurso (ACD).
O CDA tem sido tradicionalmente abordado pela análise detalhada de textos únicos ou pequenos números de textos. Com base nessa análise detalhada, foram feitas
afirmações gerais sobre o uso da linguagem na sociedade. Com o tempo, conforme as evidências da análise de textos individuais foram se acumulando, surgiram teorias
abrangentes sobre como os discursos funcionam na sociedade; e afirmações genéricas sobre a estrutura e a natureza de tal discurso, focadas, por exemplo, em palavras ou
classes de palavras específicas, como pronomes, foram feitas. Essas observações gerais, baseadas em um pequeno número de textos, foram exploradas dentro de uma estrutura
teórica abrangente baseada em alguma teoria das relações de poder. Desde meados da década de 1990, tentativas foram feitas para integrar a abordagem metodológica geral
da linguística de corpus com CDA por pesquisadores como Mautner (ver Hardt-Mautner 1995, 2000; Mautner 2009), Koller e Mautner (2004), O'Halloran e Coffin (2004), Baker
(2004, 2006, 2009) e Orpin (2005). Um problema geral com a maioria dessas tentativas de integração tem sido o equilíbrio - os estudos tendem a se concentrar principalmente na
linguística de corpus ou na CDA em detrimento do outro. Os estudos baseados em corpus podem ter explorado o discurso e sua relação com o poder, mas normalmente não
foram explicitamente informados pela teoria CDA e seus métodos tradicionais, ou então não objetivaram contribuir para uma teoria orientada para o discurso específica (por
exemplo, Stubbs 1994; Krishnamurthy 1996). De forma similar, O'Halloran e Coffin (2004), Baker (2004, 2006, 2009) e Orpin (2005). Um problema geral com a maioria dessas
tentativas de integração tem sido o equilíbrio - os estudos tendem a se concentrar principalmente na linguística de corpus ou na CDA em detrimento do outro. Os estudos
baseados em corpus podem ter explorado o discurso e sua relação com o poder, mas normalmente não foram explicitamente informados pela teoria CDA e seus métodos
tradicionais, ou então não objetivaram contribuir para uma teoria orientada para o discurso específica (por exemplo, Stubbs 1994; Krishnamurthy 1996). De forma similar,
O'Halloran e Coffin (2004), Baker (2004, 2006, 2009) e Orpin (2005). Um problema geral com a maioria dessas tentativas de integração tem sido o equilíbrio - os estudos tendem a
se concentrar principalmente na linguística de corpus ou na CDA em detrimento do outro. Os estudos baseados em corpus podem ter explorado o discurso e sua relação com o
poder, mas normalmente não foram explicitamente informados pela teoria CDA e seus métodos tradicionais, ou então não objetivaram contribuir para uma teoria orientada para
o discurso específica (por exemplo, Stubbs 1994; Krishnamurthy 1996). De forma similar, Os estudos baseados em corpus podem ter explorado o discurso e sua relação com o
poder, mas normalmente não foram explicitamente informados pela teoria CDA e seus métodos tradicionais, ou então não objetivaram contribuir para uma teoria orientada para
o discurso específica (por exemplo, Stubbs 1994; Krishnamurthy 1996). De forma similar, Os estudos baseados em corpus podem ter explorado o discurso e sua relação com o poder, mas normalmente não foram explicitamente informado
Os pesquisadores do CDA às vezes usaram dados e técnicas que são, sem dúvida, inspirados
no trabalho em linguística de corpus, mas não procuraram se envolver totalmente com a
abordagem de corpus (por exemplo, Fairclough 2000; Kovàcs e Wodak 2003). A pesquisa que é
principalmente orientada para o CDA tende a fazer uso limitado ou casual de um corpus ou de
técnicas baseadas em corpus. Às vezes, o corpus é usado simplesmente como um repositório
de exemplos (por exemplo, Flowerdew 1997) e nenhum esforço é feito para aplicar o princípio
de responsabilidade total que é geralmente aceito na linguística de corpus. Além disso, os
estudos de CDA que fazem uso de corpora tendem, em geral, a evitar a realização de análises
quantitativas além da mais simples das estatísticas descritivas (ver também Stubbs 1997: 104),
preferindo realizar análises qualitativas usando concordâncias.
Por que alguns pesquisadores em CDA se envolvem minimamente com os dados do corpus?
Um argumento importante apresentado por tais pesquisadores diz respeito à profundidade da
análise que desejam com os dados de que dispõem - desejam realizar uma análise detalhada
de uma pequena quantidade de dados, levando em consideração não apenas o texto em si,
mas também o contexto social. em que foi produzido e o contexto social em que foi
interpretado. Este trabalho é tão trabalhoso que um estudo em larga escala usando o corpus
pode não ser possível.9 Este argumento tem algum peso. No entanto, também existe a
possibilidade de se chegar a um equilíbrio onde os próprios dados do corpus são utilizados no
quadro da responsabilização total, mas a análise detalhada é reservada para um subconjunto
dos dados, uma vez que aquelas hipóteses que são testáveis em termos práticos em geral
corpus foram testados (KhosraviNik 2009). No entanto, ainda é o caso que muitos
pesquisadores preferem trabalhar com pequenas quantidades de dados em detalhes, em vez
de se envolver com grandes corpora.
1,7 Corpora monolíngue versus multilíngue
Outra maneira óbvia pela qual os corpora variam está relacionada ao número
das línguas representadas no corpus.10 Muitos corpora são monolíngües no sentido
de que, embora possam representar uma gama de variedades e gêneros de uma
determinada língua, eles são, no entanto, limitados a essa língua. Portanto, o
Corpus Internacional do Inglês (ICE; ver também a seção 4.2), por exemplo, é um
grande corpus monolíngue - ele representa uma língua, o inglês, embora permita
aos lingüistas comparar e contrastar uma série de variedades internacionais dessa
língua. O monolinguismo nos corpora pode ser uma questão de grau, e não de
absoluto. O BNC, por exemplo, contém algumas palavras estrangeiras e fala
produzida por falantes não nativos de inglês (Aston e Burnard 1998: 127). No
entanto, o aparecimento de tais dados no BNC não reflete seu objetivo principal,
que é representar o inglês britânico moderno. O fato de que algum material em um
idioma diferente do inglês foi inadvertidamente coletado não significa que devemos
considerar esse corpus como algo diferente do que afirma ser - um corpus
monolíngue de inglês. No entanto, o BNC poderia ser considerado (parte de) um
corpus multilíngue se fosse reunido com
1.7 corpora monolíngue versus multilíngue 19
uma série de outros corpora, de tamanho, escala e base de amostragem comparáveis,

que por acaso representam outros idiomas além do inglês. Para entender esse ponto,
precisamos considerar a variedade de corpora multilíngue disponíveis.
Quando nos referimos a um corpus envolvendo mais de um idioma como um corpus
multilíngue, estamos usando o termo multilíngue em um sentido amplo para indicar
'duas ou mais línguas'; em um sentido mais restrito, um corpus multilíngue deve
envolver pelo menos três línguas, enquanto aqueles que envolvem apenas duas línguas
são convencionalmente referidos comobilíngüe corpora. Dado que corpora envolvendo
mais de um idioma é um fenômeno relativamente novo, com a maioria das pesquisas
originando-se do início dos anos 1990 (por exemplo, o Inglês-Norueguês Parallel Corpus
ou ENPC; ver Johansson e Hofland 1994), não é surpreendente descobrir que há alguma
confusão em torno da terminologia usada em relação a esses corpora. Geralmente,
existem três tipos de corpora envolvendo mais de um idioma:
- Tipo A: textos de origem em um idioma mais traduções em um ou mais

outros idiomas, por exemplo, o Hansard canadense (Brown et al. 1991),
CRATER (McEnery e Oakes 1995; McEneryet al. 1997). Tipo B: pares ou
- grupos de corpora monolíngüe projetados usando a mesma estrutura
de amostragem, por exemplo, o corpus Aarhus de direito contratual
(Faber e Lauridsen 1991), o Corpus Lancaster de Mandarim (McEneryet
al. 2003), que usa a mesma base de amostragem de LOB e Brown.
- Tipo C: uma combinação de A e B, por exemplo, o ENPC (Johansson

e Hofland 1994), o EMILLE corpora (Baker et al. 2004).11
Diferentes termos têm sido usados para descrever esses tipos de corpora. Para
Aijmeret al. (1996) e Granger (1996: 38), o tipo A é umcorpus de tradução enquanto o tipo
B é um corpus paralelo; para Baker (1993: 248; 1995, 1999), McEnery e Wilson (2001: 70) e
Hunston (2002: 15), o tipo A é umcorpus paralelo enquanto o tipo B é umcorpus
comparável; e para Johansson e Hofland (1994) e Johansson (1998: 4-5), o termocorpus
paralelo aplica-se a ambos os tipos - A e B. Barlow (1995, 2000: 110) certamente
interpretou um corpus 'paralelo' como tipo A quando desenvolveu o ParaConc
ferramenta corpus. É claro que alguma confusão gira em torno do termoparalelo.
Quando definimos diferentes tipos de corpora multilíngue, podemos usar critérios

diferentes, por exemplo, o número de línguas envolvidas e o conteúdo ou a forma do
corpus. Mas quando um critério é decidido, o mesmo critério deve ser usado
consistentemente. Por exemplo, podemos dizer que um corpus é monolíngue, bilíngue
ou multilíngue se tomarmos o número de línguas envolvidas como critério de definição.
Também podemos dizer que um corpus é um corpus traduzido (L2) ou não traduzido (L1)
- tipo A ou tipo B na estrutura acima - se o critério de conteúdo do corpus for usado. Mas
se escolhermos definir os tipos de corpus pelo critério da forma do corpus, devemos usá-
lo consistentemente. Então, podemos dizer que um corpus é paralelo se o corpus contém
textos de origem e traduções em paralelo, ou é um corpus comparável se seus
subcorpora são comparáveis aplicando a mesma base de amostragem. Isto
é ilógico, entretanto, referir-se a corpora do tipo A como corpora de 'tradução' pelo critério de
conteúdo, enquanto se refere a corpora do tipo B como corpora 'comparável' pelo critério de
forma. Consequentemente, neste livro, seguiremos a terminologia de Baker ao nos referirmos
ao tipo A como corpora paralelos e ao tipo B como corpora comparáveis. Como o tipo C é uma
mistura dos dois, os corpora desse tipo devem ser chamados de corpora comparáveis em
sentido estrito.
Um corpus comparável pode, portanto, ser definido como um corpus contendo
componentes que são coletados usando o mesmo método de amostragem, por exemplo, o
mesmas proporçõesdos textos do mesmos gêneros no mesmos domínios em uma gama de
idiomas diferentes no mesmo período de amostragem. Observamos anteriormente que o BNC
poderia se tornar uma subparte de um corpus comparável se corpora semelhantes ao BNC
fossem coletados em uma variedade de idiomas. A coleção de corpora resultante pode ser vista
como um corpus multilíngue. No entanto, as subpartes deste corpus multilíngue também
podem ser consideradas corpora monolíngües por direito próprio. Onde houver uma
equivalência de quadros de amostragem entre corpora em diferentes idiomas, eles podem ser
visualizados e usados como corpora monolíngüe ou multilíngue, conforme necessário. As
subcorpora de um corpus comparável não são traduções umas das outras. Em vez disso, sua
comparabilidade reside na similaridade de seus quadros de amostragem.
Em contraste, um corpus paralelo pode ser mais facilmente definido como um

corpus que contém textos de origem em idioma nativo (L1) e suas traduções (L2).
Esta definição assume que corpora paralelos são unidirecionais (por exemplo, do
inglês para o chinês ou do chinês para o inglês, mas não ambos). Esta é atualmente
a forma mais comum de corpus paralelo; por exemplo, os corpora CRATER e EMILLE
já mencionados, bem como MULTEXT e P-ACTRES (Izquierdoet al. 2008), são
unidirecionais. No entanto, existem alguns corpora bidirecionais paralelos, como o
corpus Português / Inglês COMPARA (Frankenberg-Garcia e Santos 2003),12 a seção
paralela nepalesa / inglesa do Corpus Nacional do Nepal (Yadava et al. 2008) e o
Inglês Sueco Parallel Corpus (Altenberg e Aijmer 2000); e também existem corpora
multidirecionais (ver, por exemplo, o corpus ECC-TEC, Laviosa 2002). Provavelmente,
textos produzidos simultaneamente em diferentes idiomas (por exemplo,
regulamentos da UE e da ONU) também podem ser classificados como dados
paralelos (Hunston 2002: 15).
Embora corpora paralelos e comparáveis devam ser usados para finalidades diferentes
(normalmente pesquisa de tradução e estudos contrastivos, respectivamente; ver Johansson
2007), os dois também são projetados com focos diferentes. Para um corpus comparável, a
base de amostragem é essencial. Todos os componentes devem coincidir entre si em termos
de quais tipos de textos eles amostram, em quais proporções e em quais períodos. Para os
textos traduzidos em um corpus paralelo, a base de amostragem é irrelevante, pois todos os
componentes do corpus são traduções exatas uns dos outros. Uma vez que os textos de
origem tenham sido selecionados em primeiro lugar, não há necessidade de se preocupar com
a base de amostragem no outro idioma. No entanto, isso não significa que a construção de
corpora paralelos seja mais fácil. Para que um corpus paralelo seja útil, uma etapa essencial é
alinhar os textos fonte e seus
Leitura adicional 21
traduções, anotando as correspondências entre os dois no nível da frase ou da palavra

(ver Oakes e McEnery 2000 para uma visão geral). Enquanto isso seria idealmente
realizado usando um programa de computador em vez de análise manual, o alinhamento
automático de corpora paralelos não é uma tarefa trivial para alguns pares de
linguagens (Piao 2000, 2002).
1,8 Resumo
Ao olhar para uma série de características definidoras na linguística de corpus, este

capítulo explorou maneiras pelas quais a construção e o uso de corpora variam. Ao fazê-
lo, destacamos algumas das diferenças que existem entre os linguistas no uso - e na
concepção básica - da linguística de corpus. Nos dois capítulos que se seguem,
mudaremos o foco de nossa discussão para considerar uma série de questões mais
práticas que os linguistas de corpus enfrentam - como fazer anotações em dados de
corpus, como analisá-los e como empregar técnicas estatísticas. Também
consideraremos algumas das restrições impostas à pesquisa de corpus por
considerações legais e éticas. Ao longo desta discussão, no entanto, os temas-chave
deste capítulo serão retomados à medida que afetarem essas questões práticas. Por
exemplo, a decisão de anotar ou não é uma importante questão de princípio, além de ser
uma consideração prática. Da mesma forma, a World Wide Web apresenta aos analistas
desafios jurídicos específicos, e a coleta de discurso espontâneo pode trazer consigo
questões éticas significativas. Portanto, este capítulo levantou algumas questões centrais
que ressurgirão de várias maneiras, não apenas nos dois capítulos seguintes, mas
também no restante deste livro.
Leitura adicional -------------------------------------------------- -------------------------------------------------
Há um número crescente de livros que tratam do assunto em geral

da linguística de corpus. Para os leitores particularmente interessados em uma
abordagem da linguística de corpus que se concentra na análise de gênero e variação
textual, Biberet al. (1998) é abrangente e fortemente recomendado. Com um enfoque um
tanto diferente, Kennedy (1998) cobre com alguns detalhes como a linguística de corpus
e o ensino de línguas em particular se cruzaram. Para uma visão geral da linguística de
corpus, com uma discussão sobre sua queda em desgraça em meados do século XX,
McEnery e Wilson (2001, ver especialmente o Capítulo 1) deve fornecer uma leitura
gratificante.
Embora esses textos contenham alguns conselhos práticos, outras introduções à análise de
corpus têm um foco mais prático. McEneryet al. (2006) é o único livro que conhecemos que
fornece uma abordagem de 'como fazer' para usar uma ampla gama de softwares de pesquisa
de corpus. Em contraste, Hoffmannet al. (2008) construíram sua introdução à linguística de
corpus em torno de uma única ferramenta, o BNCweb. Adolphs (2006) tem ainda uma ênfase
diferente, considerando a análise deTexto:% s bem como corpora
através dos métodos da linguística de corpus. Finalmente, Anderson e Corbett (2009)

apresentam uma introdução aos métodos de corpus usando uma gama de ferramentas de
análise online, um tipo de software que discutiremos em detalhes na seção 2.5.4.
De interesse geral são os vários manuais e leitores de linguística de corpus que
foram publicados. Lüdeling e Kytö (2008) e O'Keefe e McCarthy (2010) são dois
manuais recentes contendo uma ampla gama de leituras úteis em linguística de
corpus. Ambos são, no entanto, um pouco caros e provavelmente mais procurados
em uma biblioteca. Mais acessível em preço é o leitor editado por Sampson e
McCarthy (2004). Este contém uma série de artigos 'clássicos' cobrindo uma ampla
gama de tópicos em linguística de corpus.
Para os leitores interessados na abordagem do corpus do monitor, Sinclair (1991), embora
agora um tanto difícil de comprar, está disponível em muitas bibliotecas. É uma introdução
concisa não apenas às idéias subjacentes ao corpus do monitor, mas também a muitas das
outras idéias de Sinclair sobre a linguagem. Para obter algumas sugestões de leitura na Web
como abordagem de Corpus especificamente, consulte a seção de leituras adicionais no
Capítulo 3.
É mais difícil fazer sugestões para leituras em linguística de corpus não inglesa.
Embora haja uma quantidade crescente de pesquisas usando corpora de outras línguas,
os principais livros didáticos da área geralmente continuam envolvidos com o inglês. Por
esta razão, a literatura primária - como encontrada em coleções editadas como
Johansson (2007) e periódicos comoCorpora, Linguística de Corpus e Teoria Linguística, e
as International Journal of Corpus Linguistics - atualmente representa a melhor fonte de
material relacionado à linguística de corpus não-inglesa.
Atividades práticas
Conforme explicado no prefácio, projetamos os exercícios neste livro para serem concluídos com
algum concordancer e com quaisquer dados corpus que você tenha disponível. Os exercícios
práticos para o Capítulo 1 são um conjunto de tarefas muito gerais que devem ajudá-lo a
encontrar seu caminho em torno do concordador, se você não estiver totalmente familiarizado
com ele. Usando o arquivo de 'ajuda' do software ou simplesmente por tentativa e erro, tente
descobrir as seguintes coisas sobre o seu concordador - todas as quais você precisará saber para
exercícios posteriores neste livro.
(A1-1) Em primeiro lugar, investigue os procedimentos básicos de configuração do seu software.
- Como você carrega um corpus em sua ferramenta de concordância?
- Como você muda para um corpus diferente?
- O corpus inteiro precisa estar em um único arquivo de texto ou seu concordador
pode lidar com um corpus composto por muitos arquivos?
- O seu concordador precisa que os textos estejam em um formato específico ou
texto simples está OK?
(A1-2) A seguir, veja como funciona a função de concordância.
- Como você procura uma palavra específica?
Questões para discussão 23
- Você pode pesquisar anotações como tags de classes gramaticais, lemas ou tags
semânticas - supondo, é claro, que elas estejam presentes em seu corpus?
- As pesquisas diferenciam maiúsculas de minúsculas (tratar -A- e -a- de maneira diferente) ou não diferenciam
maiúsculas de minúsculas (trate-as da mesma forma)? Você pode mudar esse comportamento?
- Você pode afinar concordâncias, ou seja, reduzir o número de resultados
exibidos?
- Como você salva ou exporta uma concordância para referência posterior? Finalmente,
(A1-3) descubra quais são as capacidades estatísticas do seu concordador.
- Como você pode obter uma lista de frequência (de palavras ou tags) em
seu concordador?
- Você pode obter estatísticas básicas de resumo do corpus - como número total de palavras
(tokens), proporção de tipo-token e assim por diante?
- Você pode produzir tabelas de estatísticas de colocação a partir de uma concordância?
- Existe uma função de palavras-chave? se sim, como isso funciona? Ele pode ser
ajustado para analisar tags-chave?
- Você pode obter uma lista de frequência de n-gramas (também conhecido como clusters ou
unidades de várias palavras)?

- Como você salva ou exporta esses resultados estatísticos?
Questões para discussão
(Q1-1) Observe a divisão de gêneros dentro do corpus (hipotético, inexistente!) Do inglês

britânico moderno descrito na Tabela 1.2. Está equilibrado? É representativo? Essas
afirmações podem ser feitas para qualquer sistema de amostragem de corpus em
um sentido absoluto, ou devem ser sempre qualificadas?
Tabela 1.2 Um corpus hipotético
Número de
Tipo de texto palavras
Imprensa (reportagens) 7.500.000

Imprensa (colunas de opinião) 5.000.000
Imprensa (notícias esportivas) 5.000.000
Imprensa (notícias e críticas culturais) Ficção 5.000.000
publicada (livros e contos) Ficção não publicada 3.500.000
(recolhida na Internet) Livros de não ficção em 1.500.000
geral 4.000.000
Revistas acadêmicas (humanidades) 500.000
Revistas acadêmicas (ciências) 500.000
Transcrições de programas de televisão (talk shows) 750.000
Transcrições de programas de televisão (noticiários) 750.000
(Q1-2) Dê uma olhada em três ou quatro artigos de pesquisa da literatura primária

recente sobre linguística de corpus - se você não consegue pensar no que
olhar, sugerimos qualquer um dos seguintes: Culpeper (2009), Calude (2008),
Chung (2008) , Diani (2008), Hunston (2007), Oakes e Farrow (2007), Inaki e
Okita (2006), Biber e Jones (2005), McIntyre et al. (2004), Hardie e McEnery
(2003), Berglund (2000); links para esses artigos estão disponíveis no site que
acompanha este livro.
Pense na abordagem de cada estudo à linguística de corpus. Qual é a sua
posição, em termos dos diferentes critérios que introduzimos neste capítulo?
Lembre-se, você está considerando:
- O modo de comunicação do corpus que utiliza o estudo;
- Quer seja (assim chamado) 'baseado em corpus' ou 'orientado por corpus' em sua
abordagem;
- Quer use um corpus de monitor, um corpus de amostra ou um corpus
oportunista;
- Se usa anotações de corpus ou não;
- Se cumpre o princípio da responsabilidade total ou não;
- Se os dados do corpus são monolíngues ou multilíngues.
(Q1-1) Imagine uma situação em que foi publicado um estudo que

geralmente é considerado um grande avanço na linguística de corpus.
No entanto, três anos depois, outro estudo tenta replicar a análise e
falha - na verdade, obtém resultados contraditórios. Mas a tentativa de replicação foi
baseada em um corpus diferente com uma estrutura de amostragem diferente, e um
conjunto diferente de programas de computador foi usado para fazer a análise.
Obviamente, esses fatores podem ter influenciado os resultados.
Quão sério seria esse problema para as afirmações do estudo original? Por exemplo, os
pesquisadores devem evitar qualquer trabalho que dependa de seus resultados,
aguardando estudos de replicação adicionais? Com que frequência precisamos replicar um
resultado contestado antes de aceitá-lo como correto? Como devemos decidir distribuir
nossos esforços entre a replicação dos resultados existentes e o estabelecimento de novos
resultados?

Linguística de corpus: introdução aos métodos e aplicações

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Linguística de corpus: introdução aos métodos e aplicações

Enviado por

Direitos autorais:

Formatos disponíveis

Traduzido do Inglês para o Português - www.onlinedoctranslator.

1 O que é linguística de corpus?

O que é linguística de corpus? Certamente é bastante distinto da maioria

serão apresentados, explorados e avaliados.

Antes de explorar o impacto dos corpora na lingüística em geral, entretanto, vamos

Usando esses recursos, podemos começar a elaborar uma tipologia aproximada de

1,2 Modo de comunicação

O Corpora pode codificar a linguagem produzida em qualquer modo - por exemplo

O material para um corpus falado, no entanto, é demorado para reunir e transcrever.

Algumas das mudanças se devem ao fato de que Hansard transforma a conversa

a transcrição ortográfica. Desta forma, as diferentes transcrições fonêmicas

1,3 Linguística baseada em corpus versus linguística baseada em corpus

A diferença entre linguagem baseada em corpus e linguagem dirigida por corpus

1,4 Regimes de coleta de dados

Uma questão importante decorre da observação de que o estudo de corpus

1.4.1 Monitorar corpora -------------------------------------------------- -----------------------------------------------

A abordagem do monitor corpus, proposta principalmente por John Sin-

preciso sobre a composição de um corpus em relação ao tamanho absoluto - à medida que o

1.4.2 A Web como Corpus -------------------------------------------------- ----------------------------------------

O conceito de Web como Corpus (Kilgarriff e Grefenstette 2003)

1.4.3 A abordagem de corpus de amostra -------------------------------------------------- -------------------

Tabela 1.1 The LOB Corpus Sampling Frame (após Hofland e

UMA Imprensa: reportagem 44

1.4.4 Equilíbrio, representatividade e comparabilidade -----------------------------

Equilíbrio, representatividade e comparabilidade são ideais que correspondem

Não há dúvida de que, à medida que a abordagem do corpus da linguagem se desenvolve, os

1.4.5 Corpora 'oportunistas' e minoritários e ameaçados

A distinção entre monitor e corpus de instantâneo nos fornece uma

1 Línguas majoritárias oficiais (por exemplo, inglês no Reino Unido, português em

exemplo, Sylheti no Reino Unido).

4 Idiomas ameaçados (por exemplo, Guugu Yimidhirr na Austrália).

1,5 Corpora anotados versus não anotados

1,6 Responsabilidade total versus seleção de dados

1.6.1 Responsabilidade total, falseabilidade e replicabilidade -----------------------

Tem-se argumentado que uma vantagem significativa do uso de corpora é que

diferente. A resposta para o problema na astronomia é a mesma que na linguística e surge de

1.6.2 Seleção de dados - não (necessariamente) uma coisa ruim --------------------------------

Uma manifestação mais contenciosa de utilizar apenas partes selecionadas de um

1,7 Corpora monolíngue versus multilíngue

uma série de outros corpora, de tamanho, escala e base de amostragem comparáveis,

- Tipo A: textos de origem em um idioma mais traduções em um ou mais

- Tipo C: uma combinação de A e B, por exemplo, o ENPC (Johansson

Quando definimos diferentes tipos de corpora multilíngue, podemos usar critérios

Em contraste, um corpus paralelo pode ser mais facilmente definido como um

traduções, anotando as correspondências entre os dois no nível da frase ou da palavra

Ao olhar para uma série de características definidoras na linguística de corpus, este

Leitura adicional -------------------------------------------------- -------------------------------------------------

Há um número crescente de livros que tratam do assunto em geral

através dos métodos da linguística de corpus. Finalmente, Anderson e Corbett (2009)

unidades de várias palavras)?

Questões para discussão

(Q1-1) Observe a divisão de gêneros dentro do corpus (hipotético, inexistente!) Do inglês

Tabela 1.2 Um corpus hipotético

Imprensa (reportagens) 7.500.000

(Q1-2) Dê uma olhada em três ou quatro artigos de pesquisa da literatura primária

(Q1-1) Imagine uma situação em que foi publicado um estudo que

Você também pode gostar