Você está na página 1de 40

Lingstica descritiva do milnio:

Dados Corpus como linguagem autntica



No melhor sentido da palavra, lingstica descritiva deve ser prtico, [...] projetado
para lidar com situaes de fala, escrita ou falada
- J. R. Firth

1 Teoria e prtica no conceito de descrio
1.1. Se concordarmos em utilizar os nossos termos de forma bastante ampla,
podemos definir uma linguagem para ser uma teoria geral do conhecimento e da
experincia humana, e do discurso a ser o conjunto de prticas para trabalhar a
teoria (cf. Sapir 1921; Hartmann 1963; Halliday 1994 ). Idioma seria uma teoria -
ou toda uma rede de 'teorias' Atravessando - para representar o nosso mundo e de
ns mesmos e uns aos outros no mundo, e para a construo de estados
alternativos do mundo ou mundos alternativos. Ns entendemos um ao outro na
medida em que nossas teorias de nossa lngua so semelhantes, em princpio, e se
mais afinado durante discurso (Beaugrande 1997a).
1.2. As relaes entre a teoria ea prtica constitui logicamente uma dialtica, sendo
um ciclo interativo no qual dois lados orientar ou controlar o outro. Quando a
dialtica est funcionando sem problemas, a prtica orientada por teoria ea
teoria orientado a prtica; os predicados teoria e contas para a prtica; ea prtica
especifica e implementa a teoria. As prticas da vida real do discurso so
fortemente "teoria-driven 'em que obriga os participantes a" teorizar "sobre o que
as palavras significam, o que as pessoas pretendem, o que faz sentido, e assim por
diante. Na verdade, o discurso o mais terico humanos prtica pode executar, e
tambm o mais eficiente e eficaz no uso do menor esforo para a maioria das
metas. Em troca, a linguagem que os humanos teoria mais prtica pode conceber,
oferecendo os recursos para moldar e guiar quase qualquer de nossas atividades
prticas.
1.3. No entanto, o 'theoreticalness "da linguagem habilmente escondida da
maioria dos oradores que o praticam. Se perguntado, eles provavelmente
descreveria discurso como uma questo completamente prtico; que ficaria
surpreso se ns dissemos a eles que possuem uma "teoria de sua linguagem" que
lhes d o estatuto de "tericos". Sem dvida, a teoria pode ser praticada de forma
to eficiente, pois muitas operaes funcionar abaixo do nvel de conscincia; em
troca, a natureza ea organizao da teoria so difceis de determinar ou descrever
por meio de introspeco sozinho (mas cf. 1.8ff; 3.36f; 4.4).
1.4. Alm disso, uma lngua um nico tipo de teoria. Ele no pode ser
conclusivamente verificada ou falsificada da forma convencional de uma teoria
cientfica, porque no podemos apresentar alguns motivos de teste independente
de linguagem, como um conjunto de significados free-standing para o qual a
linguagem poderia ser julgado uma expresso vlida ou invlida. Em vez disso, a
linguagem uma teoria que parcialmente cria e constitui o que postula e, portanto,
tende a confirmar-se. Para fins prticos, que normalmente levar as coisas para ser
o que a nossa lngua chama-los. Quando queremos expressar-lhes mais
validamente, podemos praticar a nossa lngua mais elaborada; no podemos
suspender suas prticas e ir para a significados ou coisas sem ele. No podemos
ficar fora da linguagem para inspecion-lo.
1.5. Pelas definies propostas acima, a "teoria da linguagem" exposta em
lingstica moderna seria mais precisamente ser chamado de uma meta-teoria, ao
passo que o discurso que produzimos para expor a teoria se manifestaria nossos
prprios meta-prticas. "As construes ou esquemas de lingstica" poderia,
assim, ser descrito como "linguagem virou sobre si mesmo" (Firth 1957 [1950]:
190). Esta convoluo torna lingustica nicas entre as cincias. Montamos sobre a
formulao de uma teoria explcita da linguagem, enquanto ns j sustentar uma
teoria implcita como linguagem; e nossas formulaes so instncias de praticar a
ltima teoria. Alm disso, toda a teoria explcita proposto at agora, sem dvida,
est muito aqum da riqueza e da complexidade da teoria implcita, embora no
sejamos capazes de demonstrar o quo.
1.6. Lingstica moderna pode por sua vez ser caracterizado como um conjunto de
projetos para tornar explcita a "theoreticalness 'implcito da linguagem. No
entanto, a lingustica tem sido notavelmente indeciso sobre a derivao de suas
teorias dialeticamente a partir da descrio das prticas comuns de texto e
discurso. A posio mais firme foi adotado em lingstica de campo. Fornecer
descries de lnguas previamente undescribed por necessidade prtica
orientada, uma vez que dados e sobre a linguagem deve vir da observao das
prticas de falantes nativos. Alm disso, o pesquisador deve submeter cada passo
na teorizao sobre a lngua para testes prticos com informantes. Conseguir uma
fluncia razovel na lngua demonstra uma competncia prtica que deve plausvel
aumentar a autoridade de um de afirmaes tericas.
1.7. Ainda assim, o trabalho de campo teoria orientada em seus prprios
caminhos. O linguista tem uma concepo geral sobre os possveis tipos de
linguagem, por exemplo, se a pessoa "analtico", como Ammanite do Vietn, ou
"polissinttica" como Yana of California (Sapir 1921: 142). O tipo um alto nvel de
meta-teoria dirigir a ateno para certas classes de caractersticas ou padres,
como "reduplicao" para "indicar conceitos como distribuio, a pluralidade, a
repetio, a atividade habitual, aumento no tamanho" ou "intensidade" (Sapir
1921: 76). Mas o lingista de campo sempre estimulado ao descobrir alguma
caracterstica ou aspectos at ento desconhecido, por exemplo, quando Dyirbal de
North Queensland foi encontrado para ter uma variedade Dyaluy separado ou
dialeto usado apenas na audincia de parentes tabus como o de um homem me-
de-lei ou uma mulher pai-de-lei (Dixon 1968). Tais descobertas tambm so de
interesse para disciplinas vizinhas nas cincias sociais da sociologia, antropologia e
etnografia (cf. 3.8; 3,40).
1.8. A abordagem oposta comumente atende pelo nome de 'lingstica terica', mas
pode, para a presente discusso, ser mais apropriadamente chamado dever de casa
linguistics.1 fortemente orientado a teoria, e apresenta inventado dados de
lnguas bem descritos, nomeadamente Ingls, de que os linguistas so falantes
fluentes ou nativos desde o incio. Em vez de derivar a teoria de uma linguagem
particular dialeticamente, descrevendo suas prticas, "trabalhadores domsticos"
derivar uma teoria da linguagem, em geral, por um bootstrapping terica que
combina a sua prpria intuio e introspeco com concepes esporadicamente
emprestados da filosofia da linguagem, da lgica formal, ou a matemtica (cf. 3,22).
Os padres da cincia devem ser acolhidos por "teorizao" as qualidades mais
prticos e comuns a partir da linguagem. As declaraes mais cientficos deve
descrever "linguagem" no sentido mais abstrato e geral, e, finalmente, em termos
de "universais lingusticos" (cf. 1.16, 20).
1.9. O passo decisivo nessa perspectiva era de "dar prioridade evidncia
introspectiva" e "intuio" (Chomsky, 1965: 20). O linguista lio de casa agora foi
dito para comandar uma "enorme massa de dados inquestionveis" meramente em
virtude da realizao da "intuio lingustica do falante nativo"; e precisamente por
estes "dados", uma "descrio, e, sempre que possvel, uma explicao" deviam ser
"construdo" (1965: 20). O linguista que aparentemente tornou-se o representante
do "speaker-ouvinte ideal em uma comunidade de fala completamente homognea,
que conhece a sua lngua perfeitamente" (Chomsky, 1965: 4) (1,13). No entanto,
para desacreditar o trabalho de campo com os informantes, os linguistas de casa
sentiu impelido a negar que o "alto-falante de uma lngua", que tem "dominado e
internalizado a gramtica gerativa, est ciente das regras da gramtica ou mesmo"
"pode tornar-se consciente deles" ; e que "suas declaraes sobre o seu
conhecimento intuitivo so necessariamente precisas", j que "os relatrios e
pontos de vista sobre o seu comportamento e competncia de um falante pode
estar em erro" (1965: 8). Essas negaes deve lanar srias dvidas sobre
autorizando linguistas para atuar como modelo "alto-falantes", a menos que a sua
formao acadmica e status conceder-lhes poderes super-humanos de
introspeco (1,12; 3,36). Mas ento eles seriam manifestamente atpica e
inadequada como modelos de um "discurso-comunidade completamente
homogneo".
1.10. Tais linhas desconcertantes de argumento pode ajudar a explicar por que os
linguistas de casa tantas vezes usou dados de uma linguagem bem descrito como o
Ingls, alm de apenas ser falantes nativos. Eles poderiam pressupe ampla
informao sobre a lngua e no tinha que abastec-lo. Eles poderiam explorar a
sua prpria intuio e introspeco para elevar rapidamente as suas deliberaes
se para alm dos problemas laboriosos de trabalho de campo, a fim de abordar
puramente terico, em vez de questes de ordem prtica: a teoria torna-se meta-
teoria, ou, nos termos aqui propostos, meta-meta-teoria ; e seu discurso sobre a
linguagem no se manifesta apenas meta-linguagem, mas meta-meta-linguagem.
Assim, a discusso visa naturalmente ilustraes em dados inventados cujo estado
parece to segura quanto a camuflar o papel do lingista como inventor, por
exemplo:
(1) O agricultor mata o patinho (Sapir)
(2) John fugiu (Bloomfield)
(3) O homem bater na bola (Chomsky)
Paradoxalmente, esses dados foram inventadas para parecer incontestvel, mas
podem ser empiricamente classificada como no-autntica na medida em que no
ocorrem espontaneamente em discourse.2 comum No entanto, estes mesmos
dados, acompanhados de descries bastante superficiais, tm sido
freqentemente apresentado para sustentar afirmaes gerais sobre a natureza da
linguagem, por exemplo, que "a ordem das palavras , sem dvida, uma entidade
abstrata" (Saussure) ou que "gramtica autnoma e independente de significado"
(Chomsky). O paradoxo essencial consiste, portanto, de basear uma teoria geral
sobre casos especiais, selecionando expressamente dados desprovido de
caractersticas especiais (cf. 4.2).
1.11. Alm disso, os dados no-autnticos representam um compromisso entre
sem ser anunciado "langue e parole", ou "competncia e desempenho", que a
lingstica tem lio de casa separados por uma dicotomia radical. Saussure tinha
redondamente afirmou que "o discurso no pode ser estudada", "pois no
podemos descobrir a sua unidade"; apenas uma "massa heterognea" de
"acessrio e fatos acidentais" (1966 [1916]: 9, 11) (cf. 1.21f; 3.13; 3.17). No mesmo
sentido, Chomsky (1965: 4, 201) afirma que "o uso da linguagem observada"
"certamente no pode constituir o objecto da lingustica, se isso ser uma
disciplina sria"; "Do ponto de vista da teoria", "a maior parte do discurso actual
observado consiste em fragmentos e expresses desviantes de uma variedade de
tipos". Tais pronunciamentos sugerem que os dados autnticos no praticam a
teoria de uma linguagem, mas interromper a srio. A produo de tais dados se
assemelham a uma transio de fase ordem catastrfica do extremo de lngua
sobre a desordem extrema do discurso. O orador tem fim, transforma-o em
desordem e transmite para o ouvinte, que transforma-lo novamente em ordem.
Explcita, essa conta da relao entre linguagem e discurso obviamente
insustentvel.
1.12. Em paralelo, os linguistas de casa anunciou que "as entidades concretas da
linguagem no esto directamente acessveis" (Saussure 1966 [1916]: 110); e que
"o conhecimento da lngua" no "nem apresentado para observao direta nem
extravel a partir de dados por meio de procedimentos indutivos, de qualquer tipo
conhecido" (Chomsky, 1965: 18). Estas afirmaes tambm foram feitos para
desacreditar lingstica campo. Mas tambm implica uma conta insustentvel de
aprendizagem em lngua nativa, ou seja, lutando contra a corrente do que uma
criana pode "acesso e observar" - que "fragmentada e desviante" de qualquer
maneira. Esta implicao presumivelmente ajudou a angariar apoio para a noo
universalista de um "dispositivo de aquisio de linguagem inata" (Beaugrande
1997b, 1998a).
1.13. Uma vez que "o discurso real" foi declarado "heterogneo" e "desviantes", o
lingista pode continuar a inventar dados no-autntica, que foram discretamente
prestados homognea e purificados de todos os desvios. Da mesma forma, se o
idioma representado como, um sistema ideal resumo, ento mais
convenientemente exemplificada pelos dados idealizadas. Por implicao, os
linguistas de casa no representam falantes comuns na vida real, mas sim super-
falantes "ideais", que, graas ao seu "conhecimento perfeito", pode praticar a
lngua com muito mais unidade e pureza (cf. 1.9).
1.14. As perplexidades implcitas para a descrio lingustica tornou-se mais
virulento na de Hjelmslev "prolegmenos para uma teoria da linguagem" .3
Embora reconhecendo que "o lingista que descreve uma linguagem" "usa essa
linguagem na descrio", ele fez um apelo para "elevar-se acima do nvel de mera
descrio primitivo ao de uma sistemtica, cincia exata, e generalizando, na teoria
de que todos os eventos (possveis combinaes de elementos) esto previstos
"(1969 [1943]: 9, 121). A "teoria" seria "aplicvel at mesmo para textos e lnguas"
que "nunca foram realizados, e alguns dos quais nunca sero provavelmente
realizadas" (1969: 17). Este projeto surpreendente seria equivalente a uma teoria
de tudo, ou a teoria da grande unificao atualmente muito procurado na fsica dos
linguistas. "O terico lingstico" passa a "descobrir certas propriedades presentes
em todos os objetos que as pessoas concordam em chamar de lnguas, a fim de, em
seguida, a generalizar essas propriedades e estabelec-los, por definio,"; ao faz-
lo ", ele decreta a qual os objetos de sua teoria pode e no pode ser aplicada"
(1969: 18). Uma "teoria lingustica" Tal "fornece as ferramentas para a descrio
de" "um determinado texto e linguagem", e "no pode ser verificado - confirmada
ou anulada - por referncia a textos e linguagens existentes" (1969: 18).
1.15. Se esses mtodos foram literalmente adotado, o linguista deve examinar
todas as "linguagens" do mundo no sentido comum (que "as pessoas concordam"
sobre) e construir a teoria unicamente por essas "propriedades" que tm de facto
sido "descoberto" em todos os lugares. Ento, seria trivial, na verdade se aplica
automaticamente a todas as lnguas, sem a necessidade de qualquer "decreto",
"verificao", ou "confirmao". No entanto, o conjunto de propriedades sem
dvida seria muito pequena, abstrato e geral "fornecer ferramentas para descrever
um texto" (4.5). Pode-se apenas descrever as caractersticas que as partes de texto
com todos os outros textos em todas as lnguas, incluindo as lnguas que no
existem e nunca ser - um exerccio esotrico, para dizer o mnimo.
1.16. Quando Saussure j havia aconselhado "lingista" para "familiarizar-se com o
maior nmero possvel de lnguas, a fim de determinar o que universal em si", ele
sups que "a diversidade de expresses idiomticas esconde uma profunda
unidade", e que "todos expresses idiomticas encarnar certos princpios fixos que
o lingista encontra uma e outra vez "(1966 [1916].: 23 99). Mas ele admitiu que
" muito difcil de comandar cientificamente essas lnguas diferentes"; e
ironicamente concluiu, com imensa eufemismo, que "a forma ideal, terico da
cincia nem sempre aquele que lhe imposta pelas exigncias da prtica" (1966:
99). No to Hjelmslev, que conjurou o ideal pelo qual "a mera descrio primitiva"
seria substituda por "auto-consistente e descrio exaustiva" (1969: 9, 18). A
julgar por seu trabalho publicado, ele nunca tentou apresentar essa descrio de
qualquer texto, e por isso no confrontar sua impraticabilidade como um mtodo.
1.17. Para incluir todos inexistente, apenas "possveis" lnguas, o conjunto de
lnguas para que "teoria" de Hjelmslev poderia aplicar seria infinito; como
corolrio, tambm seria o conjunto de "textos" para ser "descritos". Se assim for, os
resultados de descrever um texto ou um conjunto de textos que parecem sempre
muito restrito para reivindicar significado genuno - assim como os linguistas de
casa da escola gerativa poderia prever qualquer forma (1.20). No entanto, mais
uma vez, por implicao, os processos de compreenso de um texto seria infinito,
bem como, o que flagrantemente falsa. Aqui, vemos o quo longe as exigncias
impostas a descrio real linguagem muito overreach, mesmo que, como sugeri, a
teoria est longe (cf. 1.5). Em paralelo, a "competncia" e "conhecimento
perfeito" do "speaker-ouvinte ideal" (1,9) estique muito o desempenho e
conhecimento de alto-falantes reais. Ambos overreachings tornar lingstica de
casa empiricamente vazia: se esforando para descrever tudo de uma vez e no
descrever qualquer coisa.
1.18. Eu diria que este ponto to enfaticamente para a definio de "linguagem"
como um "conjunto infinito de sentenas" (por exemplo, Chomsky, 1957: 13),
presumivelmente calculado para sugerir que a descrio dos dados no era
simplesmente impraticvel, mas incapaz, em princpio, de sempre levando a uma
teoria da linguagem (ou a uma "gramtica"). No entanto, um "conjunto infinito"
conteria todas as frases possveis, incluindo os mais flagrantemente improvveis
oferecidos como contra-exemplos (como "idias verdes incolores dormem
furiosamente"). Os paradoxos do infinito habitam prosa imaginativa, como o de
Jorge Luis Borges. Em sua biblioteca infinita:
Para cada linha de indicao direta, h lguas de cacofonias insensatas, jumbles
verbais e incoerncias. [...] Homer comps a Odyssey; se postular um perodo
infinito de tempo e as circunstncias infinitas, a nica coisa impossvel no para
compor o Odyssey (Borges, 1964: 53, 114)
Alm disso, "performance" exigiria pesquisa vezes infinitas. E isso estaria
relacionado a "competncia" de maneira puramente acidental, assim como, na
parbola familiar, uma sala cheia de chimpanzs com mquinas de escrever, com o
tempo infinito, escrever as obras completas de Shakespeare. Tal o significado
matemtico adequado do "infinito", e corta uma teoria da linguagem fora de todas
as prticas.
1.19. Podemos descartar adequadamente a reserva de que a lingustica descritiva
"inadequada" porque "o corpus de enunciados observados" "finito" (cf. Chomsky,
1957: 15; 1965: 67). Esta reserva vlida para todo conjunto de observaes e
cada conjunto de dados em todas as cincias. S o finito pode ser observado; e os
dados so, tanto pela definio e pela etimologia, "o dado", e nunca pode ser
diferente do finito.
1.20. A avaliao deve ser justificado que uma lngua se manifesta em um conjunto
muito grande, mas sempre finito de dados; e que o sistema proporciona para
conjuntos maiores, indefinidamente, o que tambm vai ser finito, em qualquer
momento. Sem esse conjunto pode jamais ser completamente observados, mas
devido a limitaes de ordem prtica, em vez de princpios tericos. Como todos os
cientistas que trabalham com esses grandes conjuntos de dados, os lingistas
devem gerenciar um trade-off entre a amplitude (a quantidade de dados de uma
teoria pode descrever) e profundidade (o grau de detalhe e preciso na descrio
pode alcanar) (3.10ff). Agora, se uma lngua fosse um conjunto infinito, ento a
sua descrio implicaria uma amplitude infinita que achata a nossa profundidade a
uma superficialidade infinito, e nossa descrio (concludo em tempo infinito, por
sinal) seria capturar detalhes s infinitesimais. Na prtica, a lingustica de casa
evadido seu prprio postulado "infinito" por "assumir que o conjunto de frases
gramaticais de alguma forma dada com antecedncia" (por exemplo, Chomsky,
1957: 18, 54, 85, 103). Largura era meramente hipottico, bootstrap na teoria,
invocando "universais lingusticos" ", afirmou apenas na teoria lingstica geral
como parte da definio da noo de" linguagem humana "(Chomsky, 1965: 6,
117), largura no sentido prtico I sugerir foi deixado de fora da agenda, como
quando "a cobertura bruta de dados" foi lamentou porque no ajudar um lingista
"aprender alguma coisa sobre os princpios" (Chomsky 1982: 82f).
1.21. Ns tambm podemos descartar a ressalva de que "o corpus de enunciados
observados" "acidental". Toda cincia deve enfrentar o acidental em seus dados;
o papel da teoria no deixar de lado os dados reais e inventar alguns dados que
se adapte melhor, mas para estipular como podemos distinguir entre acidentes e
regularidades (3.17). E a exigncia crucial para o fazer coletar e agrupar
conjuntos de dados to grande como as tecnologias atuais permitem. claro que o
estado da tecnologia , em si depende de acidentes, por exemplo, se os fundos so
distribudos para os super-aceleradores de fsica ou de telescpios espaciais em
astronomia. Mas a capacidade da tecnologia para a produo de dados tem sido
geralmente bem frente da capacidade da teoria para explicar esses dados - e nada
mais do que em lingstica hoje (3.2).
1.22. Alm disso, a cincia pode recorrer tecnologias precisamente para lidar com
acidentes em nossos dados, o mais crucial nas fronteiras onde nossas teorias ainda
esto lutando para distinguir os acidentes das regularidades (3.17). A mais
significativa o potencial de acidentes, maior a amplitude devemos procurar, e
quanto mais devemos implantar essas tecnologias que aumentam a amplitude sem
materialmente diminuindo a profundidade. Podemos, assim, empurrar para baixo
o significado de qualquer acidente em particular (ou conjunto de acidentes)
reavaliando sua probabilidade. Por outro lado, podemos descobrir regularidades
quando podemos inspecionar um grande conjunto de dados, onde vimos acidentes
antes (cf. 3.8).

2 Recuperando a dialtica

2.1. As questes levantadas na seo anterior indicam que a lingustica do grosso
da populao no conseguiu capturar o ciclo dialtico exibida de volta na figura. 1.
lingstica descritiva, as prticas tm geralmente executar bem frente das teorias.
Inmeras medidas e estratgias realmente aplicados na pesquisa de campo foram
totalmente orientada a dados, e em nenhum contabilizadas nas teorias lingsticas
esparsas dos tempos. Mesmo de Pike (1967 [originais 1945-1964]) programa
monumental situar linguagem dentro de uma "teoria unificada da estrutura do
comportamento humano" foi cercado dentro dos limites do behaviorismo e
"cincia unificada", o que o impediu de expor uma teoria unificada da significado
(Beaugrande, 1991: 107-11). Mais recentemente, alguns fenmenos significativa e
original descoberto e descrito no trabalho de campo, como no Longacre (1970,
1990) sobre "pargrafos faladas" e "histrias", ou em Grimes (1975) sobre o "fio
do discurso", foram em nenhuma parte acreditado em teoria lingstica nem
mencionado nos livros de lingstica convencionais. Ou novos termos foram
cunhados, como "encenao" e "garantia"; ou ento termos credenciados foram
atribudos significados no-convencionais, como para "predicado" e
"transformao".
2.2. Na lingstica gerativa, em ntido contraste, as teorias ter corrido muito
frente das prticas - at agora, na verdade que as prticas parecem ter sido
deixados para trs por completo (Beaugrande, 1998). Lingstica descritiva foi
severamente repreendido por no ser terico suficiente, e, mais especificamente,
para tentar construir teoria sem prtica, ou seja, atravs da observao e anlise
de dados (Chomsky 1957). No que diz respeito ao trabalho de campo, e da
repreenso era manifestamente injusto: nenhum outro mtodo pode ser bem
sucedida quando o lingista no tem nenhuma informao prvia ou fora sobre a
organizao de uma lngua. O que emerge , claro, uma teoria sobre o que um
determinado idioma, e no sobre a "natureza universal" de todas as lnguas. Mas,
no seu mbito modesta, a teoria foi testada por vigorosamente dados (1,6), e
podem ser testados novamente sempre que os dados passam por um aumento
substancial.
2.3. Na lingstica gerativa, a construo de teoria tornou-se independente da
observao e anlise de dados; pelo contrrio, estes mtodos foram expressamente
declarados incapazes de produzir uma teoria (1.11) Eles poderiam ser ignorada
precisamente porque o lingista como falante nativo tinha tanta informao prvia
ou fora sobre a lngua (1,10). Mas onde, ento, deve a teoria vem? No evento, ele
veio na maior parte, de forma impressionante reformulao em mais terminologias
tcnicas, de gramtica livros tradicionais sobre essa mesma lngua nativa. Assim, a
"universalidade" de "marcadores frase" foi afirmado, no entanto, os diagramas de
acompanhamento exibido algumas categorias gramaticais de livros, obviamente,
com sabor de Ingls como "definitivo" e "artigo" (por exemplo, Chomsky, 1965:
107ff). Muito antes, Bloomfield (1933: 233, 270) havia advertido contra "lingistas
dando por certo a natureza universal" das "categorias" de sua prpria "lngua
nativa". Agora, as perspectivas reais surgiu de "forar todas as lnguas no molde de
Ingls, assim como em perodos anteriores terem sido obrigadas a do latim
clssico" (HALL, 1968: 53) (1,10). A palavra de ordem relativamente rgida de
Ingls engendrou a teoria da "sintaxe autnoma". A ausncia de uma morfologia
sistemtica em Ingls levou a morfologia sendo desabrigadas em teoria gerativa. E
assim por diante.
2.4. A natureza dialtica da linguagem e do discurso foi agora completamente
obscurecida. A lngua no foi considerada como uma teoria que discurso pe em
prtica, mas como uma teoria sobre uma teoria (a meta-teoria sobre si mesmo)
que independente da prtica e de fato interrompida pela prtica.
Paradoxalmente, estes linguistas desacreditado os dados produzidos por falantes
nativos comuns como "fragmentrio e desviante", mas acreditado os dados
inventados por eles mesmos em razo da sua prpria competncia como falantes
nativos (cf. 1.9ff). Os dados foram inventados precisamente para fora da teoria -
justamente o contrrio da lingstica descritiva. Aqui, a viso de Hjelmslev parece
ganhar vida: a "teoria lingstica", que "no pode ser confirmada ou anulada"
(1,15).
2.5. Talvez a implicao mais profunda desta abordagem que o prprio termo
"linguagem" no se refere ao que a maioria das pessoas, incluindo a maioria dos
cientistas, considere um idioma. Em vez disso, ele se refere a uma construo de
teoria lingstica to tenazmente idealizado pode ironicamente qualificar como
uma "linguagem que nunca foi realizado e provavelmente nunca ser realizado"
hjelmsleviana (1,14). Como e por que tal construo deve promover a descrio
das lnguas que esto sendo realizados em todo o mundo nunca foi
convincentemente exposto. Na verdade, poderamos prever alguns obstculos
imperiosas contra descrio.
2.6. Um obstculo reside na terminologia. O estado puramente virtual de
"linguagem" como um sistema no-realizado no centro da lingstica se espalha em
termos mais especficos. Tal parece ter ocorrido com "sintaxe" como um sistema
formal de regras que determinam a palavra de ordem de todas as "frases
gramaticais" em uma lngua. Porque verdadeiros falantes colocar palavras em
ordem para muitos motivos pouco relacionados a regras formais, este "sintaxe"
no existe na lngua real (Beaugrande 2000a). Menos ainda existe uma
"semntica", que assume um significado totalmente estvel, determinstica para
cada expresso de uma lngua, seja com base em "postulados de significado" ou
"traos semnticos" (Beaugrande, 1984). O estado virtual, inexistente destes dois
"nveis" ou "componentes" da linguagem torna-os imprprios, em princpio, para a
descrio de dados autnticos, onde a substituio inquestionvel de dados
inventados no-autnticos (cf. 1.10ff).
2.7. O segundo obstculo o significado peculiar atribudo ao termo "descrio".
Quando a operao de "atribuio de uma descrio estrutural de uma sentena"
foi equiparado a "gerao da sentena" (Chomsky, 1965: 9), a anlise formal dos
dados foi igualado com a produo original de dados, apesar dos desmentidos de
Chomsky de faz-lo. No entanto, as categorias de que mesma anlise so
totalmente insuficientes para a produo, por exemplo, no teve em conta do
significado durante a fase de "geradora". Com efeito, este "description" retira a
sentena da maioria de suas caractersticas operacionais e deixa um simples trao -
nem mesmo um modelo para o projeto, muito menos um registro da execuo do
projeto.
2.8. Evidentemente, substituindo "linguagem" com uma construo virtual leva
substituio de "descrio" com uma operao virtual. Aqui tambm um motivo
para preferir os dados no-autntico: so mais passveis de apenas uma operao
desse tipo. A "gramtica transformacional" precisa apenas as categorias descritivas
para converter a pena em outra estrutura mais essencial e geral ("kernel",
"estrutura profunda", etc). Esta operao no mesmo descrever dada a sentena
em si, mas analisa-la, e apresenta mais uma vez uma estrutura que no requer
confirmao porque a teoria introduziu-o no status de um axioma. Assim, a
descrio efetivamente circular na forma de uma concluso precipitada.
2.9. Se lingstica restabelecer a linguagem como um objeto emprico de estudo,
devemos reafirmar sua herana descritivo e recuperar a interao dialtica entre
teoria e linguagem como discurso como prtica. Esses dois lados devem ser vistos
como constituindo um ciclo dinmico entre dois modos distintos, mas
estreitamente coordenada de ordem. A ordem da linguagem deve ser orientada
para a prtica e expressamente concebido para apoiar a ordem orientada por
teoria do discurso, sem predeterminar-lo totalmente. At agora, uma grande rea
cinzenta persistir entre essas duas ordens, que compreende uma srie de
limitaes que so mais especficos ou local de uma linguagem ainda mais geral ou
global do que um discurso (Beaugrande 2000b) (cf. 4.2).

3 O impacto muito grande corpora
3.1. Por razes prticas, a pesquisa corpus muito baseado em trabalho de campo,
no passado, teve de se contentar com quantidades relativamente pequenas de
dados. Eu posso descobrir em que trabalho h teorias que estipulam o quo grande
um corpus deve ser; nem que tal teoria particularmente relevante ou
interessante, desde que o pesquisador pode ter que enfrentar, circunstncias
fortuitas bizarros para obter dados. Em seu trabalho de campo em cantons na
dcada de 1940, Halliday feito gravaes de voz em carretis de fios pesados, ea
quebra dos fios seria frequentemente danificar ou destruir suas tecnologias data.4
Melhoria reduziram tais perigos mecnicos, mas no os trabalhos de transcrio e
interpretao dos dados . O reconhecimento de voz pelo computador, agora
finalmente alcanado, vai ajudar-nos apenas para transcrever os dados nesses
idiomas que j foram descritos extensivamente o suficiente para configurar o
programa; e transcrio de dados apenas um passo parcial na anlise ou
interpretao.
3.2. Hoje, a pesquisa corpus tem acesso a muito grandes corpora de dados
autnticos para diversas lnguas, e pode confiantemente prever muitos mais no
futuro prximo. Estamos diante de uma deciso difcil sobre se alguma teoria
estabelecida e prtica da descrio lingustica ser reaplicado para estudos corpus;
ou se os fundamentos da lingstica ser revista luz dos estudos corpus (Tognini
Bonelli 1996; Sinclair, 1999). Como sabemos a partir do trabalho sobre
"revolues cientficas" na filosofia da cincia desde Kuhn (1970), uma teoria no
deslocado por dados por si s, mas apenas por uma outra teoria que lida com mais
dados e extrai novos e importantes insights de dados. Minhas prprias
experincias em pesquisa corpus levam-me a prever que a lingustica deve
preparar-se para uma grande revoluo cientfica ou mudana de paradigma
semelhantes aos que se seguiu aps a introduo de tecnologias como o telescpio
na astronomia ou o microscpio na biologia (Sinclair 1994, 1999).As with other
technologies, this one wields the capacity to produce data far ahead of the capacity
of our theories to account for those data (1.21).To extend the analogy: we are
seeing phenomena in language which only become visible through the technology.
3.3.However, a tecnologia tambm torna visveis alguns de longo alcance
problemas problems.These no, como por vezes tem sido argumentado (eg
Widdowson 1991), so decorrentes de deficincias inerentes corpora.Rather, os
problemas tm sido inerente pesquisa de linguagem ao longo de toda mas
dificilmente seriam abordados quando os dados foram limitados pelas prticas da
lingstica de campo ou ento marginalizados pelas teorias de lio de casa
linguistics.Now, pesquisa corpus nos confronta com questes de princpios como
estes:
Qual o tamanho que um corpus tem, a fim de representar uma linguagem?
O que a razo entre a quantidade e qualidade dos dados?
Qual a relao entre a amplitude ea profundidade da descrio?
O que a relao entre a uniformidade e diversidade de dados?
Qual a relao entre regularidades e acidentes em dados?
Qual a relao entre gramtica e lxico de uma lngua?
Qual a relao entre a organizao manifesta e subjacente da linguagem?
Estas perguntas so to intricadamente relacionados entre si que discutir qualquer
um deles por si s uma tarefa desconfortvel. Mesmo assim, a pesquisa corpus
deve levar-nos em direo a algumas respostas que valem a pena com o auxlio da
tecnologia em si (cf. 4.6).
3.4.So nossa primeira pergunta diz respeito ao tamanho representativo de uma
noo corpus.The de toda uma linguagem que tem um tamanho quantificvel em
tudo no parece figurar na linguistics.5 moderna Ele seria, evidentemente,
discutvel se a linguagem definida como um "conjunto infinito de sentenas ",
mas eu tentei mostrar por que essa definio invlido (1,18).
3.5.Once uma linguagem definida como um conjunto muito grande finito embora
de dados, e tambm um sistema que prev sets indefinidamente maiores (1,20),
ento a nossa questo diz respeito relao entre o tamanho real de um corpus e
seu potencial tamanho size.Actual foi dominado principalmente por factors.In
prtico pesquisa corpus incio em computadores, quando a tecnologia de memria
e programao eram bastante limitadas, um milho de palavras parecia um
ambicioso size.When a tecnologia avanada, os motivos prticos foram novamente
dominante em ebulio at o tamanho de 20 milhes e, em seguida, para 200
milhes no Banco de Dados Collins Birmingham International University
(COBUILD) - familiarmente chamado de "Banco do Ingls" (BoE) - ou seja, para a
elaborao de um novo tipo de dicionrio data-driven que logo se tornou o
mercado standard.Then os corpora se foram oferecidos nos mercados comerciais,
como COBUILD em CD-ROM (5 milhes) e do British National Corpus (BNC) da
Oxford University Press (100 milhes).
3.6.This dominncia do lado prtico seria expected.Lexicography tem sido
tradicionalmente um empreendimento prtico e lingstica terica centrou-se
muito mais sobre a gramtica do que no lxico (cf. 3,11; 3,23) .Mesmo assim,
avanos prticos ainda so necessrios por mais tecnologia amigvel no acesso
end.Direct dos usurios a um corpus atravs da Internet est sujeita a vrios
distrbios, como linhas que est sendo sobrecarregado, ocupado, ou cortar
periodicamente off em meados de operao.Um corpus em um nico CD-ROM
(como a da COBUILD) s pode conter um conjunto de dados modestos e fazer
pesquisas simples e calculations.For tamanhos maiores e pesquisas mais
complexas, como o BNC, os usurios trabalham com vrios CDs em sistemas
operacionais pesadas, como Unix ou Linux, e exigem formao tcnica em sistemas
de masterizao como o "Corpus Data Interchange Format", baseado no "padro
Generalizadas Markup Language" (Aston e Burnard 1998).
3.7.But visto de lingstica no interior, a teoria o lado onde os avanos so
pressingly chamado para now.There, tamanho nos leva a outra questo da relao
entre quantidade e qualidade da hiptese data.The nula seria a de que para alm
de um limiar (dizer, um milho de palavras), aumenta de tamanho basta
multiplicar em uma proporcionalidade mecnico: um item ou padro que aparece
uma vez em 1 milho de palavras aparece 20 vezes nos 20 milhes de palavras e
200 vezes em 200 milhes de words.But esta hiptese s poderia segurar se uma
lngua fosse to uniforme um sistema que sua produo atinge um teto informao
definida e suas caractersticas vo asymptotic.Beyond que, a quantidade
aumentar, enquanto a qualidade manteve-se constante.
Pesquisa 3.8.Corpus, ao contrrio, sugere uma relao dialtica em que um grande
aumento na quantidade traz um aumento na qualidade, por isso o sistema de
linguagem deve ser muito mais diversificada do que os dados da hiptese nula
stipulates.New pode revelar limitaes no detectados anteriormente em cima de
uma aparentemente exemplo regularity.For sem restries, a maioria das
gramticas de Ingls, incluindo o COBUILD gramtica com base em cerca de 20
milhes de palavra-corpus, apresentam o padro de artigo Definido mais adjetivo
para se referir a toda uma classe de pessoas, e declar-lo "possvel utilizar quase
qualquer adjetivo dessa maneira "(Sinclair et al 1990:. 21f) .Mas Sinclair (1998:
86) relatou recentemente" preconceitos atitudinais e restries seletivos "no
corpus em 336 milhes de palavras: o padro principalmente reservada para"
"pessoas infelizes, como os idosos, os feridos, os desempregados, os doentes, os
idosos, os pobres e os deficientes, como em (4) pessoas .Fortunate ocorreu
principalmente por contraste com o infeliz, como em (5-6).
(4), em servios para os doentes mentais, os idosos e os deficientes, Sr. Cook
prometeu que o Partido Trabalhista iria nomear um ministro para o cuidado da
comunidade. (jornal)
(5) Este um sistema em que os ricos so cuidadas e os pobres so deixados a
sofrer em silncio. (jornal)
(6) o recurso, especialmente em pases latinos, bastante para invejar a sorte do
que a pena do infeliz. (Bertrand Russell)
Esse "vis de atitude" pode ser explicado pelo efeito de depersonalising omitindo
um substantivo para o adjetivo para modificar. Tais explicaes no podem ser
previstos ou admissveis em teorias lingsticas estabelecidas, mas poderia ser til
para a pesquisa de campo, bem como a etnografia (1,7), e tambm no ensino de
Ingls (4.4)
3.9.New idias so tanto reconfortante e disturbing.Just porque linguistas so
estimulados quando novas regularidades so descobertas (1,7), que esto
preocupados com a possibilidade de parar o avano da teoria atravs do
congelamento do tamanho de um corpus para motives.This prticas ou
tecnolgicas destino pode acontecer quando um dicionrio ou referncia de
trabalho chega ao mercado, eo agente de financiamento termina
support.Linguistics deve, portanto, fornecer ao pblico em geral e grupos de
usurios, em especial, com o conhecimento terico e prtico o suficiente para
apreciar a relao dialtica entre quantidade e qualidade. s ento que os
mercados comerciais sejam impelidos a construir corpora maiores como motivos
para reivindicar melhores produtos.
3.10.Our prxima e intimamente relacionado questo diz respeito relao entre a
amplitude ea profundidade da descrio (1.20) .Whereas pesquisa de campo
conseguiu um saldo de diligncia prtica pura em descrever os dados gravados
autnticos, pesquisa lio de casa procurou amplitude "infinito" e "universal"
apropriar profundidade por bootstrapping pura terica com punhados de dados
inventados no-autnticos (cf. 1.7f; 1,20) .So enquanto amplitude e profundidade
foram lentamente alcanado por pesquisadores de campo atravs de um curso
rduo de pequenos passos, eles foram rapidamente construdo a partir da teoria
dos "linguagem "pelos trabalhadores em domiclio.
3.11. Hoje, a grande corpus torna amplitude sem precedentes acessvel, mas no
necessariamente realizvel. O computador se assemelha a uma longa escada em
que ainda estamos aprendendo as habilidades para escalar os nveis mais elevados
na descrio da linguagem. Aqui tambm, muito depende de como um sistema de
linguagem uniforme ou diverso poderia ser. Para um sistema altamente uniforme,
uma descrio teria chances favorveis para ser completa (largura total) e precisa
(profundidade total). A maior aproximao em pesquisa de linguagem real nas
cincias companheiro de fonologia e fontica, teoria e prtica na partilha
impressionante acordo. Mas sua uniformidade uma projeo direta do aparelho
vocal humano eo alfabeto fontico. Na gramtica, a uniformidade foi
brilhantemente postulado na teoria, mas nunca demonstrou na prtica. E no lxico,
a diversidade inegvel manteve muitos linguistas de realizao de pesquisas em
todos (cf. 3,23)
3.12. Largura torna-se uma questo virulenta quando temos acesso a grandes
quantidades de dados. Profundidade torna-se virulenta quando temos de escolher
entre as fontes desses dados. A maioria das descries produzidas em lingstica
moderna foram destinadas a toda uma linguagem, por exemplo, ao "conjunto de
frases gramaticais de alguma forma dado com antecedncia" (1,20). As fontes de
dados no foram reconhecidos para constituir um factor problemtico, muito
menos quando os dados foram inventados pelos linguistas. A mesma profundidade
de descrio seria apropriado em todos os lugares, como seria os mtodos para
alcan-la. Na pesquisa corpus, esse otimismo logo se quebra. A linguagem em si
no de forma uniformemente profundas; o nmero de substantivos menos
profunda do que Definiteness: Auxiliares polares so menos profundas do que
Modal Auxiliares. Alcanando uma profundidade provvel que abra uma vista de
ainda mais profundo, como quando uma anlise da Agncia de verbos leva
descoberta de restries sobre pronomes como sujeitos ou objetos (cf. 3.32ff;
3,44). E a largura de uma descrio profunda, uma vez alcanada, pode ser difcil
de determinar, por exemplo, quantos verbos restries partes sobre a sua Agncia
(3,34).
3.13. At agora ns estamos no meio de sondar a relao entre uniformidade e
diversidade em um idioma. Aqui tambm, a teoria lingstica muitas vezes
inclinados a um dualismo acentuado. Uniformidade total foi atribudo linguagem,
testemunha "completamente homognea discurso na comunidade" de Chomsky
(1,9); ainda diversidade total foi atribudo ao discurso, testemunha Saussure
"massa heterognea de fatos acidentais" (1,11). E a teoria lugar nenhum explicou
como to extremo um dualismo de ordem e desordem poderia habitar o mesmo
sistema (1.11).
3.14. Sem dvida, a nfase maior na uniformidade foi concebido para acomodar as
noes comuns da cincia, mas no conseguiu reconhecer a singularidade da
linguagem como objeto de investigao cientfica. L, uniformidade e diversidade
constituem uma dialtica dinmica, em paralelo, embora no idntica dialtica
entre linguagem e discurso. Todos os aspectos de uniformidade na linguagem deve
ser projetado para manter a diversidade (cf. 3,41). Na fonologia, a uniformidade de
fonemas como alvos comuns subscreve enorme diversidade entre os atos de
pronncia devido a fatores como a idade, sexo e estado emocional de alto-falantes,
e seu fundo regional ou educacional. Na gramtica, as funes de uniformidade so
diferentes na modalidade, devido s suas necessidades mais complexas e
multimodais para expressar mltiplos modos de significado. E o lxico do Ingls -
em contraste com muitas lnguas - proporciona uniformidade bastante modestos e
espordicos, devido a sua overlayering histrico e cultural de abordagens
extrnsecos ou especializados a palavra-composio, por exemplo, emprstimos
razes do latim e do grego.
Pesquisa 3.15.Corpus agora est comeando a revelar o significado da dialtica
entre uniformidade e diversity.Language encontrado para ser menos uniforme, e
discurso menos diversificada do que a teoria lingstica costuma assume.The
uniformidade de linguagem projetado para gerar diversidade em -line; ea
diversidade do discurso refere-se continuamente de volta para e renova a
uniformidade de linguagem (cf. 3,41).
3.16. Em termos de prtica corpus, a uniformidade pode realmente ser uma
desvantagem. Se estamos compilando o que Sinclair (1999) chama de "corpus
genrico ou de referncia" para cobrir o idioma Ingls de forma to ampla quanto
possvel, ento devemos considerar at que ponto os dados recm-chegados
parecem uniforme ou diverso ao lado de nossos dados j adquiridos. O valor da
informao de um corpus no iria aumentar significativamente a partir de
aumentar o armazenamento de dados uniformes do mesmo tipo. Esse problema se
aplica especialmente aos meios de comunicao, como os jornais abundantes
convenientemente publicados na Internet ou disponibilizadas por via electrnica
directa, como o Sunday Times. L, a diversidade dos dados restrito em ser de
autoria de um grupo relativamente pequeno, bem treinada de escritores, e que est
sendo editado por um grupo ainda menor. Gostaria tambm de salientar o enorme
balo de freqncias como eu encontrei no BoE em julho de 1994 de palavras-
chave, tais como a violncia (19.226), mate (51.746), morte (31.013), assassinato
(18.383), estupro (5890), e agresso (4055), 6 refletindo os interesses mrbidos,
voyeurismo de mdia de massa mais do que as freqncias de autntica Ingls em
geral.
3.17. Fatores similares incidem sobre a relao entre as regularidades e acidentes.
Mais uma vez, a teoria lingustica tem sido largamente dualista: a linguagem
constituda por regularidades na medida em que pode ser um objeto da cincia; e
um discurso cheio de acidentes e, portanto, nenhum objeto em forma de cincia.
Antes muito grande corpora se tornaram disponveis, projetos para realmente
demonstrar regularidades por meio de freqncias estatsticas e medidas de
probabilidade eram raros e trabalhoso (por exemplo Kuera e Francis, 1967).
Lingistas deu garantias de que "um observador lingustica pode descrever os
hbitos de fala da comunidade, sem recorrer a estatsticas", porque "as formas de
linguagem" so "rigidamente padronizados" (Bloomfield 1933: 37); ou que,
quando nem ao menos "frases, nem qualquer parte deles j ocorreu em qualquer
discurso Ingls" ou "a experincia lingustica de um falante", que so
"estatisticamente" todos "igualmente remota" (Chomsky, 1957: 17). Estas duas
garantias contradiz categoricamente um ao outro - os dados sendo todos
altamente provvel ou altamente improvvel. Mas nem poderia ser testado sem a
tecnologia poderosa para medir a relao entre regular e acidental (1,22).
3.18.The papis potenciais para as estatsticas e probabilidades so certamente
devido para reavaliao, agora que temos muito grande corpora (Halliday 1991,
1992) .Finding e contando itens manifesto mais tratvel, ainda menos
informative.The freqncias de itens em um corpus pode dar nenhuma indicao
segura de sua carga funcional no system.Finding linguagem exatamente 6.000
ocorrncias para de no 5 milhes de palavra COBUILD Corpus em CD-ROM no
til, ns precisamos saber as propores para cada uma de suas mltiplas funes
em combinaes. e combinaes tambm esto sujeitos aos efeitos de balo eu
notei h um momento em notcias media.Among os 20.569 ocorrncias de sexo
devolvido pelo BoE em julho de 1994, descobri Sex Pistols (em 707), apelo sexual
(em 762) sexo oral (a 203), e de discriminao sexual (em 209) freqncias .Such
no so significativos a menos que possamos determinar o quo longe as
ocorrncias implicam o "mesmo" item em tudo.
Freqncia 3.19.The de combinaes manifesto , portanto, menos tratvel, mas
mais informative.Corpus pesquisa dedicou grande parte de explorao para as
combinaes lexicais tpicos chamados colocaes, e as combinaes gramaticais
tpicos chamados colligations.7 entanto tipicidade no pode ser explicada em
termos de frequncia sozinho .in meu combinado corpora de 12 milhes de
palavras de escritores britnicos e norte-americanos, que serei citando mais
adiante, entre um total de 339 ocorrncias do verbo fugiram apenas 3 da colocao
fugiu do country.To minha intuio, esta combinao parece tpico mesmo que a
sua frequncia e probabilidade estatstica so negligible.It tambm ocorreu apenas
uma vez entre os 99 usos da fugiram no COBUILD em CD-ROM:
(7) aps o colapso da autoridade czarista, oportunistas declarou uma democracia
independente, ento uma junta militar que fugiu do pas. (livro)
Mas eu posso tirar alguma confirmao onde o verbo fugiu levou nomes de pases
como objetos diretos: Frana, Iraque, Kuwait, Crocia, Alemanha.
3.20.We agora a uma questo realmente assustadora: a relao entre a organizao
manifesta e subjacente da lingstica language.Modern foi postular uma
organizao "subjacente" da linguagem o tempo todo (por exemplo, Saussure 1966
[1916]: 56; Sapir 1921: 144; Bloomfield 1933: 225F; Hjelmslev 1969 [1943]: 9F;
Chomsky 1965: 4f, 10, 18, 22) .Entre as perspectivas grandiosas era que as
"gramticas descritivas de diversas lnguas" iro "algum dia" nos permitem "ler a
partir de eles as grandes planos de cho subjacente "(Sapir 1921: 144)
.Presumably, esses" planos "so o objetivo do trabalho em" universais lingusticos
", mas a maior parte desse trabalho carece de uma base segura em gramticas
descritivas.
3.21. Alm disso, a lingstica se manteve perturbadoramente evasiva sobre como
podemos derivar a organizao "subjacente" da organizao manifesta. Assim, a
proviso de Chomsky que "os dados reais de desempenho lingstico" constituiria
uma "evidncia para determinar a correo de hipteses sobre a estrutura
subjacente de" conflito com sua insistncia de que "estrutura de superfcie"
"unrevealing" e "irrelevante" e "peles distines subjacente" (1965: 18, 24). Com
sinceridade surpreendente, ele admitiu que sua proposta "gramtica no, por si s,
fornecer qualquer procedimento sensato para encontrar uma estrutura profunda
de uma determinada frase"; e ele evitou toda a questo, operando sobre a
"simplificao e ao contrrio da realidade suposio de que a seqncia bsica
subjacente a frase" (1965: 141, 18).
3.22. Esses subterfgios prontamente segue das tendncias j observadas atribuir
a linguagem modos altamente idealizadas de ordem e de transpor o conceito de
linguagem a partir do caso particular ao longo de uma abstrao universal (cf. 1.8,
13, 16, 20; 2.5). Ao faz-lo, naturalmente, promove uma prontido para ver
desordem em dados do manifesto, e, portanto, uma certa relutncia em explor-los
na busca de ordem subjacente (cf. 1,11; 3,12). Em vez disso, os modos artificiais de
ordem se emprestado de fontes como a lgica ou a matemtica formal, o que s
intensifica a natureza idealizada e abstrata de "linguagem" (1,8).
3.23. Aqui, podemos destacar a relao entre gramtica e lxico. Teoria lingstica
tem muito tempo considerada "gramtica" como o epicentro da uniformidade e
regularidade de toda uma linguagem e como uma casa para os universais
lingusticos (compare Saussure 1966 [1916]: 133, 152; Sapir 1921: 38; Bloomfield
1933: 163; Chomsky 1957 : 56). Em troca, os lingistas h muito concordou que o
lxico uma mera "lista de irregularidades bsicas" (Bloomfield 1933: 274; cf.
doce 1913: 31; Saussure 1966 [1916]: 133; Chomsky 1965: 86f, 142, 214, 216 ).
Em menor escala, essa dicotomia re-encena a dicotomia entre a ordem da
linguagem e da desordem do discurso (1.11), e novamente lingstica escolheu
ordem: muito trabalho em gramtica, pouco no lxico (3.6). Eventualmente, um
linguista lio de casa pode baldly anunciar que "a lingstica no sobre a
linguagem; trata-se de gramtica "(Smith, 1984).
3.24. Aqui, novamente, a teoria lingstica deve substituir a dicotomia com uma
relao dialtica, esta gramtica uma coordenao e lxico e constituindo o
lexicogrammar interativo, o "powerhouse semogenic da linguagem" () Os dois
lados no diferem em espcie, mas em graus de delicadeza : menor para o lado
gramatical e superior para o lado lexical. Talvez o lxico pode ser considerado para
alguns fins como "gramtica mais delicada" (Halliday, 1961: 256; Hasan, 1987:
184; Cruz, 1993: 199) .8
3.25. As interaes de gramtica e lxico so facilmente visvel a partir de
pesquisas corpus em coligaes e colocaes no sentido de 3.19. Uma vez que estes
so definidos como combinaes tpicas, eles continuamente chamar a nossa
ateno para os motivos plausveis de alto-falantes ou escritores para coordenar
vrias selees. Por exemplo, o verbo Ingls "riacho", que significa "aceitar,
tolerar" geralmente requer um elemento negativo (Sinclair, 1994), como em:
(8) Johnson no podia tolerar que parece ser penteada no argumento (Life)
(9) Bouille monta, com pensamentos que no ribeiro fala. (Francs)
(10) seu trabalho era de um tipo que no admitiria negligncia (Lady)
Esse verbo raramente usado, e preferencialmente em linguagem solene sobre um
assunto pesado, como no drama de Shakespeare:
(11) Esse negcio de peso no vai tolerar atraso (Henry VI)
(12) O meu negcio no pode tolerar esse flerte. (Comdia dos Erros)
(13) rei falso, por que tu tens f quebrada comigo,
Saber como mal posso tolerar abuso? (Henry VI)
Esta segunda restrio mais delicada do que a necessidade de uma negativa,
ainda mais difcil de definir em termos de escolhas lexicais manifesto. O negcio de
peso pode ser o assassinato de um Duke (11), ou apenas a cobrana de uma dvida
(12). O weightiness so em parte simplesmente de usar ribeiro, em vez de,
digamos, permitir ou tolerar.
3.26. Tais dados do lexicogrammar de Ingls nos apontam para a imensa tarefa de
contabilizao de vrios parmetros de variao de uma lngua: gnero, registrar e
estilo. Em termos de teoria, estes constituem os sistemas de controle
intermedirios entre a linguagem eo discurso (Beaugrande 1997eh?). Seu projeto
deve ser tal que, quando um deles ativado, o nvel de ativao gerado para
opes adequadas e baixou para os inadequados (Kintsch 1988;. Rumelhart et al
1986). Em termos de prtica, que, obviamente, afeta as selees e combinaes
que podemos esperar encontrar em dados discurso autntico; mas como descrever
esses efeitos est longe de ser claro nesta fase.
3.27. Aqui, podemos prosseguir uma estratgia de resoluo dialtica: a construo
de sub-corpora onde prevemos distines sistemticas de qualidade; e em seguida,
usando as nossas concluses para testar e refinar as nossas previses e avaliar a
tipicidade dos estoques de dados especificados como indicadores de algum gnero
ou estilo (cf. 4.5f). Para uma breve demonstrao, vou recorrer a trs fontes
distintas: (a) dois corpora da literatura, um por autores britnicos (por exemplo,
Austin, Dickens, Wilde) e um por autores americanos (por exemplo, Hawthorne,
Mark Twain, Willa Cather) , datando mais ou menos entre 1750 e 1920 e, juntos,
totalizando 8,7 milhes de palavras; (b) dois corpora de doutrina e cvicas,
novamente incluindo britnica (por exemplo, Darwin, Bulwer-Lytton, JS Mill) e
americanos (por exemplo, Thomas Jefferson, Jane Addams, WEB DuBois), juntos
totalizando 4,8 milhes de palavras; e (c) Collins COBUILD em CD-ROM (5 milhes
de palavras), que representam o uso cotidiano contemporneo. Os dois primeiros
conjuntos de corpora, totalizando todos juntos 13,5 milhes de palavras (ver
apndice para lista de textos atuais), eu me compilado para rodar em WordPilot ,
um programa de recursos desenvolvida por John Milton, da Universidade de Hong
Kong de Cincia e Tecnologia (Milton 1999). Minha compilao tambm enfrentou
restries prticas fortuitas: Eu tive que usar os textos que esto em domnio
pblico e podem ser baixados de sites da Internet.
3.28. Nas fontes (a) e (b), o padro de artigo definido mais Adjetivo foi encontrada
para ser mais equilibrado do que nos dados relatados no Cobuild 3.8. A maior
freqncia apareceu entre doutrina e cvicas, que so logicamente propensos a
classificar as pessoas. Juntamente com os contrastes, como os observados por
Sinclair, por exemplo, (14-15), encontrei muitos, onde as pessoas afortunadas
ocorreu sozinho, embora, por vezes, com o intrigante ironia de no ser seguro em
sua boa fortuna (16-17).
(14) Sorria com o simples e alimentar com os pobres? [...]; deixe-me sorrir com o
sbio, e alimentar com os ricos (Boswell, citando Samuel Johnson)
(15) Nenhum sabe o infeliz, ea sorte no sei se (Poor Richard)
(16) H sempre alguma circunstncia de nivelamento que pe o arrogante, o forte,
o rico, a sorte, substancialmente, o mesmo terreno com todos os outros (Emerson)
(17) os educados ver uma ameaa no desenvolvimento ascendente seu [do homem
negro (WEB DuBois)
Se gramtica-books descrever o padro como sendo mais geral do que
confirmado pelo uso contemporneo na COBUILD, ento talvez intuitivamente
tomando discurso acadmico para ser um modelo de uso de Ingls em geral.
3.29. Em face disso, a resoluo dialtica pode parecer circular: usando o tipo de
identificar as caractersticas de interesse, enquanto que o uso desses recursos para
identificar o tipo. Mas os tipos de texto no podem, em teoria, ser definido
mediante comprovao rigorosa, uma vez que, na prtica, a maioria dos tipos so
definidos atravs de heursticas intuitivos por usurios da lngua. Alm disso, os
tipos so frequentemente misturados, como em:
(18) Um casamento um momento de alegria e uma ocasio apropriada para
mostrar as tradies milenares em uma poca onde a modernidade est corroendo
aspectos importantes do passado. Este vislumbre muito a par da Arbia era uma
cerimnia de casamento re-promulgada dos povos indgenas, refletindo a beleza
intemporal e simplicidade de estilos de vida da Arbia, costumes e identidade
nica, at os anos 70 leo-boom trouxe dramtico desenvolvimento scio-
econmico. (Khaleej Times)
Tal discurso bruscamente mistura os estilos de solenidade (alegria, antigamente),
cincias sociais (modernidade, indgena, identidade, desenvolvimento scio-
econmico) e turismo (idade de idade, beleza intemporal e simplicidade, estilos de
vida), juntamente com o ocasional solecismo (vislumbre muito a par). O mix reflete
vrios objetivos, como disfarar uma armadilha para turistas como um local
cultural enquanto lisonjeiro comando dos leitores de uma variedade culta da
Ingls aqui em Estados do Golfo.
3.30.Another estratgia pode ser para ns para criar regies locais de
profundidade substancial por descrever conjuntos de dados estreitas com alguns
thoroughness.The resultando idias poderiam, ento, ser projetada em conjuntos
mais amplos e orientar a nossa seleo de aspectos e caractersticas de
investigate.For exemplo, o COBUILD dados nos 20 milhes de palavras mostrou
um verbo como elude sendo usado apenas no Active (cf. Sinclair et al 1990:. 407),
por exemplo:
(19) Novas tcnicas, como o osso de varredura e ultra-som, permitiram-nos
encontrar mais das causas de dor nas costas, mas um grande nmero ainda iludir-
nos (magazine)
(20) Sylvie Guillem como Nikiya nos deu sua tcnica impecvel e musicalidade,
embora a espiritualidade do papel at agora escapa dela (jornal)
Na minha corpora literria e acadmica que eu encontrei 'elude "no passivo apenas
seis vezes, como em:
(21) As minhas importunaes no seria agora iludiu (Wieland)
(22) que diminui o consumo; a coleo escapado; eo produto para o tesouro no
to grande (FedPap)
O significado de dados como (19-20) aproximadamente: algum conhecimento ou
habilidade seria apropriado, mas no foi encontrado. O significado de dados como
(21-22) mais como: algumas pessoas encontrar maneiras de evitar algo. O
Passive me parece intuitivamente moda antiga; e verses passivas desses Actives
parece totalmente improvvel:
(19-A)? ? que so despistados por um grande nmero de causas de dor nas costas
(20a)? ? Sylvie Guillem iludido at agora pela espiritualidade do papel
3.31. Agora, para aumentar a profundidade de nossa anlise de elude, podemos
examinar algumas colocaes e coligaes tpicas. Entre os substantivos como
objetos diretos, as colocaes visivelmente agrupados em torno de vigilncia, que
ocorreu nove usos, por exemplo, (23), juntamente com os associados como a
observao (24), dos olhos (25), e vista (25).
(23) Nelson temia a mais que este francs pode sair e escapar sua vigilncia
(Nelson)
(24) eu no tinha esquecido as precaues para garantir a minha segurana
pessoal, se eu pudesse escapar observao. (Eyre)
(25) Que eu poderia enganar os olhos aguados de Rima Eu duvidei (Mansions)
(26) olhar fatal de Hare, impossvel de escapar (deserto)
Outras colocaes tpicas includo aperto (6 usos), por exemplo (27), e busca (4
usos), por exemplo, (28).
(27) a jovem escapou das garras do selvagem (ltima)
(28) Eu parei em um ou dois stands de treinadores para escapam busca (Erros)
Os significados de todas essas colocaes envolvem duas agncias opostas, um
deles visando iludir o outro e as potenciais consequncias.
3.32. Entre as coligaes, o mais impressionante, de longe, foi uma preferncia
marcada por pronomes pessoais como objetos diretos. Dos 17 acontecimentos de
dados Cobuild, 13 mostraram que este coligao, como em (19-20). Outros
exemplos incluem:
(29), ele define sua posio essencial, como um homem em busca permanente de
um Deus que lhe escapa. (jornal)
(30) eram artistas de distino considervel, mas man-in-the-street
reconhecimento lhes escapou (jornal)
(31) "River Lane", disse Shields. 'Clarke, claro! "Isso era o que tinha sido iludindo
ele. (livro)
Aqui, um outro significado diz respeito falta de algum insight ou conhecimento; a
transitividade ativa desloca a Agncia nesta falta da pessoa para o conhecimento.
3.33. As propores entre as coligaes em meus outros corpora foram menos
marcantes, mas ainda sugestivo: de 76 ocorrncias, 22 com pessoal pronome
Objects. Ao lado de uma ideia (32) ou um facto (33), os agentes concretos, como
uma pessoa (34) ou animal (35) fez o iludindo.
(32) Ele falava como algum que estava tentando manter a preenso de uma idia
que lhe escapava. (Tempo)
(33) Algo parecia dar forma no crebro de Jimmy. O simples fato de que ele havia
escapado at agora surgiu em sua mente. (Damsel)
(34) Apesar de Sam assombrado trio e escadaria e salas de metade da noite, os
fugitivos lhe escapava (Giro)
(35) Todos os quatro barcos deu a perseguio de novo; mas a baleia iludiu (Moby)
Apenas dois agentes confundiu apareceu em objetos diretos como substantivos,
em vez de pronomes:
(36) Esta baleia ilude os caadores e filsofos. (Moby)
(37) vezes o capito correu para fora da loja para iludir MacStingers imaginrios
[sua senhoria] (Domb)
Estou ciente de nenhuma referncia, na literatura lingustica sobre Pronomes, para
classes de verbos que coligar com pronome objetos, muito menos qualquer
considerao terica potencial. Provisoriamente, podemos descrever tais verbos
como expresses de Processos Agent-opostas, que so geralmente acompanhadas
de algum fundo preparatrio identificao dos agentes. Em alguns contextos, os
dois agentes so pessoas (ou animais), o sujeito fazendo algo eo objeto iludindo-lo.
Em outros contextos, o assunto no uma pessoa e, portanto, um pseudo-agente,
mas algum conhecimento ou habilidade que est faltando, e que o objeto um
agente que no tem a iniciativa. Em qualquer tipo de contexto, o agente escapado
frequentemente clara e pode ser designado por um pronome.
3.34. O prximo e mais difcil problema seria explorar como ampla essa restrio
detectada localmente poderia ser. Desde uma consulta de fora bruta de verbo +
pessoal pronome oblquo em um grande corpus seria explosivo, que pode tocar a
nossa intuio sugerir Verbos candidatos plausveis. Por este meio, minhas
consultas trouxe luz os verbos repreenso colligating na ativa com objetos
pessoais pronome em 24 das 51 ocorrncias; suplico em 94 de 126; e agradeo em
121 de 185 (Tambm, obrigado tinha uma quota justa de Assuntos pessoais
pronome, ou seja, em 84 ocorrncias.) medidas similares de pessoal pronome
objetos foram encontrados com os verbos Pseudo-Agent convinha em 14 dos 19
ocorrncias; e acontecer em 108 de 189 Os dados para suceder mostrou um vis
de atitude distinta e ameaador para as escolhas dos indivduos Pseudo-Agente: as
colocaes primrias foram infortnio (em 26), acidente (a 23), calamidade (em
19), e desastre (em 10).
3.35. Usando a intuio desta forma est longe de proclam-lo para suprir a
"enorme massa de dados inquestionveis" invocada pelos lingistas de casa (1,9).
Intuies so sempre questionvel, eo corpus faz o questionamento fcil. Por
exemplo, a minha intuio Verbos que a corpora no mostrar nos padres de
coligao de reprovao em quaisquer propores significativas, como reprimenda
(6 de 27) e rejeio (3 de 34) sugerido.
3.36. CITAO INTERESSANTE Pesquisa Corpus reformula o linguista: no no
papel do "speaker-ouvinte ideal, em um discurso na comunidade completamente
homognea, que conhece a sua lngua perfeitamente", mas no papel de um alto-
falante-ouvinte comum (e escritor-leitor) em uma comunidade heterognea, quem
sabe a sua lngua apenas parcialmente e procura ativamente o acesso ao
conhecimento de outras pessoas. Ns reivindicamos autoridade para nossas
demonstraes de no abrigar poderes super-humanos de introspeco (1,9), mas
a partir do exame de grandes conjuntos de dados autnticos produzidos por uma
comunidade que coloca suas teorias implcitas da linguagem em uma ampla gama
de prticas (cf. 1.3) . E nossas demonstraes no so sobre a "linguagem" como
uma abstrao "universal", mas sobre esses dados em um idioma e muitas vezes
sobre apenas um gnero, registrar ou estilo (3,25). Um efeito normal da dialtica
da quantidade e qualidade (3,7) - - Tais declaraes podem ser facilmente
"confirmada ou anulada" por mais ou outros dados, mas de qualquer etapa
confirma mais uma vez a vitalidade de utilizar os dados autnticos.
3.37. A intuio ea introspeco so, portanto, em grande parte, heurstica e
oportunista. Eles sugerem coisas para experimentar ou assistir, e eles nos ajudam
a determinar o status eo significado aps o fato, uma vez dados autnticos so
colocados diante de ns (Francis e Sinclair, 1994: 194). Eles no so muito
confiveis como fontes de dados, e menos ainda como fontes de informao sobre
as propores entre selees e combinaes de dados.
3.38. Permita-me demonstrar este ponto com um conjunto de dados final. Em julho
de 1994, encontrei 515 ocorrncias de no podia ajudar e no pude deixar no
Banco do Ingls, em seguida, em 225 milhes de palavras. Minha intuio me levou
a prever uma quantidade razovel de dados colligating com um substantivo Objeto
direto para alguma pessoa alvo que no podia ser prestada assistncia, mas
encontrei apenas quatro, nem mesmo 1% do total. Aqui eu encontrei um outro
fenmeno apontado por Sinclair (1991: 493f): o presumivelmente bsico
autnomo significado listado em primeiro lugar por dicionrios convencionais no
sendo em tudo o mais frequente nos dados corpus. O significado de ajuda como
"dar assistncia aos ' listado primeiro na Stima Collegiate de Webster (p. 387),
enquanto que o significado de' abster-se de" ou "Evite fazer" listado em stimo
lugar. O projeto de um tal dicionrio dificilmente admitiria uma definio separada
para no ajudar ou no poderia ajudar, mesmo que o significado
comprovadamente distinta.
3.39. Os principais coligaes de longe nos dados Cobuild estavam com verbos: ou
um particpio presente (por exemplo, no poderia deixar de admirar), ou ento
com mas + infinitivo (por exemplo, no pude deixar de rir). Isso eu poderia ter
previsto, mas no a minha concluso de que nenhum Advrbio j entrou entre (por
exemplo, no podia deixar de admir-la profundamente) - uma opo totalmente
gramatical, mas no foi encontrado (mas cf. 3,45). Em troca, eu encontrei dois
padres mistos gramaticais menos (no pude deixar de pensar e no pude deixar
de chorar) -o segunda pela perturbada Mary Wells, Tornado Vtima.
3.40. Ainda menos poderia minha intuio previram as propores entre as
colocaes. Quase metade do total (em 234) colocado com um fora de um conjunto
de apenas quatro verbos; voc poderia prever quais? Eles eram sensao (em 68),
aviso (em 58), acho que (a 59), e maravilha (em 49). Ainda assim, se eu no
poderia prever, eu poderia "retrodizer 'aps o fato, observando que esses verbos
representam processos que poderiam muito bem ser julgados no devidamente
sujeitas a controle consciente: eles podem levar a emoes, percepes e
pensamentos, onde parece apropriado para observao de que algum no poderia
ajud-la. O padro pode, portanto, ser considerado um auxiliar Face-Saving: uma
expresso que atenua a Agncia de verbos de processo, a fim de salvar a face
depois de alguma ao que possa ser interpretado como precipitada ou
inadequada. Tal explicao no pode voltar a ser previsto ou admissvel nas teorias
da lingstica convencionais, mas pode ser til para os etngrafos (3.8).
3.41. Alm disso, esses mesmos verbos freqentes tambm poderia fornecer
Ncleos teis para a maioria das colocaes mais delicadas, indicando um caminho
importante que a uniformidade projetado para suportar uma diversidade (cf.
3,14) O sentimento topo do ranking poderia ser o Ncleo de colocaes atestadas
com choro , rindo / rindo, sorrindo / rindo, corando, temendo, gostando, amando,
admirando, simpatizando, estremecendo, preocupantes, alm de quase todos os
collocates delicados em coligao com ser ou estar: tocou, encantado,
impressionado, emocionado, emocionalmente envolvido, fascinada , atingido,
levado, arrastado, divertida, ciumenta, confusa, nervoso, assustado, surpreendido,
chocado, ofendido. Emoes podem plausivelmente torn-lo auto-consciente, seja
agradvel ou desagradvel, testemunha tambm a lista de objetos diretos ou
modificadores coinstalao com o verbo sentir nos dados: a agradvel queridos
entusiasmo, paixo, emoo, prazer, impressionado, foi justificado, eo
desagradvel aqueles inveja, culpa, vergonha, desculpe, ofendido, apreensivo,
alarmado.
3.42. O perceber um pouco menos freqente poderia fornecer um Ncleo para ver,
olhando, olhando, ouvindo, ouvindo, lembrando-se, estar consciente. Pensando
poderia ser o Ncleo de conhecer, considerando, refletindo, imaginando, e poderia
subsumir a freqente perguntando, onde a incerteza, em vez de emoo pode estar
fazendo voc auto-consciente.
3.43. Um grupo de collocates formado um cluster sem Ncleo freqente: falar,
dizer, contar, comentar, apontando, comentando, declarando, sugerindo,
respondendo, concordando, contestando, lembrando, felicitao, deixando escapar.
Aqui podemos escolher o Ncleo por sua generalidade bastante a sua frequncia:
falar estar envolvido em todos os outros, mas no vice-versa (proverbialmente,
pode-se falar sem dizer nada).
3.44. Os sujeitos foram divididos colligating igualmente entre substantivos e
pronomes. No entanto, as propores entre os pronomes foram dramaticamente
desigual. Eu entrei em muito frente com 150 ocorrncias, seguido depois de uma
grande lacuna por ela (48) e ele (45), e depois de uma outra lacuna por voc (15),
ns (7), e eles (6), mais o Impessoal um (11) - para um total de 282 indivduos
pronome (55% do total de dados). Aqui podemos ter evidncia de restries sobre
o que poderamos chamar Multi-Processo Agncia, de modo que a identidade do
agente estabelecida por um (ou mais de um) processo antes de dizer que o
agente no poderia ajud-la.
3.45. Os dados da minha dois corpora literria deu uma imagem mais delicada
dessas restries. L, eu registrado 147 ocorrncias de no podia ajudar e 320 com
no podia ajudar, para um total de 467 Alm disso, os 320 constituram 86% das
370 ocorrncias de no ajudar. A freqncia altamente significativo se
considerarmos que estes corpora, em um total de apenas 8.700 mil palavras, so
cerca de 25 vezes menor do que a COBUILD em 225 milhes, que retornou 515 A
explicao mais plausvel que eu posso encontrar - novamente no uma
"lingustica "um, em qualquer sentido estabelecido - a funo til para enquadrar
Eventos em discurso literrio, de modo a comunicar ao leitor prpria perspectiva
de um personagem, como o que algum estava me sentindo ou pensando, talvez
com nenhuma ao manifesta, como em:
(38) Connie preso a ele com paixo. Mas ela no podia deixar de sentir como
conexo pouco ele realmente tinha com as pessoas. (Chatter)
(39) imaginao da senhora Tulliver no foi facilmente agiu, mas no podia deixar
de pensar que seu caso era um duro (Floss)
O estilo literrio pode explicar o atestado de advrbios inseridos, que nunca
apareceram em dados Cobuild (3,39), tais como:
(40) Ela no podia deixar freqentemente olhando olho no Mr. Darcy (Orgulho)
(41) no pde evitar secretamente aconselhando o pai dela no deix-la ir.
(Orgulho)
(42) Florence no poderia ajudar, por vezes, comparando a casa brilhante com o
lugar sombrio desbotada (Domb)
Em alguns desses dados, no h nenhum outro lugar razovel para colocar o
advrbio.
3.46. A qualidade pessoal e interna tambm pode ajudar a explicar as freqncias
enormes, semelhantes aos observados em dados Cobuild, de primeira e terceira
pessoa do singular Pronomes como sujeitos: I (151), ele (75), e ela (85), para um
total de 311 (67% de todos os meus dados). Os plurais foram -ns rara (6) e (5) -
provavelmente por causa de um sentimento ou um pensamento normalmente
pertence a apenas um agente. O pronome de segunda pessoa voc era raro tambm
(4), sem dvida, devido baixa probabilidade de dizer algum a sua cara o que no
poderia ajudar.
3.47. s ainda maior delicadeza, eu achei que a escolha da contrao no poderia
fez a diferena aqui. Considerando que ela e ele eram cerca de metade to
freqente quanto para no pudesse, eu estava mais do que duas vezes mais
frequentes:
no podia deixar de (total de 147) no poderia ajudar (total de 320)

I 73 (49%) 78 (24%)
ela 17 (11,5%) 68 (21%)
que 19 (13%) 78 (24%)
Eu chequei todos os dados para ver se a contrao foi preferido para o discurso
falado. E, de fato, apenas 14 dos 73 usa com no poderia no ocorrer em discurso
direto, como (43), mas na voz do narrador de primeira pessoa narrativas como As
Aventuras de Huckleberry Finn, por exemplo, (44); Somente neste ltimo trabalho
contribuiu 7 usos, mas, em seguida, Huck nunca diz no poderia, em qualquer
contexto. Por outro lado, apenas 4 dos 78 usa com no poderia apareceu em
discurso direto, como (45); tudo o resto foi na voz do narrador, como (46).
(43) ", ela tomou todo o gro para fora o 'dele. No pude deixar de me sentindo
pena dele s vezes ". (Fauntle)
(44) eu tive que pular um pouco, e saltar para cima e quebrar meus saltos algumas
vezes - eu no poderia ajud-lo (Finn)
(45) "Ele era um homem muito bom, senhor; Eu no poderia deixar de gostar dele.
"(Eyre)
(46) De minha parte, eu no podia deixar de pensar que este advogado no era to
invlido quanto ele fingia ser. (Clink)
3.48. Restries relacionadas aplicada s ocorrncias do pronome ele como objeto
direto. Os dados com a contrao registrados 70 casos (47%), os dados com no
poderia um mero 19 (6%). Aqui tambm, o contexto tende a estabelecer
identidades: no para agentes e Metas, como para o Assunto (3,44), mas por aes
e dos Estados. As pequenas freqncias da terceira pessoa pronomes ela (1), ele
(1), e eles (2) como objetos diretos novamente documenta a raridade do
sentimento de ajuda como "dar assistncia a '(3,38). Os poucos substantivos como
objetos diretos tambm foram expresses de aes, e no agentes, como em:
(47) Connie no podia deixar um ronco sbita do riso espantado (Chatter)
(48) "Eu no poderia ajudar a interrupo, mas foi feita para isso depois de
trabalhar at dois '(Carrie)
Por conseguinte, encontrou uma disperso modesta de pares com a mesma ao
como substantivo ou como verbo, como em:
(49) Com essa possibilidade iminente no podia deixar de vigilncia. (Caster)
(50) Catherine, embora no permitindo-se a suspeitar de seu amigo, no pude
deixar de observ-la de perto (Abbey)
A coligao com um verbo no particpio presente foi bastante visvel com no
podia: 256 de 320 (exatamente 80%). Para no podia ajudar, esta coligao logado
no 61 de 147 (41%), tendo que competir l com ele aos 70 Alguns autores
utilizados no podia deixar exclusivamente a ela, tais como Mark Twain, Harriet
Beecher Stowe, e Theodore Dreiser.
3.49. O assunto das preferncias dos autores em relao a regularidades
lingsticas um intrigante um em pesquisa corpus. Podemos afirmar que os meus
corpora so muito pequenos, o que , sem dvida, perfeitamente verdadeiro, tanto
mais dada a dimenso de alguns textos individuais, como Ulisses, de Joyce em mais
de 266 mil palavras. No entanto, as diferenas de tamanho entre os textos de
exemplo um dado emprico importante, especialmente quando se espera que o
pblico para ler todo o texto. Alm disso, no podemos determinar com
antecedncia o quanto um autor ou um texto pode ser internamente consistente o
suficiente para inclinar nossas medies em uma direo - Ulysses certamente no
. A coligao depender dele (que significa "voc pode ter certeza") aparece 55
vezes na minha corpora, dos quais 28 vm de Jane Austen; mas seu uso era tpico
da amostra inteira, onde totalmente 46 so imperativos e mais 8 colligate como
voc pode depender dele no mesmo sentido. A tipicidade foi confirmado pelos
dados no meu corpora da doutrina e civis britnicos e americanos. L, depender
dele aparece 23 vezes novamente como Imperativo ou com voc pode. 14 deles
foram proferidas pelo Dr. Johnson na vida de Boswell, cujo item seguinte Sir em 12
ocorrncias podem ser cobrados de forma segura a uma idiossincrasia pessoal.
3.50. Pelo menos to intrigante a questo das preferncias dos tradutores em
relao a regularidades lingusticas de vrios idiomas A coligao Ingls no
poderia ajudar no mais Verbo (51-52) no mostram correlaes regulares no
Alemo (51a-52a) ou espanhol (51b -52b) verses de Alice no Pas das Maravilhas,
enquanto marcas francesas ver com s'empcher ne pouvoir (51c-52c). Mas a
coligao no poderia ajud-la tem um correlato independente em todas as trs
verses (53-53c).
(51) Alice estava quase se levantando e dizendo: 'Obrigado, senhor, por sua
histria interessante ", mas ela no pde deixar de pensar que deve haver mais por
vir
(51a) Alice nahe guerra daran, aufzustehen sagen und zu: 'Besten Dank fr deine
wirklich Interessante Lebensgeschichte', aber sie sich dann sagte, dass doch noch
etwas einfach kommen mute
(51b) Alicia estaba dispuesta um levantarse y decir: 'Gracias, seora, POR su
historia interesante ", pero no pudo dejar de Pensar Que algo mas iba a decir la
Tortuga
(51c) Alice fut sur le point de se alavanca en disant: 'Je vous remercie, madame, de
votre intressante histoire', Mais elle ne colocar s'empcher de penser qu'il devait
surement y avoir une sute
(52) que iria torcer-se todo e olhar em seu rosto, com uma expresso to confusa
que ela no podia deixar de desatar a rir
(52a) hatte das Nvel eine Art, sich und ihr umzudrehen mit einem to
verwunderten Ausdruck ins Gesicht zu sehen, dass sie Laut herauslachen mute
(52b) el ava de pronto se giraba, Mirandole um Cara con la tan perpleja expresso
that Alicia no PODIA Contener la risa
(52c) le flamant ne pas de manquait se retourner et de la regarder bien en face
d'un ar si intriga qu'elle ne pouvait s'empcher de rire
(53) "Olhe para fora agora, cinco! No v tinta espirrar em cima de mim desse
jeito! '"Eu no poderia ajud-la", disse o Cinco
(53a) 'Pass auf doch, Fnf. Du spritzt mich ja berall voll mit deiner Farbe! 'Dafr
kann ich nichts', sagte Fnf
(53b) "Ten Cuidado, Cinco! Me Ests salpicando TODO de Pintura! '"Pecado Fue
querer'- dijo Cinco
(53c) "Fais donc ateno, Cinq! ne pas m'clabousse de peinture comme a! "-'Je ne
pas l'ai fait Expres ', l'autre rpondit
Aqui aparece um vasto campo de pesquisa para estudos de traduo com corpora
texto paralelo (cf. Rei e Woolls 1996). Expresses correlatas que arranja e colligate
da mesma forma em duas ou mais lnguas, provavelmente, ir revelar-se rara.

4 para o Milnio

4.1.I espero que a presente discusso pode ter gravado alguns arranhes na
superfcie da imagem em movimento da linguagem e do discurso sob o impacto da
grande impacto corpus data.The parece suficientemente radical que uma grande
revoluo cientfica ou mudana de paradigma pode ser previsto. no passado, a
lingustica tem vindo a cultivar uma grande oferta de teorias abstratas, enquanto o
adiamento e marginalizando descrio do practices.Today enfrentamos uma oferta
muito maior de prticas concretas, que devem ser descritos antes mesmo de
definir o que uma "linguagem" . Eu no defendo que a construo da teoria deve
ser arquivado, mesmo que temporariamente, mas sim que a construo da teoria
deve finalmente e definitivamente deixa de correr to longe da prtica, e deixar de
inventar argumentos por que a teoria no pode ser derivados ou testados de
prtica.
4.2.As corolrio, prioridade cientfica inquestionvel deixariam de ser colocado
statements.These abstrata e geral pode ser o mais difcil de demonstrar com
data.And autntica podemos incorrer no paradoxo de tentar fundamentar uma
teoria geral sobre casos especiais, selecionando dados desprovido de
caractersticas especiais (cf. 1,10) .Como geral ou especfica a descrio merece ser
deve ser decidido por nossos dados e por efeitos de nossas demonstraes
research.Concrete e especficas pode ser mais realista, e para algumas finalidades,
como a linguagem ensino, mais useful.Moreover, descries orientadas a dados so
de natureza especfica nos estgios iniciais e, gradualmente, ganhar generalidade
como a nossa imagem melhora do que examine.A conjunto substancial de
restries deve passar a ser mais especfico do que um discurso ainda menos que a
linguagem toda geral (2.9).
4.3.As mais um corolrio, no devemos mais deslocar dados reais com dados
inventados, ou converter dados em representations.Instead formal, devemos
trabalhar para chegar o mais longe que podemos utilizar dados reais para
representar themselves.Even nossa descrio da base organizao dos dados deve
ser o mais dados orientado quanto possvel, ao invs de expressos em alguns
"estrutura profunda" de carcter puramente teoria que compreendem "categorias
universais", que eu considero menos adequado para "fornecer ferramentas para a
descrio de um texto" (cf. 1.14- 15) a julgar pela experincia do passado,
"universais" tendem a ser indirectamente extrapolado de lnguas particulares,
afinal de contas, especialmente Ingls (2.3) dominncia .A deste ltimo na teoria
lingustica s pode ser efetivamente superada pela quantidade de trabalho firme
em grande corpora em tantas lnguas quanto possvel, cada tratado em seus
prprios termos.
4.4.Meanwhile, as lnguas bem descritos como o Ingls poderia ser usado por
pesquisadores corpus para no apressar acima e alm dos dados (como os
linguistas de casa fez, 1.10), mas para apresentar os dados a grandes audincias de
especialistas e no-especialistas para testar e discuss.By ampliao de nossa base
de audincia, podemos compensar com mais segurana preconceitos pessoais em
nossa prpria intuio e introspection.And as chances de aplicaes produtivas
iro melhorar, como o ensino de lnguas.
4.5.My prpria previso seria de que o progresso vai evoluir fora do processo que
chamei resoluo dialtica (3,27).: Os corpora que nos confrontam com problemas
dar apoio vital na soluo desses problems.If dados autnticos nos confrontar
com a diversidade, em seguida, devemos continuar a construir sub-corpora at que
cada um deles exibe signally reforada uniformity.Then interna podemos
comparar estes sub-corpora para identificar e investigar quais parmetros e
restries so specific.My prprio trabalho mais geral ou mais em tipos de texto
indica que os tipos so muitas vezes sujo e vagamente definido, devido
principalmente s diferenas entre os insiders e os outsiders, por exemplo, entre
os peridicos acadmicos e livros didticos aprendiz (Beaugrande, 2001) escrita
acadmica .Much rdua e gratuitamente tcnica e, na verdade, impede a
comunicao, mas as estratgias eficazes para melhorar a eficincia exigem dados
corpus para descrever as prticas atuais.
4.6.Again pela resoluo dialtica, um grande corpus pode aumentar amplitude
sem achatamento profundidade se a tecnologia em si est inscrito nas operaes
de description.Doing assim o exigir software sofisticado para 'marcao' e 'anlise'
dos dados, a descrio de "texto aberto 'sem essa preparao ainda no
verdadeiramente operacional (Sinclair 1999) .Os categorias mais seguros como
"artigo", "preposio", ou "auxiliar verbo" no so de forma enough.The os mais
inovadores delicados, como "encenao" e "colateral" no trabalho de campo (2,1),
ou "Processo Agent-Opposing" e "Saving face-auxiliar" aqui proposto (3,33; 3,40),
no so secure.At nesta fase, as categorias de nossa descrio pode ser apenas
heurstico, no formalised.Certainly, no temos nenhuma boa razo para jogar fora
nossos prazos estabelecidos, nem para reintroduzi-los em formas tcnicas, em vez
disso, os dados corpus deve permitir-nos tornar mais aplicvel e preciso como
ferramentas de description.We poderia, por exemplo, reter os termos "substantivo
"e" Verbo ", enquanto explorando dados corpus para fazer os seus significados
mais delicada, por exemplo, determinando se o" nominal "ou" "formao verbal do
mesmo tronco pode ser considerado como mais bsico, ou se os dois poderiam ter
evoludo apart em intervalos distintos de coligao e colocao.
4.7.If a dialtica da linguagem e do discurso pode ser restaurado para o centro da
descrio lingustica, ento as perspectivas de resoluo dialtica deve ser
favorvel no longo run.For o presente, o imperativo seria para sustentar um
esprito de renovao e de abertura para novos fenmenos, novos mtodos e novas
descobertas que se estende para fora em um novo milnio.
Por favor, ajude o Google Translate melhorar a qualidade do seu idioma aqui.
Google Tradutor Empresas Par: Google Toolkit de Traduo pargrafo
appsTradutor de sitesGlobal Market Finder
Traduo: Desativar instantneaSobre o Google
TradutorCelularComunidadePrivacidadeAjudaEnvia



resto
3.3.However, the technology also renders visible some far-reaching
problems.These problems do not, as has sometimes been argued (e.g. Widdowson
1991), arise from weaknesses inherent in corpora.Rather, the problems have been
inherent in language research all along but would hardly be addressed when data
were either restricted by the practices of fieldwork linguistics or else marginalised
by the theories of homework linguistics.Now, corpus research confronts us with
principled questions like these:
What size should a corpus have in order to represent a language?
What is the ratio between quantity and quality of data?
What is the ratio between breadth and depth of description?
What is the ratio between the uniformity and diversity of data?
What is the ratio between regularities and accidents in data?
What is the ratio between grammar and lexicon in a language?
What is the ratio between manifest and underlying organisation of language?
These questions are so intricately related to each other that discussing any one of
them by itself is an uneasy task. Even so, corpus research should eventually lead us
toward some worthwhile answers through the aid of technology itself (cf. 4.6).
3.4.So our first question concerns the representative size of a corpus.The notion of
an entire language having a quantifiable size at all hardly seems to figure in
modern linguistics.5 It would of course be moot if language is defined as an
infinite set of sentences;but I have tried to show why this definition is invalid
(1.18).
3.5.Once a language is defined as a finite though very large set of data, and also a
system providing for indefinitely larger sets (1.20), then our question concerns the
ratio between the actual size of a corpus and its potential size.Actual size has been
mainly dominated by practical factors.In early corpus research on computers,
when the technology of memory and programming were rather limited, a million
words seemed an ambitious size.When the technology advanced, practical motives
were again dominant in bumping up the size to 20 million and then to 200 million
in the Collins Birmingham University International Database (COBUILD)
familiarly called the Bank of English (BoE) namely, for compiling a new type of
data-driven dictionary that soon became the market standard.Then the corpora
themselves were offered on commercial markets, such as COBUILD on CD-ROM (5
million) and the British National Corpus (BNC) from Oxford University Press (100
million).
3.6.This dominance of the practical side was to be expected.Lexicography has
traditionally been a practical enterprise;and theoretical linguistics has focussed far
more upon grammar than on the lexicon (cf. 3.11; 3.23).Even so, practical advances
are still needed for more friendly technology at the users end.Direct access to a
corpus via the Internet is subject to multiple disturbances, such as lines being
overloaded, busy, or periodically cut off in mid-operation.A corpus on a single CD-
ROM (like the COBUILDs) can only hold a modest data set and do simple searches
and calculations.For larger sizes and more complex searches like the BNC, users
work with several CDs on ponderous operating systems like UNIX or LINUX, and
require technical training in mastering systems like the Corpus Data Interchange
Format based on Standard Generalised Markup Language (Aston and Burnard
1998).
3.7.But viewed from inside linguistics, theory is the side where advances are
pressingly called for now.There, size leads us to the further question of the ratio
between quantity and quality of the data.The null hypothesis would be that beyond
some threshold (say, a million words), increases in size just multiply out in a
mechanical proportionality: an item or pattern appearing once at 1 million words
will appear 20 times at 20 million words and 200 times at 200 million words.But
this hypothesis could hold only if a language were so uniform a system that its
output hits a definite information ceiling and its features go asymptotic.Beyond
that, quantity would rise whilst quality remained constant.
3.8.Corpus research, on the contrary, suggests a dialectical ratio whereby a major
rise in quantity brings a rise in quality;so the language system must be far more
diverse than the null hypothesis stipulates.New data can reveal previously
undetected constraints upon an apparently unconstrained regularity.For example,
most grammars of English, including the COBUILD Grammar based on a 20-
million-word corpus, present the pattern of Definite Article plus Adjective for
referring to a whole class of people, and declare it possible to use almost any
Adjective this way (Sinclair et al. 1990:21f).But Sinclair (1998:86) recently
reported attitudinal biases and selectional restrictions in the corpus at 336
million words: the pattern is mainly reserved for unfortunate people, such as the
elderly, the injured, the unemployed, the sick, the aged, the poor, and the
handicapped, as in (4).Fortunate people occurred mainly by way of contrast with
the unfortunate, as in (5-6).
(4) On services to the mentally ill, the elderly and the handicapped, Mr Cook
pledged that Labour would appoint a minister for community care. (newspaper)
(5) This is a system in which the rich are cared for and the poor are left to suffer in
silence. (newspaper)
(6) the appeal, especially in Latin countries, is rather to envy the fortunate than to
pity the unfortunate. (Bertrand Russell)
This attitudinal bias might be explained from the effect of depersonalising by
omitting a Noun for the Adjective to modify. Such explanations may not be
foreseen or admissible in established linguistic theories, but could be helpful for
fieldwork research as well as ethnography (1.7), and also in the teaching of English
(4.4)
3.9.New insights are both reassuring and disturbing.Just because linguists are
stimulated when new regularities are discovered (1.7), we are troubled by the
prospect of stopping the advance of theory by freezing the size of a corpus for
practical or technological motives.This fate may befall when a dictionary or
reference work arrives on the market, and the funding agent terminates
support.Linguistics should therefore provide the public in general and user groups
in particular with enough theoretical and practical knowledge to appreciate the
dialectical ratio between quantity and quality.Only then will commercial markets
be impelled to build larger corpora as grounds to claim better products.
3.10.Our next and closely related question concerns the ratio between breadth and
depth of description (1.20).Whereas fieldwork research managed a balance by
sheer practical diligence in describing authentic recorded data, homework
research sought to appropriate infinite breadth and universal depth by sheer
theoretical bootstrapping with handfuls of non-authentic invented data (cf. 1.7f;
1.20).So whereas breadth and depth were slowly achieved by fieldworkers
through an arduous progress of small steps, they were swiftly built right into the
theory of language by homeworkers.
3.11. Today, the very large corpus makes unprecedented breadth accessible but
not necessarily achievable. The computer resembles a long ladder on which we are
still learning the skills for scaling the higher levels in language description. Here
too, much depends on how uniform or diverse a language system might be. For a
highly uniform system, a description would have favourable chances to be both
complete (total breadth) and precise (total depth). The closest approximation in
actual language research is in the companion sciences of phonology and phonetics,
sharing theory and practice in impressive accord. But their uniformity is a
straightforward projection from the human vocal apparatus and the phonetic
alphabet. In grammar, uniformity was brightly postulated in theory but never
demonstrated in practice. And in the lexicon, the undeniable diversity has kept
many linguists from undertaking research at all (cf. 3.23)
3.12. Breadth becomes a virulent issue when we get access to vast quantities of
data. Depth becomes virulent when we must choose among sources for those data.
Most descriptions produced in modern linguistics have been aimed at an entire
language, e.g., at the set of grammatical sentences somehow given in advance
(1.20). Data sources were not acknowledged to constitute a problematic factor,
least of all when the data were invented by the linguists. The same depth of
description would be appropriate everywhere, as would the methods for achieving
it. In corpus research, this optimism soon breaks down. A language itself is by no
means uniformly deep; the Number of Nouns is less deep than Definiteness: Polar
Auxiliaries are less deep than Modal Auxiliaries. Reaching one depth is likely to
open a view of still further depths, as when an analysis of the Agency of Verbs
leads to the discovery of constraints on Pronouns as Subjects or Objects (cf. 3.32ff;
3.44). And the breadth of a deep description, once achieved, may be hard to
determine, e.g., how many Verbs share constraints on their Agency (3.34).
3.13. By now we are in the midst of probing the ratio between uniformity and
diversity in a language. Here too, linguistic theory has often inclined to a sharp
dualism. Total uniformity was attributed to language, witness Chomskys
completely homogeneous speech-community (1.9); yet total diversity was
attributed to discourse, witness Saussure heterogeneous mass of accidental facts
(1.11). And theory nowhere explained how so extreme a dualism of order and
disorder could inhabit the same system (1.11).
3.14. No doubt the heavy emphasis upon uniformity was intended to accommodate
commonplace notions of science, but failed to recognise the uniqueness of
language as an object of scientific investigation. There, uniformity and diversity
constitute a dynamic dialectic, parallel though not identical to the dialectic
between language and discourse. Every aspect of uniformity in a language must be
designed to sustain diversity (cf. 3.41). In phonology, the uniformity of phonemes
as shared targets underwrites enormous diversity among acts of pronunciation
due to such factors as the age, gender, and emotional state of speakers, and their
regional or educational background. In grammar, the functions of uniformity are
different in modality due to their more complex and multimodal needs for
expressing multiple modes of meaning. And the lexicon of English in contrast to
many languages affords fairly modest and sporadic uniformity, due to its
historical and cultural overlayering of extrinsic or specialised approaches to word-
composition, e.g., borrowing roots from Latin and Greek.
3.15.Corpus research is now beginning to reveal the significance of the dialectic
between uniformity and diversity.Language is found to be less uniform, and
discourse less diverse, than linguistic theory is wont to assume.The uniformity of
language is designed to generate diversity on-line;and the diversity of discourse
continually refers back to and renews the uniformity of language (cf. 3.41).
3.16. In terms of corpus practice, uniformity may actually be a drawback. If we are
compiling what Sinclair (1999) calls a generic or reference corpus to cover the
English language as broadly as possible, then we must consider how far the newly
arriving data appear uniform or diverse alongside our already acquired data. The
information value of a corpus would not rise significantly from increasing the store
of uniform data of the same type. This problem applies especially to mass media,
such as the plentiful newspapers conveniently posted on the Internet or made
available by direct electronic transmission, like the Sunday Times. There, the
diversity of the data is restricted in being authored by a relatively small, well-
trained group of writers, and being edited by an even smaller group. I would also
point out the massive ballooning of frequencies like I found in the BoE in July 1994
of key-words such as violence (19,226), kill (51,746), death (31,013), murder
(18,383), rape (5,890), and assault (4,055),6 reflecting the morbid, voyeuristic
interests of mass media more than the frequencies of authentic English at large.
3.17. Similar factors bear upon the ratio between regularities and accidents. Once
again, linguistic theory has been largely dualistic: language constituted by
regularities insofar as it can be an object of science; and discourse littered with
accidents and therefore no fit object of science. Before very large corpora became
available, projects for actually demonstrating regularities by means of statistic
frequencies and probability measures were rare and laborious (e.g. Kuera and
Francis 1967). Linguists gave reassurances that a linguistic observer can describe
the speech habits of the community without resorting to statistics because the
forms of language are rigidly standardized (Bloomfield 1933:37); or that when
neither sentences nor any part of them have ever occurred in any English
discourse or in the linguistic experience of a speaker, they are statistically all
equally remote (Chomsky 1957:17). These two reassurances flatly contradicted
each other data being all highly probable or highly improbable. But neither
could be tested without powerful technology for measuring the ratio between
regular and accidental (1.22).
3.18.The potential roles for statistics and probabilities are surely due for
reassessment now that we have very large corpora (Halliday 1991, 1992).Finding
and counting manifest items is most tractable, yet least informative.The
frequencies of items in a corpus may give no reliable indication of their functional
load in the language system.Finding exactly 6000 occurrences for of in the 5-
million-word COBUILD Corpus on CD-ROM is not helpful;we need to know the
proportions for each of its multiple functions in combinations.And combinations
too are subject to the ballooning effects I noted a moment ago in news
media.Among the 20,569 occurrences of sex returned by the BoE in July 1994, I
found Sex Pistols (at 707), sex appeal (at 762) oral sex (at 203), and sex
discrimination (at 209).Such frequencies are not meaningful unless we can
determine how far the occurrences entail the same item at all.
3.19.The frequency of manifest combinations is thus less tractable, but more
informative.Corpus research has devoted much exploration to the typical lexical
combinations called collocations, and the typical grammatical combinations called
colligations.7 Yet typicality is not readily explained in terms of frequency alone.In
my combined 12-million-word corpora of British and American writers, which I
shall be citing further on, among a total of 339 occurrences of the Verb fled were
only 3 of the collocation fled the country.To my intuition, this combination seems
typical even if its frequency and statistical probability are negligible.It also
occurred just once among 99 uses of fled in the COBUILD on CD-ROM:
(7) after the collapse of Tsarist authority, opportunists declared an independent
democracy, then a military junta that fled the country. (book)
But I can draw some confirmation where the Verb fled took country names as
Direct Objects: France, Iraq, Kuwait, Croatia, Germany.
3.20.We now come to a truly daunting question: the ratio between manifest and
underlying organisation of language.Modern linguistics has been postulating an
underlying organisation of language all along (e.g. Saussure 1966[1916]:56;
Sapir 1921:144; Bloomfield 1933:225f; Hjelmslev 1969 [1943]:9f; Chomsky
1965:4f, 10, 18, 22).Among the grandest prospects was that the descriptive
grammars of diverse languages will some day enable us to read from them the
great underlying ground plans (Sapir 1921:144).Presumably, such plans are the
goal of work on linguistic universals, but most of that work lacks a secured base
in descriptive grammars.
3.21. Moreover, linguistics has remained disturbingly evasive about how we can
derive the underlying organisation from the manifest organisation. Thus,
Chomsky's provision that actual data of linguistic performance would provide
evidence for determining the correctness of hypotheses about underlying
structure conflicted with his insistence that surface structure is unrevealing
and irrelevant and hides underlying distinctions (1965:18, 24). With surprising
candour, he conceded that his proposed grammar does not, in itself, provide any
sensible procedure for finding a deep structure of a given sentence; and he evaded
the whole issue by operating on the simplifying and contrary to fact assumption
that the underlying basic string is the sentence (1965:141, 18).
3.22. Such evasions readily follow from the already noted tendencies to attribute
to language highly idealised modes of order and to transpose the concept of
language from the particular instance over to a universal abstraction (cf. 1.8, 13,
16, 20; 2.5). Doing so naturally fosters a readiness to see disorder in manifest data,
and hence a reluctance to exploit them in the search for underlying order (cf. 1.11;
3.12). Instead, artificial modes of order get borrowed from sources like formal
logic or mathematics, which only intensifies the idealised and abstract nature of
language (1.8).
3.23. Here, we can highlight the ratio between grammar and lexicon. Linguistic
theory has long regarded grammar as the epicentre of uniformity and regularity
for an entire language and as a home for linguistic universals (compare Saussure
1966 [1916]:133, 152; Sapir 1921:38; Bloomfield 1933:163; Chomsky 1957:56). In
exchange, linguists have long concurred that the lexicon is a mere list of basic
irregularities (Bloomfield 1933:274; cf. Sweet 1913:31; Saussure 1966
[1916]:133; Chomsky 1965:86f, 142, 214, 216). On a smaller scale, this dichotomy
re-enacts the dichotomy between the order of language and the disorder of
discourse (1.11), and again linguistics has chosen order: much work on grammar,
little on lexicon (3.6). Eventually, a homework linguist can baldly announce that
linguistics is not about language; it is about grammar (Smith 1984).
3.24. Here again, linguistic theory should replace the dichotomy with a dialectical
relation, this one co-ordinating grammar and lexicon and constituting the
interactive lexicogrammar, the semogenic powerhouse of language () The two
sides differ not in kind, but in degrees of delicacy: lower toward the grammatical
side and higher toward the lexical side. Perhaps the lexicon could be regarded for
some purposes as most delicate grammar (Halliday 1961:256; Hasan 1987:184;
Cross 1993:199).8
3.25. The interactions of grammar and lexicon are readily evident from corpus
research on colligations and collocations in the sense of 3.19. Since these are
defined as typical combinations, they continually draw our attention toward
plausible motives of speakers or writers for coordinating multiple selections. For
example, the English Verb brook meaning accept, tolerate usually requires a
Negative element (Sinclair 1994), as in:
(8) Johnson could not brook appearing to be worsted in argument (Life)
(9) Bouille rides, with thoughts that do not brook speech. (French)
(10) his work was of a sort that would brook no negligence (Lady)
This Verb is infrequently used, and preferentially in solemn language about some
weighty business, as in Shakespearean drama:
(11) This weighty business will not brook delay (Henry VI)
(12) My business cannot brook this dalliance. (Comedy of Errors)
(13) False king, why hast thou broken faith with me,
Knowing how hardly I can brook abuse? (Henry VI)
This second constraint is more delicate than the one requiring a Negative, yet more
difficult to define in terms of manifest lexical choices. The weighty business might
be the assassination of a Duke (11), or just the collection of a debt (12). The
weightiness comes in part simply from using brook rather than, say allow or
tolerate.
3.26. Such data from the lexicogrammar of English point us toward the immense
task of accounting for multiple parameters of variation in a language: genre,
register, and style. In terms of theory, these constitute intermediary control
systems between the language and the discourse (Beaugrande 1997eh?). Their
design must be such that when one of them is activated, the activation level is
raised for appropriate options and lowered for inappropriate ones (Kintsch 1988;
Rumelhart et al. 1986). In terms of practice, they obviously affect the selections
and combinations we can expect to find in authentic discourse data; but how to
describe those effects is far from clear at this stage.
3.27. Here, we might pursue a strategy of dialectical resolution: building sub-
corpora where we predict systematic distinctions in quality; and then using our
findings to test and refine our predictions and to assess the typicality of specified
data inventories as indicators of some genre or style (cf. 4.5f). For a brief
demonstration, I shall draw upon three distinctive sources: (a) two corpora of
literature, one by British authors (e.g., Austin, Dickens, Wilde) and one by
American authors (e.g., Hawthorne, Mark Twain, Willa Cather), dating roughly
between 1750 and 1920 and together totalling 8.7 million words; (b) two corpora
of academic and civic writers, again including British (e.g., Darwin, Bulwer-Lytton,
J.S. Mill) and Americans (e.g., Thomas Jefferson, Jane Addams, W.E.B. DuBois),
together totalling 4.8 million words; and (c) Collins COBUILD on CD-ROM (5
million words), which represent contemporary everyday usage. The first two sets
of corpora, totalling all together 13.5 million words (see Appendix for list of
current texts), I compiled myself to run on WordPilot, a resource program
developed by John Milton at the Hong Kong University of Science and Technology
(Milton 1999). My compiling too faced fortuitous practical restrictions: I had to use
texts which are in public domain and can be downloaded from Internet sites.
3.28. In sources (a) and (b), the pattern of Definite Article plus Adjective was found
to be more balanced than in the COBUILD data reported in 3.8. The highest
frequency appeared among academic and civic writers, who are logically prone to
classify people. Alongside the contrasts like those noted by Sinclair, e.g. (14-15), I
found many where the fortunate people occurred alone, although sometimes with
the intriguing ironic twist of not being secure in their good fortune (16-17).
(14) Smile with the simple and feed with the poor? []; let me smile with the wise,
and feed with the rich (Boswell, quoting Samuel Johnson)
(15) None know the unfortunate, and the fortunate do not know themselves (Poor
Richard)
(16) There is always some levelling circumstance that puts down the overbearing,
the strong, the rich, the fortunate, substantially on the same ground with all others
(Emerson)
(17) the educated see a menace in his [the black mans upward development
(W.E.B. DuBois)
If grammar-books describe the pattern as being more general than is confirmed by
contemporary usage in the COBUILD, then perhaps by intuitively taking academic
discourse to be a model of English usage at large.
3.29. On the face of it, dialectical resolution might look circular: using the type to
identify the features of interest, whilst using those features to identify the type. But
text types cannot in theory be defined through rigorous proof, since in practice
most types are defined through intuitive heuristics by language users. Besides,
types are frequently mixed, as in:
(18) A wedding is a time for merriment and an apt occasion to showcase age-old
traditions in an age where modernity is eroding important aspects of yesteryear.
This much-privy glimpse of Arabia was a re-enacted wedding ceremony of the
indigenous people, reflecting the timeless beauty and simplicity of Arabia's life-
styles, customs and unique identity until the 70s oil-boom brought in dramatic
socio-economic development. (Khaleej Times)
Such discourse briskly mixes the styles of solemnity (merriment, yesteryear),
social science (modernity, indigenous, identity, socio-economic development), and
tourism (age-old, timeless beauty and simplicity, life-styles), along with the
occasional solecism (much-privy glimpse). The mix reflects multiple goals, such as
disguising a tourist trap as a cultural site whilst flattering the readers command of
an educated variety of English here in Gulf States.
3.30.Another strategy might be for us to create local regions of substantial depth
by describing narrow data sets with some thoroughness.The resulting insights
might then be projected across broader sets and guide our selection of aspects and
features to investigate.For example, the COBUILD data at 20 million words showed
a Verb like elude being used only in the Active (cf. Sinclair et al. 1990:407), e.g.:
(19) Newer techniques, such as bone-scanning and ultrasound, have enabled us to
find more of the causes of back-pain, but a large number still elude us (magazine)
(20) Sylvie Guillem as Nikiya gave us her faultless technique and musicality,
although the spirituality of the role so far eludes her (newspaper)
In my literary and academic corpora I found elude in the Passive just six times, as
in:
(21) My importunities would not now be eluded (Wieland)
(22) they lessen the consumption; the collection is eluded; and the product to the
treasury is not so great (FedPap)
The meaning for data like (19-20) is roughly: some knowledge or skill would be
fitting but is not found. The meaning for data like (21-22) is more like: some
people finding ways of avoiding something. The Passive does seem to me
intuitively old-fashioned; and Passive versions of these Actives seem utterly
improbable:
(19a) ? ?we are eluded by a large number of the causes of back-pain
(20a) ? ?Sylvie Guillem is eluded so far by the spirituality of the role
3.31. Now, to increase the depth of our analysis of elude, we can examine some
typical collocations and colligations. Among the Nouns as Direct Objects, the
collocations noticeably clustered around vigilance, which occurred 9 uses, e.g. (23),
along with associates like observation (24), eyes (25), and glance (25).
(23) Nelson feared the more that this Frenchman might get out and elude his
vigilance (Nelson)
(24) I had not neglected precautions to secure my personal safety, if I could only
elude observation. (Eyre)
(25) That I could elude Rimas keener eyes I doubted (Mansions)
(26) Hares fateful glance, impossible to elude (Desert)
Other typical collocates included grasp (6 uses), e.g.(27), and pursuit (4 uses), e.g.
(28).
(27) the maiden eluded the grasp of the savage (Last)
(28) I stopped at one or two stands of coaches to elude pursuit (Wrongs)
The meanings of all these collocations involve two opposing agencies, one of them
seeking to elude the other and the potential consequences.
3.32. Among the colligations, the most striking one by far was a marked preference
for Personal Pronouns as Direct Objects. Of the 17 occurrences in COBUILD data,
13 showed this colligation, as in (19-20). Other examples included:
(29) he defines his essential position, as a man in permanent search of a God who
eludes him. (newspaper)
(30) they were artists of considerable distinction, but man-in-the-street
recognition has eluded them (newspaper)
(31) River Lane, said Shields. Clarke, of course! That was what had been eluding
him. (book)
Here, a further meaning concerns the lack of some insight or knowledge; the Active
Transitivity shifts the Agency in this lack from the person over to the knowledge.
3.33. The proportions among the colligations in my other corpora were less
striking but still suggestive: out of 76 occurrences, 22 with Personal Pronoun
Objects. Alongside an idea (32) or a fact (33), concrete agents like a person (34) or
animal (35) did the eluding.
(32) He spoke like one who was trying to keep hold of an idea that eluded him.
(Tempo)
(33) Something seemed to give way in Jimmys brain. The simple fact which had
eluded him till now sprang into his mind. (Damsel)
(34) Although Sam haunted lobby and stairway and halls half the night, the
fugitives eluded him (Whirl)
(35) All four boats gave chase again; but the whale eluded them (Moby)
Only two eluded Agents appeared in Direct Objects as Nouns rather than
Pronouns:
(36) this whale eludes both hunters and philosophers. (Moby)
(37) often the Captain darted out of the shop to elude imaginary MacStingers [his
landlady] (Domb)
I am aware of no reference, in the linguistic literature on Pronouns, to classes of
Verbs which colligate with Pronoun Objects, let alone any prospective theoretical
account. Provisionally, we might describe such Verbs as expressions of Agent-
Opposing Processes, which are usually accompanied by some preparatory
background identifying the Agents. In some contexts, both Agents are persons (or
animals), the Subject doing something and the Object eluding it. In other contexts,
the Subject is not a person and hence a Pseudo-Agent, but some knowledge or skill
that is lacking, and the Object is an Agent who does not have the initiative. In either
type of context, the eluded Agent is often clear and can be designated by a
Pronoun.
3.34. The next and much harder problem would be to explore how broad this
locally detected constraint might be. Since a brute-force query of Verb + Personal
Pronoun Object in a large corpus would be explosive, we can tap our intuition to
suggest plausible candidate Verbs. By this means, my queries brought to light the
Verbs rebuke colligating in the Active with Personal Pronoun Objects in 24 out of
51 occurrences; beseech in 94 out of 126; and thank in 121 out of 185. (Also, thank
had a fair quota of Personal Pronoun Subjects, namely in 84 occurrences.) Similar
measures of Personal Pronoun Objects were found with the Pseudo-Agent Verbs
behove in 14 out of 19 occurrences; and befall in 108 out of 189. The data for befall
showed a distinct and ominous attitudinal bias for choices of the Pseudo-Agent
Subjects: the primary collocates were misfortune (at 26), accident (at 23), calamity
(at 19), and disaster (at 10).
3.35. Using intuition in this way is far from proclaiming it to supply the enormous
mass of unquestionable data invoked by homework linguists (1.9). Intuitions are
always questionable, and the corpus makes the questioning easy. For example, my
intuition suggested Verbs that the corpora did not display in the colligation
patterns of rebuke in any significant proportions, such as reprimand (6 out of 27)
and rebuff (3 out of 34).
3.36. Corpus research recasts the linguist: not in the role of the ideal speaker-
hearer in a completely homogeneous speech-community, who knows its language
perfectly, but in the role of an ordinary speaker-hearer (and writer-reader) in a
heterogeneous community, who knows its language only partially and actively
seeks access to the knowledge of others. We claim authority for our statements not
from harbouring super-human powers of introspection (1.9), but from examining
large sets of authentic data produced by a community that puts their implicit
theories of the language into a wide range of practices (cf. 1.3). And our statements
are not about language as some universal abstraction, but about those data in
one language and often about only one genre, register, or style (3.25). Such
statements can easily be confirmed or invalidated by more or other data a
normal effect of the dialectic of quantity and quality (3.7) but either step
confirms once again the vitality of using authentic data.
3.37. Intuition and introspection are thus largely heuristic and opportunistic. They
suggest things to try or watch for, and they help us determine status and meaning
after the fact once authentic data are put before us (Francis and Sinclair
1994:194). They are not too reliable as sources of data, and still less as sources of
information about the proportions among selections and combinations of data.
3.38. Allow me to demonstrate this point with one final data set. In July 1994, I
found 515 occurrences of couldnt help and could not help in the Bank of English,
then at 225 million words. My intuition led me to predict a fair quantity of data
colligating with a Direct Object Noun for some Target person who could not be
given assistance, but I found just four, not even 1% of the total. Here I encountered
another phenomenon pointed out by Sinclair (1991:493f): the presumably basic
stand-alone meaning listed in first place by conventional dictionaries not being at
all the most frequent in corpus data. The meaning of help as give assistance to is
listed first in Websters Seventh Collegiate (p. 387) whereas the meaning of refrain
from or avoid doing is listed in seventh place. The design of such a dictionary
would hardly admit a separate definition for not help or could not help, even
though the meaning is demonstrably distinct.
3.39. The leading colligations by far in the COBUILD data were with Verbs: either a
Present Participle (e.g. couldnt help admiring) or else with but + Infinitive (e.g.
couldnt help but laugh). This I could have predicted, but not my finding that no
Adverb ever came in between (e.g. couldnt help deeply admiring her) a fully
grammatical option, but not found (but cf. 3.45). In return, I found two less
grammatical mixed patterns (couldnt help but thinking and couldnt help from
crying) the second one by the distraught Mary Wells, Tornado Victim.
3.40. Still less could my intuition have predicted the proportions among the
collocations. Almost half of the total (at 234) collocated with one out of a set of just
four Verbs; could you predict which ones? They were feel (at 68), notice (at 58),
think (at 59), and wonder (at 49). Still, if I could not predict, I might retrodict after
the fact by noting that these Verbs represent Processes which might well be judged
not properly subject to conscious control: they might lead into emotions,
perceptions, and thoughts where it seems fitting to remark that someone couldnt
help it. The pattern might therefore be termed a Face-Saving Auxiliary: an
expression which attenuates the Agency of Process Verbs in order to save face
after some Action that might be interpreted as hasty or inappropriate. Such an
explanation may again not be foreseen or admissible in the theories of mainstream
linguistics, but might be useful for ethnographers (3.8).
3.41. Moreover, these same frequent Verbs could also provide useful Headwords
for most of the more delicate collocations, indicating one important way that
uniformity is designed to support a diversity (cf. 3.14) The top-ranked feeling
could be the Headword for attested collocations with crying, laughing/chuckling,
smiling/grinning, blushing, fearing, liking, loving, marvelling, sympathising,
wincing, worrying, plus nearly all the delicate collocates in colligation with being
or be: touched, charmed, impressed, moved, emotionally involved, fascinated,
struck, carried away, swept along, amused, jealous, puzzled, nervous, frightened,
surprised, shocked, offended. Emotions might plausibly render you self-conscious,
whether pleasant or unpleasant, witness also the list of Direct Objects or Modifiers
collocating with the Verb feel in the data: the pleasant ones enthusiasm, passion,
thrill, pleased, impressed, vindicated, and the unpleasant ones envy, guilty,
ashamed, sorry, miffed, apprehensive, alarmed.
3.42. The slightly less frequent noticing could provide a Headword for seeing,
looking at, glancing, hearing, overhearing, remembering, being consciously aware.
Thinking could be the Headword for knowing, considering, reflecting, imagining,
and could subsume the frequent wondering, where uncertainty rather than
emotion might be making you self-conscious.
3.43. One group of collocates formed a cluster with no frequent Headword:
speaking, saying, telling, commenting, pointing out, remarking, declaring,
suggesting, responding, agreeing, objecting, reminding, congratulating, blurting
out. Here we might pick the Headword by its generality rather its frequency:
speaking being involved in all the others but not vice-versa (proverbially, one can
speak without saying anything).
3.44. The colligating Subjects were evenly divided between Nouns and Pronouns.
Yet the proportions among the Pronouns were dramatically uneven. I logged in far
ahead at 150 occurrences, followed after a large gap by she (48) and he (45), and
then after another gap by you (15), we (7), and they (6), plus the Impersonal one
(11) for a total of 282 Pronoun Subjects (55% of the total data). Here we may
have evidence for constraints upon what we could call Multi-Process Agency, such
that the identity of the Agent is established for one (or more than one) Process
before saying that Agent couldnt help it.
3.45. The data in my two literary corpora gave a more delicate picture of these
constraints. There, I registered 147 occurrences of couldnt help and 320 with
could not help, for a total of 467. Also, those 320 constituted 86% of the 370
occurrences of not help. The frequency is highly significant if we consider that
these corpora, at a total of just 8.7 million words, are about 25 times smaller than
the COBUILD at 225 million, which returned 515. The most plausible explanation I
can find again not a linguistic one in any established sense is the useful
function for framing Events in literary discourse so as to communicate to the
reader a characters own perspective, such as what someone was feeling or
thinking, perhaps with no manifest Action, as in:
(38) Connie stuck to him passionately. But she could not help feeling how little
connexion he really had with people. (Chatter)
(39) Mrs Tullivers imagination was not easily acted on, but she could not help
thinking that her case was a hard one (Floss)
The literary style might account for the attestation of inserted Adverbs, which
never appeared in COBUILD data (3.39), such as:
(40) She could not help frequently glancing her eye at Mr. Darcy (Pride)
(41) she could not help secretly advising her father not to let her go. (Pride)
(42) Florence could not help sometimes comparing the bright house with the faded
dreary place (Domb)
In some such data, there is no other reasonable place to put the Adverb.
3.46. The personal and internal quality might also help explain the tremendous
frequencies, similar to those noted in COBUILD data, of First and Third Person
Singular Pronouns as Subjects: I (151), he (75), and she (85), for a total of 311
(67% of all my data). The Plurals were rare we (6) and they (5) probably
because a feeling or a thought normally belongs to just one Agent. The Second
Person Pronoun you was rare too (4), doubtless because of the low probability of
telling somebody else to their face what they couldnt help.
3.47. At still greater delicacy, I found that choice of the Contraction couldnt made a
difference here. Whereas she and he were about half as frequent as for could not, I
was more than twice as frequent:
couldnt help (total of 147) could not help (total of 320)

I 73 (49%) 78 (24%)
she 17 (11.5%) 68 (21%)
he 19 (13%) 78 (24%)
I checked all the data to see if the Contraction was preferred for spoken discourse.
And in fact, only 14 out of 73 uses with couldnt did not occur in direct speech like
(43), but in the narrators voice of first-person narratives like The Adventures of
Huckleberry Finn, e.g. (44); this last work alone contributed 7 uses, but then Huck
never says could not in any context. Conversely, only 4 out of 78 uses with could
not appeared in direct speech like (45); all the rest were in the narrators voice,
like (46).
(43) she took all the grit out o him. I couldn't help feelin sorry for him
sometimes. (Fauntle)
(44) I had to skip around a bit, and jump up and crack my heels a few times I
couldn't help it (Finn)
(45) He was a very good man, sir; I could not help liking him. (Eyre)
(46) For my part, I could not help thinking this lawyer was not such an invalid as
he pretended to be. (Clink)
3.48. Related constraints applied to the occurrences of the Pronoun it as Direct
Object. The data with the Contraction logged 70 instances (47%), the data with
could not a mere 19 (6%). Here also, the context tends to establish Identities: not
for Agents and Targets, as for the Subject (3.44), but for Actions and States. The
tiny frequencies of the third Person Pronouns her (1), him (1), and them (2) as
Direct Objects again documents the rarity of the sense of help as give assistance to
(3.38). The few Nouns as Direct Objects were also expressions for Actions, not
Agents, as in:
(47) Connie could not help a sudden snort of astonished laughter (Chatter)
(48) I couldn't help the interruption, but I made up for it afterward by working
until two (Carrie)
I accordingly found a modest scatter of pairs with the same Action as Noun or as
Verb, as in:
(49) With such a possibility impending he could not help watchfulness. (Caster)
(50) Catherine, though not allowing herself to suspect her friend, could not help
watching her closely (Abbey)
The colligation with a Verb in the Present Participle was quite conspicuous with
could not: 256 out of 320 (exactly 80%). For couldnt help, this colligation logged
in at 61 out of 147 (41%), having to compete there with it at 70. Some authors
used couldnt help exclusively with it, such as Mark Twain, Harriet Beecher Stowe,
and Theodore Dreiser.
3.49. The matter of authors preferences as compared to linguistic regularities is a
puzzling one in corpus research. We might contend that my corpora are far too
small, which is doubtless perfectly true, the more so given the sheer size of some
single texts, such as Joyces Ulysses at over 266,000 words. However, differences in
size among sample texts is an important empirical given, especially when the
public is expected to read the whole text. Besides, we cannot determine in advance
how far an author or a text might be internally consistent enough to skew our
measurements in one direction Ulysses surely is not. The colligation depend
upon it (meaning you may be sure) appears 55 times in my corpora, of which 28
come from Jane Austen; yet her usage was typical of whole sample, where fully 46
are Imperatives and 8 more colligate as you may depend upon it in the same
meaning. The typicality was confirmed by data in my corpora of British and
American academic and civic writers. There, depend upon it appears 23 times
again as Imperative or with you may. 14 of them were uttered by Dr. Johnson in
Boswells Life, whose following item Sir in 12 occurrences can be safely charged to
a personal idiosyncrasy.
3.50. At least as puzzling is the matter of translators preferences as compared to
linguistic regularities of multiple languages The English colligation couldnt help
plus Verb (51-52) does not show regular correlates in the German (51a-52a) or
Spanish (51b-52b) versions of Alice in Wonderland, whereas French makes do
with ne pouvoir s'empcher (51c-52c). But the colligation couldnt help it has a
separate correlate in all three versions (53-53c).
(51) Alice was very nearly getting up and saying, Thank you, sir, for your
interesting story, but she could not help thinking there must be more to come
(51a) Alice war nahe daran, aufzustehen und zu sagen: Besten Dank fr deine
wirklich interessante Lebensgeschichte, aber dann sagte sie sich, da doch noch
einfach etwas kommen mute
(51b) Alicia estaba dispuesta a levantarse y decir: Gracias, seora, por su
interesante historia, pero no pudo dejar de pensar que algo ms iba a decir la
Tortuga
(51c) Alice fut sur le point de se lever en disant: Je vous remercie, madame, de
votre intressante histoire, mais elle ne put s'empcher de penser qu'il devait
srement y avoir une suite
(52) it would twist itself round and look up in her face, with such a puzzled
expression that she could not help bursting out laughing
(52a) hatte das Tier eine Art, sich umzudrehen und ihr mit einem so verwunderten
Ausdruck ins Gesicht zu sehen, da sie laut herauslachen mute
(52b) el ava de pronto se giraba, mirndole a la cara con tan perpleja expressin
que Alicia no poda contener la risa
(52c) le flamant ne manquait pas de se retourner et de la regarder bien en face
d'un air si intrigu quelle ne pouvait s'empcher de rire
(53) Look out now, Five! Dont go splashing paint over me like that! I couldn't
help it, said Five
(53a) Pa doch auf, Fnf. Du spritzt mich ja berall voll mit deiner Farbe! Dafr
kann ich nichts, sagte Fnf
(53b) Ten cuidado, Cinco! Me ests salpicando todo de pintura! Fue sin querer-
dijo Cinco
(53c) Fais donc attention, Cinq! ne mclabousse pas de peinture comme a! -Je
ne l'ai pas fait exprs, rpondit l'autre
Here looms a vast field of research for translation studies with parallel text
corpora (cf. King and Woolls 1996). Correlated expressions that collocate and
colligate the same way in two or more languages will probably prove to be rare
indeed.

4. Into the millennium

4.1.I would hope that the present discussion may have etched some scratches upon
the surface of the changing picture of language and discourse under the impact of
large corpus data.The impact seems sufficiently radical that a major scientific
revolution or paradigm shift could be predicted.In the past, linguistics has tended
to cultivate a large supply of abstract theories whilst postponing and marginalizing
description of practices.Today we confront a far larger supply of concrete
practices, which must be described before we can even define what a language
is.I do not advocate that theory-building should be shelved, even temporarily;but
rather that theory-building should finally and definitively cease to run so far ahead
of practice, and cease to devise arguments why theory cannot be derived or tested
from practice.
4.2.As a corollary, unquestioned scientific priority would no longer be allotted to
abstract and general statements.These may prove the hardest to demonstrate with
authentic data.And we may incur the paradox of trying to base a general theory
upon special cases by selecting data devoid of special features (cf. 1.10).How
general or specific a description deserves to be should be decided by our data and
by the purposes of our research.Concrete and specific statements may prove more
realistic, and for some purposes, such as language teaching, more useful.Moreover,
data-driven descriptions are by nature specific in the incipient stages, and
gradually gain generality as our picture improves of what to examine.A substantial
range of constraints should turn out to be more specific than a discourse yet less
general than the whole language (2.9).
4.3.As a further corollary, we should no longer displace real data with invented
data, or convert data into formal representations.Instead, we should work to get as
far as we can using real data to represent themselves.Even our description of the
underlying organisation of data should be as data-driven as possible, rather than
expressed in some purely theory-driven deep structure comprising universal
categories, which I hold least suitable to provide tools for describing a text (cf.
1.14-15) To judge from past experience, universals tend to be indirectly
extrapolated from particular languages after all, especially English (2.3).The
latters dominance in linguistic theory can only be effectively transcended by much
resolute work on large corpora in as many languages as possible, each treated on
its own terms.
4.4.Meanwhile, the well-described languages like English could be used by corpus
researchers not to hasten above and beyond the data (as homework linguists did,
1.10), but to present data to wide audiences of specialists and non-specialists to
test and discuss.By broadening our audience base, we can most safely offset
personal biases in our own intuition and introspection.And the chances for
productive applications will improve, such as language teaching.
4.5.My own prediction would be that progress will evolve out of the process I have
called dialectical resolution.(3.27): the corpora that confront us with problems will
provide vital support in solving those problems.If authentic data confront us with
diversity, then we should keep building sub-corpora until each of them displays
signally enhanced internal uniformity.Then we can compare these sub-corpora to
identify and investigate which parameters and constraints are more general or
more specific.My own work on text types indicates that types are often untidy and
fuzzily defined, due especially to differences between insiders and outsiders, e.g.,
between academic journals and learner textbooks (Beaugrande 2001).Much
academic writing is strenuously and gratuitously technical and actually impedes
communication;but effective strategies to improve efficiency require corpus data
for describing current practices.
4.6.Again by dialectical resolution, a large corpus can increase breadth without
flattening depth if the technology itself is enlisted in the operations of
description.Doing so requires sophisticated software for tagging and parsing the
data;the description of open text with no such preparation is still not genuinely
operational (Sinclair 1999).The more secure categories like Article,
Preposition, or Auxiliary Verb are by no means delicate enough.The more
innovative ones, like staging and collateral in fieldwork (2.1), or Agent-
Opposing Process and Face-Saving Auxiliary proposed here (3.33; 3.40), are not
secure.At this stage, the categories of our description can only be heuristic, not
formalised.Certainly, we have no sound reason to junk our established terms, nor
to reintroduce them in technical guises;instead, corpus data should enable us to
render them more applicable and precise as tools of description.We could for
example retain the terms Noun and Verb whilst exploiting corpus data to make
their meanings more delicate, e.g., by determining whether the Nominal or the
Verbal formation from the same stem can be regarded as more basic;or whether
the two might have evolved apart into quite distinct ranges of colligation and
collocation.
4.7.If the dialectic of language and discourse can be restored to the centre of
linguistic description, then the prospects for dialectical resolution should be
favourable in the long run.For the present, the imperative would be to sustain a
spirit of renewal and openness for new phenomena, new methods, and new
discoveries stretching out into a new millennium.
Please help Google Translate improve quality for your language here.
Google Tradutor para empresas:Google Toolkit de traduo para appsTradutor de
sitesGlobal Market Finder
Desativar traduo instantneaSobre o Google
TradutorCelularComunidadePrivacidadeAjudaEnviar feedback