No melhor sentido da palavra, lingstica descritiva deve ser prtico, [...] projetado para lidar com situaes de fala, escrita ou falada - J. R. Firth
1 Teoria e prtica no conceito de descrio 1.1. Se concordarmos em utilizar os nossos termos de forma bastante ampla, podemos definir uma linguagem para ser uma teoria geral do conhecimento e da experincia humana, e do discurso a ser o conjunto de prticas para trabalhar a teoria (cf. Sapir 1921; Hartmann 1963; Halliday 1994 ). Idioma seria uma teoria - ou toda uma rede de 'teorias' Atravessando - para representar o nosso mundo e de ns mesmos e uns aos outros no mundo, e para a construo de estados alternativos do mundo ou mundos alternativos. Ns entendemos um ao outro na medida em que nossas teorias de nossa lngua so semelhantes, em princpio, e se mais afinado durante discurso (Beaugrande 1997a). 1.2. As relaes entre a teoria ea prtica constitui logicamente uma dialtica, sendo um ciclo interativo no qual dois lados orientar ou controlar o outro. Quando a dialtica est funcionando sem problemas, a prtica orientada por teoria ea teoria orientado a prtica; os predicados teoria e contas para a prtica; ea prtica especifica e implementa a teoria. As prticas da vida real do discurso so fortemente "teoria-driven 'em que obriga os participantes a" teorizar "sobre o que as palavras significam, o que as pessoas pretendem, o que faz sentido, e assim por diante. Na verdade, o discurso o mais terico humanos prtica pode executar, e tambm o mais eficiente e eficaz no uso do menor esforo para a maioria das metas. Em troca, a linguagem que os humanos teoria mais prtica pode conceber, oferecendo os recursos para moldar e guiar quase qualquer de nossas atividades prticas. 1.3. No entanto, o 'theoreticalness "da linguagem habilmente escondida da maioria dos oradores que o praticam. Se perguntado, eles provavelmente descreveria discurso como uma questo completamente prtico; que ficaria surpreso se ns dissemos a eles que possuem uma "teoria de sua linguagem" que lhes d o estatuto de "tericos". Sem dvida, a teoria pode ser praticada de forma to eficiente, pois muitas operaes funcionar abaixo do nvel de conscincia; em troca, a natureza ea organizao da teoria so difceis de determinar ou descrever por meio de introspeco sozinho (mas cf. 1.8ff; 3.36f; 4.4). 1.4. Alm disso, uma lngua um nico tipo de teoria. Ele no pode ser conclusivamente verificada ou falsificada da forma convencional de uma teoria cientfica, porque no podemos apresentar alguns motivos de teste independente de linguagem, como um conjunto de significados free-standing para o qual a linguagem poderia ser julgado uma expresso vlida ou invlida. Em vez disso, a linguagem uma teoria que parcialmente cria e constitui o que postula e, portanto, tende a confirmar-se. Para fins prticos, que normalmente levar as coisas para ser o que a nossa lngua chama-los. Quando queremos expressar-lhes mais validamente, podemos praticar a nossa lngua mais elaborada; no podemos suspender suas prticas e ir para a significados ou coisas sem ele. No podemos ficar fora da linguagem para inspecion-lo. 1.5. Pelas definies propostas acima, a "teoria da linguagem" exposta em lingstica moderna seria mais precisamente ser chamado de uma meta-teoria, ao passo que o discurso que produzimos para expor a teoria se manifestaria nossos prprios meta-prticas. "As construes ou esquemas de lingstica" poderia, assim, ser descrito como "linguagem virou sobre si mesmo" (Firth 1957 [1950]: 190). Esta convoluo torna lingustica nicas entre as cincias. Montamos sobre a formulao de uma teoria explcita da linguagem, enquanto ns j sustentar uma teoria implcita como linguagem; e nossas formulaes so instncias de praticar a ltima teoria. Alm disso, toda a teoria explcita proposto at agora, sem dvida, est muito aqum da riqueza e da complexidade da teoria implcita, embora no sejamos capazes de demonstrar o quo. 1.6. Lingstica moderna pode por sua vez ser caracterizado como um conjunto de projetos para tornar explcita a "theoreticalness 'implcito da linguagem. No entanto, a lingustica tem sido notavelmente indeciso sobre a derivao de suas teorias dialeticamente a partir da descrio das prticas comuns de texto e discurso. A posio mais firme foi adotado em lingstica de campo. Fornecer descries de lnguas previamente undescribed por necessidade prtica orientada, uma vez que dados e sobre a linguagem deve vir da observao das prticas de falantes nativos. Alm disso, o pesquisador deve submeter cada passo na teorizao sobre a lngua para testes prticos com informantes. Conseguir uma fluncia razovel na lngua demonstra uma competncia prtica que deve plausvel aumentar a autoridade de um de afirmaes tericas. 1.7. Ainda assim, o trabalho de campo teoria orientada em seus prprios caminhos. O linguista tem uma concepo geral sobre os possveis tipos de linguagem, por exemplo, se a pessoa "analtico", como Ammanite do Vietn, ou "polissinttica" como Yana of California (Sapir 1921: 142). O tipo um alto nvel de meta-teoria dirigir a ateno para certas classes de caractersticas ou padres, como "reduplicao" para "indicar conceitos como distribuio, a pluralidade, a repetio, a atividade habitual, aumento no tamanho" ou "intensidade" (Sapir 1921: 76). Mas o lingista de campo sempre estimulado ao descobrir alguma caracterstica ou aspectos at ento desconhecido, por exemplo, quando Dyirbal de North Queensland foi encontrado para ter uma variedade Dyaluy separado ou dialeto usado apenas na audincia de parentes tabus como o de um homem me- de-lei ou uma mulher pai-de-lei (Dixon 1968). Tais descobertas tambm so de interesse para disciplinas vizinhas nas cincias sociais da sociologia, antropologia e etnografia (cf. 3.8; 3,40). 1.8. A abordagem oposta comumente atende pelo nome de 'lingstica terica', mas pode, para a presente discusso, ser mais apropriadamente chamado dever de casa linguistics.1 fortemente orientado a teoria, e apresenta inventado dados de lnguas bem descritos, nomeadamente Ingls, de que os linguistas so falantes fluentes ou nativos desde o incio. Em vez de derivar a teoria de uma linguagem particular dialeticamente, descrevendo suas prticas, "trabalhadores domsticos" derivar uma teoria da linguagem, em geral, por um bootstrapping terica que combina a sua prpria intuio e introspeco com concepes esporadicamente emprestados da filosofia da linguagem, da lgica formal, ou a matemtica (cf. 3,22). Os padres da cincia devem ser acolhidos por "teorizao" as qualidades mais prticos e comuns a partir da linguagem. As declaraes mais cientficos deve descrever "linguagem" no sentido mais abstrato e geral, e, finalmente, em termos de "universais lingusticos" (cf. 1.16, 20). 1.9. O passo decisivo nessa perspectiva era de "dar prioridade evidncia introspectiva" e "intuio" (Chomsky, 1965: 20). O linguista lio de casa agora foi dito para comandar uma "enorme massa de dados inquestionveis" meramente em virtude da realizao da "intuio lingustica do falante nativo"; e precisamente por estes "dados", uma "descrio, e, sempre que possvel, uma explicao" deviam ser "construdo" (1965: 20). O linguista que aparentemente tornou-se o representante do "speaker-ouvinte ideal em uma comunidade de fala completamente homognea, que conhece a sua lngua perfeitamente" (Chomsky, 1965: 4) (1,13). No entanto, para desacreditar o trabalho de campo com os informantes, os linguistas de casa sentiu impelido a negar que o "alto-falante de uma lngua", que tem "dominado e internalizado a gramtica gerativa, est ciente das regras da gramtica ou mesmo" "pode tornar-se consciente deles" ; e que "suas declaraes sobre o seu conhecimento intuitivo so necessariamente precisas", j que "os relatrios e pontos de vista sobre o seu comportamento e competncia de um falante pode estar em erro" (1965: 8). Essas negaes deve lanar srias dvidas sobre autorizando linguistas para atuar como modelo "alto-falantes", a menos que a sua formao acadmica e status conceder-lhes poderes super-humanos de introspeco (1,12; 3,36). Mas ento eles seriam manifestamente atpica e inadequada como modelos de um "discurso-comunidade completamente homogneo". 1.10. Tais linhas desconcertantes de argumento pode ajudar a explicar por que os linguistas de casa tantas vezes usou dados de uma linguagem bem descrito como o Ingls, alm de apenas ser falantes nativos. Eles poderiam pressupe ampla informao sobre a lngua e no tinha que abastec-lo. Eles poderiam explorar a sua prpria intuio e introspeco para elevar rapidamente as suas deliberaes se para alm dos problemas laboriosos de trabalho de campo, a fim de abordar puramente terico, em vez de questes de ordem prtica: a teoria torna-se meta- teoria, ou, nos termos aqui propostos, meta-meta-teoria ; e seu discurso sobre a linguagem no se manifesta apenas meta-linguagem, mas meta-meta-linguagem. Assim, a discusso visa naturalmente ilustraes em dados inventados cujo estado parece to segura quanto a camuflar o papel do lingista como inventor, por exemplo: (1) O agricultor mata o patinho (Sapir) (2) John fugiu (Bloomfield) (3) O homem bater na bola (Chomsky) Paradoxalmente, esses dados foram inventadas para parecer incontestvel, mas podem ser empiricamente classificada como no-autntica na medida em que no ocorrem espontaneamente em discourse.2 comum No entanto, estes mesmos dados, acompanhados de descries bastante superficiais, tm sido freqentemente apresentado para sustentar afirmaes gerais sobre a natureza da linguagem, por exemplo, que "a ordem das palavras , sem dvida, uma entidade abstrata" (Saussure) ou que "gramtica autnoma e independente de significado" (Chomsky). O paradoxo essencial consiste, portanto, de basear uma teoria geral sobre casos especiais, selecionando expressamente dados desprovido de caractersticas especiais (cf. 4.2). 1.11. Alm disso, os dados no-autnticos representam um compromisso entre sem ser anunciado "langue e parole", ou "competncia e desempenho", que a lingstica tem lio de casa separados por uma dicotomia radical. Saussure tinha redondamente afirmou que "o discurso no pode ser estudada", "pois no podemos descobrir a sua unidade"; apenas uma "massa heterognea" de "acessrio e fatos acidentais" (1966 [1916]: 9, 11) (cf. 1.21f; 3.13; 3.17). No mesmo sentido, Chomsky (1965: 4, 201) afirma que "o uso da linguagem observada" "certamente no pode constituir o objecto da lingustica, se isso ser uma disciplina sria"; "Do ponto de vista da teoria", "a maior parte do discurso actual observado consiste em fragmentos e expresses desviantes de uma variedade de tipos". Tais pronunciamentos sugerem que os dados autnticos no praticam a teoria de uma linguagem, mas interromper a srio. A produo de tais dados se assemelham a uma transio de fase ordem catastrfica do extremo de lngua sobre a desordem extrema do discurso. O orador tem fim, transforma-o em desordem e transmite para o ouvinte, que transforma-lo novamente em ordem. Explcita, essa conta da relao entre linguagem e discurso obviamente insustentvel. 1.12. Em paralelo, os linguistas de casa anunciou que "as entidades concretas da linguagem no esto directamente acessveis" (Saussure 1966 [1916]: 110); e que "o conhecimento da lngua" no "nem apresentado para observao direta nem extravel a partir de dados por meio de procedimentos indutivos, de qualquer tipo conhecido" (Chomsky, 1965: 18). Estas afirmaes tambm foram feitos para desacreditar lingstica campo. Mas tambm implica uma conta insustentvel de aprendizagem em lngua nativa, ou seja, lutando contra a corrente do que uma criana pode "acesso e observar" - que "fragmentada e desviante" de qualquer maneira. Esta implicao presumivelmente ajudou a angariar apoio para a noo universalista de um "dispositivo de aquisio de linguagem inata" (Beaugrande 1997b, 1998a). 1.13. Uma vez que "o discurso real" foi declarado "heterogneo" e "desviantes", o lingista pode continuar a inventar dados no-autntica, que foram discretamente prestados homognea e purificados de todos os desvios. Da mesma forma, se o idioma representado como, um sistema ideal resumo, ento mais convenientemente exemplificada pelos dados idealizadas. Por implicao, os linguistas de casa no representam falantes comuns na vida real, mas sim super- falantes "ideais", que, graas ao seu "conhecimento perfeito", pode praticar a lngua com muito mais unidade e pureza (cf. 1.9). 1.14. As perplexidades implcitas para a descrio lingustica tornou-se mais virulento na de Hjelmslev "prolegmenos para uma teoria da linguagem" .3 Embora reconhecendo que "o lingista que descreve uma linguagem" "usa essa linguagem na descrio", ele fez um apelo para "elevar-se acima do nvel de mera descrio primitivo ao de uma sistemtica, cincia exata, e generalizando, na teoria de que todos os eventos (possveis combinaes de elementos) esto previstos "(1969 [1943]: 9, 121). A "teoria" seria "aplicvel at mesmo para textos e lnguas" que "nunca foram realizados, e alguns dos quais nunca sero provavelmente realizadas" (1969: 17). Este projeto surpreendente seria equivalente a uma teoria de tudo, ou a teoria da grande unificao atualmente muito procurado na fsica dos linguistas. "O terico lingstico" passa a "descobrir certas propriedades presentes em todos os objetos que as pessoas concordam em chamar de lnguas, a fim de, em seguida, a generalizar essas propriedades e estabelec-los, por definio,"; ao faz- lo ", ele decreta a qual os objetos de sua teoria pode e no pode ser aplicada" (1969: 18). Uma "teoria lingustica" Tal "fornece as ferramentas para a descrio de" "um determinado texto e linguagem", e "no pode ser verificado - confirmada ou anulada - por referncia a textos e linguagens existentes" (1969: 18). 1.15. Se esses mtodos foram literalmente adotado, o linguista deve examinar todas as "linguagens" do mundo no sentido comum (que "as pessoas concordam" sobre) e construir a teoria unicamente por essas "propriedades" que tm de facto sido "descoberto" em todos os lugares. Ento, seria trivial, na verdade se aplica automaticamente a todas as lnguas, sem a necessidade de qualquer "decreto", "verificao", ou "confirmao". No entanto, o conjunto de propriedades sem dvida seria muito pequena, abstrato e geral "fornecer ferramentas para descrever um texto" (4.5). Pode-se apenas descrever as caractersticas que as partes de texto com todos os outros textos em todas as lnguas, incluindo as lnguas que no existem e nunca ser - um exerccio esotrico, para dizer o mnimo. 1.16. Quando Saussure j havia aconselhado "lingista" para "familiarizar-se com o maior nmero possvel de lnguas, a fim de determinar o que universal em si", ele sups que "a diversidade de expresses idiomticas esconde uma profunda unidade", e que "todos expresses idiomticas encarnar certos princpios fixos que o lingista encontra uma e outra vez "(1966 [1916].: 23 99). Mas ele admitiu que " muito difcil de comandar cientificamente essas lnguas diferentes"; e ironicamente concluiu, com imensa eufemismo, que "a forma ideal, terico da cincia nem sempre aquele que lhe imposta pelas exigncias da prtica" (1966: 99). No to Hjelmslev, que conjurou o ideal pelo qual "a mera descrio primitiva" seria substituda por "auto-consistente e descrio exaustiva" (1969: 9, 18). A julgar por seu trabalho publicado, ele nunca tentou apresentar essa descrio de qualquer texto, e por isso no confrontar sua impraticabilidade como um mtodo. 1.17. Para incluir todos inexistente, apenas "possveis" lnguas, o conjunto de lnguas para que "teoria" de Hjelmslev poderia aplicar seria infinito; como corolrio, tambm seria o conjunto de "textos" para ser "descritos". Se assim for, os resultados de descrever um texto ou um conjunto de textos que parecem sempre muito restrito para reivindicar significado genuno - assim como os linguistas de casa da escola gerativa poderia prever qualquer forma (1.20). No entanto, mais uma vez, por implicao, os processos de compreenso de um texto seria infinito, bem como, o que flagrantemente falsa. Aqui, vemos o quo longe as exigncias impostas a descrio real linguagem muito overreach, mesmo que, como sugeri, a teoria est longe (cf. 1.5). Em paralelo, a "competncia" e "conhecimento perfeito" do "speaker-ouvinte ideal" (1,9) estique muito o desempenho e conhecimento de alto-falantes reais. Ambos overreachings tornar lingstica de casa empiricamente vazia: se esforando para descrever tudo de uma vez e no descrever qualquer coisa. 1.18. Eu diria que este ponto to enfaticamente para a definio de "linguagem" como um "conjunto infinito de sentenas" (por exemplo, Chomsky, 1957: 13), presumivelmente calculado para sugerir que a descrio dos dados no era simplesmente impraticvel, mas incapaz, em princpio, de sempre levando a uma teoria da linguagem (ou a uma "gramtica"). No entanto, um "conjunto infinito" conteria todas as frases possveis, incluindo os mais flagrantemente improvveis oferecidos como contra-exemplos (como "idias verdes incolores dormem furiosamente"). Os paradoxos do infinito habitam prosa imaginativa, como o de Jorge Luis Borges. Em sua biblioteca infinita: Para cada linha de indicao direta, h lguas de cacofonias insensatas, jumbles verbais e incoerncias. [...] Homer comps a Odyssey; se postular um perodo infinito de tempo e as circunstncias infinitas, a nica coisa impossvel no para compor o Odyssey (Borges, 1964: 53, 114) Alm disso, "performance" exigiria pesquisa vezes infinitas. E isso estaria relacionado a "competncia" de maneira puramente acidental, assim como, na parbola familiar, uma sala cheia de chimpanzs com mquinas de escrever, com o tempo infinito, escrever as obras completas de Shakespeare. Tal o significado matemtico adequado do "infinito", e corta uma teoria da linguagem fora de todas as prticas. 1.19. Podemos descartar adequadamente a reserva de que a lingustica descritiva "inadequada" porque "o corpus de enunciados observados" "finito" (cf. Chomsky, 1957: 15; 1965: 67). Esta reserva vlida para todo conjunto de observaes e cada conjunto de dados em todas as cincias. S o finito pode ser observado; e os dados so, tanto pela definio e pela etimologia, "o dado", e nunca pode ser diferente do finito. 1.20. A avaliao deve ser justificado que uma lngua se manifesta em um conjunto muito grande, mas sempre finito de dados; e que o sistema proporciona para conjuntos maiores, indefinidamente, o que tambm vai ser finito, em qualquer momento. Sem esse conjunto pode jamais ser completamente observados, mas devido a limitaes de ordem prtica, em vez de princpios tericos. Como todos os cientistas que trabalham com esses grandes conjuntos de dados, os lingistas devem gerenciar um trade-off entre a amplitude (a quantidade de dados de uma teoria pode descrever) e profundidade (o grau de detalhe e preciso na descrio pode alcanar) (3.10ff). Agora, se uma lngua fosse um conjunto infinito, ento a sua descrio implicaria uma amplitude infinita que achata a nossa profundidade a uma superficialidade infinito, e nossa descrio (concludo em tempo infinito, por sinal) seria capturar detalhes s infinitesimais. Na prtica, a lingustica de casa evadido seu prprio postulado "infinito" por "assumir que o conjunto de frases gramaticais de alguma forma dada com antecedncia" (por exemplo, Chomsky, 1957: 18, 54, 85, 103). Largura era meramente hipottico, bootstrap na teoria, invocando "universais lingusticos" ", afirmou apenas na teoria lingstica geral como parte da definio da noo de" linguagem humana "(Chomsky, 1965: 6, 117), largura no sentido prtico I sugerir foi deixado de fora da agenda, como quando "a cobertura bruta de dados" foi lamentou porque no ajudar um lingista "aprender alguma coisa sobre os princpios" (Chomsky 1982: 82f). 1.21. Ns tambm podemos descartar a ressalva de que "o corpus de enunciados observados" "acidental". Toda cincia deve enfrentar o acidental em seus dados; o papel da teoria no deixar de lado os dados reais e inventar alguns dados que se adapte melhor, mas para estipular como podemos distinguir entre acidentes e regularidades (3.17). E a exigncia crucial para o fazer coletar e agrupar conjuntos de dados to grande como as tecnologias atuais permitem. claro que o estado da tecnologia , em si depende de acidentes, por exemplo, se os fundos so distribudos para os super-aceleradores de fsica ou de telescpios espaciais em astronomia. Mas a capacidade da tecnologia para a produo de dados tem sido geralmente bem frente da capacidade da teoria para explicar esses dados - e nada mais do que em lingstica hoje (3.2). 1.22. Alm disso, a cincia pode recorrer tecnologias precisamente para lidar com acidentes em nossos dados, o mais crucial nas fronteiras onde nossas teorias ainda esto lutando para distinguir os acidentes das regularidades (3.17). A mais significativa o potencial de acidentes, maior a amplitude devemos procurar, e quanto mais devemos implantar essas tecnologias que aumentam a amplitude sem materialmente diminuindo a profundidade. Podemos, assim, empurrar para baixo o significado de qualquer acidente em particular (ou conjunto de acidentes) reavaliando sua probabilidade. Por outro lado, podemos descobrir regularidades quando podemos inspecionar um grande conjunto de dados, onde vimos acidentes antes (cf. 3.8).
2 Recuperando a dialtica
2.1. As questes levantadas na seo anterior indicam que a lingustica do grosso da populao no conseguiu capturar o ciclo dialtico exibida de volta na figura. 1. lingstica descritiva, as prticas tm geralmente executar bem frente das teorias. Inmeras medidas e estratgias realmente aplicados na pesquisa de campo foram totalmente orientada a dados, e em nenhum contabilizadas nas teorias lingsticas esparsas dos tempos. Mesmo de Pike (1967 [originais 1945-1964]) programa monumental situar linguagem dentro de uma "teoria unificada da estrutura do comportamento humano" foi cercado dentro dos limites do behaviorismo e "cincia unificada", o que o impediu de expor uma teoria unificada da significado (Beaugrande, 1991: 107-11). Mais recentemente, alguns fenmenos significativa e original descoberto e descrito no trabalho de campo, como no Longacre (1970, 1990) sobre "pargrafos faladas" e "histrias", ou em Grimes (1975) sobre o "fio do discurso", foram em nenhuma parte acreditado em teoria lingstica nem mencionado nos livros de lingstica convencionais. Ou novos termos foram cunhados, como "encenao" e "garantia"; ou ento termos credenciados foram atribudos significados no-convencionais, como para "predicado" e "transformao". 2.2. Na lingstica gerativa, em ntido contraste, as teorias ter corrido muito frente das prticas - at agora, na verdade que as prticas parecem ter sido deixados para trs por completo (Beaugrande, 1998). Lingstica descritiva foi severamente repreendido por no ser terico suficiente, e, mais especificamente, para tentar construir teoria sem prtica, ou seja, atravs da observao e anlise de dados (Chomsky 1957). No que diz respeito ao trabalho de campo, e da repreenso era manifestamente injusto: nenhum outro mtodo pode ser bem sucedida quando o lingista no tem nenhuma informao prvia ou fora sobre a organizao de uma lngua. O que emerge , claro, uma teoria sobre o que um determinado idioma, e no sobre a "natureza universal" de todas as lnguas. Mas, no seu mbito modesta, a teoria foi testada por vigorosamente dados (1,6), e podem ser testados novamente sempre que os dados passam por um aumento substancial. 2.3. Na lingstica gerativa, a construo de teoria tornou-se independente da observao e anlise de dados; pelo contrrio, estes mtodos foram expressamente declarados incapazes de produzir uma teoria (1.11) Eles poderiam ser ignorada precisamente porque o lingista como falante nativo tinha tanta informao prvia ou fora sobre a lngua (1,10). Mas onde, ento, deve a teoria vem? No evento, ele veio na maior parte, de forma impressionante reformulao em mais terminologias tcnicas, de gramtica livros tradicionais sobre essa mesma lngua nativa. Assim, a "universalidade" de "marcadores frase" foi afirmado, no entanto, os diagramas de acompanhamento exibido algumas categorias gramaticais de livros, obviamente, com sabor de Ingls como "definitivo" e "artigo" (por exemplo, Chomsky, 1965: 107ff). Muito antes, Bloomfield (1933: 233, 270) havia advertido contra "lingistas dando por certo a natureza universal" das "categorias" de sua prpria "lngua nativa". Agora, as perspectivas reais surgiu de "forar todas as lnguas no molde de Ingls, assim como em perodos anteriores terem sido obrigadas a do latim clssico" (HALL, 1968: 53) (1,10). A palavra de ordem relativamente rgida de Ingls engendrou a teoria da "sintaxe autnoma". A ausncia de uma morfologia sistemtica em Ingls levou a morfologia sendo desabrigadas em teoria gerativa. E assim por diante. 2.4. A natureza dialtica da linguagem e do discurso foi agora completamente obscurecida. A lngua no foi considerada como uma teoria que discurso pe em prtica, mas como uma teoria sobre uma teoria (a meta-teoria sobre si mesmo) que independente da prtica e de fato interrompida pela prtica. Paradoxalmente, estes linguistas desacreditado os dados produzidos por falantes nativos comuns como "fragmentrio e desviante", mas acreditado os dados inventados por eles mesmos em razo da sua prpria competncia como falantes nativos (cf. 1.9ff). Os dados foram inventados precisamente para fora da teoria - justamente o contrrio da lingstica descritiva. Aqui, a viso de Hjelmslev parece ganhar vida: a "teoria lingstica", que "no pode ser confirmada ou anulada" (1,15). 2.5. Talvez a implicao mais profunda desta abordagem que o prprio termo "linguagem" no se refere ao que a maioria das pessoas, incluindo a maioria dos cientistas, considere um idioma. Em vez disso, ele se refere a uma construo de teoria lingstica to tenazmente idealizado pode ironicamente qualificar como uma "linguagem que nunca foi realizado e provavelmente nunca ser realizado" hjelmsleviana (1,14). Como e por que tal construo deve promover a descrio das lnguas que esto sendo realizados em todo o mundo nunca foi convincentemente exposto. Na verdade, poderamos prever alguns obstculos imperiosas contra descrio. 2.6. Um obstculo reside na terminologia. O estado puramente virtual de "linguagem" como um sistema no-realizado no centro da lingstica se espalha em termos mais especficos. Tal parece ter ocorrido com "sintaxe" como um sistema formal de regras que determinam a palavra de ordem de todas as "frases gramaticais" em uma lngua. Porque verdadeiros falantes colocar palavras em ordem para muitos motivos pouco relacionados a regras formais, este "sintaxe" no existe na lngua real (Beaugrande 2000a). Menos ainda existe uma "semntica", que assume um significado totalmente estvel, determinstica para cada expresso de uma lngua, seja com base em "postulados de significado" ou "traos semnticos" (Beaugrande, 1984). O estado virtual, inexistente destes dois "nveis" ou "componentes" da linguagem torna-os imprprios, em princpio, para a descrio de dados autnticos, onde a substituio inquestionvel de dados inventados no-autnticos (cf. 1.10ff). 2.7. O segundo obstculo o significado peculiar atribudo ao termo "descrio". Quando a operao de "atribuio de uma descrio estrutural de uma sentena" foi equiparado a "gerao da sentena" (Chomsky, 1965: 9), a anlise formal dos dados foi igualado com a produo original de dados, apesar dos desmentidos de Chomsky de faz-lo. No entanto, as categorias de que mesma anlise so totalmente insuficientes para a produo, por exemplo, no teve em conta do significado durante a fase de "geradora". Com efeito, este "description" retira a sentena da maioria de suas caractersticas operacionais e deixa um simples trao - nem mesmo um modelo para o projeto, muito menos um registro da execuo do projeto. 2.8. Evidentemente, substituindo "linguagem" com uma construo virtual leva substituio de "descrio" com uma operao virtual. Aqui tambm um motivo para preferir os dados no-autntico: so mais passveis de apenas uma operao desse tipo. A "gramtica transformacional" precisa apenas as categorias descritivas para converter a pena em outra estrutura mais essencial e geral ("kernel", "estrutura profunda", etc). Esta operao no mesmo descrever dada a sentena em si, mas analisa-la, e apresenta mais uma vez uma estrutura que no requer confirmao porque a teoria introduziu-o no status de um axioma. Assim, a descrio efetivamente circular na forma de uma concluso precipitada. 2.9. Se lingstica restabelecer a linguagem como um objeto emprico de estudo, devemos reafirmar sua herana descritivo e recuperar a interao dialtica entre teoria e linguagem como discurso como prtica. Esses dois lados devem ser vistos como constituindo um ciclo dinmico entre dois modos distintos, mas estreitamente coordenada de ordem. A ordem da linguagem deve ser orientada para a prtica e expressamente concebido para apoiar a ordem orientada por teoria do discurso, sem predeterminar-lo totalmente. At agora, uma grande rea cinzenta persistir entre essas duas ordens, que compreende uma srie de limitaes que so mais especficos ou local de uma linguagem ainda mais geral ou global do que um discurso (Beaugrande 2000b) (cf. 4.2).
3 O impacto muito grande corpora 3.1. Por razes prticas, a pesquisa corpus muito baseado em trabalho de campo, no passado, teve de se contentar com quantidades relativamente pequenas de dados. Eu posso descobrir em que trabalho h teorias que estipulam o quo grande um corpus deve ser; nem que tal teoria particularmente relevante ou interessante, desde que o pesquisador pode ter que enfrentar, circunstncias fortuitas bizarros para obter dados. Em seu trabalho de campo em cantons na dcada de 1940, Halliday feito gravaes de voz em carretis de fios pesados, ea quebra dos fios seria frequentemente danificar ou destruir suas tecnologias data.4 Melhoria reduziram tais perigos mecnicos, mas no os trabalhos de transcrio e interpretao dos dados . O reconhecimento de voz pelo computador, agora finalmente alcanado, vai ajudar-nos apenas para transcrever os dados nesses idiomas que j foram descritos extensivamente o suficiente para configurar o programa; e transcrio de dados apenas um passo parcial na anlise ou interpretao. 3.2. Hoje, a pesquisa corpus tem acesso a muito grandes corpora de dados autnticos para diversas lnguas, e pode confiantemente prever muitos mais no futuro prximo. Estamos diante de uma deciso difcil sobre se alguma teoria estabelecida e prtica da descrio lingustica ser reaplicado para estudos corpus; ou se os fundamentos da lingstica ser revista luz dos estudos corpus (Tognini Bonelli 1996; Sinclair, 1999). Como sabemos a partir do trabalho sobre "revolues cientficas" na filosofia da cincia desde Kuhn (1970), uma teoria no deslocado por dados por si s, mas apenas por uma outra teoria que lida com mais dados e extrai novos e importantes insights de dados. Minhas prprias experincias em pesquisa corpus levam-me a prever que a lingustica deve preparar-se para uma grande revoluo cientfica ou mudana de paradigma semelhantes aos que se seguiu aps a introduo de tecnologias como o telescpio na astronomia ou o microscpio na biologia (Sinclair 1994, 1999).As with other technologies, this one wields the capacity to produce data far ahead of the capacity of our theories to account for those data (1.21).To extend the analogy: we are seeing phenomena in language which only become visible through the technology. 3.3.However, a tecnologia tambm torna visveis alguns de longo alcance problemas problems.These no, como por vezes tem sido argumentado (eg Widdowson 1991), so decorrentes de deficincias inerentes corpora.Rather, os problemas tm sido inerente pesquisa de linguagem ao longo de toda mas dificilmente seriam abordados quando os dados foram limitados pelas prticas da lingstica de campo ou ento marginalizados pelas teorias de lio de casa linguistics.Now, pesquisa corpus nos confronta com questes de princpios como estes: Qual o tamanho que um corpus tem, a fim de representar uma linguagem? O que a razo entre a quantidade e qualidade dos dados? Qual a relao entre a amplitude ea profundidade da descrio? O que a relao entre a uniformidade e diversidade de dados? Qual a relao entre regularidades e acidentes em dados? Qual a relao entre gramtica e lxico de uma lngua? Qual a relao entre a organizao manifesta e subjacente da linguagem? Estas perguntas so to intricadamente relacionados entre si que discutir qualquer um deles por si s uma tarefa desconfortvel. Mesmo assim, a pesquisa corpus deve levar-nos em direo a algumas respostas que valem a pena com o auxlio da tecnologia em si (cf. 4.6). 3.4.So nossa primeira pergunta diz respeito ao tamanho representativo de uma noo corpus.The de toda uma linguagem que tem um tamanho quantificvel em tudo no parece figurar na linguistics.5 moderna Ele seria, evidentemente, discutvel se a linguagem definida como um "conjunto infinito de sentenas ", mas eu tentei mostrar por que essa definio invlido (1,18). 3.5.Once uma linguagem definida como um conjunto muito grande finito embora de dados, e tambm um sistema que prev sets indefinidamente maiores (1,20), ento a nossa questo diz respeito relao entre o tamanho real de um corpus e seu potencial tamanho size.Actual foi dominado principalmente por factors.In prtico pesquisa corpus incio em computadores, quando a tecnologia de memria e programao eram bastante limitadas, um milho de palavras parecia um ambicioso size.When a tecnologia avanada, os motivos prticos foram novamente dominante em ebulio at o tamanho de 20 milhes e, em seguida, para 200 milhes no Banco de Dados Collins Birmingham International University (COBUILD) - familiarmente chamado de "Banco do Ingls" (BoE) - ou seja, para a elaborao de um novo tipo de dicionrio data-driven que logo se tornou o mercado standard.Then os corpora se foram oferecidos nos mercados comerciais, como COBUILD em CD-ROM (5 milhes) e do British National Corpus (BNC) da Oxford University Press (100 milhes). 3.6.This dominncia do lado prtico seria expected.Lexicography tem sido tradicionalmente um empreendimento prtico e lingstica terica centrou-se muito mais sobre a gramtica do que no lxico (cf. 3,11; 3,23) .Mesmo assim, avanos prticos ainda so necessrios por mais tecnologia amigvel no acesso end.Direct dos usurios a um corpus atravs da Internet est sujeita a vrios distrbios, como linhas que est sendo sobrecarregado, ocupado, ou cortar periodicamente off em meados de operao.Um corpus em um nico CD-ROM (como a da COBUILD) s pode conter um conjunto de dados modestos e fazer pesquisas simples e calculations.For tamanhos maiores e pesquisas mais complexas, como o BNC, os usurios trabalham com vrios CDs em sistemas operacionais pesadas, como Unix ou Linux, e exigem formao tcnica em sistemas de masterizao como o "Corpus Data Interchange Format", baseado no "padro Generalizadas Markup Language" (Aston e Burnard 1998). 3.7.But visto de lingstica no interior, a teoria o lado onde os avanos so pressingly chamado para now.There, tamanho nos leva a outra questo da relao entre quantidade e qualidade da hiptese data.The nula seria a de que para alm de um limiar (dizer, um milho de palavras), aumenta de tamanho basta multiplicar em uma proporcionalidade mecnico: um item ou padro que aparece uma vez em 1 milho de palavras aparece 20 vezes nos 20 milhes de palavras e 200 vezes em 200 milhes de words.But esta hiptese s poderia segurar se uma lngua fosse to uniforme um sistema que sua produo atinge um teto informao definida e suas caractersticas vo asymptotic.Beyond que, a quantidade aumentar, enquanto a qualidade manteve-se constante. Pesquisa 3.8.Corpus, ao contrrio, sugere uma relao dialtica em que um grande aumento na quantidade traz um aumento na qualidade, por isso o sistema de linguagem deve ser muito mais diversificada do que os dados da hiptese nula stipulates.New pode revelar limitaes no detectados anteriormente em cima de uma aparentemente exemplo regularity.For sem restries, a maioria das gramticas de Ingls, incluindo o COBUILD gramtica com base em cerca de 20 milhes de palavra-corpus, apresentam o padro de artigo Definido mais adjetivo para se referir a toda uma classe de pessoas, e declar-lo "possvel utilizar quase qualquer adjetivo dessa maneira "(Sinclair et al 1990:. 21f) .Mas Sinclair (1998: 86) relatou recentemente" preconceitos atitudinais e restries seletivos "no corpus em 336 milhes de palavras: o padro principalmente reservada para" "pessoas infelizes, como os idosos, os feridos, os desempregados, os doentes, os idosos, os pobres e os deficientes, como em (4) pessoas .Fortunate ocorreu principalmente por contraste com o infeliz, como em (5-6). (4), em servios para os doentes mentais, os idosos e os deficientes, Sr. Cook prometeu que o Partido Trabalhista iria nomear um ministro para o cuidado da comunidade. (jornal) (5) Este um sistema em que os ricos so cuidadas e os pobres so deixados a sofrer em silncio. (jornal) (6) o recurso, especialmente em pases latinos, bastante para invejar a sorte do que a pena do infeliz. (Bertrand Russell) Esse "vis de atitude" pode ser explicado pelo efeito de depersonalising omitindo um substantivo para o adjetivo para modificar. Tais explicaes no podem ser previstos ou admissveis em teorias lingsticas estabelecidas, mas poderia ser til para a pesquisa de campo, bem como a etnografia (1,7), e tambm no ensino de Ingls (4.4) 3.9.New idias so tanto reconfortante e disturbing.Just porque linguistas so estimulados quando novas regularidades so descobertas (1,7), que esto preocupados com a possibilidade de parar o avano da teoria atravs do congelamento do tamanho de um corpus para motives.This prticas ou tecnolgicas destino pode acontecer quando um dicionrio ou referncia de trabalho chega ao mercado, eo agente de financiamento termina support.Linguistics deve, portanto, fornecer ao pblico em geral e grupos de usurios, em especial, com o conhecimento terico e prtico o suficiente para apreciar a relao dialtica entre quantidade e qualidade. s ento que os mercados comerciais sejam impelidos a construir corpora maiores como motivos para reivindicar melhores produtos. 3.10.Our prxima e intimamente relacionado questo diz respeito relao entre a amplitude ea profundidade da descrio (1.20) .Whereas pesquisa de campo conseguiu um saldo de diligncia prtica pura em descrever os dados gravados autnticos, pesquisa lio de casa procurou amplitude "infinito" e "universal" apropriar profundidade por bootstrapping pura terica com punhados de dados inventados no-autnticos (cf. 1.7f; 1,20) .So enquanto amplitude e profundidade foram lentamente alcanado por pesquisadores de campo atravs de um curso rduo de pequenos passos, eles foram rapidamente construdo a partir da teoria dos "linguagem "pelos trabalhadores em domiclio. 3.11. Hoje, a grande corpus torna amplitude sem precedentes acessvel, mas no necessariamente realizvel. O computador se assemelha a uma longa escada em que ainda estamos aprendendo as habilidades para escalar os nveis mais elevados na descrio da linguagem. Aqui tambm, muito depende de como um sistema de linguagem uniforme ou diverso poderia ser. Para um sistema altamente uniforme, uma descrio teria chances favorveis para ser completa (largura total) e precisa (profundidade total). A maior aproximao em pesquisa de linguagem real nas cincias companheiro de fonologia e fontica, teoria e prtica na partilha impressionante acordo. Mas sua uniformidade uma projeo direta do aparelho vocal humano eo alfabeto fontico. Na gramtica, a uniformidade foi brilhantemente postulado na teoria, mas nunca demonstrou na prtica. E no lxico, a diversidade inegvel manteve muitos linguistas de realizao de pesquisas em todos (cf. 3,23) 3.12. Largura torna-se uma questo virulenta quando temos acesso a grandes quantidades de dados. Profundidade torna-se virulenta quando temos de escolher entre as fontes desses dados. A maioria das descries produzidas em lingstica moderna foram destinadas a toda uma linguagem, por exemplo, ao "conjunto de frases gramaticais de alguma forma dado com antecedncia" (1,20). As fontes de dados no foram reconhecidos para constituir um factor problemtico, muito menos quando os dados foram inventados pelos linguistas. A mesma profundidade de descrio seria apropriado em todos os lugares, como seria os mtodos para alcan-la. Na pesquisa corpus, esse otimismo logo se quebra. A linguagem em si no de forma uniformemente profundas; o nmero de substantivos menos profunda do que Definiteness: Auxiliares polares so menos profundas do que Modal Auxiliares. Alcanando uma profundidade provvel que abra uma vista de ainda mais profundo, como quando uma anlise da Agncia de verbos leva descoberta de restries sobre pronomes como sujeitos ou objetos (cf. 3.32ff; 3,44). E a largura de uma descrio profunda, uma vez alcanada, pode ser difcil de determinar, por exemplo, quantos verbos restries partes sobre a sua Agncia (3,34). 3.13. At agora ns estamos no meio de sondar a relao entre uniformidade e diversidade em um idioma. Aqui tambm, a teoria lingstica muitas vezes inclinados a um dualismo acentuado. Uniformidade total foi atribudo linguagem, testemunha "completamente homognea discurso na comunidade" de Chomsky (1,9); ainda diversidade total foi atribudo ao discurso, testemunha Saussure "massa heterognea de fatos acidentais" (1,11). E a teoria lugar nenhum explicou como to extremo um dualismo de ordem e desordem poderia habitar o mesmo sistema (1.11). 3.14. Sem dvida, a nfase maior na uniformidade foi concebido para acomodar as noes comuns da cincia, mas no conseguiu reconhecer a singularidade da linguagem como objeto de investigao cientfica. L, uniformidade e diversidade constituem uma dialtica dinmica, em paralelo, embora no idntica dialtica entre linguagem e discurso. Todos os aspectos de uniformidade na linguagem deve ser projetado para manter a diversidade (cf. 3,41). Na fonologia, a uniformidade de fonemas como alvos comuns subscreve enorme diversidade entre os atos de pronncia devido a fatores como a idade, sexo e estado emocional de alto-falantes, e seu fundo regional ou educacional. Na gramtica, as funes de uniformidade so diferentes na modalidade, devido s suas necessidades mais complexas e multimodais para expressar mltiplos modos de significado. E o lxico do Ingls - em contraste com muitas lnguas - proporciona uniformidade bastante modestos e espordicos, devido a sua overlayering histrico e cultural de abordagens extrnsecos ou especializados a palavra-composio, por exemplo, emprstimos razes do latim e do grego. Pesquisa 3.15.Corpus agora est comeando a revelar o significado da dialtica entre uniformidade e diversity.Language encontrado para ser menos uniforme, e discurso menos diversificada do que a teoria lingstica costuma assume.The uniformidade de linguagem projetado para gerar diversidade em -line; ea diversidade do discurso refere-se continuamente de volta para e renova a uniformidade de linguagem (cf. 3,41). 3.16. Em termos de prtica corpus, a uniformidade pode realmente ser uma desvantagem. Se estamos compilando o que Sinclair (1999) chama de "corpus genrico ou de referncia" para cobrir o idioma Ingls de forma to ampla quanto possvel, ento devemos considerar at que ponto os dados recm-chegados parecem uniforme ou diverso ao lado de nossos dados j adquiridos. O valor da informao de um corpus no iria aumentar significativamente a partir de aumentar o armazenamento de dados uniformes do mesmo tipo. Esse problema se aplica especialmente aos meios de comunicao, como os jornais abundantes convenientemente publicados na Internet ou disponibilizadas por via electrnica directa, como o Sunday Times. L, a diversidade dos dados restrito em ser de autoria de um grupo relativamente pequeno, bem treinada de escritores, e que est sendo editado por um grupo ainda menor. Gostaria tambm de salientar o enorme balo de freqncias como eu encontrei no BoE em julho de 1994 de palavras- chave, tais como a violncia (19.226), mate (51.746), morte (31.013), assassinato (18.383), estupro (5890), e agresso (4055), 6 refletindo os interesses mrbidos, voyeurismo de mdia de massa mais do que as freqncias de autntica Ingls em geral. 3.17. Fatores similares incidem sobre a relao entre as regularidades e acidentes. Mais uma vez, a teoria lingustica tem sido largamente dualista: a linguagem constituda por regularidades na medida em que pode ser um objeto da cincia; e um discurso cheio de acidentes e, portanto, nenhum objeto em forma de cincia. Antes muito grande corpora se tornaram disponveis, projetos para realmente demonstrar regularidades por meio de freqncias estatsticas e medidas de probabilidade eram raros e trabalhoso (por exemplo Kuera e Francis, 1967). Lingistas deu garantias de que "um observador lingustica pode descrever os hbitos de fala da comunidade, sem recorrer a estatsticas", porque "as formas de linguagem" so "rigidamente padronizados" (Bloomfield 1933: 37); ou que, quando nem ao menos "frases, nem qualquer parte deles j ocorreu em qualquer discurso Ingls" ou "a experincia lingustica de um falante", que so "estatisticamente" todos "igualmente remota" (Chomsky, 1957: 17). Estas duas garantias contradiz categoricamente um ao outro - os dados sendo todos altamente provvel ou altamente improvvel. Mas nem poderia ser testado sem a tecnologia poderosa para medir a relao entre regular e acidental (1,22). 3.18.The papis potenciais para as estatsticas e probabilidades so certamente devido para reavaliao, agora que temos muito grande corpora (Halliday 1991, 1992) .Finding e contando itens manifesto mais tratvel, ainda menos informative.The freqncias de itens em um corpus pode dar nenhuma indicao segura de sua carga funcional no system.Finding linguagem exatamente 6.000 ocorrncias para de no 5 milhes de palavra COBUILD Corpus em CD-ROM no til, ns precisamos saber as propores para cada uma de suas mltiplas funes em combinaes. e combinaes tambm esto sujeitos aos efeitos de balo eu notei h um momento em notcias media.Among os 20.569 ocorrncias de sexo devolvido pelo BoE em julho de 1994, descobri Sex Pistols (em 707), apelo sexual (em 762) sexo oral (a 203), e de discriminao sexual (em 209) freqncias .Such no so significativos a menos que possamos determinar o quo longe as ocorrncias implicam o "mesmo" item em tudo. Freqncia 3.19.The de combinaes manifesto , portanto, menos tratvel, mas mais informative.Corpus pesquisa dedicou grande parte de explorao para as combinaes lexicais tpicos chamados colocaes, e as combinaes gramaticais tpicos chamados colligations.7 entanto tipicidade no pode ser explicada em termos de frequncia sozinho .in meu combinado corpora de 12 milhes de palavras de escritores britnicos e norte-americanos, que serei citando mais adiante, entre um total de 339 ocorrncias do verbo fugiram apenas 3 da colocao fugiu do country.To minha intuio, esta combinao parece tpico mesmo que a sua frequncia e probabilidade estatstica so negligible.It tambm ocorreu apenas uma vez entre os 99 usos da fugiram no COBUILD em CD-ROM: (7) aps o colapso da autoridade czarista, oportunistas declarou uma democracia independente, ento uma junta militar que fugiu do pas. (livro) Mas eu posso tirar alguma confirmao onde o verbo fugiu levou nomes de pases como objetos diretos: Frana, Iraque, Kuwait, Crocia, Alemanha. 3.20.We agora a uma questo realmente assustadora: a relao entre a organizao manifesta e subjacente da lingstica language.Modern foi postular uma organizao "subjacente" da linguagem o tempo todo (por exemplo, Saussure 1966 [1916]: 56; Sapir 1921: 144; Bloomfield 1933: 225F; Hjelmslev 1969 [1943]: 9F; Chomsky 1965: 4f, 10, 18, 22) .Entre as perspectivas grandiosas era que as "gramticas descritivas de diversas lnguas" iro "algum dia" nos permitem "ler a partir de eles as grandes planos de cho subjacente "(Sapir 1921: 144) .Presumably, esses" planos "so o objetivo do trabalho em" universais lingusticos ", mas a maior parte desse trabalho carece de uma base segura em gramticas descritivas. 3.21. Alm disso, a lingstica se manteve perturbadoramente evasiva sobre como podemos derivar a organizao "subjacente" da organizao manifesta. Assim, a proviso de Chomsky que "os dados reais de desempenho lingstico" constituiria uma "evidncia para determinar a correo de hipteses sobre a estrutura subjacente de" conflito com sua insistncia de que "estrutura de superfcie" "unrevealing" e "irrelevante" e "peles distines subjacente" (1965: 18, 24). Com sinceridade surpreendente, ele admitiu que sua proposta "gramtica no, por si s, fornecer qualquer procedimento sensato para encontrar uma estrutura profunda de uma determinada frase"; e ele evitou toda a questo, operando sobre a "simplificao e ao contrrio da realidade suposio de que a seqncia bsica subjacente a frase" (1965: 141, 18). 3.22. Esses subterfgios prontamente segue das tendncias j observadas atribuir a linguagem modos altamente idealizadas de ordem e de transpor o conceito de linguagem a partir do caso particular ao longo de uma abstrao universal (cf. 1.8, 13, 16, 20; 2.5). Ao faz-lo, naturalmente, promove uma prontido para ver desordem em dados do manifesto, e, portanto, uma certa relutncia em explor-los na busca de ordem subjacente (cf. 1,11; 3,12). Em vez disso, os modos artificiais de ordem se emprestado de fontes como a lgica ou a matemtica formal, o que s intensifica a natureza idealizada e abstrata de "linguagem" (1,8). 3.23. Aqui, podemos destacar a relao entre gramtica e lxico. Teoria lingstica tem muito tempo considerada "gramtica" como o epicentro da uniformidade e regularidade de toda uma linguagem e como uma casa para os universais lingusticos (compare Saussure 1966 [1916]: 133, 152; Sapir 1921: 38; Bloomfield 1933: 163; Chomsky 1957 : 56). Em troca, os lingistas h muito concordou que o lxico uma mera "lista de irregularidades bsicas" (Bloomfield 1933: 274; cf. doce 1913: 31; Saussure 1966 [1916]: 133; Chomsky 1965: 86f, 142, 214, 216 ). Em menor escala, essa dicotomia re-encena a dicotomia entre a ordem da linguagem e da desordem do discurso (1.11), e novamente lingstica escolheu ordem: muito trabalho em gramtica, pouco no lxico (3.6). Eventualmente, um linguista lio de casa pode baldly anunciar que "a lingstica no sobre a linguagem; trata-se de gramtica "(Smith, 1984). 3.24. Aqui, novamente, a teoria lingstica deve substituir a dicotomia com uma relao dialtica, esta gramtica uma coordenao e lxico e constituindo o lexicogrammar interativo, o "powerhouse semogenic da linguagem" () Os dois lados no diferem em espcie, mas em graus de delicadeza : menor para o lado gramatical e superior para o lado lexical. Talvez o lxico pode ser considerado para alguns fins como "gramtica mais delicada" (Halliday, 1961: 256; Hasan, 1987: 184; Cruz, 1993: 199) .8 3.25. As interaes de gramtica e lxico so facilmente visvel a partir de pesquisas corpus em coligaes e colocaes no sentido de 3.19. Uma vez que estes so definidos como combinaes tpicas, eles continuamente chamar a nossa ateno para os motivos plausveis de alto-falantes ou escritores para coordenar vrias selees. Por exemplo, o verbo Ingls "riacho", que significa "aceitar, tolerar" geralmente requer um elemento negativo (Sinclair, 1994), como em: (8) Johnson no podia tolerar que parece ser penteada no argumento (Life) (9) Bouille monta, com pensamentos que no ribeiro fala. (Francs) (10) seu trabalho era de um tipo que no admitiria negligncia (Lady) Esse verbo raramente usado, e preferencialmente em linguagem solene sobre um assunto pesado, como no drama de Shakespeare: (11) Esse negcio de peso no vai tolerar atraso (Henry VI) (12) O meu negcio no pode tolerar esse flerte. (Comdia dos Erros) (13) rei falso, por que tu tens f quebrada comigo, Saber como mal posso tolerar abuso? (Henry VI) Esta segunda restrio mais delicada do que a necessidade de uma negativa, ainda mais difcil de definir em termos de escolhas lexicais manifesto. O negcio de peso pode ser o assassinato de um Duke (11), ou apenas a cobrana de uma dvida (12). O weightiness so em parte simplesmente de usar ribeiro, em vez de, digamos, permitir ou tolerar. 3.26. Tais dados do lexicogrammar de Ingls nos apontam para a imensa tarefa de contabilizao de vrios parmetros de variao de uma lngua: gnero, registrar e estilo. Em termos de teoria, estes constituem os sistemas de controle intermedirios entre a linguagem eo discurso (Beaugrande 1997eh?). Seu projeto deve ser tal que, quando um deles ativado, o nvel de ativao gerado para opes adequadas e baixou para os inadequados (Kintsch 1988;. Rumelhart et al 1986). Em termos de prtica, que, obviamente, afeta as selees e combinaes que podemos esperar encontrar em dados discurso autntico; mas como descrever esses efeitos est longe de ser claro nesta fase. 3.27. Aqui, podemos prosseguir uma estratgia de resoluo dialtica: a construo de sub-corpora onde prevemos distines sistemticas de qualidade; e em seguida, usando as nossas concluses para testar e refinar as nossas previses e avaliar a tipicidade dos estoques de dados especificados como indicadores de algum gnero ou estilo (cf. 4.5f). Para uma breve demonstrao, vou recorrer a trs fontes distintas: (a) dois corpora da literatura, um por autores britnicos (por exemplo, Austin, Dickens, Wilde) e um por autores americanos (por exemplo, Hawthorne, Mark Twain, Willa Cather) , datando mais ou menos entre 1750 e 1920 e, juntos, totalizando 8,7 milhes de palavras; (b) dois corpora de doutrina e cvicas, novamente incluindo britnica (por exemplo, Darwin, Bulwer-Lytton, JS Mill) e americanos (por exemplo, Thomas Jefferson, Jane Addams, WEB DuBois), juntos totalizando 4,8 milhes de palavras; e (c) Collins COBUILD em CD-ROM (5 milhes de palavras), que representam o uso cotidiano contemporneo. Os dois primeiros conjuntos de corpora, totalizando todos juntos 13,5 milhes de palavras (ver apndice para lista de textos atuais), eu me compilado para rodar em WordPilot , um programa de recursos desenvolvida por John Milton, da Universidade de Hong Kong de Cincia e Tecnologia (Milton 1999). Minha compilao tambm enfrentou restries prticas fortuitas: Eu tive que usar os textos que esto em domnio pblico e podem ser baixados de sites da Internet. 3.28. Nas fontes (a) e (b), o padro de artigo definido mais Adjetivo foi encontrada para ser mais equilibrado do que nos dados relatados no Cobuild 3.8. A maior freqncia apareceu entre doutrina e cvicas, que so logicamente propensos a classificar as pessoas. Juntamente com os contrastes, como os observados por Sinclair, por exemplo, (14-15), encontrei muitos, onde as pessoas afortunadas ocorreu sozinho, embora, por vezes, com o intrigante ironia de no ser seguro em sua boa fortuna (16-17). (14) Sorria com o simples e alimentar com os pobres? [...]; deixe-me sorrir com o sbio, e alimentar com os ricos (Boswell, citando Samuel Johnson) (15) Nenhum sabe o infeliz, ea sorte no sei se (Poor Richard) (16) H sempre alguma circunstncia de nivelamento que pe o arrogante, o forte, o rico, a sorte, substancialmente, o mesmo terreno com todos os outros (Emerson) (17) os educados ver uma ameaa no desenvolvimento ascendente seu [do homem negro (WEB DuBois) Se gramtica-books descrever o padro como sendo mais geral do que confirmado pelo uso contemporneo na COBUILD, ento talvez intuitivamente tomando discurso acadmico para ser um modelo de uso de Ingls em geral. 3.29. Em face disso, a resoluo dialtica pode parecer circular: usando o tipo de identificar as caractersticas de interesse, enquanto que o uso desses recursos para identificar o tipo. Mas os tipos de texto no podem, em teoria, ser definido mediante comprovao rigorosa, uma vez que, na prtica, a maioria dos tipos so definidos atravs de heursticas intuitivos por usurios da lngua. Alm disso, os tipos so frequentemente misturados, como em: (18) Um casamento um momento de alegria e uma ocasio apropriada para mostrar as tradies milenares em uma poca onde a modernidade est corroendo aspectos importantes do passado. Este vislumbre muito a par da Arbia era uma cerimnia de casamento re-promulgada dos povos indgenas, refletindo a beleza intemporal e simplicidade de estilos de vida da Arbia, costumes e identidade nica, at os anos 70 leo-boom trouxe dramtico desenvolvimento scio- econmico. (Khaleej Times) Tal discurso bruscamente mistura os estilos de solenidade (alegria, antigamente), cincias sociais (modernidade, indgena, identidade, desenvolvimento scio- econmico) e turismo (idade de idade, beleza intemporal e simplicidade, estilos de vida), juntamente com o ocasional solecismo (vislumbre muito a par). O mix reflete vrios objetivos, como disfarar uma armadilha para turistas como um local cultural enquanto lisonjeiro comando dos leitores de uma variedade culta da Ingls aqui em Estados do Golfo. 3.30.Another estratgia pode ser para ns para criar regies locais de profundidade substancial por descrever conjuntos de dados estreitas com alguns thoroughness.The resultando idias poderiam, ento, ser projetada em conjuntos mais amplos e orientar a nossa seleo de aspectos e caractersticas de investigate.For exemplo, o COBUILD dados nos 20 milhes de palavras mostrou um verbo como elude sendo usado apenas no Active (cf. Sinclair et al 1990:. 407), por exemplo: (19) Novas tcnicas, como o osso de varredura e ultra-som, permitiram-nos encontrar mais das causas de dor nas costas, mas um grande nmero ainda iludir- nos (magazine) (20) Sylvie Guillem como Nikiya nos deu sua tcnica impecvel e musicalidade, embora a espiritualidade do papel at agora escapa dela (jornal) Na minha corpora literria e acadmica que eu encontrei 'elude "no passivo apenas seis vezes, como em: (21) As minhas importunaes no seria agora iludiu (Wieland) (22) que diminui o consumo; a coleo escapado; eo produto para o tesouro no to grande (FedPap) O significado de dados como (19-20) aproximadamente: algum conhecimento ou habilidade seria apropriado, mas no foi encontrado. O significado de dados como (21-22) mais como: algumas pessoas encontrar maneiras de evitar algo. O Passive me parece intuitivamente moda antiga; e verses passivas desses Actives parece totalmente improvvel: (19-A)? ? que so despistados por um grande nmero de causas de dor nas costas (20a)? ? Sylvie Guillem iludido at agora pela espiritualidade do papel 3.31. Agora, para aumentar a profundidade de nossa anlise de elude, podemos examinar algumas colocaes e coligaes tpicas. Entre os substantivos como objetos diretos, as colocaes visivelmente agrupados em torno de vigilncia, que ocorreu nove usos, por exemplo, (23), juntamente com os associados como a observao (24), dos olhos (25), e vista (25). (23) Nelson temia a mais que este francs pode sair e escapar sua vigilncia (Nelson) (24) eu no tinha esquecido as precaues para garantir a minha segurana pessoal, se eu pudesse escapar observao. (Eyre) (25) Que eu poderia enganar os olhos aguados de Rima Eu duvidei (Mansions) (26) olhar fatal de Hare, impossvel de escapar (deserto) Outras colocaes tpicas includo aperto (6 usos), por exemplo (27), e busca (4 usos), por exemplo, (28). (27) a jovem escapou das garras do selvagem (ltima) (28) Eu parei em um ou dois stands de treinadores para escapam busca (Erros) Os significados de todas essas colocaes envolvem duas agncias opostas, um deles visando iludir o outro e as potenciais consequncias. 3.32. Entre as coligaes, o mais impressionante, de longe, foi uma preferncia marcada por pronomes pessoais como objetos diretos. Dos 17 acontecimentos de dados Cobuild, 13 mostraram que este coligao, como em (19-20). Outros exemplos incluem: (29), ele define sua posio essencial, como um homem em busca permanente de um Deus que lhe escapa. (jornal) (30) eram artistas de distino considervel, mas man-in-the-street reconhecimento lhes escapou (jornal) (31) "River Lane", disse Shields. 'Clarke, claro! "Isso era o que tinha sido iludindo ele. (livro) Aqui, um outro significado diz respeito falta de algum insight ou conhecimento; a transitividade ativa desloca a Agncia nesta falta da pessoa para o conhecimento. 3.33. As propores entre as coligaes em meus outros corpora foram menos marcantes, mas ainda sugestivo: de 76 ocorrncias, 22 com pessoal pronome Objects. Ao lado de uma ideia (32) ou um facto (33), os agentes concretos, como uma pessoa (34) ou animal (35) fez o iludindo. (32) Ele falava como algum que estava tentando manter a preenso de uma idia que lhe escapava. (Tempo) (33) Algo parecia dar forma no crebro de Jimmy. O simples fato de que ele havia escapado at agora surgiu em sua mente. (Damsel) (34) Apesar de Sam assombrado trio e escadaria e salas de metade da noite, os fugitivos lhe escapava (Giro) (35) Todos os quatro barcos deu a perseguio de novo; mas a baleia iludiu (Moby) Apenas dois agentes confundiu apareceu em objetos diretos como substantivos, em vez de pronomes: (36) Esta baleia ilude os caadores e filsofos. (Moby) (37) vezes o capito correu para fora da loja para iludir MacStingers imaginrios [sua senhoria] (Domb) Estou ciente de nenhuma referncia, na literatura lingustica sobre Pronomes, para classes de verbos que coligar com pronome objetos, muito menos qualquer considerao terica potencial. Provisoriamente, podemos descrever tais verbos como expresses de Processos Agent-opostas, que so geralmente acompanhadas de algum fundo preparatrio identificao dos agentes. Em alguns contextos, os dois agentes so pessoas (ou animais), o sujeito fazendo algo eo objeto iludindo-lo. Em outros contextos, o assunto no uma pessoa e, portanto, um pseudo-agente, mas algum conhecimento ou habilidade que est faltando, e que o objeto um agente que no tem a iniciativa. Em qualquer tipo de contexto, o agente escapado frequentemente clara e pode ser designado por um pronome. 3.34. O prximo e mais difcil problema seria explorar como ampla essa restrio detectada localmente poderia ser. Desde uma consulta de fora bruta de verbo + pessoal pronome oblquo em um grande corpus seria explosivo, que pode tocar a nossa intuio sugerir Verbos candidatos plausveis. Por este meio, minhas consultas trouxe luz os verbos repreenso colligating na ativa com objetos pessoais pronome em 24 das 51 ocorrncias; suplico em 94 de 126; e agradeo em 121 de 185 (Tambm, obrigado tinha uma quota justa de Assuntos pessoais pronome, ou seja, em 84 ocorrncias.) medidas similares de pessoal pronome objetos foram encontrados com os verbos Pseudo-Agent convinha em 14 dos 19 ocorrncias; e acontecer em 108 de 189 Os dados para suceder mostrou um vis de atitude distinta e ameaador para as escolhas dos indivduos Pseudo-Agente: as colocaes primrias foram infortnio (em 26), acidente (a 23), calamidade (em 19), e desastre (em 10). 3.35. Usando a intuio desta forma est longe de proclam-lo para suprir a "enorme massa de dados inquestionveis" invocada pelos lingistas de casa (1,9). Intuies so sempre questionvel, eo corpus faz o questionamento fcil. Por exemplo, a minha intuio Verbos que a corpora no mostrar nos padres de coligao de reprovao em quaisquer propores significativas, como reprimenda (6 de 27) e rejeio (3 de 34) sugerido. 3.36. CITAO INTERESSANTE Pesquisa Corpus reformula o linguista: no no papel do "speaker-ouvinte ideal, em um discurso na comunidade completamente homognea, que conhece a sua lngua perfeitamente", mas no papel de um alto- falante-ouvinte comum (e escritor-leitor) em uma comunidade heterognea, quem sabe a sua lngua apenas parcialmente e procura ativamente o acesso ao conhecimento de outras pessoas. Ns reivindicamos autoridade para nossas demonstraes de no abrigar poderes super-humanos de introspeco (1,9), mas a partir do exame de grandes conjuntos de dados autnticos produzidos por uma comunidade que coloca suas teorias implcitas da linguagem em uma ampla gama de prticas (cf. 1.3) . E nossas demonstraes no so sobre a "linguagem" como uma abstrao "universal", mas sobre esses dados em um idioma e muitas vezes sobre apenas um gnero, registrar ou estilo (3,25). Um efeito normal da dialtica da quantidade e qualidade (3,7) - - Tais declaraes podem ser facilmente "confirmada ou anulada" por mais ou outros dados, mas de qualquer etapa confirma mais uma vez a vitalidade de utilizar os dados autnticos. 3.37. A intuio ea introspeco so, portanto, em grande parte, heurstica e oportunista. Eles sugerem coisas para experimentar ou assistir, e eles nos ajudam a determinar o status eo significado aps o fato, uma vez dados autnticos so colocados diante de ns (Francis e Sinclair, 1994: 194). Eles no so muito confiveis como fontes de dados, e menos ainda como fontes de informao sobre as propores entre selees e combinaes de dados. 3.38. Permita-me demonstrar este ponto com um conjunto de dados final. Em julho de 1994, encontrei 515 ocorrncias de no podia ajudar e no pude deixar no Banco do Ingls, em seguida, em 225 milhes de palavras. Minha intuio me levou a prever uma quantidade razovel de dados colligating com um substantivo Objeto direto para alguma pessoa alvo que no podia ser prestada assistncia, mas encontrei apenas quatro, nem mesmo 1% do total. Aqui eu encontrei um outro fenmeno apontado por Sinclair (1991: 493f): o presumivelmente bsico autnomo significado listado em primeiro lugar por dicionrios convencionais no sendo em tudo o mais frequente nos dados corpus. O significado de ajuda como "dar assistncia aos ' listado primeiro na Stima Collegiate de Webster (p. 387), enquanto que o significado de' abster-se de" ou "Evite fazer" listado em stimo lugar. O projeto de um tal dicionrio dificilmente admitiria uma definio separada para no ajudar ou no poderia ajudar, mesmo que o significado comprovadamente distinta. 3.39. Os principais coligaes de longe nos dados Cobuild estavam com verbos: ou um particpio presente (por exemplo, no poderia deixar de admirar), ou ento com mas + infinitivo (por exemplo, no pude deixar de rir). Isso eu poderia ter previsto, mas no a minha concluso de que nenhum Advrbio j entrou entre (por exemplo, no podia deixar de admir-la profundamente) - uma opo totalmente gramatical, mas no foi encontrado (mas cf. 3,45). Em troca, eu encontrei dois padres mistos gramaticais menos (no pude deixar de pensar e no pude deixar de chorar) -o segunda pela perturbada Mary Wells, Tornado Vtima. 3.40. Ainda menos poderia minha intuio previram as propores entre as colocaes. Quase metade do total (em 234) colocado com um fora de um conjunto de apenas quatro verbos; voc poderia prever quais? Eles eram sensao (em 68), aviso (em 58), acho que (a 59), e maravilha (em 49). Ainda assim, se eu no poderia prever, eu poderia "retrodizer 'aps o fato, observando que esses verbos representam processos que poderiam muito bem ser julgados no devidamente sujeitas a controle consciente: eles podem levar a emoes, percepes e pensamentos, onde parece apropriado para observao de que algum no poderia ajud-la. O padro pode, portanto, ser considerado um auxiliar Face-Saving: uma expresso que atenua a Agncia de verbos de processo, a fim de salvar a face depois de alguma ao que possa ser interpretado como precipitada ou inadequada. Tal explicao no pode voltar a ser previsto ou admissvel nas teorias da lingstica convencionais, mas pode ser til para os etngrafos (3.8). 3.41. Alm disso, esses mesmos verbos freqentes tambm poderia fornecer Ncleos teis para a maioria das colocaes mais delicadas, indicando um caminho importante que a uniformidade projetado para suportar uma diversidade (cf. 3,14) O sentimento topo do ranking poderia ser o Ncleo de colocaes atestadas com choro , rindo / rindo, sorrindo / rindo, corando, temendo, gostando, amando, admirando, simpatizando, estremecendo, preocupantes, alm de quase todos os collocates delicados em coligao com ser ou estar: tocou, encantado, impressionado, emocionado, emocionalmente envolvido, fascinada , atingido, levado, arrastado, divertida, ciumenta, confusa, nervoso, assustado, surpreendido, chocado, ofendido. Emoes podem plausivelmente torn-lo auto-consciente, seja agradvel ou desagradvel, testemunha tambm a lista de objetos diretos ou modificadores coinstalao com o verbo sentir nos dados: a agradvel queridos entusiasmo, paixo, emoo, prazer, impressionado, foi justificado, eo desagradvel aqueles inveja, culpa, vergonha, desculpe, ofendido, apreensivo, alarmado. 3.42. O perceber um pouco menos freqente poderia fornecer um Ncleo para ver, olhando, olhando, ouvindo, ouvindo, lembrando-se, estar consciente. Pensando poderia ser o Ncleo de conhecer, considerando, refletindo, imaginando, e poderia subsumir a freqente perguntando, onde a incerteza, em vez de emoo pode estar fazendo voc auto-consciente. 3.43. Um grupo de collocates formado um cluster sem Ncleo freqente: falar, dizer, contar, comentar, apontando, comentando, declarando, sugerindo, respondendo, concordando, contestando, lembrando, felicitao, deixando escapar. Aqui podemos escolher o Ncleo por sua generalidade bastante a sua frequncia: falar estar envolvido em todos os outros, mas no vice-versa (proverbialmente, pode-se falar sem dizer nada). 3.44. Os sujeitos foram divididos colligating igualmente entre substantivos e pronomes. No entanto, as propores entre os pronomes foram dramaticamente desigual. Eu entrei em muito frente com 150 ocorrncias, seguido depois de uma grande lacuna por ela (48) e ele (45), e depois de uma outra lacuna por voc (15), ns (7), e eles (6), mais o Impessoal um (11) - para um total de 282 indivduos pronome (55% do total de dados). Aqui podemos ter evidncia de restries sobre o que poderamos chamar Multi-Processo Agncia, de modo que a identidade do agente estabelecida por um (ou mais de um) processo antes de dizer que o agente no poderia ajud-la. 3.45. Os dados da minha dois corpora literria deu uma imagem mais delicada dessas restries. L, eu registrado 147 ocorrncias de no podia ajudar e 320 com no podia ajudar, para um total de 467 Alm disso, os 320 constituram 86% das 370 ocorrncias de no ajudar. A freqncia altamente significativo se considerarmos que estes corpora, em um total de apenas 8.700 mil palavras, so cerca de 25 vezes menor do que a COBUILD em 225 milhes, que retornou 515 A explicao mais plausvel que eu posso encontrar - novamente no uma "lingustica "um, em qualquer sentido estabelecido - a funo til para enquadrar Eventos em discurso literrio, de modo a comunicar ao leitor prpria perspectiva de um personagem, como o que algum estava me sentindo ou pensando, talvez com nenhuma ao manifesta, como em: (38) Connie preso a ele com paixo. Mas ela no podia deixar de sentir como conexo pouco ele realmente tinha com as pessoas. (Chatter) (39) imaginao da senhora Tulliver no foi facilmente agiu, mas no podia deixar de pensar que seu caso era um duro (Floss) O estilo literrio pode explicar o atestado de advrbios inseridos, que nunca apareceram em dados Cobuild (3,39), tais como: (40) Ela no podia deixar freqentemente olhando olho no Mr. Darcy (Orgulho) (41) no pde evitar secretamente aconselhando o pai dela no deix-la ir. (Orgulho) (42) Florence no poderia ajudar, por vezes, comparando a casa brilhante com o lugar sombrio desbotada (Domb) Em alguns desses dados, no h nenhum outro lugar razovel para colocar o advrbio. 3.46. A qualidade pessoal e interna tambm pode ajudar a explicar as freqncias enormes, semelhantes aos observados em dados Cobuild, de primeira e terceira pessoa do singular Pronomes como sujeitos: I (151), ele (75), e ela (85), para um total de 311 (67% de todos os meus dados). Os plurais foram -ns rara (6) e (5) - provavelmente por causa de um sentimento ou um pensamento normalmente pertence a apenas um agente. O pronome de segunda pessoa voc era raro tambm (4), sem dvida, devido baixa probabilidade de dizer algum a sua cara o que no poderia ajudar. 3.47. s ainda maior delicadeza, eu achei que a escolha da contrao no poderia fez a diferena aqui. Considerando que ela e ele eram cerca de metade to freqente quanto para no pudesse, eu estava mais do que duas vezes mais frequentes: no podia deixar de (total de 147) no poderia ajudar (total de 320)
I 73 (49%) 78 (24%) ela 17 (11,5%) 68 (21%) que 19 (13%) 78 (24%) Eu chequei todos os dados para ver se a contrao foi preferido para o discurso falado. E, de fato, apenas 14 dos 73 usa com no poderia no ocorrer em discurso direto, como (43), mas na voz do narrador de primeira pessoa narrativas como As Aventuras de Huckleberry Finn, por exemplo, (44); Somente neste ltimo trabalho contribuiu 7 usos, mas, em seguida, Huck nunca diz no poderia, em qualquer contexto. Por outro lado, apenas 4 dos 78 usa com no poderia apareceu em discurso direto, como (45); tudo o resto foi na voz do narrador, como (46). (43) ", ela tomou todo o gro para fora o 'dele. No pude deixar de me sentindo pena dele s vezes ". (Fauntle) (44) eu tive que pular um pouco, e saltar para cima e quebrar meus saltos algumas vezes - eu no poderia ajud-lo (Finn) (45) "Ele era um homem muito bom, senhor; Eu no poderia deixar de gostar dele. "(Eyre) (46) De minha parte, eu no podia deixar de pensar que este advogado no era to invlido quanto ele fingia ser. (Clink) 3.48. Restries relacionadas aplicada s ocorrncias do pronome ele como objeto direto. Os dados com a contrao registrados 70 casos (47%), os dados com no poderia um mero 19 (6%). Aqui tambm, o contexto tende a estabelecer identidades: no para agentes e Metas, como para o Assunto (3,44), mas por aes e dos Estados. As pequenas freqncias da terceira pessoa pronomes ela (1), ele (1), e eles (2) como objetos diretos novamente documenta a raridade do sentimento de ajuda como "dar assistncia a '(3,38). Os poucos substantivos como objetos diretos tambm foram expresses de aes, e no agentes, como em: (47) Connie no podia deixar um ronco sbita do riso espantado (Chatter) (48) "Eu no poderia ajudar a interrupo, mas foi feita para isso depois de trabalhar at dois '(Carrie) Por conseguinte, encontrou uma disperso modesta de pares com a mesma ao como substantivo ou como verbo, como em: (49) Com essa possibilidade iminente no podia deixar de vigilncia. (Caster) (50) Catherine, embora no permitindo-se a suspeitar de seu amigo, no pude deixar de observ-la de perto (Abbey) A coligao com um verbo no particpio presente foi bastante visvel com no podia: 256 de 320 (exatamente 80%). Para no podia ajudar, esta coligao logado no 61 de 147 (41%), tendo que competir l com ele aos 70 Alguns autores utilizados no podia deixar exclusivamente a ela, tais como Mark Twain, Harriet Beecher Stowe, e Theodore Dreiser. 3.49. O assunto das preferncias dos autores em relao a regularidades lingsticas um intrigante um em pesquisa corpus. Podemos afirmar que os meus corpora so muito pequenos, o que , sem dvida, perfeitamente verdadeiro, tanto mais dada a dimenso de alguns textos individuais, como Ulisses, de Joyce em mais de 266 mil palavras. No entanto, as diferenas de tamanho entre os textos de exemplo um dado emprico importante, especialmente quando se espera que o pblico para ler todo o texto. Alm disso, no podemos determinar com antecedncia o quanto um autor ou um texto pode ser internamente consistente o suficiente para inclinar nossas medies em uma direo - Ulysses certamente no . A coligao depender dele (que significa "voc pode ter certeza") aparece 55 vezes na minha corpora, dos quais 28 vm de Jane Austen; mas seu uso era tpico da amostra inteira, onde totalmente 46 so imperativos e mais 8 colligate como voc pode depender dele no mesmo sentido. A tipicidade foi confirmado pelos dados no meu corpora da doutrina e civis britnicos e americanos. L, depender dele aparece 23 vezes novamente como Imperativo ou com voc pode. 14 deles foram proferidas pelo Dr. Johnson na vida de Boswell, cujo item seguinte Sir em 12 ocorrncias podem ser cobrados de forma segura a uma idiossincrasia pessoal. 3.50. Pelo menos to intrigante a questo das preferncias dos tradutores em relao a regularidades lingusticas de vrios idiomas A coligao Ingls no poderia ajudar no mais Verbo (51-52) no mostram correlaes regulares no Alemo (51a-52a) ou espanhol (51b -52b) verses de Alice no Pas das Maravilhas, enquanto marcas francesas ver com s'empcher ne pouvoir (51c-52c). Mas a coligao no poderia ajud-la tem um correlato independente em todas as trs verses (53-53c). (51) Alice estava quase se levantando e dizendo: 'Obrigado, senhor, por sua histria interessante ", mas ela no pde deixar de pensar que deve haver mais por vir (51a) Alice nahe guerra daran, aufzustehen sagen und zu: 'Besten Dank fr deine wirklich Interessante Lebensgeschichte', aber sie sich dann sagte, dass doch noch etwas einfach kommen mute (51b) Alicia estaba dispuesta um levantarse y decir: 'Gracias, seora, POR su historia interesante ", pero no pudo dejar de Pensar Que algo mas iba a decir la Tortuga (51c) Alice fut sur le point de se alavanca en disant: 'Je vous remercie, madame, de votre intressante histoire', Mais elle ne colocar s'empcher de penser qu'il devait surement y avoir une sute (52) que iria torcer-se todo e olhar em seu rosto, com uma expresso to confusa que ela no podia deixar de desatar a rir (52a) hatte das Nvel eine Art, sich und ihr umzudrehen mit einem to verwunderten Ausdruck ins Gesicht zu sehen, dass sie Laut herauslachen mute (52b) el ava de pronto se giraba, Mirandole um Cara con la tan perpleja expresso that Alicia no PODIA Contener la risa (52c) le flamant ne pas de manquait se retourner et de la regarder bien en face d'un ar si intriga qu'elle ne pouvait s'empcher de rire (53) "Olhe para fora agora, cinco! No v tinta espirrar em cima de mim desse jeito! '"Eu no poderia ajud-la", disse o Cinco (53a) 'Pass auf doch, Fnf. Du spritzt mich ja berall voll mit deiner Farbe! 'Dafr kann ich nichts', sagte Fnf (53b) "Ten Cuidado, Cinco! Me Ests salpicando TODO de Pintura! '"Pecado Fue querer'- dijo Cinco (53c) "Fais donc ateno, Cinq! ne pas m'clabousse de peinture comme a! "-'Je ne pas l'ai fait Expres ', l'autre rpondit Aqui aparece um vasto campo de pesquisa para estudos de traduo com corpora texto paralelo (cf. Rei e Woolls 1996). Expresses correlatas que arranja e colligate da mesma forma em duas ou mais lnguas, provavelmente, ir revelar-se rara.
4 para o Milnio
4.1.I espero que a presente discusso pode ter gravado alguns arranhes na superfcie da imagem em movimento da linguagem e do discurso sob o impacto da grande impacto corpus data.The parece suficientemente radical que uma grande revoluo cientfica ou mudana de paradigma pode ser previsto. no passado, a lingustica tem vindo a cultivar uma grande oferta de teorias abstratas, enquanto o adiamento e marginalizando descrio do practices.Today enfrentamos uma oferta muito maior de prticas concretas, que devem ser descritos antes mesmo de definir o que uma "linguagem" . Eu no defendo que a construo da teoria deve ser arquivado, mesmo que temporariamente, mas sim que a construo da teoria deve finalmente e definitivamente deixa de correr to longe da prtica, e deixar de inventar argumentos por que a teoria no pode ser derivados ou testados de prtica. 4.2.As corolrio, prioridade cientfica inquestionvel deixariam de ser colocado statements.These abstrata e geral pode ser o mais difcil de demonstrar com data.And autntica podemos incorrer no paradoxo de tentar fundamentar uma teoria geral sobre casos especiais, selecionando dados desprovido de caractersticas especiais (cf. 1,10) .Como geral ou especfica a descrio merece ser deve ser decidido por nossos dados e por efeitos de nossas demonstraes research.Concrete e especficas pode ser mais realista, e para algumas finalidades, como a linguagem ensino, mais useful.Moreover, descries orientadas a dados so de natureza especfica nos estgios iniciais e, gradualmente, ganhar generalidade como a nossa imagem melhora do que examine.A conjunto substancial de restries deve passar a ser mais especfico do que um discurso ainda menos que a linguagem toda geral (2.9). 4.3.As mais um corolrio, no devemos mais deslocar dados reais com dados inventados, ou converter dados em representations.Instead formal, devemos trabalhar para chegar o mais longe que podemos utilizar dados reais para representar themselves.Even nossa descrio da base organizao dos dados deve ser o mais dados orientado quanto possvel, ao invs de expressos em alguns "estrutura profunda" de carcter puramente teoria que compreendem "categorias universais", que eu considero menos adequado para "fornecer ferramentas para a descrio de um texto" (cf. 1.14- 15) a julgar pela experincia do passado, "universais" tendem a ser indirectamente extrapolado de lnguas particulares, afinal de contas, especialmente Ingls (2.3) dominncia .A deste ltimo na teoria lingustica s pode ser efetivamente superada pela quantidade de trabalho firme em grande corpora em tantas lnguas quanto possvel, cada tratado em seus prprios termos. 4.4.Meanwhile, as lnguas bem descritos como o Ingls poderia ser usado por pesquisadores corpus para no apressar acima e alm dos dados (como os linguistas de casa fez, 1.10), mas para apresentar os dados a grandes audincias de especialistas e no-especialistas para testar e discuss.By ampliao de nossa base de audincia, podemos compensar com mais segurana preconceitos pessoais em nossa prpria intuio e introspection.And as chances de aplicaes produtivas iro melhorar, como o ensino de lnguas. 4.5.My prpria previso seria de que o progresso vai evoluir fora do processo que chamei resoluo dialtica (3,27).: Os corpora que nos confrontam com problemas dar apoio vital na soluo desses problems.If dados autnticos nos confrontar com a diversidade, em seguida, devemos continuar a construir sub-corpora at que cada um deles exibe signally reforada uniformity.Then interna podemos comparar estes sub-corpora para identificar e investigar quais parmetros e restries so specific.My prprio trabalho mais geral ou mais em tipos de texto indica que os tipos so muitas vezes sujo e vagamente definido, devido principalmente s diferenas entre os insiders e os outsiders, por exemplo, entre os peridicos acadmicos e livros didticos aprendiz (Beaugrande, 2001) escrita acadmica .Much rdua e gratuitamente tcnica e, na verdade, impede a comunicao, mas as estratgias eficazes para melhorar a eficincia exigem dados corpus para descrever as prticas atuais. 4.6.Again pela resoluo dialtica, um grande corpus pode aumentar amplitude sem achatamento profundidade se a tecnologia em si est inscrito nas operaes de description.Doing assim o exigir software sofisticado para 'marcao' e 'anlise' dos dados, a descrio de "texto aberto 'sem essa preparao ainda no verdadeiramente operacional (Sinclair 1999) .Os categorias mais seguros como "artigo", "preposio", ou "auxiliar verbo" no so de forma enough.The os mais inovadores delicados, como "encenao" e "colateral" no trabalho de campo (2,1), ou "Processo Agent-Opposing" e "Saving face-auxiliar" aqui proposto (3,33; 3,40), no so secure.At nesta fase, as categorias de nossa descrio pode ser apenas heurstico, no formalised.Certainly, no temos nenhuma boa razo para jogar fora nossos prazos estabelecidos, nem para reintroduzi-los em formas tcnicas, em vez disso, os dados corpus deve permitir-nos tornar mais aplicvel e preciso como ferramentas de description.We poderia, por exemplo, reter os termos "substantivo "e" Verbo ", enquanto explorando dados corpus para fazer os seus significados mais delicada, por exemplo, determinando se o" nominal "ou" "formao verbal do mesmo tronco pode ser considerado como mais bsico, ou se os dois poderiam ter evoludo apart em intervalos distintos de coligao e colocao. 4.7.If a dialtica da linguagem e do discurso pode ser restaurado para o centro da descrio lingustica, ento as perspectivas de resoluo dialtica deve ser favorvel no longo run.For o presente, o imperativo seria para sustentar um esprito de renovao e de abertura para novos fenmenos, novos mtodos e novas descobertas que se estende para fora em um novo milnio. Por favor, ajude o Google Translate melhorar a qualidade do seu idioma aqui. Google Tradutor Empresas Par: Google Toolkit de Traduo pargrafo appsTradutor de sitesGlobal Market Finder Traduo: Desativar instantneaSobre o Google TradutorCelularComunidadePrivacidadeAjudaEnvia
resto 3.3.However, the technology also renders visible some far-reaching problems.These problems do not, as has sometimes been argued (e.g. Widdowson 1991), arise from weaknesses inherent in corpora.Rather, the problems have been inherent in language research all along but would hardly be addressed when data were either restricted by the practices of fieldwork linguistics or else marginalised by the theories of homework linguistics.Now, corpus research confronts us with principled questions like these: What size should a corpus have in order to represent a language? What is the ratio between quantity and quality of data? What is the ratio between breadth and depth of description? What is the ratio between the uniformity and diversity of data? What is the ratio between regularities and accidents in data? What is the ratio between grammar and lexicon in a language? What is the ratio between manifest and underlying organisation of language? These questions are so intricately related to each other that discussing any one of them by itself is an uneasy task. Even so, corpus research should eventually lead us toward some worthwhile answers through the aid of technology itself (cf. 4.6). 3.4.So our first question concerns the representative size of a corpus.The notion of an entire language having a quantifiable size at all hardly seems to figure in modern linguistics.5 It would of course be moot if language is defined as an infinite set of sentences;but I have tried to show why this definition is invalid (1.18). 3.5.Once a language is defined as a finite though very large set of data, and also a system providing for indefinitely larger sets (1.20), then our question concerns the ratio between the actual size of a corpus and its potential size.Actual size has been mainly dominated by practical factors.In early corpus research on computers, when the technology of memory and programming were rather limited, a million words seemed an ambitious size.When the technology advanced, practical motives were again dominant in bumping up the size to 20 million and then to 200 million in the Collins Birmingham University International Database (COBUILD) familiarly called the Bank of English (BoE) namely, for compiling a new type of data-driven dictionary that soon became the market standard.Then the corpora themselves were offered on commercial markets, such as COBUILD on CD-ROM (5 million) and the British National Corpus (BNC) from Oxford University Press (100 million). 3.6.This dominance of the practical side was to be expected.Lexicography has traditionally been a practical enterprise;and theoretical linguistics has focussed far more upon grammar than on the lexicon (cf. 3.11; 3.23).Even so, practical advances are still needed for more friendly technology at the users end.Direct access to a corpus via the Internet is subject to multiple disturbances, such as lines being overloaded, busy, or periodically cut off in mid-operation.A corpus on a single CD- ROM (like the COBUILDs) can only hold a modest data set and do simple searches and calculations.For larger sizes and more complex searches like the BNC, users work with several CDs on ponderous operating systems like UNIX or LINUX, and require technical training in mastering systems like the Corpus Data Interchange Format based on Standard Generalised Markup Language (Aston and Burnard 1998). 3.7.But viewed from inside linguistics, theory is the side where advances are pressingly called for now.There, size leads us to the further question of the ratio between quantity and quality of the data.The null hypothesis would be that beyond some threshold (say, a million words), increases in size just multiply out in a mechanical proportionality: an item or pattern appearing once at 1 million words will appear 20 times at 20 million words and 200 times at 200 million words.But this hypothesis could hold only if a language were so uniform a system that its output hits a definite information ceiling and its features go asymptotic.Beyond that, quantity would rise whilst quality remained constant. 3.8.Corpus research, on the contrary, suggests a dialectical ratio whereby a major rise in quantity brings a rise in quality;so the language system must be far more diverse than the null hypothesis stipulates.New data can reveal previously undetected constraints upon an apparently unconstrained regularity.For example, most grammars of English, including the COBUILD Grammar based on a 20- million-word corpus, present the pattern of Definite Article plus Adjective for referring to a whole class of people, and declare it possible to use almost any Adjective this way (Sinclair et al. 1990:21f).But Sinclair (1998:86) recently reported attitudinal biases and selectional restrictions in the corpus at 336 million words: the pattern is mainly reserved for unfortunate people, such as the elderly, the injured, the unemployed, the sick, the aged, the poor, and the handicapped, as in (4).Fortunate people occurred mainly by way of contrast with the unfortunate, as in (5-6). (4) On services to the mentally ill, the elderly and the handicapped, Mr Cook pledged that Labour would appoint a minister for community care. (newspaper) (5) This is a system in which the rich are cared for and the poor are left to suffer in silence. (newspaper) (6) the appeal, especially in Latin countries, is rather to envy the fortunate than to pity the unfortunate. (Bertrand Russell) This attitudinal bias might be explained from the effect of depersonalising by omitting a Noun for the Adjective to modify. Such explanations may not be foreseen or admissible in established linguistic theories, but could be helpful for fieldwork research as well as ethnography (1.7), and also in the teaching of English (4.4) 3.9.New insights are both reassuring and disturbing.Just because linguists are stimulated when new regularities are discovered (1.7), we are troubled by the prospect of stopping the advance of theory by freezing the size of a corpus for practical or technological motives.This fate may befall when a dictionary or reference work arrives on the market, and the funding agent terminates support.Linguistics should therefore provide the public in general and user groups in particular with enough theoretical and practical knowledge to appreciate the dialectical ratio between quantity and quality.Only then will commercial markets be impelled to build larger corpora as grounds to claim better products. 3.10.Our next and closely related question concerns the ratio between breadth and depth of description (1.20).Whereas fieldwork research managed a balance by sheer practical diligence in describing authentic recorded data, homework research sought to appropriate infinite breadth and universal depth by sheer theoretical bootstrapping with handfuls of non-authentic invented data (cf. 1.7f; 1.20).So whereas breadth and depth were slowly achieved by fieldworkers through an arduous progress of small steps, they were swiftly built right into the theory of language by homeworkers. 3.11. Today, the very large corpus makes unprecedented breadth accessible but not necessarily achievable. The computer resembles a long ladder on which we are still learning the skills for scaling the higher levels in language description. Here too, much depends on how uniform or diverse a language system might be. For a highly uniform system, a description would have favourable chances to be both complete (total breadth) and precise (total depth). The closest approximation in actual language research is in the companion sciences of phonology and phonetics, sharing theory and practice in impressive accord. But their uniformity is a straightforward projection from the human vocal apparatus and the phonetic alphabet. In grammar, uniformity was brightly postulated in theory but never demonstrated in practice. And in the lexicon, the undeniable diversity has kept many linguists from undertaking research at all (cf. 3.23) 3.12. Breadth becomes a virulent issue when we get access to vast quantities of data. Depth becomes virulent when we must choose among sources for those data. Most descriptions produced in modern linguistics have been aimed at an entire language, e.g., at the set of grammatical sentences somehow given in advance (1.20). Data sources were not acknowledged to constitute a problematic factor, least of all when the data were invented by the linguists. The same depth of description would be appropriate everywhere, as would the methods for achieving it. In corpus research, this optimism soon breaks down. A language itself is by no means uniformly deep; the Number of Nouns is less deep than Definiteness: Polar Auxiliaries are less deep than Modal Auxiliaries. Reaching one depth is likely to open a view of still further depths, as when an analysis of the Agency of Verbs leads to the discovery of constraints on Pronouns as Subjects or Objects (cf. 3.32ff; 3.44). And the breadth of a deep description, once achieved, may be hard to determine, e.g., how many Verbs share constraints on their Agency (3.34). 3.13. By now we are in the midst of probing the ratio between uniformity and diversity in a language. Here too, linguistic theory has often inclined to a sharp dualism. Total uniformity was attributed to language, witness Chomskys completely homogeneous speech-community (1.9); yet total diversity was attributed to discourse, witness Saussure heterogeneous mass of accidental facts (1.11). And theory nowhere explained how so extreme a dualism of order and disorder could inhabit the same system (1.11). 3.14. No doubt the heavy emphasis upon uniformity was intended to accommodate commonplace notions of science, but failed to recognise the uniqueness of language as an object of scientific investigation. There, uniformity and diversity constitute a dynamic dialectic, parallel though not identical to the dialectic between language and discourse. Every aspect of uniformity in a language must be designed to sustain diversity (cf. 3.41). In phonology, the uniformity of phonemes as shared targets underwrites enormous diversity among acts of pronunciation due to such factors as the age, gender, and emotional state of speakers, and their regional or educational background. In grammar, the functions of uniformity are different in modality due to their more complex and multimodal needs for expressing multiple modes of meaning. And the lexicon of English in contrast to many languages affords fairly modest and sporadic uniformity, due to its historical and cultural overlayering of extrinsic or specialised approaches to word- composition, e.g., borrowing roots from Latin and Greek. 3.15.Corpus research is now beginning to reveal the significance of the dialectic between uniformity and diversity.Language is found to be less uniform, and discourse less diverse, than linguistic theory is wont to assume.The uniformity of language is designed to generate diversity on-line;and the diversity of discourse continually refers back to and renews the uniformity of language (cf. 3.41). 3.16. In terms of corpus practice, uniformity may actually be a drawback. If we are compiling what Sinclair (1999) calls a generic or reference corpus to cover the English language as broadly as possible, then we must consider how far the newly arriving data appear uniform or diverse alongside our already acquired data. The information value of a corpus would not rise significantly from increasing the store of uniform data of the same type. This problem applies especially to mass media, such as the plentiful newspapers conveniently posted on the Internet or made available by direct electronic transmission, like the Sunday Times. There, the diversity of the data is restricted in being authored by a relatively small, well- trained group of writers, and being edited by an even smaller group. I would also point out the massive ballooning of frequencies like I found in the BoE in July 1994 of key-words such as violence (19,226), kill (51,746), death (31,013), murder (18,383), rape (5,890), and assault (4,055),6 reflecting the morbid, voyeuristic interests of mass media more than the frequencies of authentic English at large. 3.17. Similar factors bear upon the ratio between regularities and accidents. Once again, linguistic theory has been largely dualistic: language constituted by regularities insofar as it can be an object of science; and discourse littered with accidents and therefore no fit object of science. Before very large corpora became available, projects for actually demonstrating regularities by means of statistic frequencies and probability measures were rare and laborious (e.g. Kuera and Francis 1967). Linguists gave reassurances that a linguistic observer can describe the speech habits of the community without resorting to statistics because the forms of language are rigidly standardized (Bloomfield 1933:37); or that when neither sentences nor any part of them have ever occurred in any English discourse or in the linguistic experience of a speaker, they are statistically all equally remote (Chomsky 1957:17). These two reassurances flatly contradicted each other data being all highly probable or highly improbable. But neither could be tested without powerful technology for measuring the ratio between regular and accidental (1.22). 3.18.The potential roles for statistics and probabilities are surely due for reassessment now that we have very large corpora (Halliday 1991, 1992).Finding and counting manifest items is most tractable, yet least informative.The frequencies of items in a corpus may give no reliable indication of their functional load in the language system.Finding exactly 6000 occurrences for of in the 5- million-word COBUILD Corpus on CD-ROM is not helpful;we need to know the proportions for each of its multiple functions in combinations.And combinations too are subject to the ballooning effects I noted a moment ago in news media.Among the 20,569 occurrences of sex returned by the BoE in July 1994, I found Sex Pistols (at 707), sex appeal (at 762) oral sex (at 203), and sex discrimination (at 209).Such frequencies are not meaningful unless we can determine how far the occurrences entail the same item at all. 3.19.The frequency of manifest combinations is thus less tractable, but more informative.Corpus research has devoted much exploration to the typical lexical combinations called collocations, and the typical grammatical combinations called colligations.7 Yet typicality is not readily explained in terms of frequency alone.In my combined 12-million-word corpora of British and American writers, which I shall be citing further on, among a total of 339 occurrences of the Verb fled were only 3 of the collocation fled the country.To my intuition, this combination seems typical even if its frequency and statistical probability are negligible.It also occurred just once among 99 uses of fled in the COBUILD on CD-ROM: (7) after the collapse of Tsarist authority, opportunists declared an independent democracy, then a military junta that fled the country. (book) But I can draw some confirmation where the Verb fled took country names as Direct Objects: France, Iraq, Kuwait, Croatia, Germany. 3.20.We now come to a truly daunting question: the ratio between manifest and underlying organisation of language.Modern linguistics has been postulating an underlying organisation of language all along (e.g. Saussure 1966[1916]:56; Sapir 1921:144; Bloomfield 1933:225f; Hjelmslev 1969 [1943]:9f; Chomsky 1965:4f, 10, 18, 22).Among the grandest prospects was that the descriptive grammars of diverse languages will some day enable us to read from them the great underlying ground plans (Sapir 1921:144).Presumably, such plans are the goal of work on linguistic universals, but most of that work lacks a secured base in descriptive grammars. 3.21. Moreover, linguistics has remained disturbingly evasive about how we can derive the underlying organisation from the manifest organisation. Thus, Chomsky's provision that actual data of linguistic performance would provide evidence for determining the correctness of hypotheses about underlying structure conflicted with his insistence that surface structure is unrevealing and irrelevant and hides underlying distinctions (1965:18, 24). With surprising candour, he conceded that his proposed grammar does not, in itself, provide any sensible procedure for finding a deep structure of a given sentence; and he evaded the whole issue by operating on the simplifying and contrary to fact assumption that the underlying basic string is the sentence (1965:141, 18). 3.22. Such evasions readily follow from the already noted tendencies to attribute to language highly idealised modes of order and to transpose the concept of language from the particular instance over to a universal abstraction (cf. 1.8, 13, 16, 20; 2.5). Doing so naturally fosters a readiness to see disorder in manifest data, and hence a reluctance to exploit them in the search for underlying order (cf. 1.11; 3.12). Instead, artificial modes of order get borrowed from sources like formal logic or mathematics, which only intensifies the idealised and abstract nature of language (1.8). 3.23. Here, we can highlight the ratio between grammar and lexicon. Linguistic theory has long regarded grammar as the epicentre of uniformity and regularity for an entire language and as a home for linguistic universals (compare Saussure 1966 [1916]:133, 152; Sapir 1921:38; Bloomfield 1933:163; Chomsky 1957:56). In exchange, linguists have long concurred that the lexicon is a mere list of basic irregularities (Bloomfield 1933:274; cf. Sweet 1913:31; Saussure 1966 [1916]:133; Chomsky 1965:86f, 142, 214, 216). On a smaller scale, this dichotomy re-enacts the dichotomy between the order of language and the disorder of discourse (1.11), and again linguistics has chosen order: much work on grammar, little on lexicon (3.6). Eventually, a homework linguist can baldly announce that linguistics is not about language; it is about grammar (Smith 1984). 3.24. Here again, linguistic theory should replace the dichotomy with a dialectical relation, this one co-ordinating grammar and lexicon and constituting the interactive lexicogrammar, the semogenic powerhouse of language () The two sides differ not in kind, but in degrees of delicacy: lower toward the grammatical side and higher toward the lexical side. Perhaps the lexicon could be regarded for some purposes as most delicate grammar (Halliday 1961:256; Hasan 1987:184; Cross 1993:199).8 3.25. The interactions of grammar and lexicon are readily evident from corpus research on colligations and collocations in the sense of 3.19. Since these are defined as typical combinations, they continually draw our attention toward plausible motives of speakers or writers for coordinating multiple selections. For example, the English Verb brook meaning accept, tolerate usually requires a Negative element (Sinclair 1994), as in: (8) Johnson could not brook appearing to be worsted in argument (Life) (9) Bouille rides, with thoughts that do not brook speech. (French) (10) his work was of a sort that would brook no negligence (Lady) This Verb is infrequently used, and preferentially in solemn language about some weighty business, as in Shakespearean drama: (11) This weighty business will not brook delay (Henry VI) (12) My business cannot brook this dalliance. (Comedy of Errors) (13) False king, why hast thou broken faith with me, Knowing how hardly I can brook abuse? (Henry VI) This second constraint is more delicate than the one requiring a Negative, yet more difficult to define in terms of manifest lexical choices. The weighty business might be the assassination of a Duke (11), or just the collection of a debt (12). The weightiness comes in part simply from using brook rather than, say allow or tolerate. 3.26. Such data from the lexicogrammar of English point us toward the immense task of accounting for multiple parameters of variation in a language: genre, register, and style. In terms of theory, these constitute intermediary control systems between the language and the discourse (Beaugrande 1997eh?). Their design must be such that when one of them is activated, the activation level is raised for appropriate options and lowered for inappropriate ones (Kintsch 1988; Rumelhart et al. 1986). In terms of practice, they obviously affect the selections and combinations we can expect to find in authentic discourse data; but how to describe those effects is far from clear at this stage. 3.27. Here, we might pursue a strategy of dialectical resolution: building sub- corpora where we predict systematic distinctions in quality; and then using our findings to test and refine our predictions and to assess the typicality of specified data inventories as indicators of some genre or style (cf. 4.5f). For a brief demonstration, I shall draw upon three distinctive sources: (a) two corpora of literature, one by British authors (e.g., Austin, Dickens, Wilde) and one by American authors (e.g., Hawthorne, Mark Twain, Willa Cather), dating roughly between 1750 and 1920 and together totalling 8.7 million words; (b) two corpora of academic and civic writers, again including British (e.g., Darwin, Bulwer-Lytton, J.S. Mill) and Americans (e.g., Thomas Jefferson, Jane Addams, W.E.B. DuBois), together totalling 4.8 million words; and (c) Collins COBUILD on CD-ROM (5 million words), which represent contemporary everyday usage. The first two sets of corpora, totalling all together 13.5 million words (see Appendix for list of current texts), I compiled myself to run on WordPilot, a resource program developed by John Milton at the Hong Kong University of Science and Technology (Milton 1999). My compiling too faced fortuitous practical restrictions: I had to use texts which are in public domain and can be downloaded from Internet sites. 3.28. In sources (a) and (b), the pattern of Definite Article plus Adjective was found to be more balanced than in the COBUILD data reported in 3.8. The highest frequency appeared among academic and civic writers, who are logically prone to classify people. Alongside the contrasts like those noted by Sinclair, e.g. (14-15), I found many where the fortunate people occurred alone, although sometimes with the intriguing ironic twist of not being secure in their good fortune (16-17). (14) Smile with the simple and feed with the poor? []; let me smile with the wise, and feed with the rich (Boswell, quoting Samuel Johnson) (15) None know the unfortunate, and the fortunate do not know themselves (Poor Richard) (16) There is always some levelling circumstance that puts down the overbearing, the strong, the rich, the fortunate, substantially on the same ground with all others (Emerson) (17) the educated see a menace in his [the black mans upward development (W.E.B. DuBois) If grammar-books describe the pattern as being more general than is confirmed by contemporary usage in the COBUILD, then perhaps by intuitively taking academic discourse to be a model of English usage at large. 3.29. On the face of it, dialectical resolution might look circular: using the type to identify the features of interest, whilst using those features to identify the type. But text types cannot in theory be defined through rigorous proof, since in practice most types are defined through intuitive heuristics by language users. Besides, types are frequently mixed, as in: (18) A wedding is a time for merriment and an apt occasion to showcase age-old traditions in an age where modernity is eroding important aspects of yesteryear. This much-privy glimpse of Arabia was a re-enacted wedding ceremony of the indigenous people, reflecting the timeless beauty and simplicity of Arabia's life- styles, customs and unique identity until the 70s oil-boom brought in dramatic socio-economic development. (Khaleej Times) Such discourse briskly mixes the styles of solemnity (merriment, yesteryear), social science (modernity, indigenous, identity, socio-economic development), and tourism (age-old, timeless beauty and simplicity, life-styles), along with the occasional solecism (much-privy glimpse). The mix reflects multiple goals, such as disguising a tourist trap as a cultural site whilst flattering the readers command of an educated variety of English here in Gulf States. 3.30.Another strategy might be for us to create local regions of substantial depth by describing narrow data sets with some thoroughness.The resulting insights might then be projected across broader sets and guide our selection of aspects and features to investigate.For example, the COBUILD data at 20 million words showed a Verb like elude being used only in the Active (cf. Sinclair et al. 1990:407), e.g.: (19) Newer techniques, such as bone-scanning and ultrasound, have enabled us to find more of the causes of back-pain, but a large number still elude us (magazine) (20) Sylvie Guillem as Nikiya gave us her faultless technique and musicality, although the spirituality of the role so far eludes her (newspaper) In my literary and academic corpora I found elude in the Passive just six times, as in: (21) My importunities would not now be eluded (Wieland) (22) they lessen the consumption; the collection is eluded; and the product to the treasury is not so great (FedPap) The meaning for data like (19-20) is roughly: some knowledge or skill would be fitting but is not found. The meaning for data like (21-22) is more like: some people finding ways of avoiding something. The Passive does seem to me intuitively old-fashioned; and Passive versions of these Actives seem utterly improbable: (19a) ? ?we are eluded by a large number of the causes of back-pain (20a) ? ?Sylvie Guillem is eluded so far by the spirituality of the role 3.31. Now, to increase the depth of our analysis of elude, we can examine some typical collocations and colligations. Among the Nouns as Direct Objects, the collocations noticeably clustered around vigilance, which occurred 9 uses, e.g. (23), along with associates like observation (24), eyes (25), and glance (25). (23) Nelson feared the more that this Frenchman might get out and elude his vigilance (Nelson) (24) I had not neglected precautions to secure my personal safety, if I could only elude observation. (Eyre) (25) That I could elude Rimas keener eyes I doubted (Mansions) (26) Hares fateful glance, impossible to elude (Desert) Other typical collocates included grasp (6 uses), e.g.(27), and pursuit (4 uses), e.g. (28). (27) the maiden eluded the grasp of the savage (Last) (28) I stopped at one or two stands of coaches to elude pursuit (Wrongs) The meanings of all these collocations involve two opposing agencies, one of them seeking to elude the other and the potential consequences. 3.32. Among the colligations, the most striking one by far was a marked preference for Personal Pronouns as Direct Objects. Of the 17 occurrences in COBUILD data, 13 showed this colligation, as in (19-20). Other examples included: (29) he defines his essential position, as a man in permanent search of a God who eludes him. (newspaper) (30) they were artists of considerable distinction, but man-in-the-street recognition has eluded them (newspaper) (31) River Lane, said Shields. Clarke, of course! That was what had been eluding him. (book) Here, a further meaning concerns the lack of some insight or knowledge; the Active Transitivity shifts the Agency in this lack from the person over to the knowledge. 3.33. The proportions among the colligations in my other corpora were less striking but still suggestive: out of 76 occurrences, 22 with Personal Pronoun Objects. Alongside an idea (32) or a fact (33), concrete agents like a person (34) or animal (35) did the eluding. (32) He spoke like one who was trying to keep hold of an idea that eluded him. (Tempo) (33) Something seemed to give way in Jimmys brain. The simple fact which had eluded him till now sprang into his mind. (Damsel) (34) Although Sam haunted lobby and stairway and halls half the night, the fugitives eluded him (Whirl) (35) All four boats gave chase again; but the whale eluded them (Moby) Only two eluded Agents appeared in Direct Objects as Nouns rather than Pronouns: (36) this whale eludes both hunters and philosophers. (Moby) (37) often the Captain darted out of the shop to elude imaginary MacStingers [his landlady] (Domb) I am aware of no reference, in the linguistic literature on Pronouns, to classes of Verbs which colligate with Pronoun Objects, let alone any prospective theoretical account. Provisionally, we might describe such Verbs as expressions of Agent- Opposing Processes, which are usually accompanied by some preparatory background identifying the Agents. In some contexts, both Agents are persons (or animals), the Subject doing something and the Object eluding it. In other contexts, the Subject is not a person and hence a Pseudo-Agent, but some knowledge or skill that is lacking, and the Object is an Agent who does not have the initiative. In either type of context, the eluded Agent is often clear and can be designated by a Pronoun. 3.34. The next and much harder problem would be to explore how broad this locally detected constraint might be. Since a brute-force query of Verb + Personal Pronoun Object in a large corpus would be explosive, we can tap our intuition to suggest plausible candidate Verbs. By this means, my queries brought to light the Verbs rebuke colligating in the Active with Personal Pronoun Objects in 24 out of 51 occurrences; beseech in 94 out of 126; and thank in 121 out of 185. (Also, thank had a fair quota of Personal Pronoun Subjects, namely in 84 occurrences.) Similar measures of Personal Pronoun Objects were found with the Pseudo-Agent Verbs behove in 14 out of 19 occurrences; and befall in 108 out of 189. The data for befall showed a distinct and ominous attitudinal bias for choices of the Pseudo-Agent Subjects: the primary collocates were misfortune (at 26), accident (at 23), calamity (at 19), and disaster (at 10). 3.35. Using intuition in this way is far from proclaiming it to supply the enormous mass of unquestionable data invoked by homework linguists (1.9). Intuitions are always questionable, and the corpus makes the questioning easy. For example, my intuition suggested Verbs that the corpora did not display in the colligation patterns of rebuke in any significant proportions, such as reprimand (6 out of 27) and rebuff (3 out of 34). 3.36. Corpus research recasts the linguist: not in the role of the ideal speaker- hearer in a completely homogeneous speech-community, who knows its language perfectly, but in the role of an ordinary speaker-hearer (and writer-reader) in a heterogeneous community, who knows its language only partially and actively seeks access to the knowledge of others. We claim authority for our statements not from harbouring super-human powers of introspection (1.9), but from examining large sets of authentic data produced by a community that puts their implicit theories of the language into a wide range of practices (cf. 1.3). And our statements are not about language as some universal abstraction, but about those data in one language and often about only one genre, register, or style (3.25). Such statements can easily be confirmed or invalidated by more or other data a normal effect of the dialectic of quantity and quality (3.7) but either step confirms once again the vitality of using authentic data. 3.37. Intuition and introspection are thus largely heuristic and opportunistic. They suggest things to try or watch for, and they help us determine status and meaning after the fact once authentic data are put before us (Francis and Sinclair 1994:194). They are not too reliable as sources of data, and still less as sources of information about the proportions among selections and combinations of data. 3.38. Allow me to demonstrate this point with one final data set. In July 1994, I found 515 occurrences of couldnt help and could not help in the Bank of English, then at 225 million words. My intuition led me to predict a fair quantity of data colligating with a Direct Object Noun for some Target person who could not be given assistance, but I found just four, not even 1% of the total. Here I encountered another phenomenon pointed out by Sinclair (1991:493f): the presumably basic stand-alone meaning listed in first place by conventional dictionaries not being at all the most frequent in corpus data. The meaning of help as give assistance to is listed first in Websters Seventh Collegiate (p. 387) whereas the meaning of refrain from or avoid doing is listed in seventh place. The design of such a dictionary would hardly admit a separate definition for not help or could not help, even though the meaning is demonstrably distinct. 3.39. The leading colligations by far in the COBUILD data were with Verbs: either a Present Participle (e.g. couldnt help admiring) or else with but + Infinitive (e.g. couldnt help but laugh). This I could have predicted, but not my finding that no Adverb ever came in between (e.g. couldnt help deeply admiring her) a fully grammatical option, but not found (but cf. 3.45). In return, I found two less grammatical mixed patterns (couldnt help but thinking and couldnt help from crying) the second one by the distraught Mary Wells, Tornado Victim. 3.40. Still less could my intuition have predicted the proportions among the collocations. Almost half of the total (at 234) collocated with one out of a set of just four Verbs; could you predict which ones? They were feel (at 68), notice (at 58), think (at 59), and wonder (at 49). Still, if I could not predict, I might retrodict after the fact by noting that these Verbs represent Processes which might well be judged not properly subject to conscious control: they might lead into emotions, perceptions, and thoughts where it seems fitting to remark that someone couldnt help it. The pattern might therefore be termed a Face-Saving Auxiliary: an expression which attenuates the Agency of Process Verbs in order to save face after some Action that might be interpreted as hasty or inappropriate. Such an explanation may again not be foreseen or admissible in the theories of mainstream linguistics, but might be useful for ethnographers (3.8). 3.41. Moreover, these same frequent Verbs could also provide useful Headwords for most of the more delicate collocations, indicating one important way that uniformity is designed to support a diversity (cf. 3.14) The top-ranked feeling could be the Headword for attested collocations with crying, laughing/chuckling, smiling/grinning, blushing, fearing, liking, loving, marvelling, sympathising, wincing, worrying, plus nearly all the delicate collocates in colligation with being or be: touched, charmed, impressed, moved, emotionally involved, fascinated, struck, carried away, swept along, amused, jealous, puzzled, nervous, frightened, surprised, shocked, offended. Emotions might plausibly render you self-conscious, whether pleasant or unpleasant, witness also the list of Direct Objects or Modifiers collocating with the Verb feel in the data: the pleasant ones enthusiasm, passion, thrill, pleased, impressed, vindicated, and the unpleasant ones envy, guilty, ashamed, sorry, miffed, apprehensive, alarmed. 3.42. The slightly less frequent noticing could provide a Headword for seeing, looking at, glancing, hearing, overhearing, remembering, being consciously aware. Thinking could be the Headword for knowing, considering, reflecting, imagining, and could subsume the frequent wondering, where uncertainty rather than emotion might be making you self-conscious. 3.43. One group of collocates formed a cluster with no frequent Headword: speaking, saying, telling, commenting, pointing out, remarking, declaring, suggesting, responding, agreeing, objecting, reminding, congratulating, blurting out. Here we might pick the Headword by its generality rather its frequency: speaking being involved in all the others but not vice-versa (proverbially, one can speak without saying anything). 3.44. The colligating Subjects were evenly divided between Nouns and Pronouns. Yet the proportions among the Pronouns were dramatically uneven. I logged in far ahead at 150 occurrences, followed after a large gap by she (48) and he (45), and then after another gap by you (15), we (7), and they (6), plus the Impersonal one (11) for a total of 282 Pronoun Subjects (55% of the total data). Here we may have evidence for constraints upon what we could call Multi-Process Agency, such that the identity of the Agent is established for one (or more than one) Process before saying that Agent couldnt help it. 3.45. The data in my two literary corpora gave a more delicate picture of these constraints. There, I registered 147 occurrences of couldnt help and 320 with could not help, for a total of 467. Also, those 320 constituted 86% of the 370 occurrences of not help. The frequency is highly significant if we consider that these corpora, at a total of just 8.7 million words, are about 25 times smaller than the COBUILD at 225 million, which returned 515. The most plausible explanation I can find again not a linguistic one in any established sense is the useful function for framing Events in literary discourse so as to communicate to the reader a characters own perspective, such as what someone was feeling or thinking, perhaps with no manifest Action, as in: (38) Connie stuck to him passionately. But she could not help feeling how little connexion he really had with people. (Chatter) (39) Mrs Tullivers imagination was not easily acted on, but she could not help thinking that her case was a hard one (Floss) The literary style might account for the attestation of inserted Adverbs, which never appeared in COBUILD data (3.39), such as: (40) She could not help frequently glancing her eye at Mr. Darcy (Pride) (41) she could not help secretly advising her father not to let her go. (Pride) (42) Florence could not help sometimes comparing the bright house with the faded dreary place (Domb) In some such data, there is no other reasonable place to put the Adverb. 3.46. The personal and internal quality might also help explain the tremendous frequencies, similar to those noted in COBUILD data, of First and Third Person Singular Pronouns as Subjects: I (151), he (75), and she (85), for a total of 311 (67% of all my data). The Plurals were rare we (6) and they (5) probably because a feeling or a thought normally belongs to just one Agent. The Second Person Pronoun you was rare too (4), doubtless because of the low probability of telling somebody else to their face what they couldnt help. 3.47. At still greater delicacy, I found that choice of the Contraction couldnt made a difference here. Whereas she and he were about half as frequent as for could not, I was more than twice as frequent: couldnt help (total of 147) could not help (total of 320)
I 73 (49%) 78 (24%) she 17 (11.5%) 68 (21%) he 19 (13%) 78 (24%) I checked all the data to see if the Contraction was preferred for spoken discourse. And in fact, only 14 out of 73 uses with couldnt did not occur in direct speech like (43), but in the narrators voice of first-person narratives like The Adventures of Huckleberry Finn, e.g. (44); this last work alone contributed 7 uses, but then Huck never says could not in any context. Conversely, only 4 out of 78 uses with could not appeared in direct speech like (45); all the rest were in the narrators voice, like (46). (43) she took all the grit out o him. I couldn't help feelin sorry for him sometimes. (Fauntle) (44) I had to skip around a bit, and jump up and crack my heels a few times I couldn't help it (Finn) (45) He was a very good man, sir; I could not help liking him. (Eyre) (46) For my part, I could not help thinking this lawyer was not such an invalid as he pretended to be. (Clink) 3.48. Related constraints applied to the occurrences of the Pronoun it as Direct Object. The data with the Contraction logged 70 instances (47%), the data with could not a mere 19 (6%). Here also, the context tends to establish Identities: not for Agents and Targets, as for the Subject (3.44), but for Actions and States. The tiny frequencies of the third Person Pronouns her (1), him (1), and them (2) as Direct Objects again documents the rarity of the sense of help as give assistance to (3.38). The few Nouns as Direct Objects were also expressions for Actions, not Agents, as in: (47) Connie could not help a sudden snort of astonished laughter (Chatter) (48) I couldn't help the interruption, but I made up for it afterward by working until two (Carrie) I accordingly found a modest scatter of pairs with the same Action as Noun or as Verb, as in: (49) With such a possibility impending he could not help watchfulness. (Caster) (50) Catherine, though not allowing herself to suspect her friend, could not help watching her closely (Abbey) The colligation with a Verb in the Present Participle was quite conspicuous with could not: 256 out of 320 (exactly 80%). For couldnt help, this colligation logged in at 61 out of 147 (41%), having to compete there with it at 70. Some authors used couldnt help exclusively with it, such as Mark Twain, Harriet Beecher Stowe, and Theodore Dreiser. 3.49. The matter of authors preferences as compared to linguistic regularities is a puzzling one in corpus research. We might contend that my corpora are far too small, which is doubtless perfectly true, the more so given the sheer size of some single texts, such as Joyces Ulysses at over 266,000 words. However, differences in size among sample texts is an important empirical given, especially when the public is expected to read the whole text. Besides, we cannot determine in advance how far an author or a text might be internally consistent enough to skew our measurements in one direction Ulysses surely is not. The colligation depend upon it (meaning you may be sure) appears 55 times in my corpora, of which 28 come from Jane Austen; yet her usage was typical of whole sample, where fully 46 are Imperatives and 8 more colligate as you may depend upon it in the same meaning. The typicality was confirmed by data in my corpora of British and American academic and civic writers. There, depend upon it appears 23 times again as Imperative or with you may. 14 of them were uttered by Dr. Johnson in Boswells Life, whose following item Sir in 12 occurrences can be safely charged to a personal idiosyncrasy. 3.50. At least as puzzling is the matter of translators preferences as compared to linguistic regularities of multiple languages The English colligation couldnt help plus Verb (51-52) does not show regular correlates in the German (51a-52a) or Spanish (51b-52b) versions of Alice in Wonderland, whereas French makes do with ne pouvoir s'empcher (51c-52c). But the colligation couldnt help it has a separate correlate in all three versions (53-53c). (51) Alice was very nearly getting up and saying, Thank you, sir, for your interesting story, but she could not help thinking there must be more to come (51a) Alice war nahe daran, aufzustehen und zu sagen: Besten Dank fr deine wirklich interessante Lebensgeschichte, aber dann sagte sie sich, da doch noch einfach etwas kommen mute (51b) Alicia estaba dispuesta a levantarse y decir: Gracias, seora, por su interesante historia, pero no pudo dejar de pensar que algo ms iba a decir la Tortuga (51c) Alice fut sur le point de se lever en disant: Je vous remercie, madame, de votre intressante histoire, mais elle ne put s'empcher de penser qu'il devait srement y avoir une suite (52) it would twist itself round and look up in her face, with such a puzzled expression that she could not help bursting out laughing (52a) hatte das Tier eine Art, sich umzudrehen und ihr mit einem so verwunderten Ausdruck ins Gesicht zu sehen, da sie laut herauslachen mute (52b) el ava de pronto se giraba, mirndole a la cara con tan perpleja expressin que Alicia no poda contener la risa (52c) le flamant ne manquait pas de se retourner et de la regarder bien en face d'un air si intrigu quelle ne pouvait s'empcher de rire (53) Look out now, Five! Dont go splashing paint over me like that! I couldn't help it, said Five (53a) Pa doch auf, Fnf. Du spritzt mich ja berall voll mit deiner Farbe! Dafr kann ich nichts, sagte Fnf (53b) Ten cuidado, Cinco! Me ests salpicando todo de pintura! Fue sin querer- dijo Cinco (53c) Fais donc attention, Cinq! ne mclabousse pas de peinture comme a! -Je ne l'ai pas fait exprs, rpondit l'autre Here looms a vast field of research for translation studies with parallel text corpora (cf. King and Woolls 1996). Correlated expressions that collocate and colligate the same way in two or more languages will probably prove to be rare indeed.
4. Into the millennium
4.1.I would hope that the present discussion may have etched some scratches upon the surface of the changing picture of language and discourse under the impact of large corpus data.The impact seems sufficiently radical that a major scientific revolution or paradigm shift could be predicted.In the past, linguistics has tended to cultivate a large supply of abstract theories whilst postponing and marginalizing description of practices.Today we confront a far larger supply of concrete practices, which must be described before we can even define what a language is.I do not advocate that theory-building should be shelved, even temporarily;but rather that theory-building should finally and definitively cease to run so far ahead of practice, and cease to devise arguments why theory cannot be derived or tested from practice. 4.2.As a corollary, unquestioned scientific priority would no longer be allotted to abstract and general statements.These may prove the hardest to demonstrate with authentic data.And we may incur the paradox of trying to base a general theory upon special cases by selecting data devoid of special features (cf. 1.10).How general or specific a description deserves to be should be decided by our data and by the purposes of our research.Concrete and specific statements may prove more realistic, and for some purposes, such as language teaching, more useful.Moreover, data-driven descriptions are by nature specific in the incipient stages, and gradually gain generality as our picture improves of what to examine.A substantial range of constraints should turn out to be more specific than a discourse yet less general than the whole language (2.9). 4.3.As a further corollary, we should no longer displace real data with invented data, or convert data into formal representations.Instead, we should work to get as far as we can using real data to represent themselves.Even our description of the underlying organisation of data should be as data-driven as possible, rather than expressed in some purely theory-driven deep structure comprising universal categories, which I hold least suitable to provide tools for describing a text (cf. 1.14-15) To judge from past experience, universals tend to be indirectly extrapolated from particular languages after all, especially English (2.3).The latters dominance in linguistic theory can only be effectively transcended by much resolute work on large corpora in as many languages as possible, each treated on its own terms. 4.4.Meanwhile, the well-described languages like English could be used by corpus researchers not to hasten above and beyond the data (as homework linguists did, 1.10), but to present data to wide audiences of specialists and non-specialists to test and discuss.By broadening our audience base, we can most safely offset personal biases in our own intuition and introspection.And the chances for productive applications will improve, such as language teaching. 4.5.My own prediction would be that progress will evolve out of the process I have called dialectical resolution.(3.27): the corpora that confront us with problems will provide vital support in solving those problems.If authentic data confront us with diversity, then we should keep building sub-corpora until each of them displays signally enhanced internal uniformity.Then we can compare these sub-corpora to identify and investigate which parameters and constraints are more general or more specific.My own work on text types indicates that types are often untidy and fuzzily defined, due especially to differences between insiders and outsiders, e.g., between academic journals and learner textbooks (Beaugrande 2001).Much academic writing is strenuously and gratuitously technical and actually impedes communication;but effective strategies to improve efficiency require corpus data for describing current practices. 4.6.Again by dialectical resolution, a large corpus can increase breadth without flattening depth if the technology itself is enlisted in the operations of description.Doing so requires sophisticated software for tagging and parsing the data;the description of open text with no such preparation is still not genuinely operational (Sinclair 1999).The more secure categories like Article, Preposition, or Auxiliary Verb are by no means delicate enough.The more innovative ones, like staging and collateral in fieldwork (2.1), or Agent- Opposing Process and Face-Saving Auxiliary proposed here (3.33; 3.40), are not secure.At this stage, the categories of our description can only be heuristic, not formalised.Certainly, we have no sound reason to junk our established terms, nor to reintroduce them in technical guises;instead, corpus data should enable us to render them more applicable and precise as tools of description.We could for example retain the terms Noun and Verb whilst exploiting corpus data to make their meanings more delicate, e.g., by determining whether the Nominal or the Verbal formation from the same stem can be regarded as more basic;or whether the two might have evolved apart into quite distinct ranges of colligation and collocation. 4.7.If the dialectic of language and discourse can be restored to the centre of linguistic description, then the prospects for dialectical resolution should be favourable in the long run.For the present, the imperative would be to sustain a spirit of renewal and openness for new phenomena, new methods, and new discoveries stretching out into a new millennium. Please help Google Translate improve quality for your language here. Google Tradutor para empresas:Google Toolkit de traduo para appsTradutor de sitesGlobal Market Finder Desativar traduo instantneaSobre o Google TradutorCelularComunidadePrivacidadeAjudaEnviar feedback