Você está na página 1de 29

LINGUSTICA DE CORPUS: TEORIA, INTERFACES E APLICAES

Lcia Pacheco de Oliveira


(PUC-Rio/FAPERJ)

RESUMO
O objetivo deste trabalho apresentar uma viso geral da Lingustica de Corpus, caracterizando-a como uma rea do conhecimento; levando em considerao sua interface com outras reas; e ilustrando suas aplicaes, com foco mais especfico no portugus do Brasil. Para atingir este objetivo, este artigo discute caractersticas da Lingustica de Corpus que a distinguem de outras reas, tais como: (1) a perspectiva de linguagem que adota e a forma de fazer pesquisas empricas, com auxlio de ferramentas computacionais e com base em evidncias lingusticas extradas de corpora; (2) a possibilidade de trazer contribuies tericas para os estudos da linguagem, atravs de novas descries de diferentes usos da lngua; (3) as interfaces de pesquisa com outras reas, tais como Lingustica Sistmico-Funcional, Lingustica Aplicada e Lingustica Computacional; (4) o desenvolvimento da rea, inclusive no Brasil, devido s novas perspectivas que possibilita em relao lexicografia, lxico-gramtica, estudos da variao lingustica em gneros discursivos e estudos interculturais. Atravs da discusso dos pontos acima, espera-se indicar que a Lingustica de Corpus uma rea que permite o aprofundamento sobre o conhecimento emprico de diferentes lnguas estudadas, levando a novas concepes tericas sobre a linguagem, no podendo ser considerada, portanto, apenas como uma metodologia de anlise. No final do trabalho, sero brevemente apresentadas trs pesquisas que incluem dados da lngua portuguesa, visando exemplificar aplicaes da Lingustica de Corpus para o estudo do uso do portugus. Esses trabalhos foram desenvolvidos a partir do CORPOBRAS PUC-Rio, compilado com o objetivo de ser um corpus representativo do portugus do Brasil1 . PALAVRAS-CHAVE: lingustica de corpus, teoria e corpus, pesquisa emprica, corpus do portugus do Brasil, CORPOBRAS PUC-Rio.

48

matraga, rio de janeiro, v.16, n.24, jan./jun. 2009

Lcia Pacheco de Oliveira

1. Lingustica de Corpus: caracterizao da rea


A Lingustica de Corpus pode ser considerada como a face moderna da lingustica emprica (TEUBERT, 1996, p. vi), sendo a linguagem vista como um fenmeno social e analisada a partir de atos concretos de comunicao, isto , textos reais, buscando o significado onde este negociado, ou seja, no discurso. Esta perspectiva prpria sobre a linguagem, fenmeno que estuda, e uma maneira especfica de fazer pesquisa, ou seja, atravs do estudo de textos reais, com o auxlio de programas de computador, visando extrair evidncias lingusticas do corpus, levam-nos a considerar este campo de estudos como uma rea do conhecimento com suas prprias bases tericas e uma maneira especfica de fazer anlises lingusticas. Esta rea representa uma nova abordagem filosfica para os estudos da linguagem. Svartvik (1996) concorda com Leech, que afirma que a lingustica de corpus no define somente uma metodologia emergente para o estudo da linguagem, mas uma nova maneira de fazer pesquisa, e de fato uma nova abordagem filosfica para este assunto. O computador, como uma ferramenta tecnolgica de poder indiscutvel, tornou este novo tipo de lingustica possvel (LEECH, 1992, p. 106 citado em SVARTVIK, 1996, p. 12). Entretanto, cabe aos linguistas, com suas prprias intuies sobre a lngua, instruir estes programas para extrair as evidncias lingusticas com as quais iro trabalhar. Um corpus lingustico de base computacional corresponde a colees de textos que ocorrem naturalmente na lngua, organizadas sistematicamente para representar reas de uso da lngua, e das quais podemos extrair novas informaes (BIBER, 1995, p. 31). Hunston (2002, p. 23) diz que a corpus can offer evidence, but can not give information, isto , um corpus pode oferecer evidncias, mas no pode dar informaes. So os linguistas que produziro novas informaes, tericas ou aplicadas, a partir do corpus. Por outro lado, anlises feitas com auxlio de programas de computador podem tambm levar a novas descobertas sobre aspectos lingusticos at ento no considerados como relevantes pelos pesquisadores, visto que evidncias no esperadas podem emergir dos dados. Para que isso possa acontecer, ou seja, para que estas evidncias sejam percebidas, alguns linguistas envolvidos com estudos de corpus tm enfatizado que preciso confiar no texto trust the text (SINCLAIR,
matraga, rio de janeiro, v.16, n.24, jan./jun. 2009

49

LINGUSTICA DE CORPUS: TEORIA, INTERFACES E APLICAES

1994), para observ-lo da forma mais isenta possvel, deixando que os dados sejam a base para novas descries e anlises, que podero levar a novas descobertas tericas. Em 1993, Halliday j havia se surpreendido com alguns pesquisadores que faziam uma oposio entre a lingustica de corpus e a lingustica terica, como se fossem duas espcies distintas. Para ele, naquela poca, a Lingustica de Corpus j era considerada como uma empreitada altamente terica:
o trabalho baseado em corpus j comeou a modificar nosso pensamento sobre o lxico, sobre padres no vocabulrio das lnguas; e ele est agora comeando a causar impacto nas nossas idias sobre a gramtica. No meu ponto de vista, este impacto ser completamente benfico. A lingustica de corpus traz recursos novos e poderosos para as investigaes tericas sobre a linguagem. Uma consequncia do desenvolvimento de corpora modernos que agora podemos, pela primeira vez, desenvolver um srio trabalho quantitativo no campo da gramtica (HALLIDAY, 1993, p. 1).

Recentemente, Halliday e Matthiessen (2004, p. 34) reafirmam esta posio ao dizer que o corpus fundamental para a empreitada de teorizar sobre a linguagem. Para estes autores, entretanto, muitos linguistas especializados em estudos de corpus referem-se a si mesmos, intencionalmente, como meros compiladores de dados, embora estejam conscientes da importncia terica do que esto fazendo e do que esto descobrindo2 . Como novos dados que surgem a partir do corpus podem criar problemas para as teorias, alguns preferem manter a dicotomia teoria dados, quando seria mais adequado considerar uma complementariedade entre teoria e dados, cada lado constantemente alimentando e redefinindo o outro (idem, p. 35-36). Alm disso, para alguns pesquisadores que no conhecem bem a Lingustica de Corpus esta se restringe a resultados numricos extrados do corpus! H tambm pesquisadores de corpus que apresentam resultados estatsticos sem discusses complementares ou confrontaes com resultados anteriores. Estes dois grupos esto equivocados ao pensarem que bastam os nmeros ou as estatsticas para descrever fatos lingusticos, j que, para interpretar os dados , com base no corpus, muitas vezes temos que levar tambm em conta o cotexto e os aspectos scioculturais que esto ligados aos textos. Segundo McCarthy (1998, p. 1), por exemplo, os seus trabalhos de corpus baseiam-se ocasional50
matraga, rio de janeiro, v.16, n.24, jan./jun. 2009

Lcia Pacheco de Oliveira

mente em dados quantitativos, mas na maioria das vezes, este pesquisador observa os dados do corpus qualitativamente, porque nesta abordagem que v o maior potencial para reunir insights pedaggicos, que fazem parte de seu foco de estudo. Por outro lado, os estudos de corpus caracterizam-se pela busca de tendncias, probabilidades ou padres de ocorrncia ao lidarem com grande quantidade de dados. Nesses casos, os nmeros servem de base para que estes padres possam ser identificados e, ento, interpretados pelos pesquisadores. Os resultados quantitativos produzidos com base no corpus so assim indicadores numricos que devem ser discutidos luz de diferentes posicionamentos terico-metodolgicos, para serem compreendidos. Da mesma forma que o corpus oferece apenas evidncias lingusticas, e no informaes, os nmeros extrados dos dados lingusticos no so ainda informaes em si mesmos, precisando ser interpretados pelo pesquisador para que possam servir de apoio para novas descries lingusticas ou para a proposta de novas perspectivas tericas. Se considerarmos que uma teoria pode ser entendida como uma perspectiva sob a qual um fenmeno observado, entenderemos facilmente o porqu de existirem mltiplas teorias de linguagem, que correspondem a diferentes maneiras de se olhar esse mesmo objeto de estudo. Para Bernstein (1996, p. 93) uma teoria deve ser capaz de oferecer uma descrio explcita e no ambgua dos objetos de sua anlise... a teoria deve especificar o que ser investigado e como os dados sero investigados e descritos. Hasan (1999, p. 13) observa que h dois tipos de teorias: endofricas e exofricas. Uma teoria endofrica est centrada no seu objeto de estudo, isolando-o dos diversos universos da experincia humana; uma teoria exofrica, por outro lado, no est limitada dentro das fromteiras de seu objeto de estudo, vendo-o em relao a outros universos da experincia humana, alterando-se e sendo alterada atravs de sua relao com outros domnios. Hasan acrescenta que, como consequncia dessas constantes trocas, o objeto de estudo em teorias exofricas parece estar sempre em movimento, apresentando uma faceta diferente de acordo com cada mudana de ponto de vista por parte do observador (HASAN: 1999, p. 13). A Lingustica de Corpus, como j mencionado, apresenta a sua prpria perspectiva de linguagem, em que essa vista sob seu aspecto de uso, observada em textos reais e analisada empiricamente. Podemos considerar que esta rea tambm v seu objeto de estudo, a linguagem,
matraga, rio de janeiro, v.16, n.24, jan./jun. 2009

51

LINGUSTICA DE CORPUS: TEORIA, INTERFACES E APLICAES

sempre em movimento, como um sistema dinmico aberto (LEMKE, 1993 citado em HASAN, 1999, p. 13) que se relaciona com diferentes domnios e est sujeito a diferentes pontos de vista, dependendo do pesquisador. Assim, propomos que a Lingustica de Corpus seja considerada como uma teoria exofrica, que se completa com os pontos de vista de outras teorias, tambm exofricas e com as quais estabelece interfaces, j que todas elas vm a linguagem relacionada a diversos universos da experincia humana.

2. Lingustica de Corpus: Interfaces


A Lingustica de Corpus situa-se na interdisciplinaridade e na complementaridade, relacionando-se com outras reas do conhecimento, teorias ou abordagens lingusticas, que ao somarem conhecimentos, podero contribuir para um melhor conhecimento do seu objeto comum de estudo que a linguagem. Assim, podemos observar pontos de contato entre Lingustica de Corpus, Lingustica Sistmico-Funcional (LSF), Lingustica Aplicada (LA), Lingustica Computacional (LC), dentre outras reas. A relao entre a Lingustica de Corpus e a Lingustica SistmicoFuncional (HALLIDAY, 1994, HALLIDAY e HASAN, 1989, HALLIDAY e MATTHIESSEN, 2004) pode ser observada na abordagem terica e metodolgica das duas reas. Em termos tericos, o aspecto social da linguagem privilegiado em ambas, sendo valorizado o seu uso e sua funcionalidade. Alm disso, para ambas as reas, a anlise deve ser feita a partir de textos. Na LSF, o contexto situacional assume papel determinante tanto para a produo como para a anlise textual. Na Lingustica de Corpus, trabalha-se com textos reais, ou seja, textos que ocorrem naturalmente na lngua, os quais, no corpus, entretanto, esto fora de seu contexto, sendo apenas oferecido aos analistas, geralmente, o seu co-texto (HUNSTON, 2002, p. 23). Em alguns casos, corpora bem documentados, que incluem informaes ou classificaes complementares em relao ao assunto ou poca de produo dos textos, autores ou participantes em interaes3 , permitem ao pesquisador recuperar parcialmente o contexto situacional e/ou cultural em que os textos se desenvolveram, mas isso nem sempre possvel. Contudo, esse no parece ser um problema terico relevante para a Lingustica de Corpus, cujas preocupaes esto mais voltadas para a identificao de padres do que para as descries de usos particulares da lngua em situaes especficas. 52
matraga, rio de janeiro, v.16, n.24, jan./jun. 2009

Lcia Pacheco de Oliveira

Na LSF, a noo de sistema faz com que seja possvel considerar que um falante/escritor, em determinadas condies, possa fazer certas escolhas paradigmticas e no outras, dentro das possibilidades oferecidas; nesse caso podemos dizer que haver probabilidades de escolha por um ou outro elemento do sistema. Considerando-se aspectos metodolgicos, de modo semelhante, na Lingustica de Corpus h interesse em identificar, por exemplo, as probabilidades de colocao de algumas palavras com outras em determinados contextos de uso da lngua, sendo para isso utilizados programas computacionais especficos, como os concordancers4 . H tambm outras ferramentas computacionais, que visam analisar corpora com base na teoria sistmicofuncional e que podem fazer investigaes no nvel da lxico-gramtica 5 . A complementaridade entre as duas reas pode ser notada em algumas pesquisas, em sua abordagem terica e na anlise de dados, conforme exemplificaremos, brevemente, no final deste artigo. Vrios estudos de corpus tm sido desenvolvidos usando a teoria sistmicofuncional como base para a explicao de evidncias lingusticas trazidas pelo corpus. Estes estudos tm focos variados, embora a maioria dos trabalhos tome como ponto de partida as evidncias lexicais ou lxicogramaticais. A relao entre a Lingustica de Corpus e a Lingustica Aplicada (LA) vem sendo enfatizada de maneira recorrente por linguistas aplicados. Em 1992, em sua Introduction to Applied Linguistics, Robert Kaplan e William Grabe incluram um captulo de autoria de Douglas Biber sobre as aplicaes do computador na lingustica aplicada, no qual vrios trabalhos de corpus so descritos (BIBER, 1992). No mesmo volume, Grabe (1992, p. 294) afirma que para se tornar um linguista aplicado um pesquisador deve conhecer bem a lingustica e outras reas afins, mas que para funcionar bem na sua prpria rea deve tambm ter conhecimentos no uso de computadores e familiaridade com habilidades ligadas quantificao, para poder desenvolver bases de dados e anlises de corpus (GRABE e KAPLAN, 1992, p. 294). Recentemente, Kaplan (2002) afirmou que a Lingustica de Corpus est ligada aos desenvolvimentos futuros da LA, prevendo para essa ltima uma maior ligao com a lingustica descritiva (idem, p. 514). Para ele o desenvolvimento da Lingustica de Corpus
est revelando fatos a respeito do uso da linguagem e da variao entre registros que so essenciais para se lidar com questes prticas
matraga, rio de janeiro, v.16, n.24, jan./jun. 2009

53

LINGUSTICA DE CORPUS: TEORIA, INTERFACES E APLICAES

mas que so, muitas vezes, no compatveis com a maioria dos modelos tericos da Lingustica. Os linguistas aplicados, que devem estar ancorados em uma lingustica realista, que seja baseada no discurso e comprovada por ocorrncias, provavelmente se deslocaro para a anlise de novos dados, ao invs de continuarem a argumentar por uma nova teoria, apesar do fato de que a construo de novas teorias possa no s ser possvel, mas desejvel em uma abordagem descritiva (KAPLAN, 2002, p. 514).

Outros autores e outras publicaes tm tambm mostrado a relao entre a Lingustica de Corpus e a LA, tais como Martin Bygate (2004, p. 7), ao incluir a Lingustica de Corpus nas futuras tendncias de pesquisa da Lingustica Aplicada; William Grabe (2004, p. 110), ao incluir a Lingustica de Corpus como uma rea de pesquisa da LA, que, nesta posio, vem se destacando h mais de 15 anos; Ulla Connor e Thomas Upton (2004), ao organizar o volume Applied corpus linguistics: a multidimensional perspective, que inclui captulos sobre estudos de corpus voltados para a anlise do discurso oral e escrito e aplicaes pedaggicas de corpora; Susan Hunston (2002), ao publicar o livro Corpora in Applied Linguistics, que tem foco na relao entre as duas reas, e mais especificamente no ensino de lnguas; e Michael McCarthy (1998), ao reunir seus trabalhos sobre corpora no livro Spoken Language & Applied Linguistics, que est baseado em pesquisas a partir do Cambridge and Nottingham Corpus of Discourse in English (CANCODE). A interface entre a Lingustica de Corpus e a LA deve-se tambm relao existente entre as subreas dessa ltima com a primeira. Neste sentido, por exemplo, o ensino e aprendizagem de lnguas, envolvendo setores como lngua estrangeira, lngua para fins especficos, letramento em lngua materna e estrangeira, linguagem e cultura, etc, tm gerado pesquisas de corpus ligadas anlise aplicada do discurso, gramticas, e materiais de ensino, dentre outras. Aplicaes pedaggicas de estudos de corpus podem ir alm das descries lingusticas, tendo impacto direto no planejamento de currculos e nas prticas pedaggicas ligadas ao ensino de lnguas. Estas aplicaes ilustram a interface entre a Lingustica de Corpus e a Lingustica Aplicada e trazem tona, por exemplo, pontos mais relevantes e realistas da gramtica para o estudo em sala de aula. Outro aspecto que tambm vem sendo discutido o uso do corpus diretamente com os alunos em sala de aula. Embora haja aqueles que aconselhem cautela quanto a essa prtica, uma vez que consideram que dados da lngua 54
matraga, rio de janeiro, v.16, n.24, jan./jun. 2009

Lcia Pacheco de Oliveira

externalizada no deveriam ser sempre privilegiados nas situaes de ensino e aprendizagem (WIDDOWSON, 2000, 2003 citado em GRABE 2004), muitos outros autores tm produzido materiais cuja finalidade o uso do corpus para o ensino, ou a discusso de questes que relacionam ensino e corpus (SINCLAIR, 2003, 2004; WICHMANN et al 1997). Os estudos tradutrios tambm podem ser vistos em interao com a Lingustica Aplicada (KAPLAN e GRABE, 1992, p. 22) e em muito tm se beneficiado da Lingustica de Corpus, especialmente atravs de estudos de lexicografia. Muitos corpora vm sendo compilados para serem usados como apoio confeco de dicionrios voltados para o uso da lngua, como foi o caso do dicionrio de ingls Collins Cobuild, produzido a partir do corpus de Birmingham, atualmente denominado como o Bank of English. Alm disso, os tradutores brasileiros podem se beneficiar de corpora do portugus, como o da Linguateca desenvolvido em Portugal, e que abriga corpora tambm de portugus do Brasil. Corpora paralelos tambm so de grande utilidade na pesquisa de solues terminolgicas ou gramaticais, assim como corpora especializados, que podem ser muito teis em tradues tcnicas em reas especficas, tal como um corpus de textos de Qumica (UFRGS). Quanto Lingustica Computacional (LC), esta se relaciona Lingustica de Corpus por ambas basearem-se no corpus para buscar evidncias lingusticas; por suas caractersticas ligadas tecnologia; e por focalizarem o uso de linguagem em seus estudos lingusticos. Entretanto, seus objetivos so diferentes, j que a Lingustica Computacional explora relaes entre as reas de lingustica e informtica, tornando possvel a construo de sistemas com a capacidade de reconhecer e produzir informao apresentada em lngua natural (VIEIRA e STRUBE DE LIMA, 2001). Como muitos trabalhos nessa rea esto voltados para o processamento da linguagem natural, isto , construo de programas capazes de interpretar e/ou gerar informaes em linguagem natural, a Lingustica Computacional utiliza os corpora para poder ter acesso ao material que necessita estudar, ou seja, grande quantidade de textos que ocorrem naturalmente na lngua. No Brasil, a maioria desses programas vem sendo desenvolvida por pesquisadores da rea de informtica, interessados em pesquisas sobre inteligncia artificial, em colaborao, muitas vezes, com linguistas da rea de lingustica computacional. Trabalhos que visam o estudo do portugus tm sido desenvolvidos, por exemplo, em algumas
matraga, rio de janeiro, v.16, n.24, jan./jun. 2009

55

LINGUSTICA DE CORPUS: TEORIA, INTERFACES E APLICAES

instituies acadmicas no Brasil (UNICAMP, USP, UFRS, UFMG) com focos variados no lxico, ortografia, lxico-gramtica, etiquetagem, ou anlise sinttica. Entretanto, segundo Vieira e Strube de Lima (2001) h ainda no Brasil uma carncia de pesquisas, ferramentas e recursos para o desenvolvimento da rea, que conta com mais trabalhos voltados para o ingls, espanhol, alemo e francs, do que para o portugus.

3. Lingustica de Corpus: desenvolvimento da rea


A rea de Lingustica de Corpus vem se desenvolvendo h mais de 40 anos, quando os primeiros corpora foram compilados. O primeiro deles, o Brown Corpus, que data do incio dos anos 60, foi desenvolvido na Universidade de Brown, nos Estados Unidos e contm 1 milho de palavras de ingls americano. Um corpus de ingls britnico, o Lancaster-Oslo/Bergen Corpus (LOB), de tamanho e formato compatveis com o americano, foi desenvolvido na Inglaterra, em Lancaster, e na Noruega, em Oslo e Bergen, e comeou a ser usado em meados da dcada de 70. Entretanto, foi a partir dos anos 80 que a rea expandiu-se devido a condies favorveis em diferentes aspectos: scio-histricos, acadmicos, tecnolgicos e pragmticos. O engajamento de importantes linguistas britnicos e americanos na organizao de corpora foi um dos principais motivos da expanso da rea. Pesquisadores como Geoffrey Leech, Jan Svartvik, John Sinclair, Randolph Quirk e Douglas Biber, foram alguns dos linguistas responsveis pelo desenvolvimento, respeitabilidade e divulgao da rea no meio acadmico. Muitos desses eminentes linguistas so tambm, e no por acaso, gramticos da lngua inglesa, podendo-se imediatamente depreender as inmeras possibilidades que os corpora podem abrir s descries gramaticais e ao desenvolvimento de teorias gramaticais a partir de novas evidncias da lngua em uso. Outro componente importante no desenvolvimento da Lingustica de Corpus foi o avano da tecnologia, que permitiu o uso de computadores e de programas especficos para a anlise de corpus, criando a possibilidade de armazenar, acessar e analisar grandes quantidades de dados lingusticos. O trabalho dos gramticos que adotam o corpus como fonte de dados passou de fichas guardadas em caixas (SVARTVIK, 1996), nos anos 60, com exemplos de usos de palavras e estruturas, geralmente extradas de textos escritos, para mquinas possantes capa56
matraga, rio de janeiro, v.16, n.24, jan./jun. 2009

Lcia Pacheco de Oliveira

zes de armazenar e processar, no sculo XXI, corpora de mais de 100 milhes de palavras, como o British National Corpus (BNC), composto de textos escritos e transcries de textos orais. A possibilidade de anlise de grandes quantidades de dados que ocorrem naturalmente na lngua, baseada na observao do uso da lngua em contextos sociais e lingusticos diversos, tem aberto novas perspectivas para estudos aplicados de diferentes naturezas como estudos lexicogrficos, lxico-gramaticais, tradutrios e de gneros discursivos. Atravs de estudos lexicogrficos com base em corpus, pode-se acompanhar o surgimento ou nascimento de palavras em uma lngua, como, por exemplo, aquelas ligadas tecnologia, como deletar, j usada com bastante frequncia em portugus. Os estudos tradutrios muito tm se beneficiado de corpora paralelos, como o corpus COMPARA, com textos em portugus e ingls6. Novas descries gramaticais para fenmenos j bastante estudados, como o diminutivo em portugus, tm sido embasadas em corpus, evidenciando funes pragmticas que se mostraram mais frequentes do que as semnticas, apresentadas em gramticas tradicionais (TURUNEN, 2009). H tambm contribuies para o ensino de lnguas estrangeiras, por exemplo, atravs da descrio do uso dos auxiliares modais em um corpus de textos de alunos universitrios brasileiros, onde os aprendizes de ingls como lngua estrangeira parecem usar o modal can como um substituto genrico para vrios outros modais do ingls, atribuindo-lhe uma funo modalizadora guarda-chuva (VIANA, 2008). Nos estudos de gneros discursivos, a variao sincrnica e diacrnica em ingls tem sido descrita (BIBER e FINEGAN, 1989), bem como a variao intercultural em gneros discursivos em portugus e ingls (OLIVEIRA, 2007). No Brasil, o desenvolvimento da rea de Lingustica de Corpus aconteceu, principalmente, a partir dos anos 90, quando surgiram pesquisadores interessados em desenvolver estudos baseados em corpus e quando comeam a aparecer algumas iniciativas para a organizao de corpora do portugus. Em 2004, com a publicao no Brasil do primeiro livro sobre a rea e a divulgao de informaes sobre corpora e suas caractersticas, bem como das metodologias utilizadas para anlise de corpus, os estudos nesta rea ganharam fora (SARDINHA, 2004). Entretanto, uma maior compreenso da rea de Lingustica de Corpus, em termos das contribuies tericas que pode trazer para o conhecimento da linguagem e para a descrio do portugus do Brasil, parece
matraga, rio de janeiro, v.16, n.24, jan./jun. 2009

57

LINGUSTICA DE CORPUS: TEORIA, INTERFACES E APLICAES

estar surgindo apenas nos ltimos anos, em que pesquisadores e gramticos interessados na descrio do portugus esto se voltando para o corpus de forma mais sistemtica (NEVES, 1999; AZEREDO, 2008). Na medida em que a disciplina Lingustica de Corpus vem sendo tambm includa em programas de ps-graduao no Brasil7 , teses e dissertaes que se baseiam nos conhecimentos da rea esto aparecendo, muitas delas voltadas para o estudo do portugus do Brasil8 . O desenvolvimento de corpora do portugus, no Brasil e em Portugal, tambm tem sido intenso, o que vem possibilitando o crescimento da rea. De maneira geral, os corpora podem ser classificados como gerais ou especializados, sendo que os primeiros visam representar a lngua de forma ampla e servir de base para pesquisas variadas; eles caracterizam-se pela sua variedade em relao aos gneros discursivos que incluem, variedade de registros, assuntos e autores. Os corpora especializados so coletados para objetivos especficos de pesquisa e consistem, muitas vezes, em colees de textos de gneros ou discursos especficos. Todo corpus uma amostragem de uma populao da qual no conhecemos o tamanho (SARDINHA, 2004, p. 23), ou seja, o corpus representa uma poro limitada da lngua, que vista como um sistema potencial de significados (HALLIDAY, 1994). Como no se tem uma medida da proporo de usos de textos e discursos em uma comunidade de falantes/escritores da lngua, cada corpus passa a ter apenas uma pequena parte do total de amostras potenciais da lngua. Por isso, temos que considerar o corpus como um fragmento de lngua, mas que, mesmo assim, representa o seu sistema global (ou parte dele) e que, mesmo incompleto e fragmentado, pode refletir as possibilidades de ocorrncia de usos lingusticos potenciais (OLIVEIRA e DIAS, 2006). No Brasil alguns corpora foram compilados, mas vrios deles so especializados, como o da PUC-SP, de textos de comunicao no contexto de negcios, do Projeto DIRECT; e o corpus do Projeto NURC, com a fala culta de diferentes regies do pas, colhida em situaes pr-estabelecidas. Apesar de terem sido tomadas outras iniciativas para a compilao de corpora em portugus, algumas extremamente bemsucedidas, como o corpus do Ncleo Inter-institucional de Lingustica Computacional NILC (USP-So Carlos/ UFSCar/ UNESP), ainda no contamos com um corpus de dimenses abrangentes, que seja um corpus geral e representativo do portugus do Brasil.

58

matraga, rio de janeiro, v.16, n.24, jan./jun. 2009

Lcia Pacheco de Oliveira

Na PUC-Rio, em 2002, comeamos a empreitada de montar um corpus que fosse representativo do portugus do Brasil, o CORPOBRAS PUC-Rio. Ao longo dos ltimos oito anos como coordenadora deste projeto, pude contar com o auxlio de agncias de fomento (ver nota explicativa 1), mas o corpus desenvolveu-se, principalmente, graas ao trabalho e contribuies de dados de alunos e professores do Departamento de Letras da PUC-Rio e colegas de outras instituies 9 . Em 2008, o CORPOBRAS ultrapassou a meta de 1.000.000 (hum milho) de palavras, equiparando-se a corpora considerados como mdio-grandes (SARDINHA, 2004, p.26), em relao ao seu tamanho10 . Atualmente, o corpus composto por 27 (vinte e sete) gneros discursivos, distribudos em: 20 (vinte) gneros do discurso escrito, 5 (cinco) gneros do discurso oral, e 2 (dois) gneros do discurso escrito para ser falado11 . O corpus totaliza 1.361 textos e 1.149.600 palavras, e contm, at o momento, os seguintes gneros: artigos cientficos, cartas ao editor, cartas de reclamao, cartas de recomendao, cartas pessoais, cartas profissionais, cartas profissionais acadmicas, circulares, contos, crnicas, dissertaes, editoriais, e-mails acadmicos, emails pessoais, notcias de jornal, redaes de alunos ensino mdio, redaes de alunos universitrios, redaes de vestibular, romances, teses, conversas cariocas, conversas de crianas, entrevistas acadmicas, grupos de enfoque, atendimento ao cliente, discursos polticos e roteiros cinematogrficos. O objetivo do CORPOBRAS que ele possa servir a uma descrio ampla da lngua ou a anlises especficas. Por isso, tivemos cuidados especiais em faz-lo representativo do portugus do Brasil, levando em conta que a montagem de um corpus representativo de uma lngua requer o armazenamento de amostras de vrios gneros do discurso oral e escrito. Para criarmos um corpus representativo do portugus do Brasil, acreditamos que devemos considerar, principalmente, que os textos devem ser: reais, refletindo a lngua em uso; produzidos por falantes nativos da lngua, ou seja, brasileiros; produzidos por falantes/ escritores nicos, ou seja, cada texto deve ser de um autor/participante diferente; produzidos em diferentes regies do pas, para representar a variedade regional de forma abrangente; selecionados de forma no aleatria, tendo contedo variado; e, principalmente, distribudos em gneros discursivos variados para representar a maior variedade possvel de aes sociais (OLIVEIRA e DIAS, 2006).
matraga, rio de janeiro, v.16, n.24, jan./jun. 2009

59

LINGUSTICA DE CORPUS: TEORIA, INTERFACES E APLICAES

No Brasil, onde a pesquisa lingustica tem se desenvolvido com muita rapidez, esperamos que o CORPOBRAS PUC-Rio possa servir de base tanto a estudos lingusticos tericos como aplicados para a descrio do discurso oral e escrito em portugus12 . Entretanto, sabemos que ainda h muito trabalho a ser feito, em termos de compilao e organizao dos dados j coletados!

4. Aplicaes: Estudos de corpus


Nos estudos de corpus, muitas vezes, o pesquisador utiliza o corpus para ajudar a estender uma descrio lingustica, mas, ao faz-lo, deixa abertas as possibilidades de mudanas na teoria, podendo as evidncias do corpus tornarem-se mais importantes do que as categorias tericas ou descritivas anteriores. Por isso, acredito que no seja necessrio classificar as pesquisas de corpus em baseadas em corpus (corpus based) e aquelas dirigidas por corpus(corpus driven) (TONIGNI-BONELLI, 2001). Ao invs de dividi-las em dois grupos, considero mais adequado aceitar as duas perspectivas como misturadas, sem que haja, portanto, a necessidade de classificar os estudos de corpus em uma ou outra perspectiva, j que, em estudos de corpus, podemos chegar a concluses sobre uma proposio descritiva, com consequncias tericas. Cabe ainda ressaltar algumas outras caractersticas gerais de estudos de corpus. Uma delas que eles podem ser desenvolvidos de acordo com abordagens metodolgicas diversas que visam acessar, analisar ou contrastar dados em corpora. Muitas abordagens podem ser aplicadas ao corpus, dependendo do objetivo e do escopo da pesquisa, incluindo, por exemplo, o clculo da frequncia de palavras, colocaes, prosdia semntica, fraseologia, etc. Dentre as metodologias de estudo de corpus podemos mencionar a Anlise Multidimensional (BIBER, 1988; CONRAD e BIBER, 2001). Vrios so os estudos multidimensionais: estudos diacrnicos e sincrnicos (BIBER e FINEGAN, 1989; GRABE, 1987); estudos em uma lngua, como o ingls (BIBER, 1988), coreano (KIM e BIBER, 1994), somali (BIBER e HARED, 1994), nukulaelae tuvaluan (BESNIER,1988); ou contrastivos (OLIVEIRA, 1997; BIBER, 1995)13 . Gostaria novamente de enfatizar que acredito que a Lingustica de Corpus no pode ser considerada, ela mesma, apenas como uma metodologia de anlise. Com base no fato de que h diferentes 60
matraga, rio de janeiro, v.16, n.24, jan./jun. 2009

Lcia Pacheco de Oliveira

metodologias que podem ser usadas em estudos de corpus; que os estudos de corpus desenvolvem pesquisas empricas com caractersticas prprias e apresentam maneiras variadas para a descrio de fenmenos lingusticos, as quais podem gerar teorias, podemos afirmar que a Lingustica de Corpus muito mais do que uma metodologia, constituindo-se em uma rea do conhecimento com suas prprias caractersticas tericas e aplicaes prticas. A maioria dos estudos desenvolvidos a partir de corpora toma como base o lxico (KENNEDY, 1998, p. 90) , ou seja, baseiam-se em palavras isoladas, grupos de palavras, ou em sua relao com outras (ex: colocaes, chunks, palavras chave). Esta tendncia pode ser atribuda ao fato de que h maior disponibilidade de programas que auxiliam neste tipo de anlise ( concordancing ); por outro lado, a etiquetagem, ou identificao automtica de classes das palavras (tagging), e a anlise da funo sinttica das palavras (parsing) so mais complexas, e por isso custaram mais a serem viabilizadas. Entretanto, nos ltimos anos, foram desenvolvidos e disponibilizados vrios programas capazes de fazerem a marcao gramatical automtica de um corpus, alguns capazes de desenvolver anlises do portugus, como o Unitex (PAUMIER, 2006) e Palavras (BICK, 2002). Um problema enfrentado pela Lingustica de Corpus que ela designa uma empreitada coletiva, compreendendo vrios trabalhos independentes, ou seja, h colees de trabalhos independentes que descrevem diferentes aspectos das lnguas, mas que no esto sistematicamente organizados (KENNEDY, 1998, p. 88). Entretanto, se postos todos juntos, formam j um corpo bastante representativo de conhecimentos gramaticais em diferentes lnguas. Um exemplo importante de uma descrio gramatical abrangente do ingls, a partir de corpus, a Longman Grammar of Spoken and Written English ( BIBER, JOHANSON, LEECH, CONRAD & FINEGAN, 1999), que se baseia em um corpus de 40 milhes de palavras, representando quatro variedades da lngua: conversas face-a-face, textos de jornais, fico e prosa acadmica. O objetivo desta gramtica descrever, a partir de pesquisas empricas, o uso real de traos gramaticais, a includas as classes gramaticais, estruturas frasais, componentes oracionais e outras categorias gramaticais. A frequncia e distribuio de traos lingusticos nas variedades lingusticas selecionadas servem de base para explicaes sobre o uso desses traos, sendo tambm conmatraga, rio de janeiro, v.16, n.24, jan./jun. 2009

61

LINGUSTICA DE CORPUS: TEORIA, INTERFACES E APLICAES

siderados elementos do contexto situacional, como a finalidade da comunicao, o modo oral ou escrito, e outras condies de produo (BIBER et al, 1999, p. 5). Em relao ao portugus, um exemplo de descrio gramatical baseada em dados de uso real da lngua a Gramtica de Usos do Portugus, desenvolvida por Maria Helena Moura Neves (1999) que, a partir do uso da lngua em textos, descreve as funes gramaticais de outras unidades. Outro trabalho mais recente, tambm com base no uso da lngua, a Gramtica Houaiss de Lngua Portuguesa de Jos Carlos de Azeredo (2008), que descreve a variedade escrita do portugus, a partir de um corpus de textos de escritores, jornalistas ou autores brasileiros. Para Azeredo, ela uma fonte de informaes sistematizadas sobre o portugus padro do Brasil. Por isso, fazemos o registro da oscilao de usos correntes do corpus, deixando a escolha a critrio do leitor/usurio que busca a informao (AZEREDO, 2008, p. 26). Ainda outro trabalho considerado como relevante para a descrio gramatical do portugus a Gramtica do Portugus Falado (CASTILHO,1990), que formada por um conjunto expressivo de estudos.... descritivos da lngua portuguesa (AZEREDO, 2008, p. 36). Entretanto, as pesquisas contidas nos vrios volumes que compem essa ltima publicao no apresentam uma descrio sistemtica da gramtica do portugus falado, o que seria uma grande contribuio para os estudos da lngua portuguesa. Mas, para que isso pudesse vir a acontecer, necessitaramos tambm de um corpus abrangente e representativo do discurso oral em portugus do Brasil, que, infelizmente, ainda no est compilado, devido dificuldade que tal empreitada representa, em termos de coleta e transcrio de dados. Um outro aspecto relevante em relao aos estudos de corpus que, como afirmamos anteriormente, estes estudos so primordialmente geradores de evidncias lingusticas. Entretanto, na Lingustica de Corpus, o uso da intuio lingustica no est totalmente descartado (OLIVEIRA, 2007) e, por isso, nos vemos diante de um dilema: at que ponto podemos confiar em nossas intuies lingusticas para explicar algumas questes relativas ao uso da lngua, e em que ocasies as evidncias lingusticas so essenciais? Algumas questes mais simples podero ser respondidas com base apenas em nossas intuies, mas para responder outras mais complexas, entretanto, necessitaremos, sem dvida, de recorrer s evidncias lingusticas trazidas pela pesquisa 62
matraga, rio de janeiro, v.16, n.24, jan./jun. 2009

Lcia Pacheco de Oliveira

emprica desenvolvida com base em corpus. Como afirmamos acima, o corpus nos fornece as evidncias, mas caber ao linguista usar suas intuies e conhecimentos lingusticos para explic-las. Assim, Conrad (2002), conclui que
os estudos de corpus frequentemente so desenvolvidos a partir de questes que surgem de intuies ou observaes casuais sobre a lngua, e as interpretaes dos achados extrados do corpus frequentemente tambm incluem impresses intuitivas sobre o impacto de escolhas lingusticas especficas. Entretanto, o foco principal emprico, baseado no que observado no corpus (CONRAD, 2002, p. 77).

As evidncias trazidas pelos dados reais de uso da lngua podem chegar a provocar mudanas relevantes nos conhecimentos tericos. Mas para que isso possa acontecer preciso tambm que os estudos de corpus sejam desenvolvidos por pesquisadores com um slido embasamento de conhecimentos lingusticos, tericos e aplicados, para que possam perceber e demonstrar que conhecimentos produzidos anteriormente so incompletos, inadequados ou incorretos. Talvez seja por isso que linguistas aplicados, por exemplo, devam se aproximar mais da lingustica descritiva e das teorias gramaticais para embasar seus trabalhos com corpus, conforme enfatizado por Kaplan (1992), e j mencionado neste trabalho. Podemos resumir, ento, algumas caractersticas dos estudos baseados em corpora: constituem-se em investigaes da lngua em uso; baseiam-se em colees de textos selecionados de acordo com certos critrios; usam computadores para a anlise automtica ou interativa; incluem anlises quantitativas e/ou interpretaes qualitativas para descreverem padres; possibilitam a anlise de textos longos e variados; possibilitam o uso de um mesmo corpus para verificar ou procurar novos resultados; podem trazer subsdios para linguistas tericos e aplicados; proporcionam maior preciso e credibilidade s anlises quantitativas.

5. Estudos de corpus: aplicaes a partir do CORPOBRAS


Neste trabalho vamos ilustrar, atravs de trs trabalhos, a pesquisa desenvolvida a partir de corpus, com base em trabalhos ligados ao CORPOBRAS PUC-Rio, os quais so baseados em descries diversas de uso do portugus do Brasil, dois deles em interface com a Lingustimatraga, rio de janeiro, v.16, n.24, jan./jun. 2009

63

LINGUSTICA DE CORPUS: TEORIA, INTERFACES E APLICAES

ca Sistmico-Funcional. Estes trabalhos esto ligados lexicografia, lxico-gramtica, gneros discursivos, estudos inter-culturais e da variao lingustica sincrnica. Alguns destes trabalhos fizeram uso mais extenso do CORPOBRAS e de anlises automticas com auxlio do computador. Outros utilizaram colees de textos extradas do corpus, formando subcorpora, e fizeram uso menos intenso do computador para extrair as evidncias lingusticas, mesmo assim produzindo resultados quantitativos e qualitativos a partir do corpus. Dois destes trabalhos foram desenvolvidos como dissertaes de mestrado (LANZIOTTI, 2002 e CALDEIRA, 2006), no Departamento de Letras da PUC-Rio. Em um dos trabalhos exemplificado abaixo (OLIVEIRA, 2006) a descrio apresentada foi contrastada com o ingls14 . 1 - Variao de gneros discursivos: a explicitao do contexto em um corpus do portugus escrito (LANZIOTTI, 2002) Este trabalho tem como foco o estudo da variao sincrnica de gneros escritos da lngua portuguesa, com abordagem multidimensional (ver nota explicativa 13). Esta abordagem foi tambm utilizada por (OLIVEIRA, 1997), para o estudo de um corpus de 270 redaes de alunos universitrios, produzidas em dois contextos culturais diversos, no Brasil e nos Estados Unidos, e divididas em 3 grupos: ingls (L1), portugus (L1) e ingls como lngua estrangeira (L2). Uma das dimenses de variao que foram identificadas nesse corpus foi a Explicitao do Contexto (OLIVEIRA, 2002), a qual LANZIOTTI retomou e desenvolveu em sua pesquisa com 11 gneros do Portugus escrito. O corpus da pesquisa de Lanziotti compe-se de 176 textos, sendo 16 amostras de 11 gneros do Portugus escrito, que fazem parte do CORPOBRAS PUC-Rio. Os gneros selecionados para formar o subcorpus da pesquisa foram: e-mail, carta pessoal, carta profissional, redao de aluno, artigo cientfico, editorial, notcia, circular, discurso poltico, romance e crnica. O corpus analisado totaliza aproximadamente 76.000 palavras. As evidncias lingusticas consideradas so os sintagmas nominais em que o ncleo, ou o modificador, constituem referncias culturais, histricas e geogrficas; e sintagmas nominais em que o ncleo ou o modificador constituem referncias sociais, econmicas e polticas (OLIVEIRA, 1997). Estas referncias foram identificadas nos textos selecionados atravs de nomes prprios, identificados manualmente, e atravs de substantivos comuns, estes lti64
matraga, rio de janeiro, v.16, n.24, jan./jun. 2009

Lcia Pacheco de Oliveira

mos identificados com o auxlio do programa de buscas em contexto, MonoConc Pro (BARLOW, 1999). Na pesquisa de LANZIOTTI, aps o clculo da frequncia dos traos lingusticos no corpus e de sua normatizao, mdias e testes estatsticos foram aplicados ao corpus. Os resultados da pesquisa mostram que houve uma variao significativa dos gneros escritos ao longo do contnuo Explicitao do Contexto vs. No-Explicitao do Contexto, sendo que os gneros notcia, editorial e discurso poltico esto mais prximos do plo da Explicitao do Contexto, enquanto o e-mail, a crnica e a redao de aluno de ensino mdio se aproximam da no-explicitao. Os resultados apontam para uma correlao entre a explicitao do contexto e o pblico alvo a que os textos se destinam, sendo mais explcitos quando o pblico mais abrangente, havendo, portanto, menor compartilhamento de conhecimentos. 2 - A redao do vestibular como gnero: configurao textual e processo social. (CALDEIRA, 2006) Este trabalho tem como foco o estudo de um gnero especfico, com abordagem discursiva. O corpus da pesquisa compe-se de redaes de vestibular (N= 135) de quatro instituies, compiladas entre 2004 e 2005. As evidncias lingusticas examinadas quantitativamente a partir do corpus de aproximadamente 30.000 palavras foram itens lexicais com referncias exofricas; nominalizaes em mento, - co e -(c)ia; processos de diferentes tipos (HALLIDAY, 1994); e marcas de subjetividade, como pronomes pessoais de primeira pessoa. Estes itens foram identificados e quantificados com a ajuda do software MonoConc Pro, que faz buscas em contexto. Os resultados quantitativos da pesquisa ajudaram a caracterizar os significados ideacionais, textuais e interpessoais criados nas redaes, mostrando que o mundo nelas representado mais caracterizado por processos materiais e relacionais, onde predominam aes e relaes; a baixa frequncia de processos mentais pode indicar que o mundo representado nos textos tambm mais objetivo e menos reflexivo. As nominalizaes foram menos frequentes do que os processos, indicando que os textos dos alunos vestibulandos esto em pouca consonncia com o discurso acadmico, onde, segundo Baslio (1999, p. 25 citado em CALDEIRA, 2006), o processo da nominalizao, entendido como o enquadramento do verbo em uma estrutura nominal, recorrente. Por outro lado, a baixa ocorrncia das marcas de subjetividade
matraga, rio de janeiro, v.16, n.24, jan./jun. 2009

65

LINGUSTICA DE CORPUS: TEORIA, INTERFACES E APLICAES

nas redaes pode estar indicando a aproximao da produo textual dos alunos em direo ao discurso acadmico, onde as marcas interpessoais so deixadas de lado, muitas vezes por recomendao do ensino da escrita na escola. 3. Grammatical metaphor in research articles: Linguistic and disciplinary contrasts (OLIVEIRA, 2006) Neste trabalho de corpus o foco na lxico-gramtica, em uma abordagem descritiva e interface com a teoria sistmico-funcional. O corpus composto de artigos de pesquisa em portugus e em ingls, totalizando 24 amostras de aproximadamente 1000 palavras cada uma, selecionadas de peridicos cientficos nas reas de Lingustica e Nutrio. As evidncias empricas pesquisadas foram as nominalizaes, consideradas como grupos nominais que podem funcionar como realizaes metafricas de configuraes processuais, em lugar de oraes, que seriam as formas mais congruentes (HEYVAERT, 2003). A anlise dos dados incluiu o clculo da frequncia de nominalizaes, identificadas no corpus atravs de buscas de palavras em contexto, ou concordncias, com o auxlio do programa WordSmith Tools (SCOTT, 1999). Os sufixos formadores de nominalizaes em portugus e em ingls (ex: -tion/o, sso; -ance,ence/-cia; -ment/mento; -er/dor), serviram de base para as buscas em contexto. A frequncia dos textos foi normatizada para 1000 palavras e mdias calculadas para o uso de cada sufixo, em cada lngua. Testes estatsticos (MANOVA e ANOVA) foram calculados para verificar se a variao entre as mdias obtidas para os grupos de textos, em relao disciplina e lngua, era significativa. Os resultados da pesquisa indicam que os artigos de pesquisa produzidos por acadmicos nas duas reas variam quanto frequncia no uso de nominalizaes. A variao entre as duas lnguas mostra que os acadmicos brasileiros tendem a usar mais nominalizaes do que os americanos, especialmente na rea de Lingustica, em portugus, a qual apresentou mais ocorrncias de nominalizaes. Estes resultados podem ser relacionados com outros anteriores (MORAES, 2005) que mostraram que h uma maneira discursiva diferenciada entre as duas reas, Lingustica e Nutrio, de construir conhecimento, sendo os trabalhos de nutrio mais factuais e os de lingustica mais voltados para as idias, o que pode ser confirmado pelo uso de nominalizaes.

66

matraga, rio de janeiro, v.16, n.24, jan./jun. 2009

Lcia Pacheco de Oliveira

Vrios outros trabalhos tm sido desenvolvidos a partir do CORPOBRAS, alguns dos quais esto indicados a seguir: ALMEIDA, 2002; AMARANTE, 2002, 2008; CORRA, 2004; MORAES, 2005; OLIVEIRA, 1997, 1999, 2002, 2007, 2008; OLIVEIRA et al, 200915 ; TURUNEN, 2009; VIANA, 2008. Estas pesquisas formam j um conjunto de informaes extradas de um corpus do portugus, algumas vezes em contraste com o ingls, que podero contribuir para um conhecimento mais amplo da lngua em uso.

6. Consideraes finais
A Lingustica de Corpus uma rea em expanso. Sua histria ainda recente, se comparada a outras subreas da Lingustica. H, entretanto, fatores que podero acelerar ou retardar o seu desenvolvimento. A seu favor est o fato de a rea estar altamente relacionada ao uso de computadores. Como a tecnologia vem se desenvolvendo de maneira acelerada, em breve poderemos contar com mquinas ainda mais robustas, capazes de armazenar quantidades cada vez maiores de dados, tornando os corpora cada vez mais completos. Contudo, para analis-los precisaremos de programas cada vez mais sofisticados e estes dependero, para sua criao e desenvolvimento, que pesquisadores de diferentes reas trabalhem em colaborao, o que muitas vezes difcil, j que cada profissional bastante exigido dentro de sua prpria esfera de interesse e a interdisciplinaridade , em muitos casos, ainda, uma proposta e no uma realidade. Temos tambm que considerar o fato de a Lingustica de Corpus ser uma cincia emprica, inserida em uma rea maior do conhecimento, Letras e Lingustica, onde a tendncia, durante muitos anos, foi o foco em estudos tericos. preciso ainda convencer a muitos que precisamos de novos dados sobre a linguagem em uso para descrev-la de forma mais adequada, de maneira a conhecer melhor o nosso objeto de estudo, e poder ensinar a lngua de maneira mais eficiente aos seus aprendizes. Seria para isso necessrio deixar de pensar que a Lingustica de Corpus se restringe compilao e coleta de dados, j que ao contribuir para a gerao de novas descries das lnguas ela contribui tambm para que possamos conhecer novas gramticas, que por sua vez nos levam a entender melhor a experincia humana tal como construda na linguagem.

matraga, rio de janeiro, v.16, n.24, jan./jun. 2009

67

LINGUSTICA DE CORPUS: TEORIA, INTERFACES E APLICAES

Uma teoria gramatical deveria ser sistemtica, ou seja, ela deveria dar conta da lngua em sua totalidade. Infelizmente, entretanto, no podemos dizer que a Lingustica de Corpus tenha conseguido chegar a realizar este intento. At o momento, temos uma srie de estudos, alguns mais completos do que outros, que descrevem aspectos especficos das lnguas. Podemos argumentar, entretanto, que esta rea, ao desenvolver uma lgica direcionada pelos dados, uma observao meticulosa dos fatos ou evidncias lingusticas, leva a avanos em direo elaborao de uma teoria gramatical (TURUNEN, 2009), a qual poder vir a ser proposta medida que as pesquisas de corpus se consolidarem ou se organizarem em torno de um propsito descritivo mais sistemtico. H ainda outros fatores que podem facilitar ou dificultar o percurso da rea. A seu favor podemos mencionar o fato de que, em vrias partes do mundo, ela tem ganhado notoriedade e que muitos corpora, em diferentes lnguas, tm sido compilados. Contudo, estes projetos so trabalhosos e de longa durao; um corpus geral de uma lngua necessita de muitos anos de trabalho de muitas pessoas, e instituies envolvidas, para ser viabilizado. O apoio financeiro para estes projetos tambm precisa ser robusto, para cobrir despesas com equipamentos, produtos e recursos humanos especializados. Estas duas condies, uma relativa a recursos humanos e outra a recursos financeiros, so difceis de satisfazer, especialmente a segunda, j que, nos dias atuais, de maneira geral, os financiamentos para pesquisas na rea de cincias humanas so escassos, e os projetos que envolvem o estudo de lnguas no so vistos como prioritrios. Porm, apesar das dificuldades encontradas, a rea est em expanso no Brasil, na esfera acadmica, onde, em vrios centros do pas, novos cursos so oferecidos e novos pesquisadores esto se especializando em Lingustica de Corpus. essencial, entretanto, que a pesquisa em corpus no seja vista apenas como uma metodologia, e sim como uma abordagem terica que permite mltiplas aplicaes, para que conquiste cada vez mais espaos acadmicos e polticos que possibilitem que ela cresa e continue a exercer a sua funo primordial que contribuir, empiricamente, para o conhecimento mais profundo, abrangente e terico da linguagem e, em especial, do Portugus do Brasil.
Recebido em 14/04/09 Aprovado em 04/05/09

68

matraga, rio de janeiro, v.16, n.24, jan./jun. 2009

Lcia Pacheco de Oliveira

ABSTRACT
The purpose of this paper is to present an overview of Corpus Linguistics, characterizing it as an area of research, considering its relations with other areas of study and illustrating its applications with specific focus on Brazilian Portuguese. In order to develop these topics, this research paper discusses Corpus Linguistics characteristics by pointing out some issues that distinguish it from other areas of research, such as: (1) its specific way to define language as well as a particular form to do empirical research on the basis of evidence extracted from linguistic corpora, using computational tools; (2) the possibility to generate theoretical contributions through new descriptions of different language uses; (3) the interfaces it establishes with SystemicFunctional Linguistics, Applied Linguistics and Computational Linguistics; (4) the expansion of the area in many countries, including Brazil, due to new perspectives opened in several fields, such as, lexicography, lexicogrammatical studies, genre and language variation studies as well as cross-cultural studies. The discussion of the topics above should reinforce the argument that Corpus Linguistics cannot be considered only as a methodological approach, but rather as a research area that allows for empirical linguistic knowledge, leading into new theoretical insights about language. In order to illustrate some corpus research done within the scope of Corpus Linguistics using data from the Portuguese language, three empirical studies are briefly described at the end of this paper. These academic works used data from the CORPOBRAS PUC-Rio, a corpus compiled with the purpose of representing Brazilian Portuguese. KEY WORDS: corpus linguistics, theory and corpus, empirical research, Brazilian Portuguese corpus, CORPOBRAS PUC-Rio.

matraga, rio de janeiro, v.16, n.24, jan./jun. 2009

69

LINGUSTICA DE CORPUS: TEORIA, INTERFACES E APLICAES

REFERNCIAS ALMEIDA, P.M.C. Atendimento de check-in de companhia area: Anlise sistmico-funcional de um gnero discursivo do portugus. Dissertao (Mestrado em Estudos da Linguagem). Departamento de Letras, PUC, RJ, 2002. 193 f. AMARANTE, R. M. C Comeando do princpio: Uma anlise do lead como subgnero discursivo em portugus e em ingls. Dissertao (Mestrado em Estudos da Linguagem). Departamento de Letras, PUC, RJ, 2002. 109 f. AMARANTE, R. M. C. Heris de papel: Uma abordagem sistmico-funcional da imagem do jornalista projetada em notcias de guerra e esporte (Ttulo provisrio). Trabalho de Qualificao (Doutorado em Estudos da Linguagem). Departamento de Letras, PUC, Rio de Janeiro, 2008. 65 f. AZEREDO, J.C. Gramtica Houaiss da lngua portuguesa. So Paulo: PubliFolha, 2008. BADDINI, D.M. Estudos baseados em corpora: design, complementao e disponibilizao de um corpus representativo do portugus do Brasil. Anais do XII Seminrio de Iniciao Cientfica da PUC-Rio. Rio de Janeiro: PUC-Rio, 2004. BADDINI, D.M Gneros do discurso escrito: complementao e disponibilizao de um corpus representativo do portugus do Brasil. Anais do XIII Seminrio de Iniciao Cientfica da PUC-Rio. Rio de Janeiro: PUC-Rio, 2005, p. 423424. BARLOW, M. MonoConc PRO . Houston: Athelstan, 1998. BASLIO, M.M.P. Teoria lexical . So Paulo: tica, 1999. BERNSTEIN, B. Pedagogy, symbolic control and identity: theory, research, critique. London: Taylor & Francis, 1996. BESNIER, N. The linguistic relationships of spoken and written nukulaelae registers. Language 64, p. 707-736, 1988. BIBER, D. Variation across speech and writing. Cambridge: Cambridge University Press, 1988. BIBER, D. Applied linguistics and computer applications. In GRABE, W. & KAPLAN, R. (eds). Introduction to applied linguistics. Reading, Massachusetts: Addison-Wesley, 1992. p. 257-278. BIBER, D. Dimensions of register variation: a cross-linguistic comparison. Cambridge: Cambridge University Press, 1995. BIBER, D. & FINEGAN, E. Drift and the evolution of English style: a history of three genres. Language 65 (3): 487, 1989. BIBER, D., JOHANSSON, S., LEECH, G., CONRAD, S. & FINEGAN, E. Longman

70

matraga, rio de janeiro, v.16, n.24, jan./jun. 2009

Lcia Pacheco de Oliveira

grammar of spoken and written English. Essex, England: Pearson Education Limited, 1999. BIBER, D., CONRAD, S. & REPPEN, R. Corpus linguistics: investigating language structure and use. Cambridge: Cambridge University Press, 1998. BIBER, D. & HARED, M. Linguistic correlates of the transition to literacy in Somali: Language adaptation in six press registers. In: BIBER, D. & FINEGAN, E. (eds.), Sociolinguistic perspectives on register. New York/Oxford: Oxford University Press, 1994. p.182-216. BRITO, M. G. E VALRIO, R. G. (2007). Um corpus do Portugus do Brasil: variao entre gneros discursivos. Anais do XV Seminrio de Iniciao Cientfica da PUC-Rio. Rio de Janeiro: PUC-Rio. p 525-526. BICK, E. The parsing system PALAVRAS: automatic gramatical analysis of Portuguese in a constraint grammar framework. Aarhus: Aarhus University Press, 2000. BYGATE, M. Some current trends in applied linguistics: towards a generic view. AILA Review, 17, p. 6-22, 2004. CALDEIRA, J. R. A redao de vestibular como gnero: configurao e processo social. Dissertao (Mestrado em Estudos da Linguagem). Departamento de Letras da PUC, Rio de Janeiro, 2006. 150f. CASTILHO, A. T. (Org) Gramtica do portugus falado. vol.1: A Ordem. Unicamp, 1990. CONNOR, U. & UPTON, T. Applied corpus linguistics: a multidimensional perspective. Amsterdan: Rodopi, 2004. CONRAD, S. Corpus linguistics approaches to discourse analysis. Annual Review of Applied Linguistics,22, p. 75-95, 2002. CONRAD, S. & BIBER, D. Variation in English: multi-dimensional studies. New York: Longman, 2001. CORRA, F. J. A. Cross-cultural rhetorical move analysis: letters to the editor in English and Portuguese. Monografia. Ps-Graduao Lato Sensu em Lngua Inglesa. Rio de Janeiro: PUC-Rio, 2004. 85 f. GRABE, W. Contrastive rhetoric and text type research. In: CONNOR, U. and KAPLAN, R. (eds.), Writing across languages: analysis of L2 texts, Reading, MA: Addison-Wesley, 1987. p. 113-137. GRABE, W. & KAPLAN, R. (eds.) Introduction to applied linguistics. Reading, Massachusetts: Addison-Wesley, 1992. GRABE, W. Becoming an applied linguist. In: GRABE, W. & KAPLAN, R. (eds). Introduction to applied linguistics. Reading, Massachusetts: Addison-Wesley, 1992. p. 281-300.
matraga, rio de janeiro, v.16, n.24, jan./jun. 2009

71

LINGUSTICA DE CORPUS: TEORIA, INTERFACES E APLICAES

GRABE, W. Perspectives in applied linguistics: a North American view. AILA Review, 17, p. 105-132, 2004. HALLIDAY, M. A. K. Quantitative studies and probabilities in grammar. In: HOEY, M. (ed.). Data, description, discourse: papers on the English language in honour of John McH Sinclair. London: HarperCollins Publishers, 1993. p.1-25. HALLIDAY, M. A. K. An introduction to functional grammar. London: Edward Arnold, 1994. HALLIDAY, M. A. K. & MATTHIESSEN, C. M.I.M. An introduction to functional grammar (3 ed.). London: Hodder Arnold, 2004. HALLIDAY, M. A.K. & HASAN, R. Language, context, and text: aspects of language in a social-semiotic perspective. Oxford: Oxford University Press, 1989. HASAN, R. Society, language and the mind: the meta-dialogism of Basil Bernsteins theory. In: CHRISTIE, F. (org), Pedagogy and the shaping of consciousness: linguistic and social processes. London: Continuum, 1999. p. 10-30. HEYVAERT, L. Nominalization as grammatical metaphor: on the need for a radically systemic and metafunctional approach. In: SIMON-VANDENBERGEN, A.; TAVERNIERS, M. & RAVELLI, L. (eds.) Grammatical metaphor: views from systemic functional linguistics. John Benjamins: Amsterdam, 2003. p. 66-99. HUNSTON, S. Corpora in applied linguistics. Cambridge: Cambridge University Press, 2002. KAPLAN, R. (ed.) The Oxford handbook of applied linguistics. Oxford: Oxford University Press, 2002. KENNEDY, G. An Introduction to corpus linguistics. London: Longman, 1998 KIM, Y. & BIBER, D. A corpus-based analysis of register variation in Korean. In BIBER, D. & FINEGAN, E. (eds.), Sociolinguistic perspectives on register. New York/Oxford: Oxford University Press,1994. p.157-181. LANZIOTTI, M.G. P. Variao de gneros discursivos: a explicitao do contexto em um corpus do portugus escrito. Dissertao (Mestrado em Estudos da Linguagem). Departamento de Letras, PUC, Rio de Janeiro, 2002. 140 f. MARQUES, G. O. Tecnologia e internet no ensino de lngua estrangeira: avaliao discursiva de professores e alunos. Dissertao (Mestrado em Estudos da Linguagem). Departamento de Letras, PUC, Rio de Janeiro, 2006. 162 f. McCARTHY, M. Spoken language and applied linguistics. Cambridge: Cambridge University Press, 1998. MORAES, L. S. B. O metadiscurso em artigos acadmicos: variao intercultural, interdisciplinar e retrica. Tese (Doutorado em Estudos da Linguagem), Departamento de Letras, Rio de Janeiro, PUC-Rio, 2005. 183 f. NEVES, M.H.M. Gramtica de usos do portugus. So Paulo: Editora UNESP, 1999.

72

matraga, rio de janeiro, v.16, n.24, jan./jun. 2009

Lcia Pacheco de Oliveira

OLIVEIRA, L. P. Variao intercultural na escrita: contrastes multidimensionais em ingls e portugus. Tese (Doutorado em Lingustica Aplicada). LAEL, PUC, So Paulo, 1997. 358 p. OLIVEIRA, L. P. Cross-cultural complexity-level variation in written discourse styles. Trabalho apresentado na American Association for Applied Linguistics Annual Conference (AAAL), Stanford, Connecticut, 1999. OLIVEIRA, L. P. Explicitao do contexto em textos de alunos brasileiros e americanos. Palavra, 8, p.102-116, 2002. OLIVEIRA, L. P. Grammatical metaphor in research articles: linguistic and disciplinary contrasts. Trabalho apresentado na American Association for Applied Linguistics and the Canadian Association for Applied Linguistics Conference (AAAL/CAAL), Montreal, Canada, 2006. OLIVEIRA, L. P. Writing in the academic context: a corpus-based contrastive view. In: ZYNGIER, S.; VIANA, V. e JANDRE, J. (eds), Textos e leituras: estudos empricos de lngua e literatura. Rio de Janeiro: Publit, 2007. p 53- 64. OLIVEIRA, L. P. (aceito para publicao). Involvement variation in the writing of academics: a cross-cultural analysis of three genres. International Journal of Corpus Linguistics. Amsterdam: John Benjamins. OLIVEIRA, L. P.; DIAS, M. C. P. Representatividade na compilao de corpus: o projeto CORPOBRAS PUC-Rio. Trabalho apresentado na Jornada de metodologia para recolha e sistematizao de corpora para fins dicionarsticos . Rio de Janeiro: Unio Latina, 2006. OLIVEIRA, L. P.; VALRIO, R. G.; BRITO, M. G. CORPOBRAS PUC-Rio: Um corpus do portugus do Brasil e anlise do discurso acadmico. Trabalho apresentado no VIII Encontro de Cincia Emprica em Letras. Rio de Janeiro: UFRJ, 2007. PAUMIER, S. Unitex, verso 1.2. University of Marne-la-Valle, Frana, 2006 SARDINHA, T. B. Lingustica de corpus. So Paulo: Manole, 2004. SCOTT, M. WordSmith Tools. Version 3. Oxford: Oxford University Press, 1999. SINCLAIR, J. Trust the text. In: COULTHARD, M. (ed.), Advances in written text analysis. London: Routledge, 1994. p. 12-25. SINCLAIR, J. Reading concordances. London: Pearson/Longman, 2003. SINCLAIR, J. How to use corpora in language teaching. Amsterdam: John Benjamins Publishing Company, 2004. SVARTVIK, J. Corpora are becoming mainstream. In: THOMAS, J. and SHORT, M. (orgs). Using corpora for language research. London and New York: Longman, 1996. p 3-13. TEUBERT, W. Editorial. International Journal of Corpus Linguistics, Vol.1, No. 1. iii-x. 1996.
matraga, rio de janeiro, v.16, n.24, jan./jun. 2009

73

LINGUSTICA DE CORPUS: TEORIA, INTERFACES E APLICAES

TONIGNI-BONELLI, E. Corpus linguistics at work. Amsterdam: John Benjamins, 2001. TURUNEN, V. J. A reverso da relevncia: aspectos semnticos e pragmticos de formaes diminutivas no portugus do Brasil. Tese (Doutorado em Estudos da Linguagem), Departamento de Letras. Rio de Janeiro: PUC-Rio, 2009. 198 f. VALRIO, R.V. Um corpus do portugus do Brasil: variao entre gneros discursivos. Anais do XIV Seminrio de Iniciao Cientfica da PUC-Rio. Rio de Janeiro: PUC-Rio, 2006. VALRIO, R.V. CORPOBRAS PUC-Rio: Desenvolvimento e anlise de um corpus representativo do portugus. Anais do XVI Seminrio de Iniciao Cientfica da PUC-Rio. Rio de Janeiro: PUC-Rio, 2008. VIANA, V.P. Verbos modais em contraste: anlise de corpus da escrita de universitrios em ingls. Dissertao (Mestrado em Estudos da Linguagem). Departamento de Letras, PUC, Rio de Janeiro, 2008. 230 f. VIEIRA, R. & STRUBE DE LIMA, V. L. Lingustica computacional: princpios e aplicaes. In: MARTINS, A.T. & BORGES, D.L. (org.) SBC - Jornadas de Atualizao em Inteligncia Artificial (JAIA). v. 3, p. 47-86, Fortaleza, 2001. WICHMANN, A. FLIGELSTONE, S. MCENERY, T. & KNOWLES, G. Teaching and language corpora. London: Longman, 1997.

NOTAS Este projeto contou com apoio do CNPq, de 2004 a 2007, atravs de Edital Universal, (CNPq, processo 480143/2004-8), e de Bolsas de Iniciao Cientfica do CNPq/PIBIC (2004-2009) e da FAPERJ (2007). Consideramos que este mal estar terico pode estar ligado ao fato de muitos pesquisadores da rea de Lingustica de Corpus no serem gramticos ou linguistas, tendo sua formao acadmica em outras reas do conhecimento, como a Informtica, etc. Por isso, muitas vezes, no querem comprometer-se com inovaes ou novas descries tericas que possam ser contestadas por outros pesquisadores, especificamente da rea de lingustica. O Michigan Corpus of Academic Spoken English (MICASE) pode ser um exemplo de corpus bem documentado. Dentre os diversos programas com esta funo, destacamos o WordSmith Tools, (SCOTT, 1999) para a anlise de Corpus .
5 Alguns pesquisadores como Christian Matthiessen, Mike ODonnell e Tony Sardinha tm contribudo para o desenvolvimento de software especficos para 4 3 2 1

74

matraga, rio de janeiro, v.16, n.24, jan./jun. 2009

Lcia Pacheco de Oliveira

a descrio gramatical, em ingls e portugus, com base na teoria sistmico funcional.


6

O COMPARA, organizado pela Linguateca, em colaborao com Ana Frankenberg-Garcia, um corpus paralelo bidireccional de portugus e ingls, ou seja, funciona como uma base de dados com textos originais nestas duas lnguas e as suas respectivas tradues, ligadas frase a frase. Ele permite contrastar o portugus e o ingls atravs de pesquisas automticas. Na PUC-Rio, por exemplo, a disciplina Lingustica de Corpus vem sendo oferecida, desde 2005, embora somente a partir de 2010 deva passar a integrar a estrutura curricular do programa de ps-graduao na categoria de disciplina terica.
8 Ver sites de diversas universidades que desenvolvam estudos de corpus, como PUC-SP e PUC-Rio, dentre outras. 7

Graduandos de Letras da PUC-Rio participaram da compilao e organizao do corpus, atravs de bolsas de Iniciao Cientfica (BADDINI,2004 - 2005; BRITO, 2006-2007; VALRIO, 2006-2009). Alunos de ps-graduao cederam os dados que coletaram para suas teses, dissertaes ou monografias (ALMEIDA, 2002, AMARANTE, 2002, CALDEIRA, 2006, CORRA, 2004, LANZIOTTI, 2002, MARQUES, 2006, MORAES, 2005). Alguns colegas do Departamento de Letras cederam corpora de seus projetos ou dados coletados por seus alunos: Letcia Sicuro Corra, Maria do Carmo Leite de Oliveira, Maria das Graas Dias Pereira, dentre outros. Colegas de outras instituies, como Del Carmem Daher, tambm disponibilizaram dados para o CORPOBRAS., dentre outros.
10

Os corpora representativos devem obedecer a padres de extenso de acordo com a pesquisa a ser desenvolvida. Para Biber, Conrad & Reppen (1998, p. 249), em estudos de frequncia de traos lingusticos, por exemplo, 10 amostras de textos de um gnero, com aproximadamente 2000 palavras, podem representar uma categoria lexical ou sinttica e garantem resultados relativamente estveis quanto ao uso da maioria dos traos lingusticos. Segundo os autores, entretanto, para estudos lexicogrficos, deve-se contar com corpora mais extensos, j que algumas palavras ou colocaes so pouco frequentes e somente um grande corpus viabilizar o seu estudo (Oliveira e Dias, 2006).
11

Para solucionar certas situaes em relao classificao dos gneros em um corpus, como no caso de discursos polticos e roteiros cinematogrficos, alguns pesquisadores tm criado categorias novas em seus corpora, como por exemplo textos escritos para serem falados (McCarthy, 1998, p. 9)
12

O CORPOBRAS ainda no est disponvel em sua totalidade. Atualmente, o corpus est em fase de organizao em relao documentao dos dados,
matraga, rio de janeiro, v.16, n.24, jan./jun. 2009

75

LINGUSTICA DE CORPUS: TEORIA, INTERFACES E APLICAES

questes de autorizaes autorais e elaborao de relatrios sobre textos e gneros. Entretanto, subcorpora de diversos gneros, j documentados, tm sido cedidos para pesquisas acadmicas. Visando um estudo da variao lingustica na lngua oral e escrita, Biber (1988) props uma metodologia capaz de analisar um grande corpus de dados (900.000 palavras), composto de diversos gneros (N=23), atravs de mltiplos parmetros de variao, a que denominou dimenses. As dimenses so definidas atravs do agrupamento de traos lingusticos que co-ocorrem com frequncia nos textos. Estas dimenses so identificadas estatisticamente atravs da Anlise Fatorial e interpretadas de acordo com a funo comunicativa compartilhada pelos traos que co-ocorrem nos textos. A abordagem multidimensional tem base funcional na medida em que considera que os traos lingusticos tm uma funo como marcadores de uma situao, ou seja, atuam para distinguir diferentes aspectos da situao de comunicao (Hymes, 1974, Halliday e Hasan, 1989, Halliday, 1994, Biber,1988).
14 13

Para alguns gneros discursivos do CORPOBRAS existem dados paralelos do ingls, o que vem permitindo o desenvolvimento de pesquisas contrastivas.
15

Projeto Escrita e incluso social: anlise de corpus e a metfora gramatical no Ensino Mdio, que conta com apoio FAPERJ (2009-2010), atravs do Edital n 26/2008 na rea de Humanidades, processo E-26/112.269/2008. Ser compilado e incorporado ao CORPOBRAS um subcorpus de textos de alunos de Ensino Mdio a ser analisado com apoio das ferramentas computacionais Unitex e Palavras.

76

matraga, rio de janeiro, v.16, n.24, jan./jun. 2009

Você também pode gostar