Você está na página 1de 13

Referncia bibliogrfica (para citao): BRUM-DE-PAULA, Mirian Rose; ESPINAR, Gema Sanz. Coleta, trancrio e anlise de produes orais.

In: BRUM-DE-PAULA, M.R.; SCHERER, A.E.; PARAENSE, S.C.L. (Orgs.). Letras, n 21. Santa Maria: PPGL Editores, 2002.

Coleta, transcrio e anlise de produes orais


Mirian Rose Brum de Paula UFSM/Brasil Gema Sanz Espinar UAM/ Espanha Introduo O emprego de colees de textos, transcries ou gravaes nos trabalhos concernentes 1 linguagem no recente. De fato, a criao de concordncias (concondances) anterior apario e utilizao generalizada do computador, do gravador ou da mquina de escrever. As primeiras concordncias foram realizadas com a Bblia: o objetivo era comparar as diversas verses desse texto a fim de constituir uma verso editorial normatizada (GARRIGUES: 1994). Esse rduo trabalho era, evidentemente, efetuado mo. A partir de um olhar retrospectivo, observamos que essa tarefa manual foi deixada de lado recentemente. Vale salientar que no era possvel realiz-la de outra maneira. Atualmente, as novas tecnologias tornaram esse trabalho artesanal completamente obsoleto, pois existem grandes bases de dados disponveis, ao pblico em geral, em disquetes, discos rgidos e/ou cd-roms. Alm disso, h possibilidade de se obter novos programas de computador capazes de realizar buscas de palavras ou seqencias de palavras (que levavam dias, meses ou anos atravs do mtodo manual) em alguns minutos. Mas por que razo a manipulao automtica do corpus com o qual desejamos trabalhar importante? Tentando responder essa pergunta, trataremos de trs etapas que envolvem o trabalho do pesquisador. A questo principal, que engloba a anterior, a de focar aspectos relacionados coleta, transcrio e anlise dos dados coletados. Afinal, porque digitaliz-los e que importncia eles tm no desenvolvimento de diferentes trabalhos acadmicos sobre a linguagem? Acrescentamos ainda que no trataremos de bancos de dados constitudos a partir da lngua escrita, embora possamos citar, em algum momento, esse tipo de corpus. Nesse artigo, colocaremos em evidncia, a produo oral, os aspectos tericos e, principalmente, metolgicos que a concernem. 1. Corpora e lngua oral Quando abordamos a produo oral mergulhamos no domnio da performance, da realizao lingstica submetida aos imponderveis de uma tarefa que se desenvolve em tempo real (on-line). Em pesquisas cujo objeto a oralidade, o pesquisador necessita prever problemas metodolgicos e tericos adicionais. De fato, a fim de empreend-las precisamos notadamente efetuar uma coleta de dados e uma transcrio das gravaes efetuadas. Graas s novas tecnologias, essas tarefas tornaram-se menos trabalhosas e o oral conquistou um espao importante e credvel dentro dos estudos sobre a linguagem.
2

Trabalho exautivo de identificao de todas as ocorrncias de uma palavra dentro de um conjunto de dados textuais. Essas palavras, inseridas em seus contextos respectivos; so, em seguida, regroupadas. Trata-se, segundo o Dicionrio Hoaiss (2001), de um ndice alfabtico de vocbulos apresentados nos contextos em que aparecem (num trecho, num autor, numa poca, etc.) [oferecendo] a possibilidade do estudo comparativo das palavras e dos diversos empregos do mesmo vocbulo. 2 Referimo-nos normalmente a corpus, no singular e corpora, no plural.

2 O estudo da oralidade permite o acesso a sistemas lingsticos imersos no ambiente em que eles se originam, se transformam ou desaparecem. A fim de evidenciar e dar visibilidade a esse trabalho, destacamos que a) a linguagem adquirida pelo intermdio da lngua articulada (nossa lngua materna); b) a lngua escrita, aps sculos de tradio essencialmente oral, emergiu a partir da lngua oral e c) a escrita uma sofisticao da lngua oral ao mesmo tempo em que uma maneira artificial destinada a fix-la. Na obra intitulada Les linguistiques de corpus, Habert, Nazarenko e Salem tratam de modo tmido a problemtica que envolve a constituio e o tratamento de corpus orais. Os autores justificam-se da seguinte maneira: Os corpus orais transcritos ainda so raros: a transcrio propriamente dita e as escolhas e os custos que ela compreende freiam seu desenvolvimento, mesmo se ele parece mais acelerado nesses ltimos anos. (...). Parece tambm que o oral impe nveis descritivos e ferramentas tericas parcialmente distantes daqueles tradicionalmente utilizados para a escrita (2001: 13). (Traduo minha) Essa constatao freqente nos estudos lingsticos. H um maior nmero de dados coletados a partir da escrita, embora os resultados dos trabalhos sobre a produo oral possam influenciar positivamente no desenvolvimento de ferramentas informticas que permitam estocar grandes quantidades de dados (os corpora eletrnicos anotados) e realizar buscas automticas atravs de sistemas potentes (os concordances). Como os concordances tradicionais, os concordances eletrnicos permitem encontrar, dentro de um corpus textual, todas as ocorrncias de uma palavra inseridas em seus respectivos contextos. A diferena marcante entre esses dois concordances diz respeito facilidade e ao acesso rpido aos dados. Os programas atuais permitem a realizao, atravs de uma simples manipulao, de buscas de palavras ou grupos de palavras em alguns segundos. Eles permitem, dentre outras possibilidades, a busca de exemplos lexicogrficos, o estudo dos contextos em que uma palavra empregada, a anlise de uma palavra ou de um campo semntico no interior da obra de um autor. Eis um exemplo oriundo do corpus Mitterrand 1 que contm as intervenes radiofnicas e televisivas do ex-presidente francs Franois Mitterrand durante o seu primeiro mandato presidencial.
ue la france qui a acquis, res personnels, aussi, et cer des propositions pour, rt des facilits qui ont, ation de la fin du sicle. n souvient aussi cela est de la rpublique: je suis, jours, jai observ avec, ants que cela contribuera, bre de plans, jai donnracheter le portrait. moi, ite, je lai dit alger, dans le monde. la france, je le crois, la confiance et le respect je le crois, qui se rfrent la moral je le crois, saisir le monde entier du je le crois, sauv le secteur du textil je le crois tout fait, sans quoi je n je le crois, tout fait, venu de consi je le crois, trs fidle ce que je su je le crois, une grande patience, pour je le crois, utilement au redresement je le crois vraiment - plus dexpansion je le dessine tous les jours, par des a je le dirai amman en jourdanie o je je le dirai simplement, a dj apport

Nesse fragmento, encontramos a forma je (=eu) inserida em contextos diferentes. O acesso rpido s amostras que desejamos observar otimiza a pesquisa empreendida e caracteriza os concordances eletrnicos ou automticos. Alm dessa manipulao automtica dos dados, esses concorcances permitem encontrar palavras que iniciam por seqncias de letras (te ou cerv, por exemplo), palavras que terminam com prefixos especficos (agem, entre outros), formas flexionadas de um mesmo radical (penso, pensava, pensamos) ou, ainda, seqencias de palavras (no entanto, tanto quanto, seja... seja).

3 Corpus, segundo John Sinclair (1996:4) uma coleo de dados linguageiros que so selecionados e organizados segundo critrios lingsticos explcitos a fim de servir de amostra da linguagem. Nesse trabalho, corpus adquire uma dimenso suplementar relacionada ao fato dele estar ou no disponvel eletronicamente. Assim, entendemos corpus como um conjunto de textos cuja origem conhecida (data, autores, etc.) e que se encontra digitalizado. Atualmente, como mencionamos supra, a maioria dos corporas eletrnicos constituda de textos cuja origem a lngua escrita. Os corpora orais so raros porque necessrio passar pelos processos de coleta e de transcrio, o que torna mais lenta a constituio desses documentos. 2. Da lngua palavra articulada Desde que Ferdinand de Saussure estabeleceu a cincia da lngua, muitas abordagens abandonaram os dados orais a fim de desenvolver esse estudo cientfico. Dois elementos foram cruciais para que uma mudana ocorresse no sentido de introduzir o oral como fato observvel no seio da pesquisa sobre a linguagem articulada: a) O mtodo de validao de hipteses em lingstica, que abriu o caminho heterogeneidade e aos estudos empricos efetuados a partir de dados autnticos (prprios oralidade). Saussure foi o grande inspirador de uma cincia lingstica que se interessava principalmente pela escrita como fonte do que sistemtico na lngua, comum a todos os sujeitos que a falam. Noam Chomsky privilegiou a validao de hipteses a partir da intuio dos locutores nativos de cada lngua a ser estudada. Os pesquisadores que trabalham com a lingstica de corpus (franc.: linguistique de corpus; ing.: corpus linguistics) assumem evidentemente que a validao de hipteses deve ser realizada a partir de dados empricos. Alm disso, tm como objetivo a construo de corpus longos, representativos e anotados para tornar fcil e rpida a consulta de grandes quantidades de ocorrncias do fenmeno lingstico que desejam analisar ou que j esto estudando. b) O reconhecimento de uma lngua oral ao lado da escrita. Pesquisadores de diferentes domnios recorreram aos corpora orais para desenvolver seus trabalhos: psiclogos (sobretudo os psicanalistas), psicolingistas (principalmente os que realizavam estudos sobre o funcionamento do crebro atravs do filtro da linguagem), neurolingistas (cientistas que estudavam patologias da linguagem de origem neurolgica), estudiosos em aquisio da linguagem e em aquisio de lnguas estrangeiras (cujos domnios sempre enfocaram o uso comum e homogneo da lngua). Mais prximo da lingstica, destacamos o desenvolvimento de estudos de lnguas sem tradio escrita. Representativos, desse caso, so os trabalhos etnolingsticos, realizados sobretudo no incio do sculo XX por estudiosos americanos como, por exemplo, Franz Boas e Edward Sapir. Esses cientistas da linguagem, interessados pelas lnguas indgenas nativas do continente americano, contriburam positivamente realizao de estudos sobre a lngua oral. Alm desses pesquisadores, que representam disciplinas diferentes, os lingistas contam com corpora orais constitudos atravs do desenvolvimento de trabalhos em fontica e fonologia. Dentro desse contexto, quais seriam as particularidades do texto oral? Tentando responder essa questo, comentaremos de modo mais detalhado, a seguir, as trs etapas apontadas no ttulo desse artigo. Destacamos, antecipadamente, que sua especificidade pode ser evidenciada atravs dos aspectos intonativo e morfo-fonolgico (BLANCHE-BENVENISTE: 95), da variao em relao norma ou do carter pragmtico das produes, pois na oralidade h sempre a presena do outro, ou seja, a relao dialgica potencialmente presente visto que a comunicao interpessoal sempre possvel (ENCREV: 96).

3. Etapas fundamentais da pesquisa dos fatos orais da linguagem Na corrente denominada lingstica de corpus, encontramos muito mais do que uma simples escolha metodolgica em vistas de uma melhor descrio da lngua ou do desenvolvimento de dicionrios. Nela, identificamos, igualmente, importantes pressupostos tericos que servem para definir o que lngua, delimitar o objeto da lingstica e melhor compreender suas relaes com outros domnios. A lngua enquanto objeto vivo, enquanto instrumento de comunicao inscrito na esfera social, atravs do qual o indivduo constri uma idia de si mesmo e do outro ou atravs do qual as crianas aprendem a linguagem, diz respeito a diferentes domnios do conhecimento. Os corpora eletrnicos servem tambm para que o pesquisador teste suas hipteses, para que possa confrontar modelos s realizaes lingsticas efetivas (HABERT, NAZARENKO e SALEM: 1997). Dentre os pesquisadores que se interessam pela linguagem articulada, destacamos lingistas, etnolingstas, socilogos, especialistas da aquisio e da interao, psiclogos e historiadores. Essas vises pluridisciplinares acerca de um mesmo objeto contriburam para que emergissem novos domnios (a psicolingstica, a etnolingstica, a sociolingstica... a lingstica de corpus) que concernem todo pesquisador que se confronta com a lngua, o discurso e o texto. Mencionamos que os corpora eletrnicos devem ser suficientemente longos, representativos e anotados a fim de que as hipteses formuladas possam ser cientificamente validadas. O que isso significa? O tamanho e a representatividade dependem da qualidade das informaes coletadas. Abordaremos esse problema na parte destinada coleta de dados. O termo anotao remete a um valor acrescentado (LEECH, 1997) ou ao enriquecimento dos dados (HABERT, NAZARENKO e SALEM: 1997), ou melhor, implica o acrscimo de informaes e o enriquecimento do texto atravs da anotao de marcas morfolgicas e sintticas das palavras ou expresses constantes no corpus tratado. Trata-se de um aporte de informaes de natureza interpretativa aos dados brutos (VRONIS, 2000: 2). Assim, os enunciados, as palavras, os segmentos devem ser anotados ou etiquetados a fim de permitir a pesquisa automtica. Segundo Vronis, a anotao de um corpus oral inicia com a transcrio. A constituio de um corpus comea antes da coleta, implica planificao e tempo. Aps a realizao da coleta dos dados, preciso transcrev-los e analis-los com a ajuda de ferramentas mais ou menos eficazes. Embora existam atualmente produtos comerciais de qualidade destinados ao tratamento da linguagem e da fala, evidenciamos que a transcrio pode ser efetuada atravs de um tratamento de texto simples. possvel fazer anlises sistemticas conseqentes com as grades existentes no Word ou com bases de dados do tipo Access. Essas ferramentas servem para auxiliar a realizao de clculos estatsticos. A utilizao de um programa como o CHILDES (cf: infra) permite a realizao de diversas manipulaes: transcrever, calcular freqncias ou utilizar uma ferramenta de concordances, por exemplo. O CHILDES evidentemente adaptado s pesquisas quantitativas. As ferramentas existentes so destinadas anlise automtica dos sistemas lingsticos que ocupam um lugar de destaque no mercado mundial das lnguas. Com elas, possvel tratar automaticamente o ingls, o francs, o espanhol... mas no podemos esquecer que a anlise de dados deve ser, antes de tudo, qualitativa. As manipulaes efetuadas no corpus de modo eletrnico deveriam sempre ser verificadas pelo pesquisador. Caso contrrio, perdemos completamente o contato com o os dados que queremos analisar. O tratamento automtico difcil quando as pesquisas envolvem sistemas lingsticos em construo: a lngua da criana ou o sistema lingstico de aprendizes de lnguas estrangeiras. Logo, melhor falar de anlises mediadas pelo computador (como ocorre na traduo) do que anlises automticas. Enfim, estamos frente especificidade do oral em todos os momentos da pesquisa (durante a coleta, a transcrio e a anlise), como veremos abaixo. 3.1 Durante a coleta quando - procuramos informantes; - gravamos e devemos tomar decises que envolvem as seguintes questes:

5 a) O corpus ser constitudo de tarefas comunicativas ou de conversaes livres? necessrio fazer algumas perguntas ao informante ou descrever a tarefa que ser efetuada por ele a fim de coletar um corpus mais ou menos homogneo que possa servir para o estabelecimento de comparaes. b) A gravao ocorrer durante uma situao comunicativa programada ou durante uma situao em que o informante no sabe que sua produo ser gravada? Esta questo concerne a tica da lingstica de campo. c) Devemos intervir ou no durante a gravao? O paradoxo do observador emerge quando o pesquisador concebe a pesquisa, realiza as gravaes e analisa os dados coletados; - encontramos eventuais problemas tcnicos, tais como a qualidade medocre das gravaes, a estocagem dos documentos sonoros e a utilizao (ou no) de mais de um gravador. 3.2 Durante a transcrio porque - deve ser adaptada ao objetivo da pesquisa e a outros trabalhos que podero ser desenvolvidos posteriormente. Normalmente, o corpus coletado por pesquisadores que esto tratando um fenmeno preciso e as decises concernentes transcrio esto relacionadas a esse fenmeno. Atualmente, no entanto, os corpora comeam a ser disponibilizados na rede para que possam ser reutilizados por outros lingistas. por essa razo que o pesquisador deve refletir acerca de determinadas escolhas, pois elas podero restringir as anlises que sero empreendidas a partir de um mesmo corpus. Uma transcrio ortogrfica, por exemplo, no permitir uma anlise fonolgica; - existem trs tipos de transcrio: fontico, fonolgico e ortogrfico (com ou sem relao com o documento sonoro, com ou sem relao com espectros acsticos); - necessrio utilizar certas convenes destinadas transcrio de fenmenos ligados ao carter pragmtico da situao conversacional, tais como entonao, auto-correes, pausas, trocas de turno, simultaneidade das falas, alongamentos de vogais, truncamentos bruscos, entre outros fenmenos ligados comunicao interpessoal. Outras informaes perifricas necessitam ser observadas: o papel dos interlocutores, as caractersticas do informante (idade, sexo, nome, profisso), os gestos e rudos produzidos durante a interao. A ttulo de exemplo, destacamos duas convees de transcrio. A primeira foi adotada por Victorine Hancock (1997), da Universidade de Estocolmo, em um estudo sobre o emprego do conector macro-sinttico parce que; a segunda, foi proposta por Claire BlancheBenveniste (2000), num estudo sobre abordagens da lngua francesa falada:
Victorine Hancock
E:;I: / // /// + SIM Entrevistador; Informante pausa curta, mdia e longa marcas respectivas de incio e de fim de enunciados que se sobrepem segue o discurso simultneo do SIM (RISOS) eh euh X : NO (I:mm) entrevistador rudo no verbal hesitao slaba incompreensvel slaba alongada slaba apoiada sinal de retroao precede palavra transcodificada

Claire Blanche-Benveniste
10. Elementos no ortogrficos: apelo notas e transcries fonticas 2. Pontuao: nenhuma 3. Maisculas: somente nomes prprios, ttulos de livros e filmes 4. Nmeros: escrever por extenso (exceo: nmeros de telefones) 5. Pausas pausa curta: pausa longa: interrupo: 6. -/// XXX (cada x corresponde

Incompreensvel:

discriminao de uma slaba)

* st $

rudo efetuado com a lngua fim de turno

7. Discursos simultneos: ........

........

8.Multi-transcrio: /.....,...../ 9.Escolha ortogrfica: (...) Ex.: ns somo(s) amigo(s) 10. Retomadas: - Ex: muitos ca- casos sem soluo

- no possvel submeter uma transcrio a um corretor ortogrfico automtico ou a um revisor, pois os dados coletados no so passveis de correo. A norma e, principalmente, as normas da lngua escrita no podem ser aplicadas ao domnio da oralidade; - existem seqncias que no so transcritas devido m qualidade da gravao sonora ou s ambigidades oriundas do oral; - as novas tecnologias facilitaram a realizao de transcries graas possibilidade de estocar dados e de obter diferentes verses de um mesmo documento. Em decorrncia disso, a mudana de critrios em relao transcrio devem ocorrer antes de sua realizao. Caso contrrio, o novo tratamento que dever ser aplicado ao corpus pode tornar esse trabalho lento e cansativo. - interessante nomear e acrescentar cdigos para encontrar os documentos estocados. As produes transcritas devem ser segmentadas e numeradas. por essas razes que consideramos a transcrio como primeira anlise dos dados. De fato, a segmentao em enunciados feita a partir de uma interpretao do discurso. A unidade enunciativa, no entanto, no uma unidade de fcil identificao. Conseqentemente, para alguns tipos de anlise, pode ser interessante delimitar outras unidades: intonativas ou proposicionais, por exemplo, segundo o fenmeno focalizado. 3.3 Durante a anlise, pois - a anotao de traos orais apontar problemas oriundos da no naturalidade do discurso produzido, dos discursos no representativos ou dos rats comunicativos; - surgiro ambigidades ou fragmentos de difcil interpretao mesmo quando estivermos escutando razoavelmente bem as palavras pronunciadas. A ambigidade pode tambm ter sua origem na segmentao dos enunciados; - no raro, novas palavras ou expresses so criadas pelo informante, h emprstimos lingsticos, transferncia de itens lexicais ou de expresses de uma lngua para outra, no caso de produes em lngua estrangeira; - a limpeza do corpus talvez seja conveniente. Caso contrrio, os clculos globais podero conter passagens desnecessrias. Por exemplo, se adotamos xxx para fazer referncia s passagens no compreensveis do corpus, isso ser compreendido como uma palavra pelo programa a no ser que possamos prever uma espcie de anti-dicionrio contendo os itens lexicais que devem ser descartadas no momento da realizao da contagem quantitativa dos dados; - a anlise deve permitir o clculo da freqncia de palavras, de expresses, de estruturas sintticas ou semnticas; - a anlise deve ser empreendida em diversos nveis se queremos trabalhar o conjunto do texto (o que denominaremos perspectiva textual global). Dentre esses nveis destacamos o fontico, morfolgico, sinttico, semntico, pragmtico, textual e enunciativo, embora possamos optar por um ou dois nveis de anlise. Quanto etiquetagem, ela pode ser efetuada de modo global ou especfico, ou melhor, anotamos somente o fato linguageiro que nos interessa. Quanto a esse ltimo tpico, interessante acompanhar o estado da pesquisa concernente a diferentes tipos de anotaes (etiquetagens) a fim de acompanhar sua evoluo, conhecer e, talvez, adquirir, programas destinados manipulao e anotao automtica de corpus. No artigo intitulado Anotao automtica de corpus: panorama e estato da tcnica (2000), Vronis tentou dar conta dos diferentes tipos de anotao verificando o desenvolvimento

7 tecnolgico de cada uma delas. O trabalho que empreendeu pode ser resumido, no quadro abaixo, proposto pelo pesquisador. Como podemos constatar, ele distingue trs estgios relacionados fase em que se encontra cada tipo de anotao: o material operacional quando os programas j se encontram disponveis no mercado. um prottipo quando ainda est sendo testado. Nesse caso, ele utilizado somente nos laboratrios de pesquisa. Enfim, objeto de pesquisa quando existem trabalhos em andamento, mas no h emprego do material em situao de anotao real.
Tipos de anotao I Fontico I-I I Transcrio I I--I I--Prosdia I Gramatical I-I I I I--Partes do discurso I I--Sintaxe I I I I Parcial I I Pleno I Semntico I-I I I I--Palavras I I--Discursos I Multilingue I-I I--Frases I--Palavras

Estgio --------------------- pesquisa/ prottipo --------------------- prottipo

--------------------- operacional --------------------- prottipo --------------------- pesquisa

--------------------- pesquisa/ prottipo --------------------- pesquisa

--------------------- operacional --------------------- prottipo (Traduo minha)

4. Disponibilidade e constituio de dados orais Como vimos, os estudos sobre a linguagem a partir de bancos de dados existem h bastante tempo, mas a constituio de grandes arquivos somente pode ser realizada aps o aparecimento e a comercializao de ferramentas bsicas e atualmente muito comuns. Dentre elas, destacamos o gravador (cf.: supra). Esse aparelho destinado ao armazenamento de informaes e reproduo sonora provocou a caa ao documento autntico (CLAIREBENVENISTE e JEANJEAN: 43). J a estocagem e a disponibilizao de grandes arquivos de lngua oral transcrita esto associadas s novas tecnologias: ao computador e aos programas destinados manipulao e anotao automtica de dados textuais, principalmente. As pesquisas sobre a linguagem efetuadas a partir de produes orais tendem a aumentar. Estudiosos tm criado grupos e redes interinstitucionais com o intuito de desenvolver importantes e ambiciosos projetos relativos lngua oral. Dentre eles destacamos, no Brasil, o Projeto de Estudo da Norma Urbana Lingstica Culta (Projeto NURC) cujos pesquisadores coletaram dados de variantes cultas do portugus falado em So Paulo, Rio de Janeiro, Recife, Salvador e Porto Alegre e tm colocado disposio da rea de Letras publicaes contendo elementos significativos visando a constituio de uma gramtica referencial da variante culta do portugus do Brasil; na Europa e nos estados Unidos, colocamos em evidncia quatro grandes projetos de pesquisa que contm trabalhos empricos efetuados a partir de dados orais: o projeto H.P.-D (Heidelberger Forschungsprojekt Pidgin Deutsch) dirigido, entre 1974 e 1986, por Klein e Dittmar sobre a aquisio do alemo por adultos, com pouca formao escolar e/ ou profissional, cujas lnguas maternas eram o espanhol e o italiano; o projeto Z.I.S.A. (Zweitspracherwerb Italienischer und Spanischer Arbeiter), realizado entre 1975 e 1977, sob a coordenao de Meisel; as pesquisas sobre a aprendizagem do ingls por falantes de lngua espanhola e por um adulto de

8 origem cambojana realizadas pelos pesquisadores americanos Schumann (1978) e Huebner (1983), respectivamente; e o projeto E.S.F. (Fondation Europenne de la Science) sobre a aquisio de lnguas estrangeiras (ingls, alemo, holands, francs e sueco) por imigrantes falantes de diferentes lnguas naturais (pendjabi, italiano, turco, rabe marroquino, espanhol e finlands). O banco de dados produzido durante esse projeto gerado pelo Max Planck Institut fr Psycholinguistik de Nimque. Acrescentamos, ainda, o Child Language Exchange System (plataforma CHILDES, j citado supra) desenvolvido, principalmente, por Macwhinney e Snow desde 1984. Esses ltimos pesquisadores criaram um grande arquivo de dados, um sistema de transcrio e um conjunto de programas destinado anlise de produes naturalistas de sujeitos em fase de aprendizagem, ou seja, crianas bilnges, indivduos com patologias associadas linguagem e aprendizes de lnguas estrangeiras. Trata-se de um sistema computadorizado de intercmbio de dados cuja funo a transcrio, codificao e anlise do material lingstico reunido. Alm desses projetos, que contm dados a partir de pesquisas empricas e essencialmente orais, citamos o corpus etiquetado BNC (British National Corpus). O BNC compreende uma grande variedade de situaes de comunicao que mistura produes orais (10%) e escritas. Trata-se do maior corpus oral do planeta! Nem todos os dados recolhidos nesses projetos esto disponveis. O sistema CHILDES contm resultados de aproximadamente cem projetos de pesquisa sobre a linguagem em mais de uma dzia de lnguas, referentes aos ltimos 25 anos (MacWHINNEY e SNOW: 132). O material coletado durante o programa ESF tambm faz parte desse banco de dados. A disponibilidade desses dados confere, desde os anos 80, uma nova dinmica s pesquisas formalistas (generativistas) sobre a L2. At ento, essas pesquisas fundamentavam-se nos estudos transversais de aprendizes escolarizados (...) submetidos tarefas experimentais que forneciam dados essencialmente institucionais. Os bancos de dados abrem a possibilidade de que outros pesquisadores adotem uma metodologia longitudinal. (PERDUE: 222-223). (Traduo minha) Como podemos observar, os diferentes bancos de dados orais selecionados para ilustrar esse trabalho no so constitudos de produes homogneas: o tipo de texto (argumentativo, descritivo, narrativo), o perfil do informante (no que diz respeito ao sexo, idade, ao grau de instruo, s motivaes ou caractersticas do aprendiz, por exemplo), a lngua transcrita (materna ou estrangeira) ou os fenmenos lingsticos que so tratados podem ser completamente diferentes. O tipo de transcrio adotado pelo lingista acompanha essa heterogeneidade, pois no existe uma maneira de se realizar uma transcrio, mas vrias possibilidades de se transformar a lngua oral em documento escrito. possvel trabalhar a partir de um corpus j existente e coletado por outros pesquisadores (cf. supra). Para quem trabalha sobre a aquisio infantil ou sobre sistemas lingsticos em desenvolvimento (ing. learner variety, franc. lectes dapprenants, al.: lernervariett), uma boa fonte de produes orais transcritas o banco de dados CHILDES que pode ser recuperado via internet. Porm, o ideal para quem est aprendendo a pesquisar passar pela fase da coleta de material lingstico, pois o engajamento e a realizao desse trabalho leva reflexo e tomada de decises importantes para o desenvolvimento do projeto de pesquisa. Em relao ao plano global da pesquisa devemos definir o nmero de informantes, o tipo 3 de locutor em funo do que desejamos observar (uma ou vrias lnguas, textos alinhados , lngua materna, lngua estrangeira, lngua padro, variedade de uma regio), da tarefa lingstica utilizada para suscitar a produo oral, a durao da gravao, o nmero de palavras (ou a extenso) do corpus que estamos constituindo.

Corpus alinhados so textos paralelos acompanhados de suas respectivas tradues.

9 Esse ltimo item importante porque pode corresponder a critrios de representatividade e servir na quantificao dos fatos da linguagem. Representar e quantificar so aspectos importantes 4 no contexto da pesquisa referente lngua oral. Os trabalhos atuais realizados com algumas das lnguas mais difundidas do planeta, como o ingls, o portugus, o espanhol e o francs, demonstram que a arquitetura dos bancos de dados textuais deve respeitar critrios de representatividade. O nmero de itens lexicais pode variar muito. A ttulo de exemplo, destacamos a presena de: 100.000.000 palavras etiquetadas no British National Corpus; 2.000.000 no Corpus Clef do francs atual (Benot Habert, CNRS); 1.767.163 no Corpus de Referncia do Portugus Contemporneo (CRPC); 1.100.000 palavras no corpus oral de referncia do Espanhol Contemporneo Peninsular (Marcos Marn, Universidade Autnoma de Madri); 435.000 palavras no corpus etiquetado London-Lund. 570.000 palavras em Linguagem Falada (Mark Davies, Illinos State University); 305.124 ocorrncias no corpus etiquetado Mitterrand 1 (D. Labb, Institut dtudes Politiques de Grenoble); 273.070 palavras em Arthus, corpus misto de espanhol contemporneo da Universidade de Santiago de Compostela (contm 18% de produes orais);

O tamanho do corpus depende dos objetivos da pesquisa, dos recursos humanos e meios econmicos disponveis. Os objetivos podem ser muito diferentes. Se eles so abrangentes, 5 possvel constituir um corpus de referncia . Caso os objetivos sejam mais pontuais, a fim de que o corpus seja empregado para fins precisos possibilitando anlises finas em fontica, lexicologia, anlise da conversao, anlise do discurso ou em aquisio, entre outras, necessria a coleta de um corpus especializado. O corpus de referncia fornece informaes profundas sobre o funcionamento de uma lngua natural e pode representar todas as variedades pertinentes e todo o vocabulrio caracterstico dessa lngua. Ele serve como suporte fundamental na elaborao de gramticas e dicionrios. O corpus especializado limitado a uma situao comunicativa ou a um domnio especfico. Marcos Marn evidencia seis critrios concernentes coleta, transcrio e anotao dos dados: a oralidade, a espontaneidade, a adequao, a representatividade, a autenticidade e o standard. Encontramos diversos problemas nos corpus orais relacionados a esses critrios de cientificidade (Marcos Marn, 1994: 80). De acordo com o fato linguageiro pesquisado, necessrio, por exemplo, excluir os discursos cujo suporte a lngua escrita. Dentre eles encontramos os discursos polticos, as comunicaes, as conferncias, as emisses de rdio ou televisivas, pois os locutores apoiam-se geralmente na escrita para elaborar seus textos orais. Alm disso, preciso encontrar o suporte adequado, aquele que possa servir disponibilizao e potencial reutilizao dos dados coletados. Para tanto, o pesquisador deve visar tanto a padronizao dos mtodos relacionados s entrevistas, s transcries e s etiquetagens quanto a explicitao dos critrios ligados representatividade dos dados concernentes aos percentuais adequados para cada tipo de texto, por exemplo. Enfim, no podemos confundir lngua oral e conversao. O conceito de conversao faz aluso a um tipo de gnero discursivo e existem diferentes gneros relacionados ao oral, como ocorre com a escrita. Marcos Marn (1994: 88, 142) prope critrios para a distribuio dos tipos de
4

possvel verificar isso, entrando na rede web e digitando corpus oral portugus, corpus oral espaol, corpus oral franais, corpus oral english a fim de encontrar informaes sobres esses bancos de dados orais. 5 Um corpus de referncia (Marcos Marn: 1991: 1) uma grande base de dados textuais, ou melhor, diversas bases de dados interligadas, unidas em um sistema de estruturao de dados, de textos de referncia e de ferramentas informticas que servem para o tratamento dessas informaes. A ttulo de exemplo, citamos o projeto C-CORAL-ROM (Corpora de Referncia Integrada para Lnguas Romanas Orais) que procura disponibilizar cd-roms de quatro lnguas romanas: espanhol, portugus, francs e italiano.

10 discursos oral e escrito, em termos de percentuais para cada tipo, dentro de corpus de referncia. Isso pode ser considerado como um standard no que concerne a representatividade quantitativa. Para corpus orais, os percentuais seriam os seguintes: textos cientficos (2-5), conversaes (15-20), educativos (5-6), cincias humanas (5-10), parlamentares (4-6), jornalsticos (25-30), tcnicos (10-15). O protocolo da enqute deve se adaptar ao tipo de discurso que procuramos gravar. No caso da conversao, o entrevistador deve se engajar no papel indicado (deve ou no intervir, por exemplo). Quando desejamos estocar produes realizadas por crianas ou por aprendizes de lnguas estrangeiras que tenham um nvel ainda rudimentar, o entrevistador tem um papel imprescindvel durante a coleta dos dados. muito comum, nesses casos, que ele recorra tarefas lingsticas semi-controladas, ou melhor, atividades que do origem a textos muito prximos do monlogo. Nelas, o entrevistador procura no participar durante as gravaes. No h consequentemente muitas mudanas de turnos. Em gravaes que privilegiam a interao face a face, a atitude do entrevistador completamente diferente.

5. Transcrio do material Em relao a outros tipos de produo, o texto oral abundante, varivel e, conseqentemente, mais difcil de ser conservado, representado e manipulado. Quando realizamos uma transcrio, suprimimos informaes ou acrescentamos elementos ao texto original. Duas dificuldades devem ser destacadas em relao a essa tarefa: dificuldades que tm sua origem na percepo, pois escutar uma atividade complexa [e] estamos sempre prontos a escutar o que acreditamos plausvel (BLANCHE-BENVENISTE e JEANJEAN: 6), e problemas relativos legibilidade da transcrio, ou melhor, ao modo como ela ser realizada a fim de que o pesquisador possa trabalhar confortavelmente e o leitor possa ter acesso rpido aos dados. Por esse motivo, a transposio da produo oral para o papel merece ateno e cuidados especiais. O transcritor ingnuo ser vtima de sua ignorncia e de todos os fenmenos ligados reconstruo; ouvinte no avertido, ele arrisca entender mal, mesmo tendo boa vontade (GOFFMAN, 1981, p. 214). preciso lhe dar uma formao mnima [...]. Ele deve ter uma idia referente ao objetivo da transcrio e deve poder centrar sua ateno nos aspectos que deseja particularmente estudar. Colecionar uma quantidade de dados e identificar somente depois o que ser utilizado [e analisado] no uma boa maneira de comear o trabalho (BLANCHEBENVENISTE e JEANJEAN: 98) (Traduo minha) De fato, a fim de trabalhar com dados orais, necessrio selecionar um quadro terico e metodolgico que d conta do fenmeno que desejamos analisar. O objetivo da pesquisa e a escolha do(s) aspecto(s) da linguagem que o pesquisador almeja estudar devem preceder a coleta de dados, pois o objetivo de constituir um corpus que contenha uma alta freqncia dos fatos de linguagem selecionados. Caso contrrio, o pesquisador corre o risco de perder o seu tempo e de engavetar as produes recolhidas. Em casos extremos, h inverso das primeiras etapas da pesquisa e o pesquisador, de posse do material gravado e, talvez, transcrito, reestrutura o seu trabalho em funo do material que tem em mos. No raro, estudantes de iniciao cientfica e de ps-graduao no sabem o que fazer com os dados que reuniram. Esse tipo de problema ocorre em decorrncia de uma certa negligncia no que diz respeito aos aspectos metodolgicos da pesquisa: quando um pesquisador profissional ou iniciante tem grandes dificuldades no seu trabalho, isso ocorre quase sempre por razes de ordem metodolgica (QUIVY e VAN CAMPENHOUT: 4). Para evitar essa situao, necessrio conceber um mtodo de trabalho e tentar respeit-lo de modo regular e sistemtico. O sistema de transcrio escolhido (fontico, ortogrfico, fontico acompanhado da verso ortogrfica, intonativo), por exemplo, tambm deve fazer parte da metodologia adotada. Como a transformao de sons, ritmos, entonaes, gestos e/ ou hesitaes em escrita uma atividade

10

11 rdua, demanda pacincia, homogeneidade no tratamento do material lingstico e tempo daquele que a empreende, no deve ser efetuada de qualquer modo. A transcrio no uma operao mecnica, mas uma verdadeira reconstituio perceptiva das condies de produo, pois no empreendida durante a situao comunicativa e a regulao intersubjetiva de seus participantes. Essa tarefa corresponde primeira interpretao e simplificao dos dados recolhidos que passam pelo filtro da percepo do pesquisador e adquirem, aos poucos, caractersticas do texto escrito, mesmo quando o sistema de codificao ou transcrio utilizado consegue preservar, de modo mais ou menos fiel, as informaes veiculadas pelo comportamento interacional do(s) informante(s). Alguns autores evidenciam essa transformao (do oral que se transforma em escrita) negando, inclusive, a possibilidade de se trabalhar a oralidade a partir desse tipo de documento. Durante muito tempo, os lingistas trabalharam a oralidade aps o trmino da transcrio [dos dados coletados]. [...] Se transcrevemos o oral, fazemos dele escrita. preciso preservar toda a extraordinria especificidade do oral, todas as marcas que no encontram correspondentes na escrita, mesmo com o auxlio dos alfabetos fonticos mais completos (ENCREV: 104). (Traduo minha) Segundo Encrev, o lingista no percebe a diferena entre os textos oral e escrito porque, em geral, o acesso oralidade realiza-se atravs do documento oral transcrito, ou seja, pelo intermdio da lngua j representada. Esse tipo de argumento refora alguns mitos e preconceitos em relao legitimidade da lngua falada enquanto objeto de pesquisa. Voltamos a enfatizar que tudo depende dos objetivos do lingista e dos fenmenos linguageiros que ele deseja observar. Alm disso, o tipo de transcrio adotado depender das intenes do pesquisador em relao acessibilidade do material transcrito (ele deve levar em considerao o seu pblico alvo, se constitudo de especialistas ou no) e fidelidade ao material de origem (se ele tem ou no a inteno de respeitar a autenticidade da gravao). A transcrio parece ser incontornvel nos trabalhos que envolvem pesquisa de campo: h necessidade de se manipular facilmente os dados coletados. A freqente manipulao dos dados engendra um sentimento de familiaridade com esse material permitindo a emisso de hipteses sobre o funcionamento da linguagem (restrito, evidentemente, ao corpus analisado). Mas que tipo de transcrio empreender? Baseada em alfabetos fonticos ou no cdigo escrito (ortogrfico)? Contamos atualmente com ferramentas que permitem imbricar o som e sua transcrio. CHILDES um bom exemplo desse tipo de ferramenta. De fato, no difcil digitalizar o som e associar, na imagem que encontramos na tela do computador, o som, o espectro acstico e a legenda. Esse trabalho til nos estudos dos componentes fonolgicos. Por outro lado, no que concerne os trabalhos sobre a gramtica do oral, o espectro sonoro no necessrio. Nesse caso, suficiente realizar uma transcrio baseada na ortografia usual e acrescentar alguns signos complementares para marcar intonaes ou pausas, por exemplo. 6. Anlise de produes orais Ao longo do sculo XX, em diferentes momentos e escolas lingsticas, foram privilegiados os estudos da fontica (domnio inicialmente investigado pelos estruturalistas), da morfologia e da sintaxe (domnios trabalhados durante muito tempo pela gramtica gerativa). Atualmente, em relao ao estudo dos fenmenos lingsticos, parece claro que os corpora devem ser objetos polivalentes para servir de suporte de pesquisas que possam ser realizadas em diversos nveis: fontico, morfolgico, sinttico, lexical, semntico e/ou pragmtico. No que diz respeito aos corpora de referncia, as anotaes (ou etiquetas) devem responder s normas atuais de intercmbio de documentos (formato SGML). Por exemplo, <catgram>adv.</catgram> poderia ser a etiqueta de categoria gramatical; adv., seria a abreviao de advrbio. Essas etiquetas devem, de modo ideal, pertencer a nveis diferentes e possuir forma abreviada (trs letras normalmente) correspondente ao campo da lingstica. As etiquetas poderiam compreender as informaes seguintes: a) incisos, interrogao (nvel fontico), b) <catgram>: adj., adv., v.; <nmero>: sing., pl.; <gnero> mas., fem. (nvel morfolgico),

11

12 c) sujeito, objeto (nvel sinttico relativo funo) e SNO, SN1, SN2 (nvel sinttico concernente posio relativa no enunciado) d) agente, paciente (nvel semntico), e) tpico, foco (nvel enunciativo), f) movimentos referenciais: introduo, manuteno, deslizamento (nvel textual), g) conversao, entrevista (nvel tipolgico). Se todos esses cdigos estivessem em formato SGML, teramos mais facilidade na homogeinizao das etiquetas quando analisamos diferentes corpora. Destacamos anteriormente que h necessidade de se efetuar anlises qualitativas e quantitativas. A corrente anti-empirista, anti-numrica e pro-simblica dos ltimos vinte anos descartou a quantificao dos dados. Segundo Liberman (1991), contar era considerado como atividade no apropriada para uma pessoa de qualidade. Porque essa atividade importante? Que fenmenos linguageiros podem ser melhor apreciados atravs da quantificao dos dados? De uma maneira geral, sabemos que a constituio de listas exaustivas dos contextos em que o fenmeno pesquisado aparece faz surgir regularidades (cf. concordances supra) permitindo a generalizao dos resultados da pesquisa. Com o auxlio de ferramentas automticas, essas regularidades so identificadas rapidamente. Se esse processo fosse efetuado manualmente, no revelaria a sistematicidade e a regularidade de muitos desses fenmenos. Para que isso fique mais claro, citaremos um exemplo extrado de manipulaes do corpus Mitterand 1. O estudo em questo focaliza a repartio dos pronomes pessoais da primeira pessoa (je = eu e nous = ns) empregados pelo ex-presidente francs, em emisses de rdio e televiso, em cada um dos sete anos de seu primeiro mandato. Na figura abaixo, a primeira pessoa do singular est representada e a primeira pessoa do plural por ): por

Duas tendncias podem ser evidenciadas a partir da quantificao efetuada. A primeira concerne os seis primeiros anos de seu mandato: o eu aumenta e o ns diminui. A segunda, est relacionada com o ltimo ano de seu primeiro governo: h inverso da primeira tendncia, ou melhor, as ocorrncias da primeira pessoa do singular comeam a diminuir e as ocorrncias da segunda pessoa do plural aumentam. Essas variaes interessam especialistas do texto poltico. A perspectiva quantitativa aqui a nica via de acesso anlise detalhada e contrastiva (HABERT, NAZARENKO e SALEM: 186) desse tipo de fenmeno. Estudos puramente qualitativos ou puramente quantitativos deveriam ser evitados, como pudemos observar, h complementariedade entre essas duas perspectivas. Os estudos quantitativos podem ter um carter estatstico forte. Os pesquisadores prximos a esses trabalhos utilizam, s vezes, medidas estaststicas elaboradas. Elas devem ser adaptadas s necessidades de cada domnio. Nos trabalhos sociolingsticos, por exemplo, h tratamento quantitativo do fenmeno relativo variao. Uma das maneiras de abordar esse fenmeno consiste na criao de escalas implicacionais e no desenvolvimento de estudos estaststicos acerca da distribuio de um certo

12

13 fenmeno nas produes de um gupo de locutores. Esses estudos quantitativos devem ser completados por estudos qualitativos que explicam a origem e os limites da variao. Concluso Privilegiando a dimeno automtica do tratamento de produes orais, tentamos abordar trs macro-etapas do desenvolvimento de pesquisas cujo objeto a lngua falada: a coleta, a transcrio e a anlise de dados. Essa primeira reflexo sobre essas etapas est relacionada com a importncia metodolgica do trabalho a ser empreendido. Ela versou sobre a necessidade de se distinguir tanto o tipo de dados e os fenmenos analisados como a maneira de os analisar, pois podemos utilizar dados orais sem respeitar uma abordagem pragmtica da linguagem ou colocando de lado questes ditas tradicionais como as que concernem a morfosintaxe. A nossa proposta visa integrar tudo isso, isto , descrever e explicar fenmenos de cunho lingstico. Isso implica trabalhar com unidades de natureza diferente: fontica, morfolgica, lexical, sinttica, enunciativa, textual e discursiva, entre outras. Logo, no se trata somente de coleta de dados e de transcrio bruta, mas de etiquetagem tambm, o que implica anlises mediadas pelo computador. Atravs da ajuda do suporte eletrnico, a anlise completa dos textos que est em jogo. Essa importante e sedutora perspectiva objetiva motivar o pesquisador a lidar com a complexidade da linguagem articulada. Bibliografia BLANCHE-BENVENISTE, C. Approches de la langue parle en franais. Paris: Ophrys, 2000. ENCREV, P., BLANCHE-BENVENISTE, C. CHEVALIER, J-C., DUMONT, C., PERDUE, C., SIMONI-AUREMBOU, M-R e BERGOUNIOUX, G. Actualit de lenqute et des tudes sur loral. Langages n 93. Paris: Larousse, 1992. BORGES, J. L. El libro de arena. Paris: Gallimard, 1990. GARRIGUES, M. Concordances automatiques pour exercices authentiques. Le Franais dans Le Monde n 274. Paris: Hachette. HABERT, B., NAZARENKO, A. e SALEM, A. Les linguistiques de corpus. Paris: Armand Colin, 1997. HANCOCK, Victorine. Parce que: un connecteur macro-syntaxique. Aile n 9. Paris: Instaprint, 1997. HOUAISS, A. e VILLAR, M. S. Dicionrio Houaiss da lngua portuguesa. Rio de Janeiro: Objetiva, 2001. LEECH, G. Introduction corpus annotation. Corpus annotation: Linguistic information from computer text corpora. Londres: Longman, 1997. MACWHINNEY, B. Anlise computadorizada das interaes. Compndio da linguagem da criana. Porto Alegre: Artes Mdicas, 1997. MARCOS MARN, F. A. Informtica y humanidades. Madri: Gredos, 1994. PERDUE, C. E GAONACH, D. Acquisition des langues secondes. Lacquisition du langage, volume II. Paris: PUF, 2000. QUIVY, R. e VAN CAMPENHOUDT, L. Manuel de recherche em sciences sociales. Paris: Dunod, 1988. SINCLAIR, J. Preliminary, recommendations on Corpus Tpology. Relatrio tcnico EAGLES (Expert Advisory Group on Language Engineering standards), CEE, maio de 1996. VRONIS, J. Annotation automatique de corpus: panorama et tat de la technique. Ingnirie des langues. Paris: Hermes Science Europe, 2000.

13