Você está na página 1de 25

Novos Rumos para a Pesquisa Lingstica no Brasil

Charlotte Galves, IEL-UNICAMP


Em primeiro lugar, eu queria agradecer enfaticamente o convite que o professor Claudio me fez para fazer esta conferncia de abertura. uma honra muito grande, eu espero estar altura das expectativas. Devo dizer que eu achei a iniciativa deste Seminrio de Pesquisa extremamente interessante, e eu vou tentar, na minha apresentao, mostrar o quanto eu acho, pessoalmente, que o futuro da lingstica est na integrao das pesquisas de vrios domnios, de vrias reas. O professor Cludio me deixou livre para propor o ttulo, e eu achei que era um tema adequado falar das novas perspectivas que a gente tem atualmente em lingstica, na pesquisa lingstica no Brasil. Eu tomei a liberdade de fazer isso e de ilustrar essa conferncia com um trabalho que est sendo realizado no projeto de pesquisa de equipe que eu coordeno, do qual eu participo h vrios anos, porque eu acho justamente que o projeto se caracteriza por uma grande pluridisciplinariedade, multidisciplinariedade. Trata-se de um projeto temtico da FAPESP, que se caracterizam por articular vrios horizontes, vrias reas, vrias disciplinas, dentro da lingstica e tambm fora dela. Ento, essa pesquisa priorizou reas que eu queria apresentar, argumentando que se encontram a vrias direes de pesquisas integradas extremamente interessantes para o futuro, em particular sobre a lngua portuguesa, porque o objeto desse projeto a lngua portuguesa, a histria da lngua portuguesa, a comparao do portugus falado no Brasil e falado em Portugal. Pretendo mostrar como a gente est abordagens para tentar responder a velhas perguntas sobre o portugus. Organizei a minha apresentao em trs partes. Eu acho que as duas primeiras sero muito mais detalhadas, a terceira ser mais uma indicao, e eu gostaria de ter tempo para a gente interagir um pouco. Um dos grandes desafios, e uma das tarefas importantssimas que a gente tem agora pela frente, uma tarefa que no de hoje, mas temos hoje recursos fantsticos para realiz-la: a elaborao e a explorao de grande usando vrias

Corpora de lngua. Eu vou apresentar aqui um Corpus histrico do portugus. Podemos ter Corpora de todos os tipos, pois os recursos computacionais atuais extremamente poderosos nos permitem no s construir esses Corpora, elaborar esses Corpora, mas explor-los de maneira interessante. O segundo ponto da minha fala tem a ver com aquilo que eu chamei de articulao lngua externa/lngua interna e aqui vem uma proposta de integrao terica. Lngua externa, so os enunciados, lngua interna a gramtica. Lngua interna a gramtica entendida de um certo ponto de vista, do ponto de vista da gramtica chomskiana, que considera a gramtica como rgo mental. Eu sou uma lingista chomskiana, e durante muito tempo eu sei que eu fui olhada por colegas como quem no trabalhava com dados. Antes eu s trabalhava com algumas poucas frases, a partir das quais a gente fazia grandes elaboraes tericas. Eu acho que isso est mudando e para mim tambm. Eu aprendi a trabalhar com muitos dados, e eu acho que neste momento o lugar de integrao justamente entre trabalho com dados e trabalho cuja meta formular gramticas abstratas. O que eu queria argumentar aqui que isso no deve ser mais visto como antagnico, como contraditrio, mas, pelo contrrio, um lugar de integrao extremamente produtivo para os estudos da linguagem. E o terceiro ponto tem a ver com uma integrao muito ambiciosa, eu j disse que dessa falarei menos e falarei um pouquinho mais hoje tarde, alis, eu quero agradecer ao professor Cludio, que me convidou no s para fazer esta longa fala hoje de manh, mas ainda para hoje tarde, junto com membros da minha equipe, para falar numa mesa redonda. O terceiro ponto um ponto que ainda um pouco lingstica-fico, mas nem tanto assim, uma integrao entre a lingstica e a modelagem matemtica. A matemtica modela tudo. Ela modela a fsica, ela modela a biologia, ela modela a qumica. Ela pode tambm nos ajudar a responder a perguntas sobre a linguagem. E o ponto que eu vou rapidamente mencionar, a questo da identificao de padres que vm escondidos na linguagem e que a gente pode identificar, graas a abordagens de natureza matemtica. O projeto temtico em questo se chama Padres rtmicos, fixao de parmetros, e Mudana Lingstica. O endereo da pgina do projeto http://www.ime.usp.br/~tycho . Eu vou comear, portanto, falando desse primeiro ponto que eu chamei de elaborao e explorao de grandes Corpora de lngua, apresentando a vocs um Corpus, que um Corpus anotado, e eu vou explicitar o que isso significa, do portugus histrico. A esse Corpus, a gente deu o nome no de um

lingista, mas o nome de um astrnomo dinamarqus do sculo XVI, porque Tycho Brahe foi o primeiro astrnomo que resolveu fazer um catlogo exaustivo do movimento dos planetas no cu. Essa idia de tentar fazer um catlogo exaustivo que nos levou a usar o nome de Tycho Brahe. O Corpus Tycho Brahe tem atualmente 41 textos que vocs podem acessar livremente na rede virtual. A questo inicial que nos levou a construir esse Corpus a mudana ocorrida na colocao de clticos entre o sculo XVI e o sculo XIX, nos textos portugueses. Partimos da hiptese de que essa mudana est relacionada com uma mudana fonolgica que afetou a lngua nalgum ponto do sculo XVIII. Com efeito, pronncia portuguesa atual no a pronncia portuguesa mais antiga, possivelmente a pronncia brasileira atual est mais prxima da pronncia do portugus do sculo XVI do que a pronncia portuguesa atual. Ento, ns temos na histria do portugus, na histria recente, uma mudana prosdica de natureza rtmica, que tem a ver com essa maneira que os portugueses tm de no pronunciar as slabas no acentuadas, que torna para os brasileiros, s vezes, a compreenso do portugus europeu difcil. Ento, essa mudana rtmica aconteceu em algum momento entre o sculo XVI e o sculo XIX, no sculo XVIII, digamos. E a essa mudana rtmica se soma uma outra mudana, uma mudana sinttica, que afeta alguma coisa que tambm no portugus brasileiro foi bastante afetada ao longo do tempo, que a colocao de clticos, a colocao desses pronomes que tm acento prprio e que nas lnguas podem preceder ou seguir o verbo. No portugus europeu moderno, em muitos contextos, o que a gente encontra o cltico seguindo o verbo. Ento, o portugus europeu uma lngua muito encltica, enquanto o portugus brasileiro uma lngua muito procltica. O cltico, quando ele aparece, aparece antes do verbo, e o que interessante que at o sculo XIX, nos textos, a gente tinha as duas coisas, uma variao entre prclise e nclise. Do ponto de vista da lingstica, muito interessante, porque a estamos na interface entre a fonologia e a sintaxe, entre a prosdia e a sintaxe, e no to bvio que a teoria lingstica nos d instrumentos para estudar isto. A teoria lingstica muito compartimentada, tem os fonlogos, os sintaticistas, os semanticistas. Ento, essa questo da articulao entre fonologia, prosdia, ritmo e a sintaxe uma coisa que, de certa maneira, era mais fcil de trabalhar nos estudos da linguagem do final do sculo XIX e incio do sculo XX do que agora, porque a teoria lingstica, de uma certa

maneira, perdeu essa possibilidade de dar conta das interfaces. Isso faz parte da evoluo das disciplinas, j que elas tm uma tendncia natural especializao, mas de novo eu acho que a gente est num momento de integrao. Ento, a primeira coisa que precisvamos fazer era ter uma viso clara de como evolui essa sintaxe da colocao de clticos do sculo XVI ao sculo XIX. Temos algumas informaes sobre isso, alguns lingistas portugueses, italianos, enfim, algumas pessoas trabalharam sobre isso aqui no Brasil tambm, mas nunca com base numa grande quantidade de dados. Ns fizemos esse Corpus para termos essa grande quantidade de dados. Ele rene autores nascidos desde o comecinho do Sculo XVI (O primeiro Joo de Barros, nascido em 1497, que escreveu a gramtica da lngua portuguesa) at autores nascidos em meados do sculo XIX, como Ea de Queirs e Oliveira Martins. No Corpus, temos um lugar de integrao, articulao, interface, com a literatura portuguesa e com a filologia tambm, porque quando a gente faz um Corpus dessa natureza, uma das primeiras questes que se colocam a questo da escolha das edies. Ns, ao longo dos quatro anos que esse Corpus demorou a ser construdo, passamos por vrios momentos em relao questo das edies. Primeiro, tivemos um grande auxlio para escolher edies confiveis de textos dessa poca, foi o auxlio do professor Ivo Castro, da Universidade de Lisboa, e da professora Ana Maria Martins, da Universidade de Lisboa tambm, que filloga e sintaticista. Estvamos preocupados em ter textos que fossem confiveis do ponto de vista sinttico, obviamente, porque a nossa questo essencialmente uma questo sinttica e sobretudo em que o revisor eventual no tivesse mudado a posio dos clticos, o que seria dramtico, o que os revisores atuais fazem nas editoras. Ento, algum que vai querer estudar a posio dos clticos, no sculo XX, do portugus brasileiro, vai ter muitas dificuldades, porque os revisores, a primeira coisa que eles fazem mudar o cltico de lugar. A nossa preocupao era termos textos que tivessem a colocao que o autor tivesse posto. No incio s usamos edies modernas, com grafia modernizada ou no. Por exemplo, passando rapidamente pelos autores, temos D. Joo III com as suas cartas, a peregrinao do Ferno Mendes Pinto, um tratado de pintura, as dcadas de Diogo do Couto, a biografia de Frei Lus de Sousa, de Frei Bertolameu dos Mrtires, enfim, textos de historiografia, biografias, cartas, textos religiosos, textos filosficos, um dos primeiros jornais portugueses, seno o primeiro, esta gazeta de Manuel de Galhegos, que escrita logo depois da restaurao da monarquia portuguesa, e, algum de quem

est se falando bastante aqui neste encontro, o Padre Vieira. O Padre Vieira muito importante nesse Corpus, porque como eu vou depois mostrar para vocs, nos seus Sermes ele tem uma colocao de clticos muito diferente dos outros autores da poca dele. Isso foi uma das questes iniciais: por que que o Padre Vieira to encltico nos Sermes? Nos Sermes, ele usa muita nclise, ou seja, o cltico depois do verbo, quando os seus contemporneos so muito proclticos. Em compensao nas suas cartas, ele muito procltico, to procltico quanto os seus contemporneos. Descobrimos ento que Vieira no s era diferente dos outros, mas era diferente de si mesmo nos Sermes e foi durante muito tempo um grande ponto de interrogao, e como acontece muitas vezes com os pontos de interrogao, acabou se tornando uma explicao. Voltarei a isso depois. A questo da grafia antiga um problema grande para quem quer fazer um Corpus eletrnico anotado do portugus antigo. Por qu? Porque ns, como eu vou mostrar depois para vocs, vamos anotar esse Corpus, porque todo Corpus grande precisa ser anotado, seno muito difcil recuperar a informao. No adianta ter vrios milhes de palavras e no ter como extrair a informao desses milhes de palavras, o que mo se torna totalmente impossvel. Ento, precisamos ter uma anotao, e precisamos de ferramentas automticas de anotao, porque anotar mo milhes de palavras uma tarefa inglria. Ento temos um etiquetador, ou seja, um programa que atribui a cada palavra dos textos do Corpus uma etiqueta. A se encontra uma interface importante com a computao. Precisamos elaborar, e ter quem elabore para a gente, ferramentas computacionais que nos permitam trabalhar com essas grandes quantidades de dados. Ento, vejam aqui, a verso anotada do texto da Maria do Cu, onde podem ver que cada palavra vem com uma barra, e uma etiqueta, por exemplo, /VB-G para "verbo no gerndio", /D-F-P para "determinante feminino plural", /N-P para "nome no plural", /VB-AN-F para "particpio passado no feminino", /P para "preposio", /ADJ-F para "adjetivo no feminino", P+D para "preposio mais determinante", etc...
Misturando/VB-G as/D-F-P lagrimas/N-P com/P a/D-F tinta/N pella/P+D-F saudade/N ,/, dando/VB-G voos/N-P a/P penna/N pello/P+D assumpto/N ,/, pedindo/VB-G duraa/N ao/P+D papel/N pella/P+D-F memoria/N ,/, escrevo/VB-P indigna/ADJ-F a/D-F Vida/NPR desta/P+D-F illustrissima/ADJ-S-F serva/N de/P Deos/NPR ,/, em/P cuja/WPRO$-F companhia/N vivi/VB-D pouco/Q aproveytada/VB-AN-F nos/P+D-P seus/PRO$P exemplos/N-P ,/, e/CONJ muyto/Q conhecida/VB-AN-F nas/P+D-F-P suas/PRO$-F-P virtudes/N-P ,/, differente/ADJ-G penna/N melhor/ADJ-R-G

espirito/N se/SE devia/VB-D a/P este/D emprego/N e/CONJ assim/ADV neste/P+D conhecimento/N detriminada/VB-AN-F estive/ET-D a/P na/NEG intentalo/VB+CL ;/.

um etiquetador automtico que faz isso. Ele atualmente acerta 95% dos casos, o que muito bom, mas quer dizer que ele erra ainda em 5% dos casos, e 5% dos casos, em 50 mil palavras, so 2.500 palavras, e geralmente 2.500 palavras importantes. Ento, ainda fazemos todo um trabalho de correo manual, mas mesmo assim a correo manual muito menos trabalhosa do que se tivessemos que fazer a anotao manual inteira, tanto mais que a vantagem do homem sobre a mquina que ele raciocina, a desvantagem que ele erra de maneira no-sistemtica. Quando a pessoa est cansada, ela comea a errar, a escrever, por exemplo, etiquetas impossveis. O etiquetador nunca escreve etiquetas impossveis, podem ser erradas, mas impossveis nunca so, porque ele se baseia uma lista finita. Isso a vantagem da mquina. Vejam o incio do texto da Maria do Cu, que um texto muito bonito, misturando as lgrimas com a tinta pela saudade, dando vos pena pelo assunto, pedindo orao ao papel pela memria. Bom, o prazer do texto a gente tem tambm, isso uma coisa interessante. Escreve em digna vida desta ilustrssima serva de Deus. Agora, vejam uma coisa, o etiquetador tem muitas dificuldades criadas pela variao grfica. por isso que eu estava dizendo que um problema trabalhar com um Corpus eletrnico anotado automaticamente quando existe variao grfica. Ns estamos trabalhando com um terico da computao da USP, Marcelo Finger. Foi ele que elaborou esse etiquetador para gente, e estamos trabalhando com ele para dar conta da variao grfica, que na realidade um problema terrvel computacionalmente, porque a variao grfica do portugus muito grande. O portugus uma lngua que demorou muitssimo para fixar sua grafia, alis, ainda nem est totalmente fixada, mas, at fins do sculo XVIII, a gente ainda tem textos com uma grafia totalmente diferente da grafia moderna, e o etiquetador s conhece uma forma para cada palavra. Por exemplo, vocs tm pela, pela ele sabe que /P+D-F enquanto est escrito p-e-l-a, agora quando ele v p-e-l-l-a, para ele j no existe, ento, ele procura pelo contexto, porque ele trabalha com o contexto e com a forma, mas, enfim, ele vai errar muito mais. Nesse texto, a eficincia do etiquetador baixou muitssimo, e eu que corrigi esse texto, demorei o dobro do tempo que eu demoro para um texto modernizado. Ento, o que fizemos mais recentemente? Ns, recentemente, resolvemos usar edies originais.

Esse o caso, por exemplo, do texto de Andr de Barros, que muito interessante, porque a vida do padre Antnio Vieira. a primeira biografia do Vieira. E Andr de Barros nasceu numa poca que nos interessa muito, que a segunda metade do sculo XVII. Ns pegamos na Biblioteca Nacional de Lisboa o xerox da primeira edio desse texto, que data de 1746, e fizemos a modernizao do texto ns mesmos. E a idia trazer depois, isso no est ainda no Corpus que est disponvel na rede, o fac-smile do texto original, ou Nacional de Lisboa. A Biblioteca Nacional de Lisboa est atualmente disponibilizando muitos textos em fac-smiles. Isso facilitou muitssimo a nossa tarefa - com o defeito que a gente nem precisa mais ir a Lisboa buscar os textos... - mas facilitou muito. Pegamos tambm um outro texto, que uma outra gramtica que vocs podem achar no Corpus, a gramtica de Jernimo Contador de Argote, que uma gramtica extremamente interessante, publicada na primeira metade do sculo XVIII, sob a forma de dilogo entre um mestre e seu discpulo, e fizemos a mesma coisa, modernizamos o texto, ou seja, fizemos o seguinte: modernizamos a grafia, porque esse nosso problema, mas no mexemos em mais nada, em particular, no modificamos a pontuao. Fazemos o contrrio do que fazem muitos editores de textos antigos, eles deixam muitos aspectos da grafia antiga, no todos, alguns, e eles mexem sistematicamente na pontuao. E eu sempre me perguntei por que que mexiam na pontuao, porque a pontuao informaes muito preciosas. Certamente com esses textos eu entendi porque eles mexem na pontuao. A pontuao dos sculos XVII e XVIII muito diferente da pontuao moderna, e ela chega a tornar difcil a leitura dos textos, mas eu acho que muito interessante, porque a gente v que quando l em voz alta, de repente, a coisa flui. Isso mostra que se trata de uma pontuao mais entoacional, prosdica, retrica, do que a pontuao moderna, que uma pontuao de tipo lgico-semntico, sinttico-semntico. E de fato, uma coisa que complica s vezes a leitura da gente, mas vale a pena ter acesso a essa pontuao original. Darei agora alguns elementos do nosso sistema de anotao, remetendo os auditores/leitores interessados numa apresentao exaustiva para o Manual de anotao morfolgica do Corpus (cf. http://www.ime.usp.br/~tycho/manual). A anotao uma tarefa muito interessante, porque uma tarefa que nos lembra muito tarefas bem tradicionais de anlise morfossinttica. Em grande parte, relativamente fcil, mas em nos traz simplesmente pr um ponteiro para a Biblioteca

alguns lugares no bvio escolher as melhores categorias para descrever adequadamente o portugus. Elaboramos um sistema de anotao morfolgica no qual vocs vo reencontrar muitos termos que so os termos tradicionais, e mais alguns, que so mais modernos. Ou seja, nesse trabalho, estamos integrando abordagens mais tradicionais e abordagens mais modernas, nomeadamente advindas da gramtica gerativa. Notem que no se trata, quando se anota o texto, de fazer uma anlise do texto. Anlise do texto quem vai fazer so as pessoas que vo vir buscar os dados dentro do texto. O que se trata de fazer dar a possibilidade aos pesquisadores de recuperar informaes facilmente. Por exemplo, se eu estou interessada na histria dos clticos, eu quero poder recuperar muito rapidamente todas as oraes que contm um pronome cltico. E, melhor, eu quero at poder recuperar muito facilmente todas as oraes que contm um pronome cltico direita do verbo e todas as oraes que contm um pronome cltico esquerda do verbo, e j jogar essas oraes para arquivos separados. E com algumas pequenas ferramentas computacionais, muito fcil fazer isso, ou seja, em trs minutos a gente consegue extrair de um texto de 50 mil palavras dois arquivos distintos: um que tem toda a nclise e um que tem toda a prclise. Os verbos so divididos em cinco tipos: ser, estar, haver, ter e os outros verbos todos. Ento, algum que quer fazer um trabalho, por exemplo, sobre o uso do gerndio por oposio ao infinitivo nas locues estar fazendo versus estar a fazer, na histria do portugus, pode recuperar muito facilmente todas as oraes que tm "estar mais gerndio" ou "estar a mais verbo no infinitivo". por isso que deixamos esses verbos auxiliares com uma etiqueta diferente. Como mencionei e j exemplifiquei antes para outras categorias, tambm temos sub-etiquetas para os verbos, que so as etiquetas que anotam a morfologia verbal. O infinitivo flexionado, o imperativo presente, o subjuntivo presente, o passado, ento, tudo isso para cada tipo de verbo a gente vai ter. Temos os pronomes, e o que nos interessa particularmente, atualmente, so os pronomes clticos. Por isso, os clticos tm etiquetas diferentes dos pronomes tnicos, a etiqueta /CL. E o cltico se, por sua vez, sendo um assunto de sintaxe do portugus muito trabalhado, tem uma etiqueta diferente dos outros clticos, a etiqueta /SE. Assim podemos recuperar facilmente todos os se que esto no Corpus. Os outros pronomes, como eu, tu, ele, ela, vo aparecer com a etiqueta /PRO. Enfim, para as formas compostas de uma preposio mais um pronome, usamos o smbolo +, que aparece em toda as palavras que so o resultado da contrao de duas categorias distintas . Por

exemplo, comigo vai ser /P+PRO, "preposio mais pronome", faz-lo vai ser /VB+CL, "verbo no infinitivo mais cltico" etc.... As partculas de foco, como s, mesmo, at, so marcadas com uma etiqueta especial /FP, porque a focalizao tambm um assunto muito interessante. Notem que todas essas palavras podem ter outras funes. At, por exemplo, pode ser tambm uma preposio, mesmo e s podem tambm ser adjetivos. Isso acontece freqentemente, a mesma forma pode ter vrias funes e portanto vrias etiquetas possveis: como pode ser uma conjuno (/CONJS) ou uma palavra interrogativa ou relativa (/WPRO), melhor e pior podem ser advrbio comparativo (ADV-R) ou adjetivo comparativo (/ADJ-R). Que uma palavra particularmente complicada, que pode ser muitas coisas, pode ser uma conjuno integrante, que a gente marca com /C, pode ser um que explicativo, que a gente encontra muitssimo nos textos, e marca como /CONJ ou pode ser um pronome relativo ou interrogativo e vai ser marcado /WPRO. Para algumas palavras, em compensao, decidimos manter uma s etiqueta, por exemplo, mais e menos sempre etiquetamos como um advrbio de comparao (/ADV-R), mesmo quando mais parece exercer uma funo nominal como em os mais, ele vai ser marcado s com essa etiqueta.1[1] Ns passamos um certo tempo, a partir dos textos, lendo os textos, etiquetando os textos, foi uma equipe que fez isso e elaborou esse sistema. Ele no completamente satisfatrio, mas pelo que a gente achou at agora, representa um compromisso bastante satisfatrio entre a descrio lingstica e a complexidade computacional. Num segundo momento, o Corpus vai receber um segundo tipo de anotao, da qual falarei pouco, porque ser apresentada por Helena Britto na mesa redonda desta tarde.2[2] uma anotao sinttica. Porque j timo poder recuperar todas as frases com clticos, mas precisamos poder extrair automaticamente do Corpus mais informaes ainda. Por exemplo, queremos todas as frases que tenham um verbo seguido de um cltico e precedido de um sujeito, s que sujeito a no est marcado, porque sujeito no uma categoria, sujeito uma funo sinttica. Ento, o ideal ter o texto tambm marcado quanto s funes, e isso muito mais complexo e muito mais
1[1] Uma discusso dessa proposta se encontra em Britto, H. e C. Galves A construo do Corpus anotado do portugus histrico Tycho Brahe: o sistema de anotao morfolgica. IV Encontro para o processamento computacional da lngua portuguesa escrita e falada (PROPOR 99), vora, 20-21 de setembro de 1999. 2

difcil de ser feito com ferramentas automticas. S darei aqui um exemplo de como isso pode ser feito. Trata-se das primeiras palavras da primeira frase das Reflexes sobre a vaidade dos homens de Matias Aires (1705-1763): Ofereo a Vossa Majestade as reflexes sobre a vaidade dos homens:
(1) Senhor/NPR :/. Ofereo/VB-P a/P Vossa/PRO$-F Majestade/NPRi[i][5] (2) (IP-MAT (NP-VOC (NPR Senhor)) (. :) (NP-SBJ *pro*) (VB-P Ofereo) (PP (P a) (NP (PRO$-F Vossa) (NPR Majestade)))

(In Matias Aires (1705-1763))

Primeiro, em (1), temos as etiquetas: /V-P "verbo no presente", /P "preposio", /PRO$ "pronome possessivo", /NPR "nome prprio", etc. A partir disso o analisador vai nos dar a anlise sinttica da frase como em (2). No se trata de uma anlise aprofundada, no se trata aqui, de novo, de substituir o sintaticista, trata-se de dar ao sintaticista a possibilidade de extrair do Corpus o tipo de sentena que ele est interessado em analisar. As funes da orao so inseridas nesse nvel. No exemplo acima, temos trs sintagmas nominais (NPs), um marcado vocativo, o segundo sujeito, o terceiro objeto de preposio. Introduzimos tambm informaes sobre o tipo de oraes presentes na frase. IP um termo que vem da gramtica gerativa, e quer dizer orao, IP-mat quer dizer orao matriz, orao principal. Uma outra informo essencial inserida nesse nvel a presena de um sujeito nulo, marcado pro. O portugus uma lngua que pode omitir o pronome sujeito, e muito importante que possamos recuperar essa informao quando analisamos sintaticamente uma orao. Como podem observar, o analisador sinttico nos d uma rvore, alguma coisa que tem uma disposio grfica, que representa as relaes hierrquica dentro da orao. Por que fazemos isso? De novo, eu insisto, para poder recuperar as informaes sintticas pertinentes a partir de todas as oraes do Corpus. Por exemplo, algum que trabalha sobre a posio do sujeito - para um sintaticista a posio do sujeito em portugus uma questo muito interessante - pode muito rapidamente extrair de todos os textos todas as frases que tm o sujeito anteposto ou o sujeito posposto. Ento, esse trabalho um longo trabalho, mas de uma certa maneira a gente

trabalha para o futuro, porque uma vez que est feito, a possibilidade de trabalhar com muitos dados se torna uma realidade. Apesar de o Corpus ainda no ter todas as funcionalidades que a gente gostaria que ele tivesse, a gente, como diz um colega meu, est navegando construindo o barco. Ento, estamos usando o Corpus ao mesmo tempo que continuamos a constru-lo, tentando enfrentar essa questo que eu coloquei no incio, que a questo da evoluo da colocao de clticos no portugus europeu, e a relao dessa colocao dentro dessa evoluo com uma possvel mudana rtmica que aconteceu entre o sculo XVI e o incio do sculo XIX. Um dos desafios conseguir, a partir dos dados que a gente tem no Corpus, e olhando para a evoluo da colocao de clticos, ter uma idia de quando aconteceu a mudana. Isso obviamente um objetivo muito ambicioso, mas isso que estamos tentando fazer. Para isso, criamos uma base de dados a partir dos 20 textos anotados, dos 41 que j esto no Corpus. Poderamos anotar todos, porque o etiquetador automtico demora 5 minutos para realizar essa tarefa, mas a questo a correo. Ento, ns j temos 20 textos j corrigidos, isso no quer dizer que no tenham nenhum erro, mas tm poucos. A equipe que tem trabalhado na base indicada no index da pgina3[3], Helena Britto, ps-doutoranda, Maria Clara Paixo de Sousa, doutoranda, Slvia Regina Cavalcante, doutoranda, Cristiane Namiuti, que comeou como bolsista de iniciao cientfica, agora mestranda, e Lucianne Chociay, bolsista de iniciao cientfica. O que muito interessante nesse trabalho que tem espao para trabalhos em vrios nveis. Eu acho que um trabalho de equipe que muito bom para a formao dos alunos, e eles podem entrar rapidamente e aprender muita coisa e fazer um trabalho que muito importante para o projeto como um todo. Criamos ento essa base de dados.

The Tycho Brahe Corpus Database


[main] [manual] [data files] [related papers] [corpus main page]

arquivos de dados
modificado em 30/10/2002 M.C. Paixo de Sousa

formato html (em quadros)

[3]

Cf. http://www.ime.usp.br/~tycho/corpus/database

V1] V2 subordinadas]
.txt .xls [

V3]

somente texto e planilhas:

[V1.txt] [V2_V3.txt] [suj-clv.txt] [suj-Vcl.txt] [adv-clv.txt] [adv-Vcl.txt] [pp-clv.txt] [pp-Vcl.txt] [or-clv.txt] [or-Vcl.txt] (em construo) [x-clv.txt] [x-Vclv.txt] [subordinadas.txt]

V1.xls] V2_V3.xls] subordinadas.xls]

Nessa base, classificamos inicialmente as oraes em funo da posio do verbo (V1, V2, V3). V1 quer dizer que so oraes que comeam pelo verbo. E por que que as oraes que comeam pelo verbo ficam parte? Porque nesse caso vocs sabem todos que na histria do portugus europeu, desde o sculo XII ao sculo XX, quando o verbo est em primeira posio, o cltico est sempre depois do verbo. Isso a famosa lei de Tobler Mussafia, que a norma brasileira ainda quer impor, mas que na realidade no Brasil se perdeu na fala, mas em Portugal no se perdeu, as pessoas realmente falam assim mesmo. Portanto, as frases que tm o verbo em primeira posio no nos interessam, porque nesse caso no h variao na posio do cltico, ele est sempre depois do verbo. As subordinadas tambm no nos interessam, porque fora algumas excees, que so interessantes, mas so marginais, nas subordinadas, em toda a histria do portugus, o cltico vem sempre antes do verbo, ento no nos interessa, porque a gente quer ver a variao e a no h variao. O que vai nos interessar so os casos que a gente chama de V2 e V3, ou seja, quando o verbo est em segunda ou terceira posio e temos variao4[4]. Vejam essa
4
[4]

Uma primeira apresentao dessa variao encontra-se em Galves, C., H. Britto e M.C Paixo de Sousa "First Results from the Tycho Brahe Corpus" disponvel em http://www.ime.usp.br/~tycho/what/index.html

variao no Pe Antnio Vieira: Eles conheciam-se como homens, Cristo conhecia-os como Deus. E aqui a gente tem a colocao encltica, que bastante freqente nos sermes, de novo: Deus julga-nos a ns por ns, os homens julgam-nos a ns por si. A o que a gente tem em primeira posio o sujeito: Eles/ Cristo/ Deus/os homens. Mas, a gente tambm pode ter em primeira posio, logo antes do verbo, um sintagma preposicional, como em: Entre as feras tomava-se com os lees e entre os homens com gigantes. A gente pode ter tambm um advrbio antes do verbo, vocs podem ver isso em: Aqui vem-se as suas dependncias, tambm com nclise. Mas, em todos esses contextos, podemos ter tambm prclise, ou seja, a outra colocao, a colocao prverbal. O evangelho o diz, isso, por exemplo, uma colocao impossvel no portugus europeu moderno, atualmente, e quando eu digo impossvel no porque a norma diz que no pode, que as pessoas no fazem isso, realmente no fazem. Ento, essa prclise que eu tenho aqui em O Evangelho o diz, o mesmo texto o declara, ou seja com sujeitos pr-verbais, mas tambm com sintagmas preposicionais: Doutras se lavram, semeiam e plantam os mesmos lugares. V-se portanto em Vieira essa variao na colocao de clticos, quando o verbo est em segunda posio e, seja qual for o que preceda o verbo, pode ser um sujeito, pode ser um sintagma preposicional, pode ser um advrbio, pode ser uma orao tambm. E ns fizemos, portanto, uma base de dados exaustiva com todos esses casos de variao nos 20 textos que j esto etiquetados. Ao todo so 3030 dados. Ento o Corpus nos permite fazer um trabalho exaustivo desse tipo, e isso que a vantagem de trabalhar assim. E por isso que invocamos Tycho Brahe, que olhava para os planetas todas as noites. A partir disso, ns fizemos uma quantificao, e vocs podem ver aqui a imagem, a partir dos textos que a gente tem, da evoluo dessa variao.

As datas que esto aqui so as datas de nascimento dos autores. A gente faz referncia data de nascimento por duas razes: primeiro, porque a gente acredita que a gramtica alguma coisa que se constri na aquisio, ento, a data de nascimento importante, apesar de a gente saber que quando escrevemos usamos uma lngua que inclu saberes adquiridos depois, na escola em particular, no contato com textos escritos, que so mais conservadores. Mas, isso dito, de fundamental interesse saber qual a data de nascimento dos autores. A outra razo porque nesse Corpus, atualmente, a gente s tem textos de autores e, muitas vezes, a nica maneira objetiva que temos de datar esses textos a prpria data de nascimento dos autores. s vezes, no sabemos exatamente quando o texto foi escrito e, s vezes, usamos correspondncias que se estendem por vrios anos. Por exemplo, a correspondncia do prprio Vieira, que vai de 1642 a 1697, o ano em que ele morreu, ou a correspondncia de um autor portugus bem mais recente: Ramalho Ortigo, que se estende 1875 a 1915. Ento cada ponto corresponde a um autor, em funo da sua data de nascimento, e, aqui, a percentagem de nclise que a gente tem nos contextos em que existe essa variao entre nclise e prclise. Vocs podem ver uma coisa que eu no vou ter tempo de comentar em detalhe, mas que se verifica em todas as codificaes que a gente tem feito at agora. No perodo considerado, podemos claramente distinguir duas partes. Na primeira parte, que vai mais ou menos at 1700, vmos que a maior parte dos

autores e dos textos tem uma taxa de nclise muito baixa. Ou seja, os autores so, geralmente, extremamente proclticos, mas temos alguns que so mais enclticos que os outros, obviamente. realmente que O ponto mais alto Vieira nos seus sermes. Vocs vem Vieira usa muito mais a nclise nos sermes, mas se olharem para

Vieira nas suas cartas, ento, vero que, at para um mesmo autor, podemos ter essa grande diferena que eu estava mencionando no incio. Mas observem que Vieira nas suas cartas mais condizente, digamos, com a maior parte de seus contemporneos. Agora a partir do incio do sculo XVIII, o que a gente v? A gente v uma subida, obviamente essa subida a subida para o portugus europeu moderno, no fim da qual um autor como Ramalho Ortigo, nascido em 1836, vai usar nclise em 90% dos casos, nos contextos em que o portugus do sculo XX ou XXI encontramos 100% de nclise. Portanto o que ns temos nessa histria da colocao de clticos, no portugus europeu, entre autores nascidos entre 1550 e 1850, so dois momentos: um momento em que a variao no configura uma mudana e um momento em que a gente v uma mudana acontecer. Estamos trabalhando com um conceito de mudana muito interessante, inicialmente proposto por Anthony Kroch, que um lingista que , ao mesmo tempo, sociolingista e gerativista, e que algum que trabalha muito sobre a histria das lnguas em geral, e do ingls em particular. A idia que ele defende que uma mudana no acontece quando a gente v o fim da mudana. A mudana aconteceu quando a gente v o incio da mudana, porque na realidade, nos textos, o que se tem uma competio entre a nova gramtica e a gramtica antiga. Por qu? Porque os textos so conservadores. Pensem como ns escrevemos e como ns falamos. Nos textos de autores brasileiros do sculo XX, XXI ainda vemos aparecer a gramtica do sculo XVIII. Ento, o que a gente v neste grfico que possivelmente no finzinho do sculo XVII ou incio do sculo XVIII que se d a mudana na colocao de clticos, porque o incio dessa curva ascendente que nos leva para a situao moderna. O caso do cltico se muito interessante, porque a gente v muito mais nclise com se do que com os outros clticos. No grfico a seguir, onde as colunas vermelhas mostram a proporo de nclise versus a prclise e as colunas azuis representam a proporo de se em relao aos outros clticos, isso aparece claramente:

O que se v que, pelo menos at o final do sculo XVII, quando a proporo de se maior do que a mdia, temos tambm mais nclise. Isso mostra claramente uma correlao entre ter muito se nos textos e ter nclise. Obviamente, a partir do sculo XVIII essa correlao se perde . Vocs podem ver que o se aqui se mantm em 40%, mas a nclise vai subindo, subindo, subindo, obviamente, j no tem nada a ver com a escolha do cltico, tem a ver com a mudana que est se implementando nos textos. Eu disse no incio: temos que reconciliar lngua externa e lngua interna. Tudo o que eu mostrei at agora o que a gente pode chamar de lngua externa, so dados, muitos dados quantificados. Agora, queremos interpretar esses dados luz de hipteses sobre as gramticas, que esto subjacentes aos dados. Vou apresentar agora a hiptese com a qual o projeto trabalha. Essa hiptese que vai nos permitir ligar a questo sinttica com a questo prosdica, porque a hiptese com a qual trabalhamos que na gramtica, que eu vou chamar de portugus clssico, que a gramtica que a gente tem no sculo XVI e XVII, temos variao entre prclise e nclise, porque temos duas estruturas subjacentes possveis. No caso da prclise, todos esses elementos que podem aparecer antes do verbo (sujeito, sintagma preposicional, advrbio, orao etc...), ocupam uma posio interna orao. Eu no estou agora querendo dizer qual

exatamente essa posio, mas uma posio interna orao. Agora, no caso da nclise, temos esse mesmo elemento, sujeito ou qualquer outra coisa, que ocupa uma posio externa orao. Estas duas possibilidades podem ser representadas da seguinte maneira, onde XP representa qualquer sintagma e [ a fronteira de orao: [XP cl-V XP[ V-cl Ou seja, a idia a seguinte: quando no sculo XVI, XVII, h uma variao entre nclise e prclise, porque eu posso eventualmente pr esse sujeito ou esse advrbio ou sintagma preposicional fora da orao. Fazendo referncia s oraes de Vieira mostradas anteriormente, como se eu tivesse Deus, ou Os homens, e s depois que a orao comea, com o verbo em primeira posio. Ento, eu tenho nclise, porque o verbo est em primeira posio na orao, e a vejam, agora estou falando de estrutura, de gramtica, de lngua interna. O que eu vejo o verbo em segunda posio, mas eu estou dizendo, sim, eu vejo o verbo em segunda posio, mas, na realidade, ele est em primeira posio e, o que vem antes, est fora dos limites da orao. Obviamente, isso uma hiptese, mas uma hiptese que nos permite explicar, entre outras coisas, o que a gente v nos sermes do Vieira. Eu disse que os sermes de Vieira, inicialmente, eram um mistrio, e que depois eles nos deram uma chave. que olhando de maneira mais detalhada para os sermes, o que eu percebi que TODOS os casos em que encontramos sujeito, verbo, cltico, so casos claros em que Vieira est contrastando dois termos.5[5] Nos exemplos que eu mostrei para vocs, bem claro: Eles conheciamnos como homens, Cristo conhecia-os como Deus. Aqui, a gente tem uma oposio entre eles e Cristo. Deus julga-nos a ns por ns, os homens julgam-nos a ns por si. Oposio entre Deus e os homens. O mesmo acontece com os sintagmas preposicionais iniciais. Entre as feras tomava-se com os lees e entre os homens com gigantes. Oposio Entre as feras/entre os homens. Isso acontece em 100% dos casos, e muito raro achar 100% quando se procura alguma coisa. Em 100% dos casos em que um sujeito seguido do verbo seguido do cltico, nos sermes do Vieira que temos no Corpus, encontramos um caso de oposio entre dois termos. Podemos ento concluir que esse sujeito, ou esse sintagma preposicional, o que se chama de tpico contrastivo. um tpico porque o termo sobre o qual se faz a assero, mas ele
5[5] Esta anlise est desenvolvida no meu artigo "Sintaxe e estilo: a colocao de clticos nos Sermes do Padre Vieira" a sair no volume comemorativo dos 25 anos do IEL-UNICAMP (cf. a verso em ingls em http://www.ime.usp.br/~tycho/what/index.html)

contrastivo, porque contrastado com um outro termo do texto. Ento, em Vieira, nos sermes do Vieira, o que explica a nclise a topicalizao contrastiva. Esse tipo de topicalizao muito recorrente nos sermes, porque so textos de estilo barroco, e a temos um ponto de contato interessantssimo com a literatura. O barroco baseado em oposies. O que descobrimos ento que Vieira usa a colocao de clticos como um recurso estilstico. Obviamente, na gramtica do portugus europeu moderno, nada disso se verifica, a nclise se torna o padro absoluto, e a interpretao que nessa gramtica sujeitos e tpicos no ocupam a mesma posio. Os tpicos so externos, mas o sujeito sempre interno orao.6[6] E mesmo assim temos nclise, o que configura uma gramtica totalmente diferente. Resumindo, desse ponto de vista, a mudana na gramtica afeta a posio do sujeito e pode ser resumida da seguinte maneira no que diz respeito s oraes com nclise (onde [, novamente, simboliza a fronteira da orao): Gramtica 1 (portugus clssico): Sujeito [V-cl Gramtica 2 (portugus europeu moderno): [ Sujeito V-cl Tenho dois minutos para falar da procura dos padres escondidos, e eu j tinha dito que eu teria muito pouco tempo para falar disso, j que nessa fala, mesmo longa, no d para mostrar por onde tentamos ligar essa anlise sinttica com uma anlise prosdica, que tal maneira que possamos responder questo inicial, que era: verdade que a mudana rtmica do portugus provocou uma mudana sinttica? E uma primeira coisa que a gente tem que fazer definir de que mudana rtmica se trata, e por isso ns fizemos, dentro desse projeto, todo um trabalho, comparando o portugus europeu moderno e o portugus brasileiro moderno. Usamos o portugus brasileiro como imagem do portugus falado do sculo XVI. Ateno, no que diz respeito sintaxe ele muito diferente, mas, possivelmente, o ritmo da fala brasileira muito mais prximo do ritmo da fala do sculo XVI do que o ritmo portugus moderno. Citarei aqui um foneticista portugus do sculo XIX, Gonalves Viana, que dizia que os atores da poca dele eram incapazes de ler Cames de maneira correta, porque eles comiam algumas slabas a caminho, e os decasslabos do Cames se tornavam heptasslabos, no melhor dos casos. Em compensao, os brasileiros lem Cames muito bem, ou seja, o ritmo da fala brasileira , certamente, muito mais prximo do ritmo da fala do sculo XVI.
6[6] Existe atualmente uma polmica sobre a posio do sujeito no portugus europeu moderno. Cf., entre muitos outros, o artigo de Joo Costa e Charlotte Galves " External subjects in two varieties of Portuguese: evidence for a non-unified analysis",publicado em Portuguese Syntax, Joo Costa (org.), Oxford 2000.

Fizemos um grande trabalho de comparao de ritmo portugus europeu/ portugus brasileiro. Mas num segundo momento, precisamos de modelagem, que no vem atualmente da lingstica, e pode ser que nunca venha da lingstica, porque fazer fonologia histrica muito difcil, no sentido que no temos nenhuma evidncia a partir do texto escrito de como as pessoas falavam. Mas, esperamos ser capazes, com mtodos estatsticos, de reconhecer padres, ou seja, tipos de seqncias que a gente encontra nos textos portugueses modernos e brasileiros modernos, fazer um modelo matemtico desses padres, e depois aplicar esses modelos a Corpora antigos. Estamos atualmente numa fase ainda preliminar, j com algum sucesso. Se conseguirmos avanar nesse caminho, talvez a gente consiga achar a prosdia perdida, que o objetivo mais ambicioso de toda essa pesquisa. Muito obrigada. Claudio C. Henriques (mediador) Passo a palavra para o professor Andr Valente, que deseja fazer algumas consideraes. Andr Valente Primeiro, quero parabenizar a professora Charlotte pelo trabalho e pela generosidade de socializ-lo. Tenho duas consideraes: a constatao de que, na segunda metade do sculo XVI, predominava a prclise, o que colabora para desmistificar algumas afirmaes precipitadas. Comprovou-se que Vieira, nos sermes, trabalhava mais com a nclise e, nas cartas, com a prclise. Na interpretao dos dados haveria alguma dependncia dessa busca prosdica ou vocs j esto trabalhando a justificativa dessa evoluo? Essa a primeira pergunta. A segunda: ficou claro que o objetivo trabalhar a oposio nclise e prclise, e me chamou a ateno a presena da mesclise em dois casos apresentados: dar-te-ei e entregar-me-ei. Isso tratado de que forma na pesquisa? Charlotte Em relao sua primeira pergunta, a anlise sinttica uma anlise independente, mas, obviamente, a hiptese, que parece ser interessante para dar conta dos dados do ponto de vista sinttico, uma hiptese que pode ser interessante tambm para essa questo da articulao sintaxe-fonologia, porque o que estamos dizendo que o que vai mudar entre o portugus clssico e o portugus europeu moderno, do ponto de vista da sintaxe, a posio do sujeito com a nclise. Ento, quando a gente tem sujeito pr-verbal com nclise, no portugus clssico, a gente est dizendo que esse sujeito, na realidade, est fora dos limites da orao, mas no portugus europeu moderno, em que isso , alis, a nica possibilidade de colocao, o sujeito est dentro dos limites da

orao. Essa questo de estar fora e estar dentro alguma coisa que tem uma ligao muito forte com a questo da entoao, porque esse limite, que eu marquei com um colchete, o limite da orao, o limite interpretado fonologicamente. E isso no to novo, h outros casos conhecidos em que alguma coisa parecida acontece. Em francs, por exemplo, aconteceu no sentido inverso. No francs antigo, quando havia um tpico inicial, ele estava dentro da orao, porque era uma lngua de tipo germnico, que pode ter um tpico interno, e, a partir de um certo momento, esse tpico foi reinterpretado como um elemento externo orao. E isso est ligado tambm a questes de ritmo, porque as lnguas que tm um tpico interno inicial, como o alemo, por exemplo, tem um acento inicial. Veja que essa anlise pode se sustentar em termos puramente sintticos mas um lugar interessantssimo tambm para trabalhar com a interface sintaxe/fonologia. Em relao mesclise, o projeto no tematiza particularmente essa questo, porque implicitamente consideramos a mesclise como um caso de nclise. V-se alis que a mesclise alguma coisa que, no portugus brasileiro, desaparece junto com a nclise. Isso dito, parece que a mesclise tambm est desaparecendo no portugus europeu, ou seja, as criancinhas portuguesas j no fazem mesclise como antigamente. Ns no fizemos isso at agora, mas possvel estudar a evoluo da mesclise no Corpus muito facilmente, j que ela tem uma etiqueta especial, porque a gente j imaginou que algum podia se interessar por essa construo. Ento, algum que queira fazer um estudo da evoluo do uso da mesclise, nesse Corpus, s pegar a etiquetinha da mesclise, que tem um ponto de exclamao, e procurar nos textos, e ver como que ela acontece. Outros trabalhos que foram feitos do quais no falei. Cristiane Namiuti, j mencionada, tem um trabalho sobre a interpolao. A interpolao alguma coisa que aparece pouco nesse perodo, alis, aparece muito, mas s com a negao. A Cristiane mostrou, de maneira interessante, que no s ela restrita negao, como ela usada em muito mais contextos. Ento, por um lado a interpolao se restringe negao, mas, por outro lado, ela vai ser usada em qualquer contexto em que possvel ter prclise, enquanto que, no portugus antigo, era s em casos de prclise obrigatria. Ento h outros trabalhos paralelos, que j foram feitos, e que podem ser feitos, porque o Corpus traz a informao necessria. Espero ter respondido s suas perguntas. Claudio Obrigado. Fao tambm uma pergunta: Na exemplificao dos casos do

pronome o, o sistema tambm permite que se faa distino entre os casos em que esse o pronome pessoal oblquo e os casos em que ele um pronome demonstrativo, por exemplo? O exemplo do Vieira, que assim "o diz", e ele diz depois "o declara". Haveria outras consideraes a fazer, mas pergunto-lhe se o levantamento j poderia distinguir o caso dos os com o valor de eles, e do o com o valor de ele ou de isto? Charlotte Sim, claro, tudo isso uma questo de etiquetagem. Esse um caso em que a gente tem que tomar decises no campo da anotao, porque na anotao a gente j pode marcar certas distines, fazendo isso, a gente vai facilitar o trabalho da busca, mas a gente complica o trabalho do etiquetador. Quando uma palavra tem vrias funes, e a gente puser uma s etiqueta, isso vai facilitar a etiquetagem e vai dificultar a busca. A gente procurou equilbrio entre as duas coisas e, em certos casos, a gente tomou a deciso no sentido de multiplicar as etiquetas e, em outros casos, em deixar uma etiqueta s para facilitar a etiquetagem.7[7] Quanto ao o, a gente basicamente faz a distino entre o o determinante e o pronome cltico. O o determinante podia tambm ser considerado como demonstrativo, quando a gente tem: o que voc fez, que seria a mesma coisa que: aquilo que voc fez e, nesse caso, a gente deixou determinante. pela construo sinttica, porque vai ser sempre seguido por uma orao ou por um pronome relativo, que vai ser possvel perceber que no se trata do determinante mesmo. Mas isso so escolhas que tm que ser feitas no sistema de anotao e, s vezes, no bvio fazer essas escolhas. Claudio Obrigado. Temos uma pergunta por escrito: Voc pode explicar um pouco mais o sistema de anotao que voc chama de melhores categorias e quais os critrios utilizados para essa classificao? Charlotte A gente tem que chegar a um equilbrio entre um sistema econmico e um sistema descritivo. Porque se ele no for econmico do ponto de vista computacional vai ser dramtico, alis, para exemplificar isso, fazer um sistema de etiquetagem para o portugus muito mais complicado do que fazer para o ingls, por causa da morfologia, porque o ingls uma lngua de pouca morfologia, e o portugus uma lngua de muita morfologia. Ento, ns, no ponto de partida, trabalhamos com o sistema de etiquetagem que foi feito para o ingls mdio, no projeto de Anthony Kroch. Eles tm 35 etiquetas, e ns, no final das contas, temos 360. Isso, computacionalmente, faz crescer a complexidade de maneira enorme, quer dizer, para treinar um etiquetador automtico que tenha 360 etiquetas, demora meses. Ento, o que a gente fez? Marcelo
7
[7]

A esse respeito ver Britto e Galves (1999) citado em nota acima.

Finger, j mencionado antes, inventou para a gente um sistema em vrios passos. Vocs viram que a gente tem etiquetas e sub-etiquetas, e isso resolve o problema em grande parte. Ento, isso. Voc tem que ter um sistema econmico, mas voc quer ter um sistema que seja descritivamente adequado, ento, respondendo pergunta do Claudio, direi que esse equilbrio permanente entre a descrio lingstica e as restries computacionais, que faz com que voc tente achar um sistema timo, no sentido da teoria da otimalidade, que o melhor possvel. isso. Depois, tem alguns problemas de descrio, e muito interessante fazer esse trabalho, porque a gente v que h certas coisas pelas quais a gramtica tradicional nunca se interessou, e pelas quais a gramtica gerativa tambm no se interessa, e a gente fica meio sem ferramentas, e a tem que inventar. Ento, o melhor no sentido do melhor possvel, e os critrios so esses. O sistema acaba tendo um pouco a nossa cara, porque, obviamente, ns somos um grupo interessado particularmente na sintaxe, na morfossintaxe, privilegiando coisas como os clticos, por exemplo. Talvez um outro grupo no fizesse uma distino entre clticos e no clticos, entre clticos, em geral, e se. Ns fizemos certas distines, porque a gente sabia que elas eram importantes para a gente, e para gente como a gente, ento, h um lado subjetivo tambm. Claudio Temos uma pergunta sobre os textos do Corpus: Vocs fizeram a atualizao da ortografia e no alteraram a pontuao. Existe algum projeto de se estudar pontuao, segundo padres rtmicos no portugus atual? Charlotte Esse estudo da pontuao fascinante. Acontece que, no portugus atual, a pontuao normativa no uma pontuao de flego, eu diria, no uma pontuao de leitura em voz alta, uma pontuao mais lgica. Mas eu acho que h umas interfaces interessantes com a pontuao usada mais espontaneamente. Eu tenho colegas que trabalham com produes de crianas ou produes de gente pouco escolarizada, que no passou justamente por esse processo de normatizao. Talvez aqui haja gente trabalhando com isso, para ver como que as pessoas usam a pontuao. Talvez a tendncia mais natural seja usar a pontuao como uma marca de grupos prosdicos, e o que achamos ainda em textos do sculo XVIII. Ainda est para ser feita uma histria da pontuao no portugus. Existem trabalhos com a pontuao antiga, mas a que est, a histria do portugus foi muito trabalhada at o sculo XVI e depois achou-se que j era a lngua moderna, por isso houve muito menos trabalhos. Mas isso falso. A lngua portuguesa ainda passou por srias modificaes depois do

sculo XVI. A pontuao dos sculos XVII e XVIII bem diferente da nossa. Ela mais retrica, mais ligada prosdia, e seria muito interessante estud-la e comparar eventualmente com o que fazem pessoas pouco escolarizadas na lngua moderna, porque a escolarizao moderna leva as pessoas a usarem a pontuao de maneira semntica, sinttica e lgica eu diria. Ento, ns vamos, em algum momento, trabalhar essa pontuao. At agora, a gente tinha pouqussimos textos com a pontuao original, porque os editores mudam a pontuao, isso uma coisa assim, no tem jeito, voc v, l a primeira pgina, compara com a edio original e v que a primeira vrgula j mudou de lugar, uma coisa que os editores no deixam de fazer, mesmo quando eles mexem pouco na ortografia. Claudio Outra pergunta da platia: Na sua pesquisa existe alguma etiquetagem para o estudo do contexto transfrstico, por exemplo? Vocs esto pensando alguma coisa assim? Voc falou agora da pontuao. H alguma etiqueta para isso? Charlotte Sim, a pontuao vem etiquetada. Mas no h etiquetas remetendo a funes transfrsticas. O nosso sistema de etiquetagem um sistema que se d no nvel da frase, mas eu penso mesmo, e isso me aconteceu com os clticos, que muitas vezes a gente vai ter interesse em olhar para o texto. A vantagem de ter o Corpus disposio que voc pode ir para ele. Ns no damos as ferramentas imediatamente, porque no fazemos uma anlise textual, a prpria anotao sinttica uma anotao muito bsica para recuperar informaes, mas, depois, eu acho que a gente, at para anlise sinttica tem que voltar ao texto. por isso que disponibilizamos o texto inteiro, porque o pesquisador no pode prescindir do texto. Agora, eu acho que esse Corpus, apesar de ser pensado para anlise sinttica, ele j pode ser um Corpus interessante para anlise textual e para a interface entre a sintaxe e o texto, a sintaxe e a prosdia. Claudio Outra pergunta da platia: Ao explicar a presena da nclise e sujeito, voc usou o conceito de tpico, que de discurso. Como que voc concilia os aspectos gerativistas e discursivos? Charlotte Eu acho que a gramtica um rgo biolgico, mas ela , obviamente, usada para funes discursivas. Ento, eu sempre achei que uma abordagem discursiva e a abordagem sinttica, mesmo gerativista, no eram incompatveis, mas complementares. E para mim esse trabalho com Vieira foi fascinante, porque eu vi que a nclise nos sermes tem a ver com o estilo dele. E isso passa por uma anlise sinttica, em que a noo de tpico importante, mas a noo de tpico uma noo de interface

sintaxe/discurso, porque o tpico tambm uma noo discursiva. Acontece que cada lngua trata sintaticamente o tpico de maneira diferente. Ento, tipicamente, existem lnguas nas quais o tpico sempre um elemento externo orao, e lnguas nas quais o tpico pode ocupar uma posio interna orao. Lnguas como o portugus clssico, o portugus antigo possivelmente tambm, as lnguas de acento inicial, so lnguas que podem ter um tpico interno orao. Ento, o tpico, do ponto de vista discursivo, vai ser o mesmo, mas cada sintaxe vai tratar esse tpico de maneira diferente, e pode ser um gancho justamente na mudana das lnguas uma vez que a reanlise da posio do tpico um lugar de mudana sinttica. Claudio Eu vou pedir a compreenso de todos que enviaram perguntas e solicitar que venham conversar com a professora Charlotte reservadamente, porque nosso tempo est mais do que esgotado. Quero novamente me congratular com a professora pela belssima exposio e agradecer pela sua presena em nosso Seminrio. Charlotte Obrigada a todos. Foi um prazer estar com vocs. @@@@@@@

N. do Org.: Verso escrita pela autora a partir de transcrio feita pela monitora Mrcia de Oliveira Gomes, do Instituto de Letras da UERJ.

Você também pode gostar