Você está na página 1de 23

Keimelion - reviso de textos

Confiana e pontualidade

COMPLEXIDADE TEXTUAL EM ARTIGOS CIENTFICOS: CONTRIBUIES PARA O ESTUDO DO TEXTO CIENTFICO EM PORTUGUS1.
Maria Jos Bocorny Finatto2

RESUMO: This text presents the basis of a research project that deals with the issue of textual complexity (TC), examining aspects of Pediatrics papers against newspaper articles. In the literature review, it is mobilized works related to the subject of TC in Applied Linguistics, Terminology studies that follow a textual point of view, Computational Linguistics and Corpus Linguistics. Some highlighted elements in the contrast between the examination of texts and the literature reviewed are the measures to TC ratio and degrees of text specialization, which would preview differences between specialized language and everyday language. The paper concludes with the presentation of prospects for the treatment of the issue of TC among the studies on scientific discourse. PALAVRAS-CHAVE: Complexidade textual, Lingstica Aplicada, Lingstica de Corpus, Terminologia, Linguagens especializadas.

INTRODUO

O principal objetivo deste trabalho refletir sobre modos para tratar do tema da complexidade textual (doravante CT) no mbito dos estudos sobre textos e linguagens especializadas. A pergunta que guia o trabalho a seguinte: haveria como avaliar em que medida textos cientficos do tipo artigo seriam mais ou menos complexos em relao a textos cientficos de outros perfis ou mesmo em relao a textos no-especializados3? Ao ponderar sobre as contribuies da Terminologia de perspectiva textual (CIAPUSCIO, 2003), da Lingstica Aplicada (LA), da Lingstica de Corpus (LC), especialmente a Anlise Multi-Dimensional da LC (proposta por BIBER, 1988), e da Lingstica Computacional (LCOMP), representada aqui por um sistema para mensurao de graus de complexidade ou de inteligibilidade de textos para diferentes usurios (SCARTON, ALUSIO, 2010), discute-se como essas perspectivas poderiam cooperar em prol de um entendimento sobre fatores e fenmenos que perfazem a complexidade de um texto cientfico.
Este texto contm as bases da pesquisa de ps-doutoramento realizada entre fevereiro e julho de 2011I junto ao NILC-ICMC-USP (Ncleo Interinstitucional de Lingstica Computacional do Instituto de Cincias Matemticas e Computacionais da Universidade de So Paulo, campus de So Carlos SP). 2 Pesquisadora do Grupo TERMISUL, coordenadora do Projeto TEXTECC e TEXTQUIM, bolsista produtividade em pesquisa do CNPq, ps-doutoranda NILC-ICMC-USP. 3 No faremos aqui a ponderao de praxe sobre a diferena entre textos especializados e no especializados. Essa uma discusso que replica a oposio termo/palavra comum. Assumiremos apenas, tal como explica Maciel (2010, p.25), que a realizao lingstica do texto especializado, nela compreendida sua estruturao gramatical, textual e terminolgica e ainda sua formatao grfica, depende de fatores temticos e pragmticos. A influncia desses fatores se faz sentir tanto na ativao do valor especializado das palavras que, no evento comunicativo, desempenham a funo de vetor da transmisso da informao, da instruo, do mandamento, da sugesto e do conselho, como na seleo dos elementos lexicais que os articulam na estrutura sinttica e na configurao discursiva.
1

http://www.keimelion.com.br

Keimelion - reviso de textos

Confiana e pontualidade

Esse entendimento, tal como posto aqui, pode beneficiar sobretudo lingistas interessados em descrever e em analisar a constituio de textos especializados, seja do ponto de vista terminolgico, seja do ponto de vista discursivo-textual ou mesmo gramatical. Em sntese, pretende-se evidenciar como diferentes metodologias descritivas, de diferentes procedncias tericas, poderiam ser aplicveis observao de textos do tipo artigo cientfico. Nesse sentido, tanto em termos de tratamento de unidades textuais quanto em termos de tratamento de corpora, sinaliza-se a importncia do dilogo entre LA, LC e LCOMP a favor de incrementar-se o estudo de padres de complexidade textual (CT) associados aos textos especializados em geral. Como pano de fundo para ilustrar o potencial de sinergia dessas contribuies, abordada a complexidade de um exemplar de artigo cientfico de Pediatria sob a tica das diferentes perspectivas mencionadas. E, como um brevssimo contraponto ilustrativo para a condio de especializao4 do texto em foco, toma-se um texto de editoria geral de notcias de um jornal popular brasileiro5 . um jornal dirio da cidade de Porto Alegre RS dirigido a pblicos leitores de menor poder aquisitivo, adultos com escolaridade mdia estimada correspondente ao Ensino Fundamental completo de oito anos6. O trabalho est organizado da seguinte maneira: na primeira parte, denominada complexidade textual em reviso, feita uma varredura bibliogrfica em busca de trabalhos ou de propostas, de diversas procedncias, com destaque para os estudos de leitura, que possam ser associadas de alguma forma ao tratamento do tema da CT em textos especializados. Depois, na segunda parte, caracteriza-se a perspectiva da AMD para a descrio de textos, ilustrando-se essa proposta metodolgica com a sntese de um trabalho brasileiro (SHERGUE, 2003) dedicado ao estudo de artigos mdicos da rea de Hematologia, tendo sido tais textos contrapostos a textos transcritos de comunicaes orais em congresso na mesma especialidade. Na terceira parte, traz-se o enfoque da LCOMP, em uma parte eminentemente experimental e exploratria deste texto, na qual observam-se diferentes medidas de complexidade textual geradas pela ferramenta computacional Coh-Metrix partindo-se de um trecho da Constituio do Brasil e de um artigo de Pediatria. Na quarta parte, relaciona-se a metodologia Coh-Metrix e os seus resultados com as consideraes de nveis textuais de Ciapuscio (2003), conectando-se dimenses e fatores da AMD. Ao final dessa parte, concluindo o texto, o trabalho faz consideraes sobre possibilidades para agregao do tema da CT aos estudos sobre textos especializados.

PRIMEIRA PARTE - COMPLEXIDADE TEXTUAL EM REVISO

No panorama da Lingstica Aplicada (LA) nacional e internacional, o tema da complexidade textual (CT) integrou estudos sobre Leitura, incluindo pesquisas sobre compreenso e estratgias de leitura, sobre tipificao de leitores e sobre elementos lingsticos associados a dificuldades de compreenso de leitura. Embora esses estudos tenham gerado importantes contribuies, como a distino entre complexidade informativa e complexidade lingstica, permanecem escassos, no Brasil, os trabalhos baseados em corpora, realizados com grandes extenses de dados e apoio informatizado, dedicados a reconhecer caractersticas estruturais globais de textos mais ou menos complexos em funo das habilidades ou condies de determinados tipos de leitores.
Essa condio de especializao, bem sabemos, tem sido muito discutida e debatida. Para um boa reviso a respeito, recomendo o trabalho de Zilio (2009). 5 Textos do jornal popular porto-alegrense Dirio Gacho, disponveis para estudo no site www.ufrgs.br/textecc , projeto PorPopular. 6 O nvel de escolaridade do leitor do DG est aqui apenas grosseiramente estimado. O pblico leitor corresponde ao que se denomina pblicos das classes C e D. Sua tiragem media diria de 150 mil exemplares; apenas vendido em bancas, no tem assinatura. Circula apenas na cidade de Porto Alegre e regio metropolitana e cada exemplar exemplar tende a ser compartilhado por pelo menos 5 pessoas. O jornal circula h 11 anos e publicado pela empresa RBS, que tamb publica jornais para os pblicos das classes A e B.
4

http://www.keimelion.com.br

Keimelion - reviso de textos

Confiana e pontualidade

Essa escassez, conforme se pode interpretar, est relacionada a dois fatores. Primeiro, ao relativamente recente enfrentamento do objeto texto, geralmente preterido em funo de enfoques dedicados a frases, palavras ou expresses sintagmticas. Segundo, a uma pouca experincia com a manipulao computacional de grandes corpora, algo recente no mbito dos Estudos da Linguagem no nosso pas. Por outro lado, h, na bibliografia estrangeira, registros de pesquisas sobre readbility ou legibilidade ou complexidade lingstica pelo menos desde os anos 1920, conforme j assinalaram Davison e Green (1988, p.1-4). Esses trabalhos trataram desde a compreenso de palavras at a compreenso de sentenas, chegando a textos de literatura, especialmente histrias curtas ou contos para crianas e jovens, tendo sido contemplada inclusive a compreenso de leitura de adultos com dificuldades cognitivas7. Sobre compreenso do texto cientfico ou tcnico, entretanto, as referncias so relativamente poucas8. Na obra fundamental das linguistas norte-americanas Davison e Green (op.cit., 1988) intitulada Linguistic Complexity and Text Comprehension: Readability Issues Reconsidered, por exemplo, h apenas dois trabalhos dedicados a problemas de compreenso ou de acessibilidade de textos cientficos ou tcnicos em um nvel global. H um trabalho dedicado a uma amostra de textos operativos da Marinha da OTAN (BAKER, ATWOOD E DUFFY, 1988). Esse trabalho tratou de trechos de manuais de instruo, os quais foram apresentados em verses originais e simplificadas para testes de compreenso com um grupo de leitores tcnicos de formaes diferenciadas. O outro trabalho que h nessa obra foi dedicado a cartas de recall de fabricantes de veculos9 (CHARROW, 1988). Nele h interessantes propostas para a elaborao dessas cartas de um modo mais acessvel para um consumidor leigo; entretanto, como a compreenso de um todo o objeto privilegiado, a presena de terminologias como um fator de dificuldade tratada apenas de modo incidental. Enfim, desde muito tempo, buscaram-se frmulas ou modelos sempre muito discutidos e criticados que fossem capazes de prever quais elementos textuais estariam mais associados dificuldade de compreenso da escrita, de modo que pudessem ser gerados textos de acesso mais facilitado para uma grande fatia de populao leitora. Essa populao, cabe situar, correspondia a grupos sociais de escolarizao recente. Entre esses estudos mais antigos de amplo espectro, no associados a uma perspectiva especfica de Lingstica, produzidos por volta dos anos 70, entretanto, no encontramos muitas referncias sobre as condies de legibilidade de textos especializados. No Brasil, um dos primeiros lingistas a se debruar sobre o tema da leitura funcional e da maior ou menor habilidade de leitura foi Perini (1982), com o trabalho Tpicos discursivos e legibilidade (apud FULGNCIO, LIBERATO, 2004, p. 9). Propunha o autor, ento, que os estudantes brasileiros tivessem acesso a materiais de leitura graduados de acordo com o seu nvel de escolaridade e nvel de dificuldade de compreenso. A partir do legado de trabalhos fundadores tais como o de Perini, antes referido, Neis (1982) e Kleiman (1987, 1989, 1993, 1997), Kato (1982) e Averbuck, Appel e Hessel (1983), entre outros, produzidos especialmente ao longo dos anos 80 e 90, temos hoje no Brasil um vasto e multifacetado alicerce de estudos sobre o tema da Leitura. Esse corpo de conhecimento permitiu-nos hoje distinguir especificidades das noes de leitura, alfabetizao, letramento, competncia textual, competncia lexical e competncia leitora. Isso sem mencionarmos os inmeros trabalhos sobre o tema da Leitura na rea da Educao, Ensino de Lngua Portuguesa e de Lnguas Estrangeiras ou de Psicolingstica. Nacionalmente, entre os vrios trabalhos dedicados ao tema da compreenso de
7 Uma obra indicada pelas autoras What makes a book readable?, publicada em 1935 (GRAY, LEARY,1935). Essa obra tentava predizer dificuldades de compreenso de leitura de adultos com algum tipo de dficit cognitivo considerando um universo de 350 livros. 8 Naturalmente, h que se considerar que o texto cientfico se s coloca como tal, institucionalmente, a partir dos anos 1930, quando ocorre uma primeira reunio internacional de editores de textos cientficos. Alm disso, a leitura tcnica ou cientfica s se distingue como tal medida que haja tambm uma institucionalizao da formao profissional, a qual gera e consome registros escritos sobre um saber e um saber-fazer. 9 Interessante como esse tipo de texto atualmente tornou-se abundante no Brasil; cada vez compramos mais automveis e j temos o anncio de recall recorrentemente presente em jornais de circulao diria.

http://www.keimelion.com.br

Keimelion - reviso de textos

Confiana e pontualidade

leitura, a partir dos anos 90, destacam-se as obras de Kleiman (1997) e de Leffa (1996). Leffa, por exemplo, j apontava que uma descrio completa do processo da compreenso deve levar em conta, no mnimo, trs aspectos essenciais: o texto, o leitor e as circunstncias em que se d o encontro entre ambos. Ao tratar do papel do texto, Leffa (op.cit) observa que, nos estudos atuais, ainda persiste a preocupao centrada no lxico e na estrutura sinttica das frases. Porm, conforme situa, diferentemente de estudos desenvolvidos durante as dcadas de 50 e 60, a anlise do objeto-texto evoluiu da micro para a macroestrutura. Assim, na sua interpretao sobre uma trajetria de investigaes, a compreenso de um texto deixou de ser entendida apenas como um processo linear. Isso ocorreu medida que se passou a valorizar a apreenso no-linear de segmentos selecionados. Alm da apresentao grfica do texto (que o autor associa com legibilidade) e do uso de palavras freqentes e estruturas sintticas menos complexas (relacionada por ele com inteligibilidade), fatores tradicionalmente conhecidos como facilitadores da compreenso e a organizao interna ou estrutural do texto tambm conquistaram destaques importantes em meio s investigaes. Ainda que no tivessem o objetivo de tratar de um determinado tipo de texto, tampouco de textos especializados, os trabalhos de Kleiman e de Leffa, por sua amplitude e qualidade, tm sido muito referidos quando se trata de ensino de leitura em lnguas estrangeiras, sobretudo no segmento denominado Leitura Instrumental. Pois, justamente no mbito dos estudos de Leitura Instrumental ou de LSP (Language for Specific Purposes), encontra-se uma significativa produo sobre leitura e escrita de textos cientficos e tcnicos. Ainda que o foco seja bastante centrado em uma escrita acadmica associada ao ensino/aprendizagem de lnguas estrangeiras, h muito que se pode aproveitar para a descrio de caractersticas desses textos, mesmo que a complexidade seja um assunto um pouco incidental. E, mais recentemente, pelo menos no Brasil, com a combinao dos estudos em corpora com ensino de lnguas estrangeiras, tal como vemos em Viana e Tagnin (2010), h uma oferta de subsdios aproveitveis para caracterizar diferentes LSPs, importantes tambm para o ensino de traduo cientfica e tcnica. Outra reas de estudos que tm rendido boas consideraes sobre a natureza e especificidades do texto cientifico ou tcnico so a Anlise Crtica do Discurso (ACD) e os estudos sobre Gneros Textuais, cabendo destacar, no mbito internacional, os trabalhos de Swales (1990) dedicados escrita acadmica, especialmente artigos cientficos. No cenrio brasileiro, a obra de Meurer e Mota-Roth (2005), por exemplo, apresenta a ACD e traz uma srie de ensaios que visam, entre outros assuntos, identificar traos de gneros textuais e discursivos tais como folhetos e relatrios de empresas. Sob a perspectiva da Lingstica de Corpus (LC), num mbito global, pode-se considerar que o tema da CT (independentemente do tipo de texto envolvido, seja literatura ou texto tcnico-cientfico) tenha sido parcialmente contemplado. No mbito brasileiro, por exemplo, no se pode deixar de citar o pioneiro Projeto DIRECT10 em direo linguagem do trabalho. Esse grupo de pesquisa, desde 1991, junto ao LAEL da PUC-SP, trata de textos especializados da rea de Administrao de Empresas e Negcios. O DIRECT objetiva promover estudos sobre a linguagem das profisses, em portugus, ingls e espanhol. Descreve contextos originais de interao profissional, tais como reunies de negcios, documentos empresariais de circulao restrita, e textos empresariais de domnio pblico em que o portugus (como lngua materna) e o ingls (como lngua estrangeira) so utilizados. Alm disso, visa identificar as causas de possveis problemas de comunicao no ambiente empresarial atravs da anlise detalhada de situaes bem-sucedidas. Volta-se, desse modo, para a descrio de gneros lingsticos e de processos discursivos. Quanto LC em um mbito internacional mais global, a qual d suporte a vrios
10

Para mais detalhes, ver <http://www2.lael.pucsp.br/direct/projeto.htm >

http://www.keimelion.com.br

Keimelion - reviso de textos

Confiana e pontualidade

estudos do DIRECT, importante registrar a contribuio da Anlise Multidimensional (AMD), proposta por Biber em 1988 (BIBER,1988). Essa proposta para tratamento da variao ao longo de gneros textuais e discursivos ou registro no trata diretamente do tema da CT. Entretanto, a metodologia descritiva da AMD associada a todo um conjunto de princpios tericos da LC (tal como apresentados no Brasil por BERBER SARDINHA, 2004), conforme pretende-se explicitar mais adiante, colocaria, desde suas bases nos anos 80, uma srie de procedimentos aplicveis investigao de um fator como a CT. O enfoque da AMD combinou anlises de corpus de nvel macro com anlises de nvel micro, em encaminhamentos da macrodimenso do corpus microdimenso do texto e das sentenas que o integram. Nessa perspectiva, a microdescrio dos traos de cada texto deveria permitir a induo dos macro-agrupamentos textuais, tipificando-os por gneros (cf. explica BERBER SARDINHA, 2000). Assim, a AMD, ao identificar tipos discursivos ou textuais, embora no tenha tratado diretamente de CT, props mtodos descritivos da linguagem escrita teis para a ponderao sobre caractersticas de determinados tipos de texto. Esses mtodos, sem desconsiderar uma certa e inerente complexidade de aplicao para pessoas pouco afeitas a anlises estatsticas multifatoriais, poderiam ser associados a medidas ou fatores de maior ou menor complexidade textual. Na esteira da AMD, no cenrio fora do Brasil, o trabalho de Atkinson (1992), por exemplo, tratou de artigos cientficos sob uma perspectiva diacrnica. Seu diferencial foi justamente o de ter empregado uma metodologia de observao baseada em corpus para descrever o comportamento desse tipo de texto num intervalo de 1735 a 1985. No seu trabalho, no encontramos meno direta sobre complexidade textual, salvo o reconhecimento de uma certa prolixidade deliberada da retrica cientfica em ingls, recomendada por Sir Robert Boyle, precursor da Fsica e Qumica Modernas no sculo 18. No ser aprofundada aqui a descrio desse estudo visto que, mais adiante, dedicamos um segmento desta reviso para a AMD. De outro lado, no mbito da Lingstica Computacional (LCOMP), pelo menos desde os anos 60, muito j foi e tem sido produzido sob forma de sistemas que geram verses mais simplificadas de textos, incluindo a produo de ferramentas capazes de indicar diferentes tipos de medidas de CT. Essas ferramentas tambm conseguem produzir diferentes tipos de representaes esquemticas do contedo de um texto ou de todo um corpus. Esses sistemas de LCOMP, de base fundamentalmente estatstica, conseguem inclusive reconhecer tipologias textuais e graus de complexidade a eles associadas. Voltaremos mais adiante a esse tipo de enfoque computacional quando tratarmos do sistema Coh-Metrix. Por sua vez, na perspectiva dos estudos de Terminologia, muito j se escreveu sobre o texto e/ou discurso cientfico-tcnico, geralmente reconhecido como o habitat das terminologias e realizao das linguagens especializadas. Essas linguagens, obviamente, sero realizadas sobretudo sob a forma de textos escritos. Assim, passou-se a reconhecer o texto do tipo cientfico, o qual, por fora de sua institucionalizao e da normatizao terminolgica, tende a seguir padres mais ou menos fixos peculiares: padres lexicais, terminolgicos, retrico-argumentativos e de macroestruturao textual, entre outros. Alm dos estudos de Terminologia, cabe tambm registrar o enfoque denominado Lingustica do Texto Especializado (KALVERKMPER, 1983). Por fim, mas no menos importante, resta ainda mencionar nesta breve reviso a linha dos estudos de Terminologia que se associaram aos estudos do texto especializado. Um trabalho que tratou, ainda que indiretamente do tema da CT, foi o de Ciapuscio (1998). Essa autora avaliou o grau de abstrao conceitual em diferentes tipos de textos que tratavam de uma mesma temtica, mas que eram dirigidos a diferentes perfis de leitores (cientistas, pblico semi-leigo e leigo). Considerou como fatores distintivos dos graus de especializao desses textos, produzidos por cientistas e por jornalistas que cobrem temas cientficos coincidentes, o uso de terminologia especfica e a presena de variao terminolgica, realizada na forma de sinnimos, parfrases e explanaes.

http://www.keimelion.com.br

Keimelion - reviso de textos

Confiana e pontualidade

Conforme explica Maciel (2010, p. 23-24), Ciapuscio examinou como a variao conceitual do termo se adaptava variao discursiva, a fim de modular o grau de densidade da informao a ser oferecida ao usurio, de maneira que o texto se tornasse mais ou menos transparente. Quando no havia variao da terminologia, o texto exibia um maior grau de densidade do conhecimento especializado. Mais recentemente, em 2003, Ciapuscio desenvolveu essas idias no livro Textos especializados y terminologia (CIAPUSCIO, 2003). A partir do modo de apresentao de esquemas de contedo e das terminologias nos textos que tratam de temas cientficos, propondo uma tipologizao multinvel. Para chegar a uma categorizao dos textos, a autora prope a considerao de quatro nveis: a) o nvel funcional do texto que trata da sua funo ou propsito; b) o nvel situacional associado aos interlocutores e tipo de comunicao envolvidos; c) o nvel de contedo semntico, que inclui modos de tratamento e de apresentao do tema; e, d) nvel formal-gramatical, que inclui aspectos gramaticais, lexicais e terminolgicos. Cada um desses nveis receber uma gradao, e a sua juno permitir identificar tipos de textos em funo de diferentes condies. Conforme fcil perceber, h aqui, semelhana da AMD, uma perspectiva multinvel para a considerao de um todo de sentido que naturalmente multifacetado. Como pretendemos voltar proposta de Ciapuscio mais adiante, passamos agora a uma apresentao mais detalhada da AMD com vistas a identificar suas potencialidades para o estudo da CT de textos cientficos.

SEGUNDA PARTE - ANLISE MULTI-DIMENSIONAL (AMD) NA LINGSTICA DE CORPUS

Como j mencionado, a abordagem Multi-Dimensional, proposta por Douglas Biber a partir de 1988 (BIBER 1988 e 1995), propunha combinar anlises de corpus de nvel macro com anlises de nvel micro. A microdescrio dos traos de cada texto visa permitir a induo dos macro-agrupamentos textuais ou genricos (BERBER SARDINHA, 2000, p.100). Assim, pode-se supor que essa seja uma metodologia do tipo bottom-up, pois, a partir do que se verificar nos textos, averiguando-se inmeros traos, que os textos sero categorizados em funo de diferentes elementos. De acordo com Berber Sardinha (2000),
a anlise Multidimensional foi criada por Douglas Biber com o objetivo de permitir uma descrio rica e complexa de corpora inteiros de textos por meio estatsticos bem como a extrao precisa de caractersticas textuais em comum entre corpora. Anteriormente Anlise Multimensional, a tendncia era de que se estudasse a co-ocorrncia de poucos traos e que se fizesse a interpretao de modo intuitivo. A variao entre registros era investigada comumente por meio de poucos parmetros, Desse modo, possvel empreender-se uma anlise de larga escala de um corpus fazendo-se descries individuais ao longo do tempo, combinando-se posteriormente as anlises para fins comparativos. Por isso, a abordagem Multidimensional presta-se perfeitamente a projetos de descrio de bancos de dados em crescimento, ou seja, aquelas bases de dados lingsticos que esto em processo de coleta.

Conforme afirmava Berber Sardinha, j h dez anos atrs (op.cit., 2000), trabalhos que incluam anlises multidimensionais de dados de corpora ainda no eram muito abundantes no Brasil, embora sua proposta tenha sido apresentada internacionalmente desde 1988. Isso leva-nos a imaginar que, independentemente de maior ou menor divulgao entre ns, esse tipo de investigao deve ter - e tem - , naturalmente, suas dificuldades operativas. Afinal, associar anlises de nvel geral do corpus como um todo - com anlises de nvel textual de um texto no corpus e dele com suas frases ou expresses em funo de diferentes dimenses

http://www.keimelion.com.br

Keimelion - reviso de textos

Confiana e pontualidade

- uma tarefa complexa. H que considerar, tambm, algumas crticas importante proposta da AMD como elementos inibidores de sua disseminao, principalmente o fato de que o tipo de anlise de texto empreendida por Biber, originalmente, ter sido feita no nvel da palavra em inmeros contextos sentenciais e no no nvel do texto. A despeito de quaisquer limitaes ou crticas, preciso reconhecer o carter inovador dessa proposta. O ideal, para se descrever os diferentes tipos de texto, conforme Biber props, seria combinar a descrio firmada em caractersticas situacionais da comunicao com a descrio baseada em traos lingusticos. E aqui j temos pelo menos duas dimenses. A AMD se prope justamente a isso, ou seja, a fornecer o instrumental para a identificao de padres de co-ocorrncias dos dois tipos de caractersticas, lingsticas e situacionais. Visa caracterizar uma lngua como um todo ou um conjunto de de textos, de modo abrangente. Possui carter essencialmente quantitativo e computacional, descrevendo seus objetos por meio de uma grande quantidade de caractersticas. No Brasil, um dos trabalhos que justamente que associou AMD e textos cientficos foi o de Shergue (2003). Seu estudo incidiu sobre sobre dimenses de variao do discurso mdico em ingls, tendo em vista auxiliar a produo oral e a compreenso de leitura em ingls de profissionais brasileiros. Seu corpus foi constitudo por uns poucos artigos de pesquisa e textos transcritos de apresentaes orais de trabalhos cientficos em congressos. Em que pese a pequena dimenso de textos sob exame, conforme explica o autor, recuperando princpios do modelo de Biber, a qualidade da seleo do corpus o fator mais preponderante nesse tipo de enfoque, em detrimento da quantidade. Como nosso objeto para explorao do tema da CT justamente o artigo de Pediatria em escrito portugus, utilizaremos esse trabalho de Shergue como um exemplo ilustrativo das metodologias e princpios da AMD. Conforme seu autor, o trabalho procurou,
partindo da co-ocorrncia de variveis, buscar funes comunicativas subjacentemente compartilhadas nos corpora que, marcando o uso sistemtico dessas caractersticas, podem determinar onde gneros podem ser distribudos em um espao oral/escrito de variao contnua, ao invs de simples similaridades e diferenas.(SHERGUE, 2003, p.6)

Passos da AMD no trabalho de Shergue Antes de mais nada, conforme praxe na AMD, o que o autor fez foi revisar a bibliografia que tratou dos tipos de texto em questo para nela colher indicativos de caractersticas lingsticas para compor as variveis de estudo. A partir de um conjunto de caractersticas lingusticas, foram a elas vinculadas algumas funes conforme exemplificado do quadro 1 a seguir. importante notar que a corelao caracterstica-funo ilustrada est associada a indicaes da bibliografia e que no h, nelas, um recorte entre o que seria do texto oral ou do escrito.
CARACTERSTICA LINGSTICA Conjuno coordenada Conjuno subordinada Pronomes pessoais de 1a. e 2a. pessoas Salvaguardas FUNES Conexo entre oraes, fragmentar o texto (Pacheco, 1997: 95) Conexo entre oraes, complexidade estrutural (Pacheco, 1997: 95) Interao e envolvimento (Biber, 1988:225) marcar incerteza do autor ou apresentar o contedo de forma mais generalizada, distanciamento (Chafe e Danielewicz, 1986 em Biber, 1988:106, 240; Salager-Meyer (1994:154) Distanciamento e abstrao (Biber, 1988:228) Interao com o ouvinte em chamadas de ateno para o tpico que est sendo apresentado (Serafini & Shergue, 2002) Organizar o texto no em funo de ns mesmos mas em funo de idias, razes, causas, distanciamentos (Eggins, 1994:59)

Passiva Look e See Densidade e nominalizaes

Quadro 1 Caractersticas lingsticas e funes. Fonte: Adaptado de Shergue, 2003, p. 13 http://www.keimelion.com.br

Keimelion - reviso de textos

Confiana e pontualidade

No que se refere definio do que seja uma dimenso, vale reproduzir a indicao do autor, citando Berber Sardinha (2000, p.106): Dimenso o status que um fator assume assim que ele interpretado do ponto de vista da sua funo comunicativa. Para ficar mais claro, preciso compreender que um fator um conjunto de caractersticas lingusticas, tais como as elencadas no quadro 1, de modo que elas, as dimenses, no so um ponto de partida, mas um ponto de chegada da observao. Essas noes devem ficar mais claras para o leitor deste texto mais adiante. Na Figura 1 a seguir, vemos trs dimenses, que so correlaes, entre a maior ou menor presena de algumas caractersticas lingusticas e um dado grupo de textos. As caractersticas (no caso, uso de passivas, pronomes, verbos no passado, nominalizaes, contraes) so agrupadas de modos diferentes e graduadas para os textos em foco. Esses textos so um artigo cientfico, uma discusso sobre um pster, uma conversa e um texto de fico.

Figura 1- Reproduo de ilustrao de dimenso de Shergue, citando Biber. Esses agrupamentos, que so as dimenses, so vistos como um conjunto de caractersticas lingsticas que co-ocorrem em um texto porque operam juntas para marcar alguma funo comum subjacente (BIBER, 1988, p. 55, apud SHERGUE, grifos deste). Essa alguma funo subjacente ser depreendida pelo analista considerando-se a combinao entre a situao comunicativa e as funes (gramaticais e semntico-pragmticas) dos elementos lingusticos levantados. Neste ponto da operao, salienta-se que a combinao entre uma caracterstica X e uma Y (como, por exemplo, a caracterstica pronomes e a caracterstica verbos no passado, que fazem a dimenso C da Figura 1) no aleatria, mas, sim, estatisticamente depreendida. Para no estender demasiadamente esta parte dedicada a sintetizar o trabalho-exemplo com uso da AMD, passa-se agora a uma apresentao esquemtica dos seus passos, das dimenses e das caractersticas identificadas para os artigos de Medicina. Os passos metodolgicos do trabalho de Shergue (op.cit) foram os seguintes: Primeiro passo: a) construo de corpus de modo que seja representativo em relao ao que se pretende observar ( no caso, h uma distino entre textos orais, artigos, e textos orais, as apresentaes); b) etiquetagem do corpus;

http://www.keimelion.com.br

Keimelion - reviso de textos

Confiana e pontualidade

Segundo passo: reviso da bibliografia sobre caractersticas e funes dos textos do corpus. Essa reviso serve para definir as variveis presumidamente associadas aos textos; Terceiro passo: contagens de freqncia de ocorrncias das variveis em cada texto. Nesta atividade entram diversas ferramentas computacionais (observam-se freqncias em geral, clusters, e palavras-chave no sentido da LC); Quarto passo: normalizao das freqncias, objetivando um efeito de nivelamento da extenso irregular dos textos. Aps a normalizao, feita uma seleo e descarte, restando as variveis finais a serem submetidas anlise fatorial na prxima fase; Quinto passo: anlise microscpica e anlise macroscpica. A anlise macro chega nas dimenses globais da variao lingstica das variedades de elementos do corpus (tal como escrito vs. oral ou outra difereciao que se utilize, como, por exemplo, artigo de Pediatria e texto de jornal popular). Na parte micro, temos a identificao das funes comunicativas das caractersticas lingsticas individuais; Sexto passo: anlise fatorial. utilizado o pacote SPSS, programa de computador que faz uma srie de testes estatsticos, clculo de fatores, ndices estatsticos de significncia, mdia, desvio padro, etc. Aqui diferentes caractersticas so correlacionadas em grupos. O grupo denominado fator, conforme se v no Quadro 2 a seguir. importante salientar que as variveis tm pesos positivos e negativos.

Quadro 2 Pesos e funes de variveis agrupados em um fator. Stimo passo: identificao e denominao de dimenses. Nesse momento, unem-se as funes e correlaes acima identificadas e depreendida uma globalidade. Isso o que ilustra o Quadro 3 a seguir. No trabalho de Shergue, foram identificadas apenas duas dimenses.

Quadro 3 Dimenso 1 - Interao acadmica vs Distanciamento e abstrao.

http://www.keimelion.com.br

Keimelion - reviso de textos

Confiana e pontualidade

Conforme explica o autor,


A Dimenso 1, rotulada como Interao Acadmica versus Distanciamento e Abstrao, representa, de um lado, o discurso acadmico oral com propsito interacional e envolvimento pessoal e, de outro lado, o discurso escrito de contedo formal e abstrato, marcado pela apassivizao, pelos processos de salvaguardas, pela preciso numrica e densidade de contedo, promovendo o distanciamento entre o autor e o leitor.

Uma segunda dimenso identificada no trabalho de Shergue, denominada Dimenso 2 Nominalizao Tcnica Especfica versus Informalidade Textual Acadmica, incorporou , em diferentes nveis de variao nos mesmos textos, as funes comunicativas que promovem adensamento de contedos com nominalizao especfica e um certo grau de informalismo. Finalizando esta seo, dedicada AMD e ao seu modus operandi, aqui colocado em termos de passos, resta ainda dizer que muitas das caractersticas correlacionadas poderiam ser associadas a nveis ou a um dado nvel de complexidade textual o adensamento de contedos via nominalizaes seria apenas um dos exemplos dessa condio. A complexidade do texto poderia, assim, corresponder a uma dimenso, isto , a um dado grupo de caractersticas correlacionadas que operassem juntas para marcar alguma funo comum. De outro lado, importante registrar que no prprio trabalho de Biber (1988, p.10), quando ele coloca as bases da sua idia de dimenso, h, como exemplo, um trecho de um livro cientfico e um trecho de uma conversa entre duas pessoas sobre gostarem ou no de cerveja feita em casa. Ele mesmo aponta que, nesse exemplo, tem-se, entre outras, a dimenso comum vs. especializado. Conforme explica, medida que esses dois textos fossem ladeados por textos de outros tipos, veramos que a dimenso em questo mostraria-se como um continuum (tanto quanto as outras dimenses que traz para essa dupla de textos: interativo vs no-interativo e planejado vs no-planejado). Em cada dimenso, h diferentes elementos lingsticos relacionados que se graduam positiva e negativamente ao longo dos tipos de texto envolvidos. Feita essa caracterizao da AMD, passamos agora apresentao do sistema CohMetrix, que ser aqui tomado como um exemplo prototpico do enfoque da LCOMP.
TERCEIRA PARTE - SOBRE OS SISTEMAS COH-METRIX EM LCOMP

A Lingstica Computacional (LCOMP) ou Processamento da Linguagem Natural (PLN) a rea de conhecimento que explora as relaes entre Lingstica e Informtica, tornando possvel a construo de sistemas com capacidade de reconhecer e de produzir informao apresentada em linguagem natural (LIMA; STRUBE, 2001). Seu objetivo , assim, essencialmente aplicado, relacionado produo de um sistema concreto. Conforme Vieira e Lopes (2010), desde o surgimento das tcnicas de PLN, muitos avanos foram obtidos, mas a compreenso plena de linguagem natural por mtodos computacionais est ainda longe de ser resolvida. Ainda assim, o tratamento computacional da lngua um campo muito promissor11. Nascido do PLN, o sistema Coh-Metrix, que significa cohesion metrics, uma ferramenta para anlise de textos em ingls, disponvel gratuitamente on-line. Elaborada por pesquisadores da Universidade de Memphis, nos Estados Unidos (GRAESSER; McNAMARA; LOUWERSE; CAI, 2004), tem como propsito calcular ndices de coeso e
Um marco recente e concreto dessas promessas de desenvolvimento o computador WATSON, da IBM. Em fevereiro de 2011, foi apresentado, com sucesso, em uma competio de perguntas e respostas de um programa de TV norte-americano. WATSON enfrentou humanos e foi capaz de reconhecer perguntas feitas oralmente e de produzir linguagem oral com padro de naturalidade para as respostas que dava. O computador venceu os humanos na disputa. H vdeos a respeito no YouTube.
11

http://www.keimelion.com.br

Keimelion - reviso de textos

Confiana e pontualidade

de coerncia textual num amplo espectro de medidas lexicais, sintticas, semnticas e referenciais com o fim de indicar a adequao de um texto a seu pblico-alvo (a demanda cognitiva e a legibilidade do texto). Tambm tem a funo de apontar dados para identificar problemas textuais de ordem estrutural. At o momento, mais de 500 mtricas esto disponveis um uma verso restrita do Coh-Metrix. Dessas 500, apenas 60 esto disponveis na verso gratuita on-line no site do projeto. Para todas essas avaliaes (chamadas de mtricas na terminologia de Lingstica Computacional) vrios recursos e ferramentas de Processamento de Linguagem Natural so utilizados. A verso livre Coh-Metrix 2.012 opera com ndices que vo desde mtricas simples (como contagem de palavras) at medidas mais complexas, envolvendo algoritmos de resoluo anafrica. Os 60 ndices esto divididos em seis blocos que avaliam a complexidade de um texto a partir da mensurao dos seguintes elementos: 1) Identificao Geral e Informao de Referncia, ndices de Inteligibilidade, Palavras Gerais e Informao do Texto, ndices Sintticos, ndices Referenciais e Semnticos e Dimenses do Modelo de Situaes. Essa primeira classe corresponde s informaes que referenciam o texto, como ttulo, gnero entre outros; 2) ndices de inteligibilidade calculados com as frmulas Flesch Reading Ease e Flesch Kincaid Grade Level. Essas frmulas consideram tamanho de sentena, nmero de palavras por sentena e nmero de palavras diferentes por sentena; 3) Verificao de quatro subclasses: Contagens Bsicas, Freqncias, Concretude, Hipernimos; 4) Verificao de cinco subclasses: Constituintes, Pronomes, Tipos e Tokens, Conectivos, Operadores Lgicos e Similaridade sinttica de sentenas; 5) Verificao de trs subclasses: Anfora, Co-referncia e Anlise Semntica Latente; 6) Verificao de quatro subclasses: Dimenso Causal, Dimenso Intencional, Dimenso Temporal e Dimenso Espacial. Em sntese, trata-se de uma ferramenta que calcula ndices que avaliam a coeso, a coerncia e a dificuldade de compreenso de um texto em diferentes nveis. Esses nveis incluem os nveis lexical, sinttico, discursivo e um nvel denominado conceitual, observando-se fatores tais como nmero de sentenas, nmero de palavras por sentena, coreferncias, anforas, presena de conectores e de itens com ambigidade semntica e nmero de pronomes por sintagma. A partir do Coh-Metrix em ingls, uma iniciativa de adaptao para o portugus brasileiro das sessenta mtricas oferecidas gratuitamente surgiu no mbito do Projeto PorSimples13, cujo objetivo era o de identificar ndices de complexidade textual para simplificao de textos e facilitao do acesso informao a analfabetos funcionais e
12
13

(<http://cohmetrix.memphis.edu/cohmetrixpr/index.html>) O projeto PorSimples (http://caravelas.icmc.usp.br/wiki/index.php/Principal) iniciou em novembro de 2007. Tem apoio da FAPESP (Fundao de Amparo Pesquisa de So Paulo) e da MSR (Microsoft Research). Prope o desenvolvimento de uma tecnologia para facilitar o acesso informao dos analfabetos funcionais (AF) e, potencialmente, de pessoas com outras deficincias cognitivas, como afasia e dislexia. Essa tecnologia est oferecida em dois sistemas destinados a pblicos alvos diferentes: a) um sistema de autoria para ajudar redatores a produzir textos simplificados destinados aos AFs, textos estes que sero validados pelos redatores e b) um sistema facilitador para ajudar AFs a lerem um dado contedo da Web. Este ltimo inclui tarefas de sumarizao textual e simplificao sinttica (sistema FACILITA) e elaborao lxica, apresentao do texto salientando as relaes retricas entre as idias do texto, explicitao das Entidades Mencionadas e dos argumentos dos verbos (sistema FACILITA EDUCATIVO).

http://www.keimelion.com.br

Keimelion - reviso de textos

Confiana e pontualidade

pessoas com deficincias cognitivas. O nome da ferramenta correspondente em portugus Coh-Metrix-Port e est disponvel no site do PorSimples. Esse sistema foi desenvolvido pelo NILC (Ncleo Interinstitucional de Lingstica Computacional da USP). Para mais detalhes sobre o NILC, veja-se Nunes, Alusio e Pardo (2010). importante ressaltar que, at o momento, apenas 35 das 60 mtricas originais do Coh-Metrix foram adaptadas para o portugus do Brasil. Para que se tenha uma idia dos tipos de mtrica, medidas ou ndices em questo, reproduzimos a seguir, nas Figuras 2 e 3, respectivamente, uma amostra das mtricas para o ingls e uma parte da tela de sada de anlise para o portugus.

Figura 2 Mtricas do Coh-Metrix para o ingls (amostra).

http://www.keimelion.com.br

Keimelion - reviso de textos

Confiana e pontualidade

Figura 3 Sada do Coh-Metrix para o portugus Texto: Constituio do Brasil Ttulo II: Dos direitos e deveres individuais - Captulo I. Um item de destaque, nesse sistema de medidas, o ndice Flesch14. uma das diferentes medidas de complexidade do texto associada sua inteligibilidade para diferentes tipos de leitores. O resultado um nmero de 0 a 100 que assim mensurado (com a devida adaptao para o sistema escolar brasileiro feita pela equipe PorSimples):

muito fceis ndice entre 75 - 100, textos adequados para leitores com nvel de escolaridade at a quarta srie do ensino fundamental fceis ndice entre 50 - 75, textos adequados a alunos com escolaridade at a oitava srie do ensino fundamental difceis ndice entre 25 - 50, textos adequados para alunos cursando o ensino mdio ou universitrio muitos difceis ndice entre 0 - 25, textos adequados apenas para reas acadmicas especficas

O segmento de texto examinado na Figura 3, trecho da Constituio do Brasil, teve ndice Flesch de 24,17. Isso o coloca como um texto extremamente difcil. Naturalmente, essa apenas uma das mais de trinta mtricas oferecidas, tendo sido ilustrada apenas a parte denominada Contagens Bsicas. Para mais detalhes sobre o sistema Coh-Metrix-Port,
O nome Flesch deve-se a Rudolf Flesch (1911-1986). Esse autor foi um especialista em avaliaes de ndices de inteligibilidade de textos e defensor da idia de se usar um plain English (ingls simplificado) em determinada situaes de ensino/formao. Criou o Flesch Reading Ease Test e foi co-criador do Flesch-Kincaid Teste de Legibilidade.
14

http://www.keimelion.com.br

Keimelion - reviso de textos

Confiana e pontualidade

recomendamos a leitura do manual produzido por Almeida e Aluisio (2009). Como se pode perceber, no mbito da LCOMP, a observao do texto est muito mais associada a medidas de complexidade, relativamente dispersas, de um modo diferente do que j vimos na AMD. Tal como antes citado, possvel imaginar que o ndice Flesh pudesse ser aproveitado pela AMD, assim como a maior inter-relao de caractersticas da AMD poderia ser aproveitada pelo sistema Coh-Metrix. Note-se, por exemplo, que o sistema Coh-Metrix para o portugus no contempla a presena de voz passiva, tampouco associa funes ou atribui pesos diferenciados por tipo ou gnero do texto avaliados automaticamente. Outros aspectos que poderiam ser apontados como peculiares e at intrigantes, por exemplo, seriam a maior ou menor presena de adjetivos ou de advrbios, que integra o segmento Contagens Bsicas no Coh-Metrix. Esses tipos de elementos, a adjetivao e a modalizao adverbial15, que papel teriam em um texto especializado? A maior diferena, naturalmente, entre AMD e CohMetrix tambm reside no processamento de um s texto por vez. Vejamos agora o que a ferramenta Coh-Metrix mostra sobre a complexidade de um artigo de Pediatria coletado na revista brasileira Jornal de Pediatria Observando um artigo cientfico de Pediatria A seguir est um conjunto de figuras (Figura 4 at Figura 7) com algumas das avaliaes do sistema Coh-Metrix-Port para um texto de Pediatria intitulado Seguimento nutricional de pacientes com fibrose cstica: papel do aconselhamento nutricional, publicado na revista Jornal de Pediatria em 2004 (ADDE, RODRIGUES, CARDOSO, 2004). No sero apresentados todas as medidas, tampouco feitos maiores comentrios, visto que os dados parecem auto-explicativos em funo do que foi exposto na seo anterior.

Figura 4 Coh-Metrix- Port para um artigo de Pediatria - parte 1.


Um estudo exploratrio sobre adjetivos e advrbios em Qumica e Medicina foi feito por Finatto e Huang (2005).
15

http://www.keimelion.com.br

Keimelion - reviso de textos

Confiana e pontualidade

Figura 5 - Coh-Metrix- Port para um artigo de Pediatria - parte 2.

Figura 6 Coh-Metrix- Port para um artigo de Pediatria - parte 3. http://www.keimelion.com.br

Keimelion - reviso de textos

Confiana e pontualidade

Figura 7 - Coh-Metrix- Port para um artigo de Pediatria - parte 4 Como possvel notar pelo o que est nas figuras, o sistema funciona perfeitamente bem tambm para um texto Pediatria, com o diferencial de nos revelar que seu ndice Flesch fica em 25,66. O texto em questo um artigo original do qual se extrai apenas o corpo do texto, incluindo apenas a seo de Agradecimentos. Esse escore Flesch o situa na categoria dos textos difceis, categoria que fica entre as medidas 25 - 50, sinalizando-se, assim, um texto adequado para alunos cursando o ensino mdio ou universitrio. Para que essa argumentao no carea da evidncia, veja-se abaixo o primeiro trecho da introduo do todo do texto submetido ao Coh-Metrix Port:
A fibrose cstica (FC) uma desordem autossmica recessiva que afeta vrios sistemas do corpo humano, em especial o trato respiratrio. A importncia do estado nutricional para aumento da sobrevida e bem-estar dos pacientes com FC bem documentada na literatura (2). No entanto, a desnutrio continua sendo um srio problema em pacientes com FC. Nos Estados Unidos, o peso e a estatura de cerca de 20% das crianas e adolescentes com FC esto abaixo do percentil 5 (3). Dados a respeito da populao com fibrose cstica no Reino Unido (UK) tambm mostram dficits de peso e estatura, principalmente na faixa etria entre 1 e 10 anos de idade, embora tenha havido uma melhora no estado nutricional desses pacientes com relao s dcadas anteriores (4). A magnitude desse problema pode ser ainda pior em pases subdesenvolvidos, pois pode haver uma sobreposio de desnutrio primria e secundria na populao com FC. (ADDE et al., 2004)

At esse ponto deste texto, o leitor que acompanha deve se perguntar o que h de novo nessa medio para esse tipo de texto, visto que, em tese, e pela situao comunicativa posta, h uma harmonia, tambm em tese, entre tipo de leitor e tipo de texto. Parece algo bvio. Entretanto, no to bvia a condio do texto, tampouco o fato de tal considerao ter sido gerada automaticamente e de estar acompanhada por toda uma srie de outras medidas. Pois , justamente, na expanso desse nico ponto-medida do sistema Coh-MetrixPort que reside um potencial de entrelaamento muito novo com o modo de caracterizao de gneros textuais da AMD. Haveria uma inter-relao ou co-relao entre a medida http://www.keimelion.com.br

Keimelion - reviso de textos

Confiana e pontualidade

Pronomes por Sintagma e medida ndice Flesch? Isso, essa co-relao, o sistema Coh-Metrix ainda no mostra, enquanto correlaes so, justamente, um carro-chefe das dimenses de AMD. Um dilogo entre as duas metodologias e seus princpios parece ser necessrio para o mtuo enriquecimento de ambas. Naturalmente, mesmo que nenhuma das partes possa estar interessada nessa troca, do modo como desenhada aqui, pode o lingista que se ocupa do tema do texto cientfico, como um terceiro envolvido, unir essas duas pontas e utilizar os elementos de contato entre AMD e Coh-Metrix em prol de seus interesses de pesquisa.

QUARTA PARTE - CONSIDERAES FINAIS

Conforme h pouco referido, entremeando-se esses dois campos, a AMD e a LCOMP, representada aqui pelo sistema Coh-Metrix, pode situar-se a Terminologia e os estudos do texto tcnico-cientfico, associados como uma Lingstica do Texto Especializado. O texto de Pediatria, considerado especializado, pode, de certo modo, conforme se v na bibliografia de Terminologia de perspectiva textual, ser distinguido do no-especializado no que se refere a esquemas de contedo e ao uso ou no uso de terminologias (CIAPUSCIO, 2003, p.71). Nos textos menos especializados, conforme a autora, as terminologias podem ser reescritas ou parafraseadas, dada uma situao de popularizao para leigos ou semi-leigos. Entretanto, como fcil concluir, uma linguagem cientfica ou tcnica no se faz assim apenas em funo dos seus termos tcnicos (FINATTO, AZEREDO, 2010, p.560), que cada vez mais parecem figurar tambm na linguagem cotidiana. Por isso, um outro trao de especificidade do texto cientfico, explorado por Ciapuscio em trabalho mais recente (CIAPUSCIO, 2005) tambm a presena de metaforizaes. Conforme a autora, as metforas seriam un elemento extremamente interessante nos distintos estgios do continuum da comunicaco da cincia, desde a criao de conhecimentos no mbito mais especializado at sua divulgaco para o pblico leigo. Assim, ela prope tambm as metforas como elementos que pontuam e constituem esse continuum que se desenha do mais ao menos especializado (condio que pergunta-se aqui se poderia ser associada a um texto mais ou menos complexo). Considerando toda uma diversidade de fatores que poderiam ser evocados para indicar provveis condicionantes da CT em textos especializados de diferentes perfis e as caractersticas dos gneros ou dos registros envolvidos, pela conjuno de referenciais vistos at aqui, parece ser possvel realizar um movimento de reavaliao sobre a complexidade de textos que tenham mais ou menos terminologias alm de outros elementos, naturalmente. Conforme vimos, a partir do modo de apresentao de esquemas de contedo e das terminologias nos textos que tratam de temas cientficos, Ciapuscio props uma tipologizao multinvel. Vale a pena relembrar os nveis: a) o nvel funcional do texto que trata da sua funo ou propsito; b) o nvel situacional associado aos interlocutores e tipo de comunicao envolvidos; c) o nvel de contedo semntico, que inclui modos de tratamento e de apresentao do tema; e, d) nvel formal-gramatical, que inclui aspectos gramaticais, lexicais e terminolgicos. Para chegar a uma categorizao dos textos, a autora indica a considerao desses quatro nveis simultaneamente. Esses planos, como parece fcil concluir, assemelham-se a uma base que impregna a proposta da AMD, a qual defende a conjugao da dimenso lingstica com a dimenso funcional do texto para que se possa tratar das variaes entre

http://www.keimelion.com.br

Keimelion - reviso de textos gneros ou registros.

Confiana e pontualidade

De outro lado, ao examinar um output do sistema Coh-Metrix, cujo resultado gerado em segundos, um lingista experimentar vrios questionamentos. Entres esses questionamentos, vejamos alguns: O que significam tantos ndices ou mtricas postos lado a lado de uma nica vez? Ou melhor, o que se entende por complexidade do texto a partir desses diferentes escores? Por que esse sistema foi construdo desse modo? No que ele poderia ser melhorado? A complexidade do texto, entendida globalmente, pode ser considerada apenas como uma mdia dos diferentes fatores/mtricas? Que pesos diferentes poderiam ter diferentes medidas em diferentes situaes de texto? Que elementos desse sistema podem ser melhor aproveitados em um estudo de Lingstica Aplicada? Como se pode juntar 34 ou 54 mtricas em torno de alguma condio do texto, para alm do ndice de complexidade da medida Flesch? Essas perguntas, pontuais, somam-se, naturalmente, pergunta que abre este trabalho: haveria como avaliar em que medida textos cientficos do tipo artigo seriam mais ou menos complexos em relao a textos cientficos de outros perfis ou mesmo em relao a textos noespecializados? Ao que parece, a resposta sim, h como avaliar, mas preciso definir antes, algum parmetro ou uma srie deles em funo do objetivo que venha cumprir tal avaliao. Alm disso, pelo visto at agora, pelo menos no territrio da LCOMP e dos estudos de Leitura, j esto disponveis vrios recursos que poderiam nos ajudar na empreitada. Para terminar este texto, j demasiadamente longo, vejamos a seguir, o que o sistema Coh-Metrix mostra a respeito de um pequeno texto extrado de um jornal popular, publicao que dirigida a pblico de menor poder aquisitivo e que, em geral, tem tambm menor nvel de escolaridade ou letramento. O texto vem reproduzido antes da apresentao das medidas Coh-Metrix. A sada do sistema est exemplificada nas Figuras 8 e 9 a seguir:
Por Adriana Franciosi Editoria Geral Jornal Dirio Gacho, 2008. Pacote do trnsito Rigor nas multas O ministro da Justia, Tarso Genro, anunciou ontem um pacote de medidas para tornar leis de trnsito mais rgidas. So 28 as alteraes, que agora precisam ser aprovadas pelo Congresso Nacional. Se as mudanasforemconfirmadas, a multa da infrao gravssima, dependendo do caso, poder passar de R$ 1,5 mil. Atualmente, o valor mais alto de R$ 572,40. Outra medida a reduo,pela metade, do nvel de lcool tolerado no sangue. Dirigir embriagado passaria a ser crime, assim como ser flagrado duas vezesem um ano trafegandoem uma rodovia amais de 50km/hacima da velocidade permitida. Mudanas Multa mais alta passa de R$ 572,40 para R$ 1,5 mil. Motoristas multados mais de duas vezes em um mesmo ano, por dirigirem com velocidade mais de 50% acima da permitida,respondero por crime. Carteira A carteira de motorista vai ficar R$ 60 mais barata no Rio Grande do Sul. A reduo foi anunciada ontem pela governadora Yeda Crusius. O valor cai de R$ 805 para R$ 744. A diminuio se deve ao corte nas taxas cobradas pelo Detrane na reduo no preo dos servios oferecidos pelos centros de formao de condutores. A medida foi anunciada na vspera do aumento do preo da carteira, que devido ao reajuste anual da Unidade Padro Fiscal passaria para R$ 840.

http://www.keimelion.com.br

Keimelion - reviso de textos

Confiana e pontualidade

Figura 8 - Sada do Coh-Metrix-Port Contagens Bsicas, texto de jornal popularparte 1.

Figura 9 - Sada do Coh-Metrix-Port Contagens Bsicas, texto de jornal popularparte 2. http://www.keimelion.com.br

Keimelion - reviso de textos

Confiana e pontualidade

Como se pode perceber por esses resultados, pelo menos no que se refere ao ndice Flesch, temos um escore de 73.80, o que corresponde a um texto do tipo fcil, enquadrado no parmetro dos ndice entre 50 75. Isso d uma classificao de textos adequados a alunos com escolaridade at a oitava srie do ensino fundamental. Tal como ocorreu com o texto de Pediatria, a classificao parece bem justa se considerar-se o perfil do jornal e de seu pblico-alvo. Mas, o que mais h alm disso? Se detivermos nossa ateno na comparao entre o artigo cientfico de Pediatria e a notcia do jornal popular, veremos que a presena de pronomes parece ser um diferencial e que h a terminologia, naturalmente (que no constou dos excertos de quadros, mas aparecer na parte das contagens lexicais nominalizadas num caso e noutro, no). De outro lado, importa mencionar aqui tambm que h padres de texto associados e cultivados - no jornalismo, independentemente do carter popular. A escrita de jornal se pretende objetiva e sem repeties. A propsito, vale mencionar que um famoso jornalista16 j disse que se a lngua fosse mais rica em substantivos e verbos, no precisaramos usar tantos adjetivos e advrbios em um bom texto de jornal. Segundo entende, essas palavras embaam a exatido e fazem o texto parecer chumbo em lugar de cristal. Essa seria uma indicao sobre o papel de adjetivos e de advrbios na CT do jornal? De todo modo, contagens de adjetivos e de advrbios associadas a graus de intelegibilidade perfazem um padro nas mtricas do CohMetrix-Port. Assim, com 34 medidas diferentes associadas em torno de ndices de inteligibilidade de um texto, no h como no pensar em diferentes nveis ou dimenses das distintas e variadas complexidades mobilizadas. Nesse ponto, mais uma vez, a cooperao com a AMD e as tipologias multinveis de Ciapuscio (2003) parece ser um objetivo a ser seguido quando pensamos no texto cientfico em contraste com o texto do jornal popular. Por fim, cabe dizer que o propsito deste texto ser cumprido se o leitor que o seguiu at aqui tambm tiver experimentado essas e outras suspeitas. De nossa parte, seguiremos em busca das interrelaes mencionadas acima, tratando tanto de investigar tanto as j postas quanto as presumidas.

BIBLIOGRAFIA ADDE, Fabola V.; RODRIGUES, Joaquim C.; CARDOSO, Ary L. Seguimento nutricional de pacientes com fibrose cstica: papel do aconselhamento nutricional. J. Pediatr. (Rio J.), Porto Alegre, v. 80, n. 6, Dez. 2004, p.475-482. < http://www.jped.com.br/conteudo/0480-06-475/port.asp?cod=1261> ALMEIDA, D.M de; ALUISIO, S.M. Manual de Uso do Coh-Metrix-Port 1.0. Agosto de 2009. NILC-TR-09-05. Disponvel em: caravelas.icmc.usp.br/wiki/images/f/fc/NILC-TR-0905.pdf AVERBUCK, L. M. ; APPEL, M. B. ; SILVEIRA, R. M. H. . Leitura: fatores que interferem na compreensao de textos no ensino de primeiro grau.. Leitura. Teoria & Prtica (Campinas), Campinas, v. 1, p. 26-39, 1983. BAKER, Eva L. ; ATWOOD, Nancy K.; DUFFY, Thomas M. Cognitive Approaches to Assessing the Readability. IN: DAVISON, Alice; GREEN, Georgia M. (eds.) Linguistic
16

Otavio Frias Filho, no Antimanual de jornalismo. Folha de S.Paulo, 18.nov.1984. Caderno Folhetim, p. 7. Citado por Carlos Kaufmann (KAUFMANN, 2005)

http://www.keimelion.com.br

Keimelion - reviso de textos

Confiana e pontualidade

Complexity and text comprehension. Readability Issues Reconsidered. Hillsdale, Ney Jersey, London: Lawrence Erlbaum Associates, 1988. BERBER SARDINHA, Tony. (2000) Anlise multidimensional. DELTA, So Paulo, v. 16, n. 1, 2000. BERBER SARDINHA, Tony. (2004) Lingstica de corpus. Barueri: Manole. BIBER, Douglas (1988). Variation across Speech and Writing. Cambridge: Cambridge University Press, 1988. BIBER, Douglas (1995). Dimensions of Register Variation A Cross-Linguistic Comparison. Cambridge: Cambridge University Press, 1995. CIAPUSCIO, Guiomar (1998). La terminologa desde el punto de vista textual: selecci, tratamiento y variacin. Organon, v.12, n.26, 1998. p.43-65. CIAPUSCIO, Guiomar (2003). Textos especializados y terminoolga.Barcelona: IULA, 2003. CIAPUSCIO, Guiomar (2005). Las metforas en la comunicacin de ciencia. In: HARVEY, Anamara (org.) En torno al discurso: Estudios y perspectivas. Santiago: Universidad Catlica de Chile, 2005, p. 81-93. CHARROW, Veda. Readability Vs. Comprehensibility: a case study in Iproving a Real Document. In: DAVISON, Alice; GREEN, Georgia M. (eds.) Linguistic Complexity and text comprehension. Readability Issues Reconsidered. Hillsdale, Ney Jersey, London: Lawrence Erlbaum Associates, 1988, p.85-114. DAVISON, Alice; GREEN, Georgia M. (eds.) Linguistic Complexity and text comprehension. Readability Issues Reconsidered. Hillsdale, Ney Jersey, London: Lawrence Erlbaum Associates, 1988. 291p. FINATTO, M.J.B; AZEREDO, Susana de. Observaes da tessitura do texto especializado so observaes de/em Terminologia? In: As Cincias do Lxico, Lexicologia, Lexicografia, Terminologia. Vol.IV. Campo Grande, MS: Editora da UFMS, Porto Alegre:Editora da UFRGS, 2010. p.557-578 FINATTO, M. J. B.; HUANG, C. Da adjetivao em Qumica e Medicina: algumas implicaes para os estudos do lxico e de textos tcnico-cientficos. Revista Lngua & Literatura, Frederico Westphalen-RS, v. 6 e 7, n. 2004/2005, p. 45-56, 2005. FULGNCIO, Lcia, LIBERATO, Yara. Como facilitar a leitura: como se processa a leitura; orientao para textos didticos; aspectos discursivos. So Paulo: Contexto, 1992. GRAY, Willian.S,; LEARY, Bernice E. What makes a book readable? With special reference to adults of limited reading ability an initial study. Chicago: The University of Chicago Press, 1935. S. GRAESSER, A.C., MCNAMARA, D.S., LOUWERSE, M., & CAI, Z. (2004). Coh-Metrix: Analysis of text on cohesion and language. Behavior Research Methods, Instruments, & Computers, 36, 193-202.

http://www.keimelion.com.br

Keimelion - reviso de textos

Confiana e pontualidade

KATO, Mary. Reconhecimento instantneo e processamento. In: Srie Estudos, 8, Uberaba, MG, 1982. KAUFMANN, Carlos. O corpus do jornal: variao lingstica, gneros e dimenses da imprensa diria escrita. So Paulo: LAEL/ PUCSP, 2005. Diss. Mestrado. LEFFA, V. J. Fatores da compreenso na leitura. Projeto ELO, Ensino de lnguas online: 1996. Disponvel em: www.leffa.pro.br. LEFFA, V. J. O conceito de leitura. In: LEFFA, V. J. Aspectos da leitura. Porto Alegre: Sagra- Luzzato, 1996. p-9-24. KALVERKMPER, H. (1983) Textuelle Fachsprachen-Linguistik als Aufgabe. In: Zeitschrift fr Literaturwissenschaft und Linguistik, v. 51/52, n 13, p. 124-166. KLEIMAN, A. Aprendendo palavras, fazendo sentido: o ensino de vocabulrio nas primeiras sries. In: Trabalhos em Lingstica Aplicada 9. Campinas, SP: Universidade Estadual de Campinas, 1987. p. 47-81. KLEIMAN, A. Leitura: Ensino e Pesquisa. Campinas, SP: Pontes, 1989. KLEIMAN, A. Oficina de Leitura teoria e prtica. Campinas, SP: Pontes, 1993. KLEIMAN, A. Texto e leitor: aspectos cognitivos da leitura. 5.ed. Campinas: Pontes, 1997. MACIEL, Anna Maria B. Linguagens Especializadas e Terminologia: o Passado Projetando o Futuro. In: PERNA, C.; DELGADO, H.K.; FINATTO, M.J.B. Linguagens especializadas em corpora: modos de dizer e interfaces de pesquisa [recurso eletrnico]. Porto Alegre: EDIPUCRS, 2010. Modo de Acesso: < http://www.pucrs.br/edipucrs/> MEURER, J. L.; MOTA-ROTH, D. Gneros Textuais e Prticas Discursivas. Florianpolis: EDUSC, 2005. NEIS, Ignacio A. A competncia de leitura. Letras de Hoje, 15 (2), 1982, p.43-57. NUNES, M. G. V.; ALUSIO, S. M. ; PARDO, T. A. S., 2010. Um panorama do Ncleo Interinstitucional de Lingustica Computacional s vsperas de sua maioridade. Linguamtica (Revista para o Processamento Automtico das Lnguas Ibricas) , v. 2, p. 13-27, 2010. SCARTON, C. E. ; ALUSIO, S. M. Anlise da Inteligibilidade de textos via ferramentas de Processamento de Lngua Natural: adaptando as mtricas do Coh-Metrix para o Portugus. Linguamtica (Revista para o Processamento Automtico das Lnguas Ibricas) , v. 2, p. 45-61, 2010. SHERGUE, Orlando. Dimenso de Variao no Discurso Mdico- Acadmico: o Artigo de Pesquisa e a Apresentao de Trabalhos Cientficos em Congressos. So Paulo: LAEL/ PUCSP, 2003. Diss. Mestrado. SWALES, J.M. Genre analysis: English in academic and research settings. Cambridge: Cambridge University Press, 1990. VIANA, Vander; TAGNIN, Stella E. O. (orgs.). Corpora no ensino de lnguas estrangeiras.

http://www.keimelion.com.br

Keimelion - reviso de textos So Paulo: HUB Editorial, 2010.

Confiana e pontualidade

VIEIRA, Renata; LIMA,Vera Lcia Strube. "JAIA/Lingustica Computacional: Princpios e aplicaes". In: MARTINS, Ana Teresa; BORGES, Dbio Leandro (eds.), As Tecnologias da informao e a questo social: anais 2001, Fortaleza, CE, Brasil. VIEIRA, Renata; LOPES, Lucelene. Processamento de linguagem natural e o tratamento computacional de linguagens cientficas. In: PERNA, C.; DELGADO, H.K.; FINATTO, M.J.B. Linguagens especializadas em corpora: modos de dizer e interfaces de pesquisa [recurso eletrnico]. Porto Alegre: EDIPUCRS, 2010, p. 184-201. Modo de Acesso: < http://www.pucrs.br/edipucrs/> ZILIO, L. (2009) Colocaes especializadas e Komposita: um estudo contrastivo alemoportugus na rea de cardiologia. Porto Alegre: UFRGS. Dissertao de Mestrado. PPGLETRAS/UFRGS.

http://www.keimelion.com.br

Você também pode gostar