Você está na página 1de 17

Anlise de inteligibilidade textual por meio de ferramentas de processamento

automtico do portugus: avaliao da Coleo Literatura para Todos


Text readability analysis with Natural Language Processing Tools:
assessment of the Literatura para Todos Collection
Erica dos Santos Rodrigues
Cludia Freitas
Violeta Quental
PUC-Rio Pontifcia Universidade Catlica do Rio de Janeiro
Resumo:
O presente trabalho apresenta resultados de pesquisa referente inteligibilidade dos livros
da Coleo Literatura para Todos 1, publicada pelo MEC/ SECAD (2006) e distribuda para
jovens e adultos recm-alfabetizados. A investigao da inteligibilidade dos textos buscou
conjugar pressupostos da psicolingustica e ferramentas de processamento automtico da
lngua portuguesa. Utilizamos critrios de inteligibilidade referidos na literatura
psicolingustica, e tentamos capturar de maneira objetiva o grau de complexidade lingustica
dos livros atravs de ferramentas computacionais: o analisador morfossinttico PALAVRAS
(BICK, 2000) e o programa Coh-Metrix Port (ALMEIDA & ALUSIO, 2009). Nossos
resultados sugerem que os livros da CLPT so complexos para o pblico pretendido.
Assumindo que os neoleitores esto na etapa inicial do processo de alfabetizao, ntido
que os livros da CLPT exigem um esforo de decodificao da escrita que est alm de sua
capacidade.
Palavras-chave: legibilidade; inteligibilidade; Coleo Literatura para Todos; avaliao de
inteligibilidade; ferramentas para processamento computacional do Portugus.

Abstract:
This paper presents results of a research on readability of the Literatura para Todos 1
Collection, published by MEC / SECAD (2006) and distributed to newly literate youth and
adults. The investigation of text readability combined assumptions from psycholinguistics and
natural language processing tools. We used readability criteria referred in psycholinguistics
literature and tried to evaluate objectively the degree of linguistic complexity of the books by
means of computational tools: the morphosyntactic analyzer PALAVRAS (BICK, 2000) and
the program Coh-Metrix Port (ALMEIDA & ALUISIO, 2009). Our results suggest that the
CLPT books are complex for the intended audience. Assuming that new readers are in the
initial stage of literacy process, it is clear that reading the books of CLPT takes an effort
which is beyond their ability.
Keywords: readability; Coleo Literatura para Todos; readability assessment; natural
language processing tools.

1 Introduo
O presente trabalho apresenta resultados de pesquisa referente inteligibilidade dos
livros que integram a Coleo Literatura para Todos 1, publicada pelo MEC/ SECAD
(2006) e distribuda para grupos de jovens e adultos recm-alfabetizados, chamados
neoleitores. O objetivo da Coleo democratizar o acesso leitura, constituir um
acervo bibliogrfico literrio especfico para jovens, adultos e idosos recm
alfabetizados1. O estudo inseriu-se em um projeto mais amplo cujo objetivo era
avaliar a recepo da referida coleo junto aos neoleitores e aos mediadores
envolvidos no Programa.2
O estudo foi conduzido a partir de uma perspectiva interdisciplinar, em que a
investigao da inteligibilidade dos textos da Coleo buscou conjugar (i)
pressupostos

da

psicolingustica

(ii)

ferramentas

desenvolvidas

para

processamento automtico da lngua portuguesa.


O desconhecimento da existncia de material nos moldes da Coleo Literatura para
Todos para a lngua portuguesa, se, por um lado, corrobora a necessidade deste
tipo de iniciativa, por outro, impossibilita a comparao ou mesmo a utilizao de
critrios j estabelecidos para a aferio da inteligibilidade do material oferecido.
Assim, o trabalho consistiu na seleo de critrios de legibilidade referidos na
literatura psicolingustica que pudessem atuar como parmetros na avaliao da
adequao lingustica dos livros ao pblico de neoleitores. Tentamos capturar, de
maneira objetiva, o grau de complexidade lingustica dos livros, com o auxlio de
ferramentas da Lingustica Computacional.

O objetivo do presente trabalho,

portanto, triplo: (a) apresentar a anlise e os resultados da avaliao; (b)


apresentar as potencialidades da pesquisa interdisciplinar entre a Psicolingustica e
a Lingustica Computacional, direcionadas a uma aplicao educacional; (c) propor
critrios objetivos para a avaliao quantitativa de textos cuja elaborao , sem
dvida, desafiadora, uma vez que devem aliar a simplicidade gramatical e sinttica
complexidade das experincias de vida dos neoleitores.

http://portal.mec.gov.br/index.php?option=com_content&view=article&id=12313&Itemid=629

Projeto Percursos da Leitura, coordenado pelo Professor Jlio Diniz (PUC-Rio).

O artigo est organizado da seguinte maneira: na seo 2, discutimos o conceito de


inteligibilidade, tendo em vista a justificativa dos parmetros lingusticos escolhidos
para a avaliao dos textos, bem como detalhamos os conceitos propriamente; na
seo 3, apresentamos o perfil dos neoleitores e livros da Coleo; a seo 4 trata
da anlise dos textos; na seo 5, tecemos algumas consideraes finais.
2 Conceituao de Inteligibilidade
A leitura uma atividade extremamente complexa que envolve um conjunto de
subprocessos. Estes compreendem, entre outros, o reconhecimento de smbolos
grficos, a recuperao de palavras do lxico mental, o processamento sinttico de
enunciados, com mobilizao de um mecanismo de parsing, e o processamento
semntico

local,

do

qual

resultam

proposies

que

so

integradas

em

representaes semnticas de partes maiores do texto (macroproposies)


(COSCARELLI, 1996; KLEIMAN, 1993; KATO, 1999; PERFETTI, 1999; PERFETTI,
LANDI & OAKHILL, 2005). Para a implementao desses processos, o leitor acessa
vrias bases de conhecimento (lingustico, enciclopdico, relativo a gneros e tipos
textuais...) e lana mo de inferncias, predies, aplica estratgias metacognitivas,
etc. (PEREIRA, 2002; BORBA, 2005)
Trabalhos que se voltam para a investigao de fatores que podem a afetar a
compreenso da leitura procuram distinguir trs grupos de fatores fatores
associados ao texto, ao leitor e interveno leitora (LEFFA, 1996).
No que tange ao primeiro grupo de fatores associados ao texto , costuma-se
estabelecer uma distino entre legibilidade e inteligibilidade textual. O termo
legibilidade tem sido utilizado, de modo geral, para caracterizar fatores tipogrficos,
tais como o tamanho de letras, tipo de fonte, diagramao do texto. Para fazer
referncia a estruturas lingusticas complexas e vocabulrio pouco frequente como
elementos que podem afetar o grau de compreenso de um texto, costuma-se
adotar o termo inteligibilidade (LEFFA, 1996; SCARTON ET AL., 2010; SCARTON &
ALUSIO, 2010). O emprego deste termo em referncia apenas a fatores ligados ao
texto no , no obstante, consensual, e h autores que estendem o termo para
indicar fatores associados ao leitor, como seu grau de motivao e interesse pelo
assunto (BARBOZA & NUNES, 2007; RIBEIRO ET AL. 2011). Nessa acepo mais
ampla, o termo inteligibilidade confunde-se com leiturabilidade (readability),

entendido como tudo o que torna um texto mais fcil de ler do que outros por
oposio

ao

termo

legibilidade

(legibility),

empregado

em

referncia

caractersticas de tipografia e layout (DUBAY, 2004; LIMA, 2007).3


Dada a dificuldade de uma convergncia terminolgica, a qual reflete, pelo menos
em parte, mudanas na prpria concepo de leitura, inicialmente centrada nos
aspectos textuais e posteriormente incorporando o leitor e sua bagagem lingusticocultural (KLEIMAN,2004), optamos pelo emprego do termo inteligibilidade na
nomeao dos critrios que elegemos para verificar a complexidade dos textos lidos.
Essa opo foi motivada pelo fato de ser o termo mais comumente usado pelos
pesquisadores que tm trabalhado na rea de leitura e simplificao textual
(SCARTON ET AL., 2010; SCARTON & ALUSIO, 2010).
2.1 Parmetros utilizados
Para a caracterizao da complexidade sinttica dos textos da Coleo, foram
considerados os seguintes parmetros:
(i) total de verbos por perodo;
(ii) presena, no perodo, de elementos explicativos intercalados;
(iii) quantidade de vrgulas por perodo;
(iv) presena de oraes reduzidas de gerndio;
(v) quantidade de palavras antepostas ao verbo principal.

O item (i) foi tomado como indicativo da densidade do perodo e, por conseguinte, do
grau de inteligibilidade textual, considerando-se restries relativas manuteno e
integrao de informaes na memria de trabalho por unidade estrutural (perodo)
no processamento sinttico. Para a construo da coerncia temtica do texto, o
leitor precisa relacionar o significado das sentenas, isto , precisa integrar
proposies (KINTSCH & VAN DIJK, 1978). Considerando-se que o verbo , por
excelncia, do ponto de vista semntico, um elemento predicador que instancia
proposies, pode-se afirmar que, quanto maior for o nmero de verbos em um
perodo, maior ser o nmero de estruturas sintticas a ser analisado, maior o

3
Remetemos o leitor a Dubay (2004) para diferentes referncias ao termo readability.

nmero de proposies a ser construdo e mais complexa a integrao dessas


proposies em macroproposies.
O item (ii) indicativo de quebras na ordem cannica da estrutura da sentena, e
compreende estruturas apositivas, oraes adjetivas explicativas, oraes adverbiais
deslocadas e sintagmas adverbiais deslocados.
Todas essas estruturas tm em comum algum tipo de interrupo que cria
demandas associadas manuteno de informao pela memria de trabalho no
processo de integrao de informao sinttica (COSCARELLI,1996).
O item (iii) est relacionado quantidade de informaes por perodo e, importante
lembrar, uma leitura efetiva depende de alta proficincia na interpretao dos usos
da vrgula, que pode indicar tanto a presena de uma enumerao quanto a
intercalao de estruturas e o deslocamento de constituintes, por exemplo.
O critrio (iv) assume que as oraes reduzidas de gerndio podem ser mais
complexas em termos de compreenso uma vez que a relao semntica entre a
orao principal e a reduzida de gerndio no explicitada pelo conectivo, ela
precisa ser inferida. Os conectivos funcionam como instrues para o leitor
estabelecer relaes de coerncia entre segmentos do texto e desempenham papel
importante na construo do sentido do texto. Um texto sem a presena dessas
marcas torna-se mais difcil para a leitura (JUST & MILLIS, 1994; SANDERS &
NOORDMAN, 2000; BEN-ANATH, 2005; CAIN & NASH, 2011). No caso de oraes
reduzidas de gerndio, como o gerndio uma forma nominal do verbo, tambm
desaparecem informaes relativas a tempo, modo, pessoa, o que pode dificultar o
estabelecimento de relaes temporais entre os eventos e tambm a identificao
do sujeito do verbo, comprometendo, inclusive, o estabelecimento/manuteno da
referncia.
Por fim, o critrio (v) baseia-se na ideia de que um grande nmero de termos antes
do verbo pode indicar a presena de sujeito complexo ou de outros termos
argumentais a ele associados. O elemento inicial da sentena, para que possa ser
corretamente analisado e interpretado, depende da informao codificada no verbo.
necessrio manter esse elemento na memria de trabalho at que o verbo seja

identificado. Logo, em princpio, quanto maior a sequncia de elementos antes de


verbos principais, maior o custo em termos de processamento da leitura.
3 Caracterizao dos neoleitores e da Coleo Literatura para Todos (CLPT)
Para a avaliao da adequao dos livros ao neoleitores, fundamental a
caracterizao desse grupo relativamente capacidade de leitura. Segundo o
documento Perfil dos neoleitores no Brasil, disponvel na pgina do MEC4,o
neoleitor assim caracterizado:
Os neoleitores possuem uma concepo de leitura associada
oralizao do texto escrito. Fazem uma leitura lenta, entrecortada,
com interrupes, cometem omisso de palavras, de trechos, trocam
de palavras, fazem pseudoleitura (procuram adivinhar o que est
escrito). Evocam conhecimentos prvios para preencher lacunas na
leitura e, nesse processo, muitas vezes ouvem mais o que j sabem
sobre o tema do que o que o texto diz. No costumam reler, retomar
o texto em busca de informaes no retidas na memria.
Apreendem o tema, mas tm dificuldade de reproduzi-lo oralmente,
falando de experincias prprias relacionadas ao tema.

A Coleo Literatura para Todos 1 (CLPT) composta por 10 livros de gneros


diversos, premiados em um concurso literrio anunciado em edital pblico. Os livros
foram (ou deveriam ser) escritos especialmente para os neoleitores, em uma
iniciativa de grande relevncia, tendo em vista o perfil especfico do grupo:
habilidades de leitura muito iniciais associadas a uma vasta experincia de vida.
Desse modo, os autores tinham o desafio de escrever de maneira simples, por um
lado, mas com o cuidado de no infantilizar o leitor, por outro.
A CLPT abrange sete gneros literrios - teatro, novela, conto, crnica, biografia,
tradio oral e poesia distribudos da seguinte maneira (tabela 1). Notamos que os
livros tambm esto disponveis no portal Domnio Pblico, do MEC, para download.
Gnero
biografia
contos
crnicas
novela (romance)
poesia

Ttulo do livro
Lo, o pardo
Cabelos molhados
Cobras em compota
Tubaro com a faca nas costas
Madalena
Abrao e as frutas
Caravela [ redescobrimentos ]
Entre as junturas dos ossos

http://portal.mec.gov.br/index.php?option=com_content&view=article&id=12313&Itemid=629

teatro
tradio oral

Famlia composta
Batata cozida, mingau de car

Tabela1: Distribuio dos livros da CLPT por gnero


Alm de um glossrio, todos os livros so ilustrados, e contm um prefcio que, por
sua vez, frequentemente pouco esclarecedor tendo em vista o pblico pretendido.
Um exemplo: A crnica, com seu caracterstico de mensagem pessoal, humaniza o
veculo5.
Devido a limitaes das ferramentas utilizadas, no consideramos os livros de
poesia e teatro, como ser detalhado prxima seo6.
4 Anlise da Coleo
Para a avaliao, utilizamos ferramentas computacionais capazes de processar
textos automaticamente com o objetivo de mensurar os graus de dificuldade dos
textos. Tais ferramentas, ao permitirem o processamento automtico da informao
lingustica, possibilitam observao e anlise de dados de uma perspectiva
quantitativa, o que dificilmente seria conseguido se dependssemos de um
processamento manual.
Como j mencionado, no foram submetidos anlise os livros de poesia, visto que
a avaliao da sua complexidade no poderia ser feita com base nos mesmos
parmetros usados para a anlise dos textos em prosa. A ausncia de pontuao,
principalmente, um problema para o analisador sinttico, que considera a mudana
de linha como marca de sentena como seria o caso, por exemplo, de ttulos em
jornais e artigos cientficos. Assim, na poesia, o procedimento de anlise automtica
resultaria em erro.
Da mesma forma, o texto do gnero teatro (Famlia Composta) contm
especificidades

de

sua

organizao

textual-discursiva

que

dificultam

processamento automtico: as convenes do texto teatral (indicao de


personagem e rubricas de cenrio ou de informao para os atores), expressas em
geral na forma de frases nominais, quebram a expectativa do analisador automtico,
e podem resultar em erros de anlise. Optamos, mesmo assim, por apresentar os

5

Prefcio do livro Tubaro com a Faca nas Costas.


Como mencionado na Introduo, relatamos aqui apenas parte do trabalho de avaliao da
adequao lingustico-discursiva dos livros da CLPT, que consistiu ainda em levantamento do
vocabulrio e anlise de caractersticas estruturais / discursiva.

resultados da anlise desse livro, conscientes de que sua interpretao deve ser
vista com muitas ressalvas.
4.1 Ferramentas
Para a investigao dos parmetros mencionados na seo 2.1, utilizamos o
analisador morfossinttico PALAVRAS (BICK, 2000) e o programa Coh-Metrix Port
(ALMEIDA & ALUSIO, 2009).
O analisador PALAVRAS foi fundamental para a anlise detalhada das estruturas
sintticas dos livros da CLPT. Baseado no modelo de Gramtica Constritiva, trata-se
de um programa capaz de realizar uma anlise gramatical e sinttica de textos da
lngua portuguesa com um alto grau de preciso 99% em termos de morfossintaxe
(classe de palavras e flexo) e 97-98% em termos de sintaxe (BICK, 2005).
No quadro 1 apresentamos, a ttulo de ilustrao, a sada do PALAVRAS, no formato
de rvores deitadas. Para cada frase, o programa disponibiliza a informao
lingustica em pares do tipo Funo & Forma, separados por dois pontos (F:f)7.
No devia existir colesterol naquela poca, e a que comeou o problema.
STA: par
CJT: fcl
=ADVL: adv ("no" <left>) no
=P: vp
==VAUX: v-fin ("dever" <fmc> IMPF 3S IND VFIN) devia
==MV: v-inf ("existir" <mv>)
existir
=SUBJ: n("colesterol" M S) colesterol
=ADVL: pp
==H: prp ("em" <sam-> <right>) em
==P<:np
===>N: pron-det ("aquele" <dem> <-sam> DET F S) aquela
===H: n("poca" F S) poca
,
CO: conj-c("e" <co-fin> <co-fmc>) e
=CJT: x
FOC: adv ("ser" <foc>)
=ADVL: adv ("a" <kc> <left>) a
=FOC: adv ("que" <foc>) que
=P: v-fin ("comear" <fmc> PS 3S IND VFIN) comeou

Especificamente, a codificao da frase exemplo informa que a frase declarativa (STA


statement) e Coordenada (par). Na segunda linha est a informao dos elementos coordenados:
CJT (elemento conjunto): fcl (orao finita). Ou seja, estamos diante de uma frase declarativa, que
por sua vez um perodo composto por uma coordenao de oraes finitas. Para cada palavra,
alm das informaes de forma e funo, o programa indica, entre parnteses, o lema e informaes
morfossintticas, como nmero, gnero, tempo, modo e pessoa verbal. Para uma explicao da
anlise realizada pelo PALAVRAS, remetemos o leitor a Bick (2000), bem como pgina do projeto
VISL7) e, para o leitor interessado no formato rvores deitadas, sugerimos a leitura de Freitas &
Afonso (2008).

=SUBJ: np
==>N: pron-det ("o" <artd> DET M S) o
==H:n("problema"M S) problema

Alm do PALAVRAS, os textos da CLPT foram analisados pelo programa CohMetrix Port (ALMEIDA & ALUSIO, 2009), desenvolvido a partir das mtricas da
ferramenta Coh-Metrix, criada na Universidade de Memphis. A verso 1.0 do CohMetrix Port utiliza 34 das 60 mtricas disponveis na verso livre Coh-Metrix. Essas
mtricas levam em considerao vrios nveis de anlise lingustica: lxico, sinttico
e discursivo. A ferramenta disponibiliza tambm o ndice Flesch, medida estatstica
considerada padro quanto ao grau de inteligibilidade8. Embora considerado um
ndice superficial, pois leva em conta apenas caractersticas como o nmero de
palavras em sentenas e o nmero de letras ou slabas por palavra, o ndice
utilizado por ser a nica mtrica de inteligibilidade j adaptada para a lngua
portuguesa (MARTINS ET AL., 1996) e por incorporar o conceito de sries
escolares. A aplicao da frmula Flesh permite categorizar os textos em

textos muito fceis (ndice entre 75 - 100), adequados para a escolaridade at a 4a.srie
do ensino fundamental;
textos fceis (ndice entre 50 - 75), adequados para a escolaridade at a 8a. srie do
ensino fundamental;
textos difceis (ndice entre 25 - 50), adequados ao ensino mdio ou universitrio e;
textos muitos difceis (ndice entre 0 - 25), adequados apenas para reas acadmicas
especficas.

4.2. Anlise e resultados


A tabela 2 apresenta, por livro, os resultados obtidos para cada parmetro. Os
quatro primeiros parmetros foram obtidos por meio da anlise do PALAVRAS, e o
ltimo foi obtido pelo Coh-Metrix Port9. Destacamos em negrito os resultados mais
significativos.
Leo,
o Cabelos Cobras em Madalen
pardo
molhados compota
a

Tubaro com a Famlia


faca nas costas composta

Verbos por perodo

2,61

2,22

1,86

1,71

2,24

2,09

Elementos
explicativos

0,25

0,12

0,04

0,09

0,11

0,06

A frmula Flesh
ILF = 164.835 - [1.015 x (No palavras/sentena)] - [84.6 x (No slabas/texto / No palavras/texto)]

Lembramos que, diferentemente do Coh-Metrix Port, o PALAVRAS no oferece diretamente os


valores para os parmetros estes so obtidos por meio de uma busca semiautomtica nos
resultados da anlise automtica.

Leo,
o Cabelos Cobras em Madalen
pardo
molhados compota
a

Tubaro com a Famlia


faca nas costas composta

(intercalados) p/ or.
Vrgulas por perodo 1,92

1,02

0,68

0,72

1,18

1,02

Or. reduzidas
gerndio

de 0,16

0,12

0,05

0,06

0,08

0,08

Palavras antes de 3,07


verbos principais

2,18

2,06

2,2

2,53

4,07

Tabela 2: ndices de inteligibilidade para os textos em prosa, por livro.


Para facilitar a visualizao dos resultados, apresentamos tambm as figuras 1 e 2,
que representam, respectivamente, os ndices de inteligibilidade relativos a cada
livro e a comparao entre livros em relao a cada ndice.

4,5
4
3,5
3
2,5
2
1,5
1
0,5
0

Verbos por perodo


Elementos explica;vos
(intercalados) p/ or.
Vrgulas por perodo
Or. reduzidas de gerndio
Palavras antes de verbos
principais

Figura 1: ndices de inteligibilidade por livro analisado

4,5
4
3,5
3
2,5
2
1,5
1
0,5
0

Leo, o pardo
Cabelos molhados
Cobras em compota
Madalena
Tubaro com a faca nas
costas
Famlia composta

Figura 2: Comparao dos livros em relao aos ndices de inteligibilidade

Com base no parmetro total de verbos por perodo, que permite verificar o
nmero de perodos simples/compostos, os livros estruturalmente mais complexos
seriam Leo, o pardo (quase 3 oraes por perodo), Tubaro com a Faca nas Costas
(2,24) e Cabelos Molhados (2,3). Cobras em Compota e Madalena apresentam
nveis prximos, seriam os mais fceis em torno de 1,7 oraes por perodo.
Tomando-se o parmetro elementos explicativos intercalados, Leo, o pardo
apresenta o maior valor mais que o dobro de Cabelos Molhados e Tubaro com a
Faca nas Costas, que aparecem em segunda posio. Nos outros livros, o total de
intercalaes tende a 0, indicando menor complexidade sinttica.
Em relao ao parmetro nmero de vrgulas por perodo, o livro Leo, o pardo
novamente se destaca, com o dobro de ocorrncias por perodo em comparao ao
segundo colocado Cabelos Molhados. Os demais livros no apresentam
diferenas significativas entre si.
No parmetro oraes reduzidas de gerndio, ainda que seu percentual seja bem
pequeno em todos os livros, novamente Leo, o pardo e Cabelos Molhados aparecem
como os mais complexos.
Relativamente ao parmetro total de palavras antes de verbos, o livro Leo, o
pardo aparece mais uma vez como o mais complexo.
A tabela 3 apresenta os resultados do ndice Flesh, que permitem complementar os
dados das anlises anteriores com informao relativa adequao dos livros s
sries escolares (quanto maior o ndice, mais fcil o livro). Excetuando-se o livro
Famlia Composta, do gnero teatro, cuja anlise deve ser vista com cautela devido
estruturao do texto (cf.seo 4), todos os livros so indicados para 5-8 srie, e,
portanto, indicados para leitores com alguma proficincia, o que no o caso do
pblico alvo da CLPT.
Ttulo do livro
Madalena
Cabelos molhados
Cobras em compota
Tubaro com a faca nas costas
Famlia composta
Lo, o pardo

Gnero
novela
conto
conto
crnica
teatro
biografia

Tabela 3: ndice Flesh dos livros da CLTP.

ndice Flesh
63
(5 - 8)
65
(5 - 8)
64
(5 - 8)
63
(5 - 8)
75
(1 - 4)
63
(5 - 8)

4.3. Contextualizao dos parmetros


Como mencionado na introduo deste artigo, no temos conhecimento de outros
trabalhos que tenham realizado uma anlise parecida com a que apresentamos.
Logo, com base nos critrios estabelecidos, possvel uma comparao da
inteligibilidade entre os livros da Coleo tomados isoladamente, mas, com exceo
do ndice Flesch, no temos como verificar a inteligibilidade da Coleo
relativamente a livros indicados para recm-alfabetizados.
Assim, em uma tentativa de contextualizar a anlise quantitativa, aplicamos os
mesmos parmetros a outro livro, que no foi escrito especificamente para
neoleitores: O Jardim do Diabo, romance de Luis Fernando Verssimo. A escolha da
obra foi motivada pela necessidade de calibrar as medidas obtidas, j que L.F.
Verssimo um escritor popular, de escrita fcil, que agrada a diferentes idades e
classes, e cujo contedo de reconhecida qualidade - portanto seria uma boa
maneira de comparar o quo fceis seriam os livros da CLPT.
Subjacente comparao, tnhamos a hiptese de que, idealmente, os livros da
CLPT deveriam ser mais simples que O Jardim do Diabo, pois, por mais acessvel
que seja o autor, dificilmente recomendaramos a sua leitura para recmalfabetizados. Os resultados dessa segunda anlise esto na tabela 4, com os
resultados mais significativos isto , aqueles que indicam mais facilidade de leitura
- em negrito:

Leo, o Cabelos Cobras


pardo
molhados em
compota

Madalena

Tubaro
Famlia
O
Jardim
com a faca composta do Diabo
nas costas

2,61

2,22

1,86

1,71

2,24

2,09

1,54

Elementos 0,25
explicativos
p/ or.

0,12

0,04

0,09

0,11

0,06

0,08

Vrgulas por 1,92


perodo

1,02

0,68

0,72

1,18

1,02

0,66

Or.
0,16
reduzidas
de gerndio

0,12

0,05

0,06

0,08

0,08

0,06

Verbos por
perodo

Palavras
antes de
verbos
principais

3,07

2,18

2,06

2,2

2,53

4,07

2,93

Tabela 4: Comparao entre os livros da CLPT e o livro O Jardim do Diabo


Como possvel observar, em todos os parmetros investigados o livro O Jardim do
Diabo est entre aqueles com o menor grau de complexidade, e, especificamente,
nos parmetros verbos por perodo e vrgulas por perodo, chega a obter os
ndices mais baixos. Esses resultados, somados aos dados do ndice Flesh (tabela
3) e nossa impresso aps a leitura completa e minuciosa da Coleo, reforam a
inadequao dos livros em termos de inteligibilidade ao pblico pretendido. A
figura 3 apresenta outra forma de visualizao da comparao entre os livros da
CLPT e o livro O Jardim do Diabo.
4,5
4
3,5
3
2,5
2
1,5
1
0,5
0

Leo, o pardo
Cabelos molhados
Cobras em compota
Madalena
Tubaro com a faca nas
costas
Famlia composta

Figura 3: Comparao entre os livros da CLPT e o livro O Jardim do Diabo


Quanto ao ndice Flesh, O Jardim do Diabo obteve

73.67 (adequado para 1 4

srie), pontuao que nos permite classific-lo como mais fcil do que todos os da
CLPT.
5 Consideraes Finais
Apresentamos aqui a anlise de fatores de inteligibilidade dos livros da Coleo
Literatura para Todos.

Ainda que os resultados obtidos apontem claramente para a inadequao dos livros
de um ponto de vista lingustico, o desconhecimento de dados relativos forma com
que os livros foram/ so trabalhados se lidos em voz alta pelo professor/mediador,
por exemplo, podem diminuir o impacto de nossas observaes.
De maneira geral, os resultados de nossa investigao sugerem que os livros da
CLPT so, em sua maioria, complexos para o pblico pretendido, diferentemente do
apresentado em MACIEL (2007). Assumindo que os neoleitores esto na etapa
inicial do processo de alfabetizao, ntido que os livros da CLPT exigem um
esforo de decodificao da escrita que est alm de sua capacidade10.
A partir dos resultados, o livro Leo, o pardo aparece como mais difcil dentre os livros
da CLPT, o que est em consonncia com a anlise baseada em nossa leitura.
Trata-se de uma biografia cuja linguagem altamente oralizada, o que exige a
habilidade de decifrar frases muito longas, com inseres de discurso relatado
(direto, indireto, indireto livre) sem a codificao tradicional. Da oralizao decorre
tambm a construo de sentenas com muitos elementos intercalados (apostos,
adjuntos), coordenaes longas ou ordem sinttica cannica invertida. Por fim, a
comparao entre os livros da CLPT e o livro O Jardim do Diabo, de L. F. Verssimo,
refora a possibilidade de dissociao entre complexidade sinttica, estrutural e
complexidade quanto ao contedo, aspecto fundamental quando consideramos as
especificidades de uma proposta como a CLPT: uma literatura gramaticalmente
simples, mas que no infantiliza os leitores.
Novamente, consideramos louvvel o reconhecimento de que os neoleitores so um
pblico especial de leitores e que, portanto, merecem ateno especial no que se
refere constituio de um acervo bibliogrfico. Mas acreditamos ser fundamental o
reconhecimento da parte de quem escreve e da parte de quem avalia a adequao
dos livros ao pblico da possibilidade de dissociao entre aspectos gramaticais e
aspectos referentes ao contedo dos livros. No edital do concurso de 20101112, no

10

Segundo o documento Brasil alfabetizado: marco referencial para avaliao cognitiva (BATISTA ET
AL., 2006), os neoleitores so capazes de (a) identificar letras do alfabeto; (b) conhecer as direes
da escrita; (c) diferenciar letras de outros sinais grficos; (d) identificar, ao ouvir uma palavra, o
nmero de slabas; (e) identificar sons, slabas e outras unidades sonoras; (f) distinguir, como leitor,
diferentes tipos de letra; (g) demonstrar conhecimentos sobre a escrita do prprio nome; (h) escrever
palavras ditadas, demonstrando conhecer o princpio alfabtico.
11
http://portal.mec.gov.br/index.php?option=com_docman&task=doc_download&gid=6587&Itemid=

h qualquer meno a aspectos da estrutura lingustica a serem considerados pelos


autores; trata-se apenas do aspecto narrativo, como narrativa literria atraente,
destinada captura do neoleitor, no se confundindo com objetivos escolares de
ensino da lngua e da gramtica(...). Relativamente construo dos textos, o edital
recomenda na construo dos textos, em todos os gneros, a leveza e a inveno
potica, e assim aglutinar foras para o enfrentamento dos problemas e limites da
realidade. A nosso ver, tais recomendaes em nada consideram as habilidades de
leitura dos neoleitores retratadas pelo prprio MEC, que apresentamos na seo 3.
Por fim, temos conscincia de que nosso trabalho de anlise bastante inicial, tanto
de um ponto de vista metodolgico quanto de interpretao dos resultados obtidos.
A explorao dos mesmos parmetros em livros infantis, recomendados para
crianas recm-alfabetizadas, pode nos dar pistas em termos da adequao
lingustico-textual dos livros. Por outro lado, a investigao de outros aspectos
mencionados na literatura psicolingustica como dificultadores da leitura pode
sugerir novos pontos a serem considerados.
Referncias
ALMEIDA, Daniel Machado de; ALUSIO, Sandra Maria. Manual de uso do CohMetrix Port 1.0.Technical Report NILC-TR-09-05, 13 p. Agosto 2009, So Carlos-SP.
BARBOZA, Elza M.; NUNES, Eny M. de A. A inteligibilidade dos websites
governamentais brasileiros e o acesso para usurios com baixo nvel de
escolaridade. Incluso Social, Braslia, v. 2, n. 2, p. 19-33, abr./set. 2007.
BATISTA, Antnio Augusto Gomes; SILVA, Ceris Ribas da; CASTANHEIRA, Maria
Lucia; ROCHA, Gladys e CAFIERO, Delaine. Matriz de Referncia: avaliao de
competncias Leitura e escrita. In: HENRIQUES, Ricardo; BARROS, Ricardo
Paes; AZEVEDO, Joo Pedro (orgs.). Brasil Alfabetizado: marco referencial para a
avaliao cognitiva. Braslia: Secretaria de Educao Continuada, Alfabetizao e
Diversidade, 2006, p. 12-27.
BEN-ANATH, Dafna. The Role of Connectives in Text Comprehension. Teachers
College, Columbia University Working Papers in TESOL & Applied Linguistics, v. 5,
n.2, p. 1-27, 2005.
BICK, Eckhard. Gramtica Constritiva na Anlise Automtica de Sintaxe Portuguesa.
In: BERBER SARDINHA, Tony (ed.), A Lngua Portuguesa no Computador.
Campinas: Mercado de Letras, So Paulo: FAPESP, 2005.


12

Lembramos que nosso trabalho consistiu na anlise da CLPT1.

BICK, Eckhard The Parsing System "Palavras": Automatic Grammatical Analysis of


Portuguese in a Constraint Grammar Framework. 2000.Dr.phil. thesis. Aarhus
University. Aarhus, Denmark: Aarhus University Press, 2000.
BORBA, Valquria Claudete M. Preditibilidade de conjunes e compreenso leitora:
um estudo com crianas de 4 srie do Ensino Fundamental. Dissertao de
Mestrado. PUCRS, 2005.
CAIN, Kate; NASH, Hannah M. The Influence of Connectives on Young Readers
Processing and Comprehension of Text. Journal of Educational Psychology, v. 103,
n. 2, p. 429-441, 2011.
CAVIQUE, Luis. Legibilidade de artigos cientficos: anlise de dados da RCC.
Revista de Cincias da Computao, v. III, n.3, p.59-65, 2008.
Coleo Literatura para Todos. Braslia: Ministrio da Educao, 2006.
COSCARELLI, Carla. V. O ensino da leitura: uma perspectiva psicolingstica.
Boletim da Associao Brasileira de Lingustica, Imprensa Universitria, Macei, p.
163-174, dez. 1996.
DuBAY, William H. The principles of readability. Califrnia: Impact Information, 2004.
Disponvel em: http://www.impactinformation. com. Acesso em: agosto 2012.
FREITAS, Cludia; Afonso, Susana. Bblia Florestal: Um manual lingstico da
Floresta Sint(c)tica. 2008. (Desenvolvimento de material didtico ou instrucional Manual/ Documentao).
KATO, Mary A. O aprendizado da leitura. 5 ed. So Paulo: Martins Fontes, 1999.
KINTSCH, Walter; van DIJK, Teun A. Toward a model of text comprehension and
production. Psychological Review, v.85, n.5, p. 363-394, 1978.
KLEIMAN, ngela B. Oficina de leitura, teoria e prtica. So Paulo: Pontes/Editora
da Universidade Estadual de Campinas, 1993.
KLEIMAN, ngela B. Abordagens da leitura. SCRIPTA, Belo Horizonte, v. 7, n. 14, p.
13-22, 1 sem. 2004.
LEFFA, Vison J. Aspectos da leitura: uma perspectiva psicolingstica. Porto Alegre:
Sagra-Luzzatto, 1996.
LIMA, Vera L. de A. Legibilidade e leiturabilidade das bulas de medicamentos
presentes no tratamento de pacientes cardacos / Vera Lopes de Abreu Lima ;
orientador: Anamaria de Moraes. 2007.169 f. Dissertao (Mestrado em Artes e
Design). Pontifcia Universidade Catlica do Rio de Janeiro, Rio de Janeiro, 2007.
MACIEL, Ira Maria. Coleo literatura para todos. Rev. Bras. Educ. [online], v.12,
n.36, p. 537-540, 2007. Disponvel em
http://www.scielo.br/scielo.php?script=sci_arttext&pid=S141324782007000300014&lng=en&nrm=iso. Acesso em 13 de agosto de 2012.

MARTINS, Teresa B. F.; GHIRALDELO, Claudete M.; NUNES, Maria das Graas V.;
OLIVEIRA Jr., Osvaldo N. Readability Formulas Applied to Textbooks in Brazilian
Portuguese. Notas do ICMSC, n. 28, 1996.
MILLIS, Keith K.; JUST, Marcel A. The Influence of Connectives on Sentence
Comprehension. Journal of Memory and Language, v. 33, p. 128-147, 1994.
PEREIRA, Vera W. Arrisque-se... faa o seu jogo. Letras de Hoje, Porto Alegre, v.
37, n. 128, p. 47-63, jun/2002.
PERFETTI, Charles A. Comprehending written language: A blueprint of the reader.
In: BROWN, Colin M.; HAGOORT, Peter (Eds.) The neurocognition of language.
Oxford: Oxford University Press, 1999, p. 167208.
PERFETTI, Charles A.; LANDI, Nicole; OAKHILL, Jane. The acquisition of reading
comprehension skill. SNOWLING, Margaret J.; HULME, Charles. (Eds.). The Science
of Reading: A Handbook. Oxford: Blackwell, 2005, p. 227-247.
RIBEIRO, Bruno; MODESTO, Dbora; CAPRA, Eliane; FERREIRA, Simone B. L.
Referencial Terico sobre Analfabetismo Funcional. Relatrios Tcnicos do
Departamento de Informtica Aplicada da UNIRIO n 0008/2011. Relatrios
Tcnicos
de
2011,
v.
5,
n.
1.
Disponvel
em
http://www.seer.unirio.br/index.php/monografiasppgi/article/view/1498/1379. Acesso
em 13 de agosto de 2012.
SANDERS, Ted J. M.; NOORDMAN, Leo G. M. The Role of Coherence Relations
and Their Linguistic Markers in Text Processing. Discourse Processes, v.29, n.1,
2000, p.37-60.
SCARTON, Carolina E.; ALUSIO, Sandra Maria. Anlise da Inteligibilidade de textos
via ferramentas de Processamento de Lngua Natural: adaptando as mtricas do
Coh-Metrix para o Portugus. Linguamtica, v.2, n.1, p. 45-62, 2010.
SCARTON, Carolina E.; OLIVEIRA, Matheus de; CANDIDO Jr., Arnaldo;
GASPERIN, Caroline; ALUSIO, Sandra Maria. SIMPLIFICA: a tool for authoring
simplified texts in Brazilian Portuguese guided by readability assessments.
Proceedings of the NAACL HLT 2010: Demonstration Session, p.41-44, Los
Angeles, Califrnia, junho 2010. Association for Computational Linguistics,
Morristown, NJ, USA, 2010.

Você também pode gostar