Você está na página 1de 19

Communication et langages

La lisibilité rédactionnelle : fondements et perspectives


Bertrand Labasse

Résumé
Les formules visant à évaluer la facilité des textes destinés à un public non spécialisé sont largement utilisées dans les
pays anglophones ;elles se banalisent aujourd'hui dans les logiciels de traitement de texte. Elles font toutefois l'objet de
controverses récurrentes, mettant en cause leur empirisme et leur faible productivité. Bertrand Labasse, en examinant
quelques fondements scientifiques possibles de ces formules, suggère que de tels indicateurs, s'ils ne justifient pas tout le
crédit qu'on leur
accorde souvent, ne sont cependant pas dénués d'intérêt dans un cadre de validité
restreint.

Citer ce document / Cite this document :

Labasse Bertrand. La lisibilité rédactionnelle : fondements et perspectives. In: Communication et langages, n°121, 3ème
trimestre 1999. Dossier : L'université d'été de la communication. pp. 86-103.

doi : 10.3406/colan.1999.2951

http://www.persee.fr/doc/colan_0336-1500_1999_num_121_1_2951

Document généré le 15/10/2015


La lisibilité rédactionnelle :
I

o g
§ fondements

5 et perspectives

^ Bertrand Labasse
U

Les formules visant à évaluer la facilité des textes des- en examinant quelques fondements scien-
tinés à un public non spécialisé sont large- tifiques possibles de ces formules, sug-
ment utilisées dans les pays anglophones ; gère que de tels indicateurs, s'ils ne
elles se banalisent aujourd'hui dans les justifient pas tout le crédit qu'on leur
logiciels de traitement de texte. Elles font accorde souvent, ne sont cependant pas
toutefois l'objet de controverses récur- dénués d'intérêt dans un cadre de validité
rentes, mettant en cause leur empirisme et restreint,
leur faible productivité. Bertrand Labasse,

L'une des difficultés majeures que doit affronter tout rédacteur


est celle de l'adéquation entre le texte produit et le lectorat visé.
Cette adéquation devient capitale dès que le texte fait appel à
des notions mal connues des destinataires, ce qui est souvent le
cas des informations financières, techniques, réglementaires ou
scientifiques. Pour l'évaluer autrement que de manière intuitive,
les principaux outils actuels sont les indices de « lisibilité »,
aujourd'hui intégrés à la plupart des logiciels de traitement de
texte et des correcteurs orthographiques.
En première analyse, ces indices reposent sur une règle de bon
sens : le plus court est le mieux. On a, par exemple, ironisé sur le
célèbre début de À la recherche du temps perdu (« Longtemps, je
me suis couché de bonne heure... »), qui annoncerait le carac-
|>
§ tère « soporifique » des phrases proustiennes. De fait, Proust est
^ réputé difficile à lire : dans les premières pages de cet ouvrage
S figure une période de près de 500 mots. La longueur moyenne de
c ses phrases est de 38 mots, contre 20 pour Gide et 13 pour les
■| livres de la collection Harlequin1 . Il n'est donc pas surprenant que
y la formule de lisibilité de Flesch - celle qu'exploitent en général

1
O
§ 1 . F. Richaudeau
lecture, Paris, Albin
(éd.),
Michel,
Recherches
1992. actuelles sur la lisibilité, Paris, Retz, 1984; id., Sur la
La lisibilité rédactionnelle : fondements et perspectives 87

les programmes informatiques - crédite Proust d'un score...


négatif (-10), contre 30 à Saint-Exupéry et 60 aux bandes
dessinées Tintin et Spirou2.
La longueur des phrases : voilà donc l'une des principales clefs
de la lisibilité. De ce point de vue, le style télégraphique
constituerait le necplus ultra de la communication3. Il suffit pourtant de
considérer une citation, moins connue que celle de Proust mais
étrangement proche : « Longtemps, j'avais regardé comme
impossible la production de l'acide racémique à l'aide de l'acide
tartrique » (Louis Pasteur, Cahiers d'un savant), pour deviner
qu'elle annonce non seulement un autre type de recherche,
mais aussi un tout autre ordre de difficulté, dans lequel le poids
de la syntaxe ne joue qu'un rôle mineur.
Il existe, à l'évidence, de très nombreux facteurs pouvant influer
sur la clarté d'un texte. Ceux-ci se situent à des niveaux très
différents, et dépendent largement du destinataire, notamment de
son habileté de lecture, de ses connaissances du sujet et de son
implication.

PEUT-ON ÉVALUER LA CLARTÉ D'UN TEXTE?


De façon schématique, on peut imaginer deux grandes voies
pour aborder ces facteurs.
• La première, empirique, est à finalité appliquée. Elle a été
explorée par ceux qui avaient besoin de mesurer la difficulté des
textes, c'est-à-dire des chercheurs en sciences de l'éducation
(évaluation des manuels scolaires) et en technique
rédactionnelle (agences de presse). Elle est, en outre, fréquemment
utilisée par les professionnels de l'édition et des bibliothèques aux
États-Unis. L'idée est de choisir des variables textuelles
mesurables - comme la longueur des phrases - et d'établir une
équation rapprochant ces variables de résultats expérimentaux.
Ceux-ci peuvent être obtenus en mesurant la vitesse de lecture
des sujets ou leur capacité de mémorisation, voire de «
compréhension ». Le problème évident est que cette méthode
tâtonnante n'a guère permis d'avancer dans la compréhension
scientifique des processus qu'elle affirme mesurer.

2. G. De Landsheere, Introduction à la recherche en éducation, Paris, A. Colin,


Bourrelier, 1 982.
3. Aboutissement peut-être logique pour un domaine dont certains spécialistes ont
longtemps adhéré au modèle « télégraphique » (émetteur/canal/récepteur) de Shannon et
Weaver.
88 Psychologie de la communication

• La seconde, beaucoup plus vaste, regroupe dans un ensemble


mouvant (les sciences cognitives) les apports des diverses
disciplines académiques4 participant à la compréhension des
processus cognitifs qui interviennent dans la production et la réception
du discours, l'intégration des informations et leur mémorisation.
Malgré des origines et des méthodes expérimentales parfois
communes, ces deux approches paraissent diverger
radicalement : la première ignore la seconde (réputée fragmentaire et
coupée de la pratique), qui juge la première insignifiante
(dépourvue de fondements scientifiques).
Les deux axes connaissent d'ailleurs des difficultés opposées.
Les recherches sur la lisibilité se sont essoufflées sur le plan
théorique alors que leur influence sociétale est considérable,
voire inquiétante en Amérique du Nord. Les formules ont en effet
été instituées en normes légales d'intelligibilité dans plus de la
moitié des États américains : l'article 38a/699a de la législation
du Connecticut stipule par exemple que les polices d'assurance
doivent obtenir un score minimal de 45 au test de Flesch. Elles
sont également utilisées dans les hôpitaux (pour contrôler la
clarté des formulaires de « consentement éclairé » soumis aux
patients avant une opération ou une expérience), dans des
cours de justice, et interviennent même dans le débat
démocratique (documents électoraux).
De leur côté, les sciences cognitives bénéficient d'une
formidable émulation scientifique, mais les difficultés évidentes
qu'elles rencontrent à tenir leurs « promesses » sociétales
pourraient, à terme, compromettre leur développement. En 1956,
Mac Carthy et Minski, pionniers de la discipline, se promettaient
de reproduire informatiquement l'intelligence humaine « en
moins d'une génération ». Or la seule compréhension des pro-
^ cessus de lecture, malgré ses avancées spectaculaires, est
^ encore loin de fournir des modèles directement transposables à
<8 la pratique : « La somme des données [disponibles aujourd'hui]
U permet-elle de définir des directives pour l'élaboration de bons
js textes? Rien n'est moins sûr...5 ».
5 L'analyse de lisibilité et les recherches en sciences cognitives
§ paraissent donc opposées à tout point de vue, et sont générale-
| ment présentées comme telles. Cette dichotomie n'est pas sans
1
O
§H 4. Psychologie,
5.
A. Colin,
P. Coirier,
1996. D.neurologie,
Gaonac'hlinguistique,
& J.-M. Passerault,
informatique,
Psycholinguistique
etc. textuelle, Paris,
La lisibilité rédactionnelle : fondements et perspectives 89

conséquences : selon que le problème de l'adéquation textuelle


est, ou non, considéré comme faisant partie du champ de la
psycholinguistique, les praticiens et leurs formateurs (enseignants
en journalisme, en communication...) pourront, ou non, espérer
disposer de modèles mieux adaptés à la diffusion publique des
informations complexes. En attendant, les formules de lisibilité
sont bien là. Si elles induisent une démarcation entre ceux qui y
croient et ceux qui n'y croient pas, cette dernière ne passe pas
toujours, comme on pourrait le penser, entre les praticiens et les
scientifiques. Beaucoup de rédacteurs et enseignants en
rédaction sont sceptiques sur la possibilité d'évaluer la clarté de leur
prose, tandis que nombre de chercheurs, notamment dans les
champs de l'éducation et de la santé, utilisent ces formules sans
toujours s'interroger sur leur validité. En tout état de cause, ces
formules magiques (adjectif à considérer dans ses deux sens,
emphatique et ethnologique) méritent mieux qu'un mépris de
principe ou une confiance irréfléchie.
Mais, pour ajouter à la confusion, les arguments pour et contre
reposent généralement sur des résultats expérimentaux, «
prouvant » tantôt que les formules marchent, tantôt qu'elles ne
marchent pas. Il est, à notre avis, plus fécond d'aborder la question
d'un point de vue théorique, en se demandant si les paramètres
des formules de lisibilité sont réellement incompatibles avec les
observations et les théories cognitives actuelles, ou si ces
dernières peuvent apporter un éclairage nouveau sur les
paramètres utilisés.

LES VARIABLES DES FORMULES CLASSIQUES


Les formules classiques, qui sont les plus simples et de très loin
les plus employées, ne retiennent généralement que deux
paramètres, la longueur des phrases et la longueur des mots.

La longueur des phrases


La longueur des phrases influe-t-elle vraiment sur la lisibilité?
Malgré son caractère empirique évident, et sa vérification non
moins empirique, cette thèse n'est pas dénuée de possibles
justifications, dont certaines sont toutefois assez anciennes.
• Un argument en sa faveur vient de la linguistique structurale de
Chomsky. Pour ce dernier, la compréhension d'une phrase
impliquerait la reconstitution de sa structure syntaxique : plus la
phrase sera longue, donc compliquée, plus il sera difficile d'en
reconstruire l'arborescence grammaticale. Bien qu'aucun élé-
90 Psychologie de la communication

ment n'ait à ce jour permis de confirmer la thèse selon laquelle le


traitement syntaxique constituerait un processus cognitif
autonome, il n'est pas déraisonnable de penser que la longueur
d'une phrase influe effectivement sur sa difficulté de
compréhension par le lecteur. (À titre d'illustration, la phrase qui précède
compte 47 mots.)
• Une autre justification possible est inspirée des travaux de
Miller sur la capacité de la mémoire à court terme. Selon lui,
notre capacité de rétention immédiate des informations - ou
empan mnésique - serait d'environ 7 (± 2) éléments tels que
des chiffres ou des mots. Ainsi est-il très difficile de mémoriser
une suite de 10 items comme 014827136 5. Toutefois, un
processus d'agrégation, ou chunking, permet de gérer cette
limite : un numéro de téléphone comme 01 48 27 13 65 ne
comporte que 5 items. De la même façon, le groupement de mots
permet d'accroître la capacité de l'empan, qui se situerait en
moyenne entre 10 et 20 mots. Une phrase dépassant trop
largement cette capacité (qui varie selon les lecteurs) ne pourrait
donc être assimilée qu'en partie. Ainsi, un lecteur dont l'empan
mnésique serait de 12 mots mémoriserait-il en moyenne 85 %
d'une phrase de 14 mots, 70 % d'une phrase de 17 mots et 50 %
d'une phrase de 24 mots6. Signalons toutefois, outre la grande
variabilité que masque ce type d'estimation, qu'il y a un risque
évident à assimiler mémorisation et compréhension.
• On notera enfin que l'hypothèse d'une influence de la longueur
des phrases semble en bon accord avec la théorie actuellement
dominante en matière de compréhension du discours, le modèle
construction-intégration, élaboré au fil des ans par Walter
Kintsch et divers partenaires7. Selon ce modèle, le lecteur
commencerait par élaborer une microstructure en transposant le
texte lu sous la forme d'une suite de micropropositions élémen-
taires (« l'enfant joue dans la cour » donnerait : Proposition 1 :
Jouer [enfant] + Proposition 2 : Dans [cour. Proposition 1]). Or
des phrases courtes sont naturellement plus proches d'un tel
traitement que des phrases longues.

ï 6. J. Douël, Le Journal tel qu'il est lu, Paris, CFPJ, 1 981 .


§ 7. W. Kintsch, Comprehension, a paradigm for cognition, Cambridge, Cambridge
O University Press, 1998.
La lisibilité rédactionnelle : fondements et perspectives 91

En retenant ce paramètre, un indice de lisibilité primitif serait


donc :

L _ nombre de mots
nombre de phrases
...soit, tout simplement la longueur moyenne des phrases.

Le poids des mots


La longueur moyenne des mots est un second paramètre
essentiel en analyse de lisibilité. Comme le premier, il est
essentiellement empirique, mais peut trouver plusieurs types de
justifications :
• Oculométriques. Le premier stade de l'acquisition de
l'information écrite est constitué par le décodage des graphèmes
(caractères). Seule la zone centrale de la rétine, appelée fovéa, est
suffisamment précise pour la reconnaissance des lettres. À
distance de lecture, son angle visuel très réduit (de l'ordre de 3°) ne
permet de voir, dans le meilleur des cas, qu'une dizaine de
lettres et probablement d'en percevoir quelques autres. L'œil
procède donc par une série de fixations (d'environ 25 centièmes
de seconde) reliées par des saccades oculaires beaucoup plus
rapides : les yeux ne sont en mouvement que pendant 5 à 1 0 %
du temps total de lecture8.

Un rideau de brume sépare les rives du sommet rocheux.


Illustration non autorisée à la diffusion

Fig. 1 : Fixations oculaires (en centièmes de seconde) (d'après J. Pynte, « Approche


psycholinguistique de la lecture », CNRS infos, 1.12.95. pp. 19-20)

Or, l'empan perceptif - le nombre de caractères perçus lors


d'une fixation - n'étant pas extensible, on comprend que des
mots plus longs obligent - à nombre égal - à faire un plus grand
nombre de fixations. Celles-ci ne visent pas à identifier tous les
caractères, mais à permettre dès que possible l'accès lexical (la

8.
comprehension
Carpenter & :Just,
from «research
Cognitiveto process
practice,inHillsdale,
reading »,Lawrence
in J. Orasanu
Erlbaum
(éd.),
Associates,
Reading
1986.
92 Psychologie de la communication

sélection d'un mot en mémoire). La reconnaissance d'un certain


nombre de lettres (probablement en parallèle) active des mots
compatibles faisant partie du lexique mental du lecteur, et le plus
plausible d'entre eux est sélectionné (on lira facilement
électrique à la place 6' éclectique). Ce choix sera d'autant plus facile
et fiable que le mot sera court. Si la suite de la lecture révèle une
ambiguïté ou un contresens, un retour en arrière (régression
oculaire) conduira à une nouvelle fixation, ce qui rendra la
lecture plus malaisée9.
• Lexicométriques. Les analyses de corpus (calcul de la
fréquence d'utilisation de chaque mot dans des échantillons de
textes) indiquent que les mots les plus employés sont des mots
courts. C'est le cas des mots à fonction grammaticale
(conjonctions, prépositions), des verbes auxiliaires et des mots désignant
des objets (ou des actions, des êtres, etc.) familiers : chien, chat,
aller, venir, eau, pain. . . Ainsi un mot long a-t-il a priori moins de
chances de faire partie du vocabulaire de base qu'un mot court.
On rappellera à ce propos la célèbre étude de Zipf10, selon qui
une « loi d'abréviation » s'exercerait sur le vocabulaire, tendant
à raccourcir les termes en fonction de leur fréquence d'utilisation
(cinématographe -> cinéma -> ciné).
• Tachistoscopiques. Ce point est intimement lié aux deux
précédents : diverses expériences d'identification immédiate ont
montré qu'un mot était d'autant plus vite reconnu que sa fréquence
d'utilisation était élevée. Ainsi, Rubenstein (1 970) a constaté que
des sujets traitaient plus lentement des mots connus d'eux mais
peu fréquents (~ 900 ms) que des mots connus et fréquents
(-750 ms)11. Ce phénomène, dit effet de fréquence, a été vérifié
à de nombreuses reprises par des expériences différentes12. Or,
nous avons vu qu'il existait un rapport entre la longueur d'un mot
^ et sa fréquence. Notons que l'accès lexical est facilité non seule-
^ ment par la familiarité du mot, mais aussi par son contexte : le
<S mot docteur sera plus vite identifié s'il a été « amorcé » par un
U terme comme infirmière.
-55
® 9. Signalons l'argument audacieux, avancé, calculs à l'appui, par Douël, en faveur de la
§ brièveté. Un journal qui ramènerait sa longueur lexicale moyenne de 4,8 à 4 caractères
*"Ï5 permettrait, selon lui, aux lecteurs de parcourir 20 % de texte en plus à temps égal, ce qui
■ï£ ne saurait manquer de séduire ces derniers.
§ 10. G.K. Zipf, La Psychobiologie du langage, Paris, Retz-CEPL, 1974.
S 11. Cité in A. Lieury et al., Manuel de psychologie de l'éducation et de la formation, Paris,
§ Dunod, 1996.
O 12. J. Caron, Précis de psycholinguistique, Paris, PUF, 1989.
La lisibilité rédactionnelle : fondements et perspectives 93

Bien entendu, il est facile de multiplier des contre-exemples


dans lesquels la longueur d'un mot ne correspond pas à sa
difficulté (Des conférences [11] internationales [15] consacrées [10]
aux cordés [6] d'un schiste [7] du trias [5]). Sur une base
statistique, il semble toutefois légitime de retenir la variable poids
lexical (longueur des mots) comme indicateur de difficulté. En la
combinant avec la variable poids syntaxique (longueur des
phrases), on aboutit aux prototypes des formules de lisibilité
classiques, notamment celles de Flesch et de Gunning.

Les formules de Flesch et Gunning


Ces deux formules, qui constituent le niveau de base de
l'analyse de lisibilité, datent des années 50. Elles se ressemblent
beaucoup, ce qui n'est pas surprenant dans la mesure où elles
exploitent les mêmes variables. L'évaluation de la longueur des
phrases en nombre de mots par phrase est naturelle, alors que
la mesure de la longueur des mots en nombre de syllabes - et
non de lettres - ne va pas de soi. On peut l'expliquer en
rappelant que ces formules se voulaient simples à utiliser par les
rédacteurs : avant la banalisation de l'informatique, il était
beaucoup plus rapide de compter des syllabes que des lettres.

Le Fog Index de Richard Gunning (1952)™ cumule simplement


la longueur moyenne des phrases et le pourcentage de mots
d'au moins 3 syllabes dans le texte. Le coefficient (0,4) est
destiné à faire correspondre le score obtenu à une échelle éducative
américaine.

FI - 0 4 X ( nbre de Mots [mots > 3 syl*] x 100


V nbre phrases + nombre de mots

* Pour tenir compte du fait que les mots de la langue française sont plus longs que ceux de la langue
anglaise, De Landsheere (directeur du laboratoire de pédagogie expérimentale de l'université de
Liège) a proposé de ne décompter que les mots de plus de 4 syllabes.

D'après cette formule et son auteur, un texte destiné au grand


public poserait problème à partir de FI > 12. Les journaux
américains se situeraient en moyenne à FI =10 {Atlantic Monthly : 12,
Time : 10, Reader's digest : 9, True confessions : 7), les bandes
dessinées à FI = 6 et les traités universitaires à Fl>16.

13. R. Gunning, The Technique of clear writing, New York, McGraw Hill, 1952.
94 Psychologie de la communication

Le Reading Ease Level de Rudolf Flesch (1949)u était la


formule la plus utilisée avant l'arrivée des ordinateurs... et l'est
restée depuis (c'est elle que le logiciel Microsoft Word et bien
d'autres utilisent). Elle retient le nombre total de syllabes,
exprimé en moyenne pour 100 mots, et la longueur moyenne
des phrases, affectés de coefficients pondérateurs (réglés de
façon à retrouver les résultats expérimentaux).

RE = 206,835 - ("kre syl x 100 x 0,846\ _ /nbre mots x l,015\


V nbre de mots / V nbre de Dhrases /

Facilité = 206,835 - (nombre de syllabes pour 100 mots x 0,846)


- (longueur moyenne des phrases x 1,015)
Contrairement à la formule de Gunning, un score élevé traduirait
une lisibilité satisfaisante. Son résultat s'exprime sur une échelle
de 0 à 100, correspondant à une lisibilité « scolaire » (on a vu
qu'un texte pour lecteurs adultes pouvait sortir de l'échelle).
Les résultats sur une échelle deO à 100 se jugent comme suit :
95 : très facile, 85 : facile, 65 : moyen, 40 : difficile, 15 : très
difficile, la notion de difficulté devant être comprise dans un cadre
scolaire.
De Landsheere a également procédé à la transposition de cette
analyse à la langue française. Contrairement à d'autres, il
conserve les valeurs d'origine, mais propose des règles de
calcul spécifiques, notamment :
- les articles élidés ne sont pas comptés (règle évidemment
discutable d'un point de vue linguistique) ;
^ - les millésimes (1 964), prix (1 0 F), abréviations (CQFD) et mots
^ composés (week-end) comptent pour un seul mot;
o> - le E muet est prononcé (une fille = 4 syllabes) ;
§j - les groupes comme ien, oui, ui comptent pour une seule syl-
J labe.
■*-*
-.§% La précision des
manifestement douteux
coefficients
de cette
constitue
formule,
l'undans
des aspects
la mesure
les où
plus
la
■| troisième décimale (voire la seconde) ne change pas grand-
| chose au résultat du calcul, compte tenu de son objectif. Comme

O
i 14. R. Flesch, The Art of readable writing, New York, Macmillan, 1949.
La lisibilité rédactionnelle : fondements et perspectives 95

le note Bachelard (1938), « l'excès de précision [est] une des


marques les plus nettes d'un esprit non scientifique, dans le
temps même où cet esprit a des prétentions à l'objectivité
scientifique ». En outre, le caractère approximatif de la notion de
syllabe induit une marge d'erreur très importante pour un
évaluateur humain, et plus importante encore pour un
programme de traitement de texte ordinaire. Une étude menée
actuellement au sein de notre équipe montre que les logiciels
échouent dès les opérations les plus élémentaires, telles que le
décompte des mots. Dans le cas de Word, par exemple, cette
erreur est nettement supérieure à 10 %. Toutefois, cette
imprécision n'est pas nécessairement rédhibitoire, à condition que
l'opérateur (ou le responsable editorial) utilise toujours le même
logiciel, et n'accorde pas à ce score une valeur absolue.

FAUT-IL D'AUTRES PARAMÈTRES?


La recherche de formules aussi complètes que possible a
conduit à envisager des variables supplémentaires. Certaines
visent à rendre compte de [Intérêt humain (sic) du texte, en
retenant des marques comme les indicateurs de dialogue, les
pronoms personnels à la première ou à la deuxième personne ou le
pourcentage de mots « concrets ». Si l'on comprend aisément la
motivation de critères de ce type, on voit également à quel point
ceux-ci sont invalidés par la subjectivité sur laquelle ils reposent.
D'autres paramètres, sans doute plus pertinents, visent à mieux
mesurer l'adéquation du vocabulaire employé. Les formules
classiques ne peuvent en effet rendre compte de la difficulté d'une
phrase dont un ou plusieurs mots sont inconnus du lecteur.

La familiarité lexicale
De nombreuses formules, notamment celle de Dale et Chall15,
largement utilisée dans le monde scolaire anglo-saxon, ont tenté
de contourner cette difficulté en comptant le nombre de mots
absents d'une liste de termes « familiers ». C'est d'ailleurs la
démarche qu'empruntaient les premières formules américaines,
comme celle de Lively et Pressey (1923), ou de Vogel et
Washburne (1928) (cité in Klare, qui recense 31 formules
entre 1923 et 195916). C'est également le cas, plus récent, de

15. J.S. Chall & E. Dale, Reability revisited, Cambridge, Brookline books, 1995.
16. G.R. Klare, The Measurement of readability, Ames, Iowa State University Press,
1963.
96 Psychologie de la communication

Henry17, auteur de la formule la plus sophistiquée jamais


élaborée pour la langue française. Ce dernier utilise la liste du
Français fondamental établie par Gougenheim et a/.18 à partir
d'enregistrements de conversations ordinaires, et qui recense
environ un millier de mots de base (lexemes).
Cette approche est séduisante dans son principe, mais elle se
heurte à deux difficultés importantes. La première est d'ordre
pratique : la nécessité de vérifier manuellement chaque mot d'un
texte est incompatible avec une utilisation au quotidien. Cette
opération pourrait toutefois être traitée informatiquement (elle ne
réclame que deux étapes : lemmatisation19 et comparaison), à
condition d'accepter une certaine marge d'erreur due aux
homographes : bout est familier dans son sens habituel (= extrémité),
mais pas dans son sens nautique (= cordage). La seconde
difficulté, en revanche, est plus fondamentale : nul n'est en mesure
d'indiquer sérieusement dans quelle mesure un mot est «
familier » ou non, même dans le cas d'un groupe de lecteurs
cohérent. Le dépouillement d'un gros corpus de textes, soit plus de
800 documents banals comportant au total plus d'un million de
mots, a montré que des lexemes assez ordinaires (abonner,
abréger, abreuvoir, etc.) revenaient si rarement qu'ils occupent
la 12 000e position sur une table de fréquences comme celle de
Gougenheim20. D'autre part, la familiarité d'un mot n'a pas
nécessairement de rapport avec sa compréhension par le
lecteur : ainsi le fait que le terme anticyclone revienne plusieurs fois
par jour à la télévision n'implique pas que les destinataires aient
une idée très claire de ce qu'il recouvre. Seul un programme de
recherche de grande ampleur, associant linguistes, sociologues
et psychologues, permettrait de faire avancer cette importante
question. Or, il n'y a pas actuellement en France de travaux dans
^ ce domaine.
^ En l'état actuel des choses, la référence à une liste courte ne
^ paraît pas compenser ses inconvénients par un gain de préci-
|> sion suffisant. L'étude de la table de Baudot et al. permet en
§> outre de constater que les 34 mots les plus utilisés ont une lon-
-2

§ 17. G. Henry, Comment mesurer la lisibilité, Bruxelles, Éditions Labor, 1987.


'■jg 18. G. Gougenheim, P. Rivenc, P. Michea & A. Sauvageot, L'Élaboration du français fon-
■SJ damental, Paris, Didier, 1964.
a 19. Remplacement de chaque mot du texte par sa forme canonique : infinitif pour les
| verbes, masculin singulier pour les adjectifs, etc.
§ 20. J. Baudot et al., Fréquences d'utilisation des mots en français écrit contemporain,
O Montréal, Presses de l'université de Montréal, 1992.
La lisibilité rédactionnelle : fondements et perspectives 97

gueur moyenne de 2,8 lettres, tandis que ceux situés autour de


la 12000e position comptent, en moyenne, plus de 8 caractères,
ce dont la variable « longueur des mots » classique rend déjà
compte tant bien que mal. On signalera d'ailleurs que c'est
précisément pour éviter les processus lourds, tels que la consultation
de listes de fréquence, que Flesch a développé sa formule.

La redondance lexicale
La diversité lexicale d'un texte (ou, plus précisément, sa
pauvreté lexicale) est généralement considérée comme un
paramètre essentiel de sa lisibilité. Cette idée rejoint, de fait, la
pratique des auteurs de textes pour enfants. Un récit du type
Dans un joli champ plein de fleurs vivait une petite vache. La
petite vache aimait bien son joli champ et ses fleurs... présente
un taux de mots différents très faibles ou, en d'autres termes, un
taux de redondance lexicale très élevé. Or, les expériences
indiquent qu'un mot est plus facilement activé si ce mot a déjà été
rencontré dans le texte. D'autre part, il est évident qu'un texte
comportant peu de mots différents comportera en priorité des
mots usuels : dans le récit ci-dessus, on pourra éviter des
termes comme métayer ou jachère, mais difficilement le verbe
être. . .
D'où l'intérêt qu'il peut y avoir à mesurer le taux de redondance
lexicale, ou type token ratio :

nbre mots différents


nbre total de mots

Contrairement à d'autres, cette variable n'a pas, à notre


connaissance, été étalonnée pour la langue française. On notera
que, comme la précédente, la variable de redondance est en
partie... redondante avec le paramètre classique « longueur des
mots ». D'autre part, elle pose, elle aussi, un problème de mise
en œuvre manuelle ou de lemmatisation informatique.

Autres variables : la fuite en avant


La liste des paramètres et des approches envisagées par les
auteurs qui se sont intéressés au problème de la lisibilité21 est

21 . Seuls sont évoqués ici les indicateurs autonomes, c'est-à-dire pouvant être utilisés
par le rédacteur sans recours à autrui. Une autre catégorie, heureusement moins
foisonnante, comprend les procédés impliquant un test externe. C'est le cas du simple fait
de se faire relire par un tiers (qui est certainement le contrôle de lisibilité le plus fré-
98 Psychologie de la communication

extrêmement longue et hétérogène. Henry étudie 26 variables,


pour en utiliser finalement 9 (dont certaines ne peuvent être
calculées que par des spécialistes de la linguistique computation-
nelle), Kintsch (1979)22 en propose 6 (dont certaines ne
peuvent être évaluées que par des spécialistes de la théorie
construction-intégration). Revaz et Bronckart23 suggèrent de
prendre en compte une variable typologique inspirée de l'inter-
actionisme social de Vygostski, Richaudeau (1984) fait
intervenir des critères comme la « prégnance » et la « monotonie >> des
phrases...
D'un point de vue technique, cette profusion de variables (toutes
défendables dans leur principe, bien qu'elles doivent souvent
beaucoup aux théories auxquelles se réfèrent leurs défenseurs)
va à l'opposé du but recherché :*plus une formule est
compliquée, moins un professionnel sera susceptible de l'utiliser. De
plus, chaque variable induit un facteur d'erreur supplémentaire,
d'autant plus important que la variable en question est plus
subjective.

DE L'AMBITION À L'IMPASSE
Mais le point le plus important est sans doute le fait que l'inflation
des variables entretient une ambition démesurée : l'espoir,
implicite ou explicite, de prédire la difficulté globale d'un texte en se
fondant exclusivement sur des paramètres quantifiables. Cet
espoir est, par exemple, manifeste chez De Landsheere : « nous
écrivions qu'elles [les formules] atteindraient probablement un
degré élevé de perfection dans un proche avenir et que, grâce
au traitement automatique, elles deviendraient sans doute des
outils éducationnels quotidiens. Ce pronostic est en train de se
réaliser. » Or, c'est précisément lorsqu'elles revendiquent une

*-
CM quent!), mais aussi du test de clozure (W.L. Taylor, « Cloze procedure : A new tool for
^5 measuring readability », Journalism Quaterly, 30, 1953, 415-433), dans lequel un sujet
§> est invité à deviner des mots du texte qui ont été périodiquement remplacés par des
S blancs, et du protocole de Miller et Kintsch (J.R. Miller & W. Kintsch, « Readability and
c recall of short prose passages : A theorical analysis », Journal of experimental psycho-
^ logy : Human learning and memory, 6, 1 980, 335-354), qui prend en compte le temps de
^ lecture et le nombre de propositions mémorisées. Toutefois, ces test externes sont éga-
§ lement discutables : des expériences comme celle d'Ehrlich (M. -F. Ehrlich, Mémoire et
■^ compréhension du langage, Lille, Presses universitaires de Lille, 1994) montrent que
■^ les lecteurs n'ont pas nécessairement conscience de ne pas comprendre... et ne ralen-
§ tissent pas.
S 22. Cité in Chall & Dale, op. cit.
§ 23. F. Revaz & J.-P. Bronckart, « Mesurer la lisibilité : une approche typologique »,
O Revue française de pédagogie, 85, 1 988, 37-46.
La lisibilité rédactionnelle : fondements et perspectives 99

prédictivité globale sur la capacité du texte à être compris, voire


apprécié, que les formules perdent toute vraisemblance.
En effet, les théories modernes sur la compréhension - que,
pour des raisons évidentes, nous ne détaillerons pas ici24 -
permettent de mieux entrevoir les processus en jeu : « comprendre,
c'est construire une représentation particularisée de
situation »25, ou encore élaborer un « modèle mental » de ce qui est
décrit par le texte26. Ainsi, une phrase comme Le vagabond
prend les gâteaux posés sur la fenêtre permet à la quasi-totalité
des lecteurs adultes de se représenter mentalement la scène.
Cette représentation - ou modèle - est plus ou moins précise
selon les lecteurs, mais chacun est en mesure de reconstituer, à
partir de ses connaissances propres, les informations absentes
du texte, par exemple le fait que le vagabond n'est probablement
pas le propriétaire légal des gâteaux, et qu'il se propose de les
manger (la compréhension aurait été radicalement différente si
vagabond avait été remplacé par pâtissier). En revanche, la
phrase Le lamaneur voit le vraquier mouillé dans la darse,
strictement identique en termes de taille (42 lettres) et de structure
syntaxique, ne permettra qu'à peu de lecteurs de construire une
représentation mentale de la situation. On objectera que
lamaneur ou vraquier ne font pas partie de la liste du Français
fondamental, mais vagabond n'y figure pas non plus.
En apparence, la difficulté pourrait être résolue en recourant à
une plus longue liste de mots, selon le principe évoqué plus
haut. C'est, par exemple, ce que prédit Klare : « une liste plus
étendue procurera sans aucun doute une précision plus
importante ». Cet espoir est peu fondé. D'une part, plus la liste
s'allongera, plus elle dépendra des spécificités culturelles des
destinataires (la phrase sur le lamaneur doit être parfaitement
claire pour la plupart des dockers), et, d'autre part, comme on l'a
vu à propos 6' anticyclone, le fait qu'un terme soit connu
n'indique pas qu'il fasse sens pour le destinataire (d'après une
étude du CERC, seuls 21 % des Français seraient capables de
préciser le sens de mots comme expansion et productivité).
Enfin, et surtout, l'absence des connaissances nécessaires ne

24. Nous invitons le lecteur que ce survol, forcément hâtif, aurait mis en appétit à se
reporter à des ouvrages de synthèse plus consistants, en particulier ceux de Coirier et
al., op. cit., de Caron, op. cit., ou de G. Denhière & S. Baudet, Lecture, compréhension
de texte et science cognitive, Paris, PUF, 1992.
25. J.-F. Richard, Les Activités mentales, Paris, Armand Colin, 1990.
26. P.N. Johnson-Laird, Mental Models, Cambridge, Cambridge University Press, 1983.
100 Psychologie de la communication

constitue qu'une partie - essentielle, il est vrai - des motifs


pouvant empêcher le lecteur d'élaborer un modèle mental adéquat.
Parmi ceux-ci figurent, par exemple, l'ambiguïté intrinsèque (La
belle porte le voile peut aussi bien évoquer une jolie nonne
qu'une jolie porte masquant un objet ou une personne), la
défaillance des connecteurs logiques (car, donc, pourtant, mais,
en outre, de même...), des anaphores (// l'a frappé car il ne
l'aimait pas : qui n'aimait pas qui ?) et de la ponctuation (la souris
bondit si vite que la cuisinière sursauta et fonça dans un trou),
ainsi que de très nombreux autres facteurs, dont le moindre
n'est pas... l'absence d'intérêt du texte pour son destinataire.
Sur ce dernier point, par exemple, on ne peut envisager de
mesure de portée universelle sans tomber dans un essentia-
lisme candide, c'est-à-dire dans l'idée que les caractéristiques et
le sens du texte sont entièrement contenus dans le texte (et ne
doivent donc rien au lecteur et aux circonstances de lecture). On
montrera toutefois aisément que l'attrait de la notice peinte sur
les extincteurs varie non seulement avec le désœuvrement d'un
lecteur éventuel, mais aussi - et de façon non linéaire - avec la
survenue d'un incendie. Si une formule entend concerner tous
les types de textes, y compris les notices d'extincteurs, alors elle
devrait également tenir compte des risques d'incendie. Cet
argument serait bien entendu caricatural s'il n'était transposable à la
plupart des documents. De plus, l'inflation des variables conduit
à des paradoxes indéfendables. Ainsi le style constitue un
facteur évident d'agrément, voire de facilité de lecture, qui doit être
pris en compte. Mais, d'autre part, l'application stricte du
paramètre de longueur conduit à raccourcir les phrases et donc à
hacher l'écriture, ce qui va à rencontre de la fluidité du style27.
C'est d'ailleurs pourquoi les auteurs les plus convaincus de l'uti-
^ lité des indices de lisibilité recommandent d'écrire une première
£! version « sans songer aux formules [qui] si on les utilise comme
^ des guides, conduisent à une écriture mécanique » (Klare). De
o> même, le paramètre de longueur favorise la suppression des
g> connecteurs logiques, qui peuvent souvent être remplacés par
5 des points. Il est donc antinomique avec un éventuel paramètre
^ « densité de connecteurs », lequel serait pourtant bien néces-
•ê saire...

1
S 27. A. Pearce, Judging books by their covers : textbook adoption and selection practices
§ and their impact on textbook quality, Policy Brief n° 19, Arizona State University,
O Education Policy Studies Laboratory, 1986.
La lisibilité rédactionnelle : fondements et perspectives 101

QUELLES PERSPECTIVES POUR LES FORMULES?


Pour les raisons que nous venons d'évoquer, les études de
lisibilité se trouvent dans l'obligation de choisir entre deux logiques :
soit continuer à jongler ad infinitum avec de nouveaux
paramètres ou/et prendre en compte les spécificités de chaque
situation de communication écrite (peut-être développer autant de
formules qu'il y a de genres textuels, de publics ou de thèmes),
soit clarifier le concept même de lisibilité et définir de façon plus
rigoureuse sa portée réelle.
La première option s'inscrirait dans la continuité de la plupart
des travaux dans ce domaine, et ses chances de succès
semblent infimes. Nous n'évoquerons pas ici les diverses contre-
expériences tenant en échec les formules. En revanche, il est
intéressant de mentionner des résultats obtenus - à un tout
autre propos - par Tomeh et al. : le simple fait de supprimer les
espaces entre paragraphes, ainsi que le titre du document
soumis à l'un des deux groupes de lecteurs, a suffi pour observer
59 % d'erreurs à un questionnaire ultérieur, contre 31 % pour le
groupe témoin28. On voit mal comment une formule, même très
élaborée, pourrait résister à une variation du simple au double,
liée à un facteur extérieur au texte proprement dit.
La seconde voie revient à distinguer clairement le champ
couvert par le concept de lisibilité et celui couvert par la notion
d'intelligibilité, qui englobe le précédent dans un ensemble plus
vaste. La taxonomie de cet ensemble reste à établir, mais elle
pourrait ressembler à celle proposée ci-dessous.

- PERCEPTIVE - Lisibilité graphique (optique) /


-ACQUISITIVE - Lisibilité lexico-svntaxique (BU)
i-DIFFICULTÉ - LOGIQUE - Cohérence (interprétabilité)
Intelligibilité - GNOSIQUE - Représentabilité ç-
PERTINENCE- L (METATEXTUELLE) - Finalité, genre, circonstances
-ATTRAIT

Fig. 2 : Typologie schématique de quelques facteurs intervenant dans la réception d'un


texte.

28. A. Lieury et al., op. cit.


1 02 Psychologie de la communication

L'ordre des difficultés reprend une distinction psycholinguistique


très classique, bien qu'assez arbitraire, entre les processus de
lecture de bas niveau, dits Bottom-Up (BU sur le schéma), qui
dépendent essentiellement du texte (décodage), et les
processus de haut niveau, ou Top-Down (TD sur le schéma), qui
dépendent essentiellement des connaissances et de
l'implication du lecteur (construction du sens). Cette répartition
heuristique n'implique pas nécessairement l'existence d'étapes
cognitives autonomes et successives, les processus intervenant
dans la lecture étant étroitement mêlés.
Au plus bas niveau correspond la notion de lisibilité dans le sens
où l'emploient les typographes et graphistes quand ils parlent de
la lisibilité d'une police de caractères ou d'une page composée.
Notons que cette acception recouvre également la taille (ou
force de corps), le contraste et la netteté des caractères, tant
électroniques qu'imprimés. Quel que soit le score qu'il obtient
avec la formule de Flesch ou de Gunning, un texte présenté en
noir sur un fond très sombre, ce qui n'est pas rare en presse
magazine et sur internet (ou en blanc sur fond clair dans le cas
du sous-titrage TV), est bel et bien illisible.
Le second registre de difficulté, celui de l'acquisition du contenu
du texte par le lecteur (accès lexical, etc.) est, à notre sens, celui
où les formules de lisibilité - de type classique - peuvent
légitimement prétendre avoir un sens. Ce domaine est sans doute
moins séduisant que celui revendiqué par Dale et Chall, soit : « la
somme complète - y compris leurs interactions - de tous les
éléments compris dans [un texte] qui affectent [le fait qu'un groupe
de lecteurs] le comprennent, le lisent à une vitesse optimale et le
trouvent intéressant ». Mais il est, en revanche, beaucoup plus
plausible. Il faut, même dans ce cadre, insister sur le fait qu'un
^ résultat indiquant une lisibilité élevée ne démontre rien. En
S! revanche, un mauvais résultat sera souvent (mais pas toujours,
^ voir Proust) révélateur d'une difficulté d'ordre rédactionnel. On
|> pourrait trivialement comparer un indicateur de ce type au voyant
|> d'un tableau de bord, qui peut alerter sur un incident, mais non
S prouver, en restant éteint, que le véhicule ne connaît pas de dys-
^ fonctionnement d'une autre nature... On comprend ainsi que le
■S fait que les formules aient été souvent prises en défaut sur des
§ textes faciles à déchiffrer mais parfaitement obscurs ne constitue
| pas un argument à leur encontre. Plus généralement, ce recen-
S trement de la notion de lisibilité s'accorde très bien avec les
8 observations de Miller et Kintsch, qui, au terme d'une expérience
La lisibilité rédactionnelle : fondements et perspectives 103

portant sur plus de 600 sujets, ont notamment montré que « le


score de Flesch rend assez bien compte du temps de lecture
d'un texte mais ne rend pas compte de ce qui en est retenu ».
Dans cette perspective, l'important ne serait pas de tenter
d'étendre la portée des formules, mais plutôt de faire en sorte
que celles-ci fassent mieux ce qu'elles peuvent effectivement
faire. Il serait donc utile d'affiner les indicateurs simples, du type
longueur des mots-longueur des phrases, notamment de façon à
leur donner une meilleure fiabilité statistique (il suffit par exemple
qu'un texte alterne des phrases très courtes et très longues pour
que l'effet de moyenne fausse la mesure), et à arbitrer par une
fonction plus progressive l'interdépendance des paramètres qui
interviennent dans le calcul final.
Enfin, d'autres indicateurs didactiques, ne reposant pas
nécessairement sur des mesures quantitatives, pourraient sans doute
être conçus pour permettre aux praticiens en exercice, et surtout
aux futurs praticiens, de mieux percevoir l'adéquation de leurs
textes en termes de cohérence (anaphores, connecteurs,
progression...) et de représentabilité (possibilité d'activer ou de
construire des schémas mentaux). Mais ce type d'approche
n'est envisageable qu'en renonçant définitivement au rêve
stérile de la formule universelle.

En l'état actuel de nos connaissances, il est extrêmement peu


plausible qu'une formule puisse évaluer les difficultés cognitives
que renferme un texte : conférer une portée sémantique à un
indicateur strictement linguistique relève de l'abus de langage. Mais,
a contrario, rien ne permet de dénier toute valeur à ce type
d'analyse. Dans une tautologie inspirée de Binet (« L'intelligence? c'est
ce que mesure mon test »), on dira que l'analyse de lisibilité ne
peut renseigner que sur... la lisibilité, c'est-à-dire la facilité
d'acquisition du contenu d'un texte, ce qui n'est pas négligeable.
En l'état, ces formules, et en particulier les plus simples,
demeurent, malgré leurs imperfections, d'une réelle utilité pour les
praticiens et les formateurs. Dès lors qu'on ne leur attribue pas une
trop grande capacité prédictive, elles présentent le double intérêt
d'alerter les auteurs sur d'éventuelles difficultés rédactionnelles,
mais aussi de les inciter à s'interroger plus globalement sur
l'adéquation de leurs textes.
Bertrand Labasse
ESJ de Lille
et université de Lyon-1

Você também pode gostar