Você está na página 1de 7

Philippe Bully

Zipf, crateur de la linguistique statistique


In: Communication et langages. N2, 1969. pp. 23-28.

Rsum George Kingsley Zipf est n Freeport dans l'Illinois le 7 janvier 1902. Il poursuit ses tudes au collge Harvard, qu'il quitte en 1924 pour aller tudier Bonn et Berlin. En 1930, il passe un doctorat de philologie compare puis enseigne l'allemand jusqu' sa mort, le 25 septembre 1950. Zipf est presque entirement inconnu du public franais. Aucun des ouvrages dont il est l'auteur, pas mme son oeuvre matresse. Human Behavior and the Principle of Least Effort, n'a fait en France l'objet d'une traduction. Quant au Grand Larousse, il ignore purement et simplement l'homme et son uvre. Aujourd'hui, seuls les linguistes et quelques thoriciens de l'information savent le rle de pionnier qu'il a jou dans le domaine de la linguistique statistique.

Citer ce document / Cite this document : Bully Philippe. Zipf, crateur de la linguistique statistique. In: Communication et langages. N2, 1969. pp. 23-28. doi : 10.3406/colan.1969.3726 http://www.persee.fr/web/revues/home/prescript/article/colan_0336-1500_1969_num_2_1_3726

Zipf, crateur de la linguistique statistique par Philippe Bully

George Kingsley Zipf est n Freeport dans l'Illinois le 7 janvier 1902. Il poursuit ses tudes au collge Harvard, qu'il quitte en 1924 pour aller tudier Bonn et Berlin. En 1930, il passe un doctorat de philologie compare puis enseigne l'allemand jusqu' sa mort, le 25 septembre 1950. Zipf est presque entirement inconnu du public franais. Aucun des ouvrages dont il est l'auteur, pas mme son oeuvre matresse. Human Behavior and the Principle of Least Effort, n'a fait en France l'objet d'une traduction. Quant au Grand Larousse, il ignore purement et simplement l'homme et son uvre. Aujourd'hui, seuls les linguistes et quelques thoriciens de l'information savent le rle de pionnier qu'il a jou dans le domaine de la linguistique statistique. C'est en 1935 que parut le premier grand ouvrage de George Kingsley Zipf : The Psycho-Biology of Language, an Introduction to Dynamic Philology, dont le titre indiquait sans quivoque que l'auteur n'entendait pas s'en tenir la manire classique d'aborder les problmes linguistiques. L'ide d'tudier le langage de la mme faon qu'un physiologiste tudie le rythme cardiaque ou un ornithologue la nidification lui tait venue quelque dix ans plus tt, alors qu'il poursuivait ses tudes en Allemagne. Elle devait l'amener introduire dans l'tude du langage et, par-del le langage, dans les sciences humaines les mthodes de la statistique. Dj son sujet de doctorat : La frquence d'emploi considre en tant que facteur dterminant des changements phontiques, dans l'volution du langage, ainsi qu'une tude parue en 1932, Selected Studies of the Principle of Relative Frequency in Language l'entranaient dans cette direction. En 1935, sa mthode d'approche s'est prcise et il n'a plus qu'un pas franchir pour aboutir aux ambitieuses synthses qu'il publiera en 1 949 dans Human Behavior and the Principle of Least Effort, son uvre matresse. De Joyce Homre En s'appuyant sur des faits statistiques, Zipf a dcouvert que la longueur d'un mot, loin d'tre affaire de hasard, est trs INFORMATIQUE 23

troitement lie la frquence de son emploi. Plus grande est cette dernire, plus bref est le mot. C'est pourquoi le langage courant tend abrger cinmatographe en cinma, radiophonie en radio ou pneumatique en pneu. Par ailleurs, plus un lment du langage est complexe du point de vue phontique, autrement dit plus il est difficile prononcer, moins il apparat frquemment dans le discours. Dans les fragments de textes qu'il analyse, Zipf constate que le mot le plus frquemment employ revient en moyenne tous les dix mots, le second dans l'ordre des frquences, tous les vingt mots, le troisime, tous les trente mots, et ainsi de suite. Autrement dit, les mots d'un texte se distribuent de telle manire que, si on les classe par ordre de frquences dcroissantes, la frquence du second est la moiti de celle du premier, celle du troisime le tiers, etc., ce qui peut s'crire : r x f constante formule dans laquelle r reprsente le rang et /la frquence (1). Cette loi, dont Zipf a montr la validit en l'appliquant des uvres de Joyce, de Plaute ou d'Homre, se rvle passablement valable pour le yiddish comme pour un certain nombre d'auteurs d'uvres d'ancien ou de moyen allemand. Analyse de Ulysse, de James Joyce rangr 10 20 30 40 50 100 200 300 400 500 000 000 000 000 000 000 000 899 frquence / 2 653 1 311 926 717 556 265 133 X4 62 50 26 12 8 6 5 2 1 1 fxr = c 26 26 27 28 27 26 26 25 24 25 26 24 24 24 25 20 20 29 530 220 780 680 800 500 600 200 800 000 000 000 000 000 000 000 000 899

1 2 3 4 5 10 20 29

1. De nombreux autres rapports statistiques ont t mis en vidence par George Zipf. Par exemple, il existe un rapport entre la frquence (b) d'un mot donn et le nombre de mots (a) qui reviennent avec la mme frquence, ce qui s'exprime par la formule : a x b? constante. ZIPF ET LA LINGUISTIQUE STATISTIQUE

Ce tableau, reproduit d'aprs Human Behavior and the Principle of least Effort, montre la frquence en fonction du rang des 298 000 mots de Ulysse, de James Joyce (courbe A) et de 43 900 mots de journaux quotidiens (courbe B). La ligne droite C illustre la loi de Zipf.

En dpit de certaines irrgularits, le crole ainsi que le norvgien et le chinois s'y plient galement. Quels que soient les sujets, les auteurs, les langues, les courbes prsentent toujours la mme allure. Cela signifie que la varit et la probabilit et la distribution des mots est presque exactement la mme pour beaucoup de langues, sinon pour toutes les langues. On pense au cri de victoire de Montesquieu aprs qu'il eut "perc" l'esprit des lois : "J'ai pos les principes et j'ai vu les cas particuliers s'y plier comme d'eux-mmes ! " La loi du moindre effort Restait interprter cette rgularit statistique. Certains eussent suppos qu'elle reprsentait la consquence ncessaire de la loi des probabilits applique au langage. Zipf prfra y voir la traduction de quelque proprit universelle de l'esprit humain. C'est ainsi qu'il fut amen dfinir le principe du moindre effort, principe qui, selon lui, gouvernait tout notre comportement la fois comme individu et comme lment d'une espce. L'homme qui parle tend rduire le vocabulaire en rassemblant derrire un simple mot une multitude de significations. C'est ainsi qu'il donnera au mot le plus "passe-partout" du franais, le verbe "faire", l'une des quatre-vingt-deux acceptions que Littr a eu la patience de dnombrer. A cette force d'unification s'oppose, de la part de celui qui coute, une force de signe contraire qui tend augmenter la diversit du vocabulaire. Pour ce dernier, le moindre effort rsiderait en effet dans la possession d'un code possible compos d'une multitude de mots diffrents, chacun correspondant non pas seulement un objet mais une ide complexe et toutes les nuances possibles de cette ide. Aux yeux de Zipf, c'est le jeu de ces deux forces opposes qui dtermine le nombre de mots d'un vocabulaire, ainsi que leur sens. On a critiqu les donnes de Zipf. La plupart des linguistes INFORMATIQUE 25

considrent en effet les diffrentes langues avant tout comme des langues parles, et il semble fort improbable que les habitudes de parole, de lecture ou d'criture soient dictes avant tout par le nombre de lettres utilises dans les mots. Dans le chapitre introductif qu'il a rdig pour l'dition de 1965 de The Psycho-Biology of Language, George A. Miller imagine que l'on installe une douzaine de singes devant des machines crire et qu'on les y laisse jusqu' ce qu'ils aient produit au hasard une trs longue suite de caractres. Laissant de ct tout espoir de voir l'un d'eux recomposer l' Enide, supposons seulement que nous augmentions l'extension du mot "mot" en appelant ainsi toute suite de lettres comprises entre deux intervalles successifs. Si l'on comptait la frquence des mots ainsi dfinis de la mme faon que Zipf comptait la frquence des mots vritables dans des textes dous d'une signification, on constaterait qu'il est possible de dresser des courbes de Zipf pour les singes aussi bien que pour Joyce ou pour Plaute. A moins de supposer que les pauvres btes sont, elles aussi, tortures par la recherche d'un quilibre entre la tendance l'unification et l'aspiration la diversification dans l'expression de leurs sentiments, force est de conclure que les explications de Zipf ne rendent pas compte du comportement spcifique des tres humains lorsqu'ils utilisent le langage. Mots, dollars, habitants, boutiques Benot Mandelbrot, mathmaticien qui s'est intress de trs prs la linguistique, a fourni une interprtation de cette conclusion. Il a tabli que lorsque les intervalles sont rpartis au hasard dans un texte il y a ncessairement plus de mots courts que de mots longs. Si l'on ajoute cela que la varit des diffrents mots disponibles augmente exponentiellement avec leur longueur, les phnomnes constats par Zipf interviennent invitablement : quelques mots courts seront employs trs frquemment, alors que de nombreux mots plus longs apparatront trs rarement, voire pas du tout. Au lieu de la ligne droite incline 45 de Zipf, Mandelbrot obtient une courbe qui correspond plus adquatement aux donnes des textes. En fait, la loi de Zipf doit tre amnage. Pierre Guiraud, en particulier, a tabli que la frquence des mots d'une langue tait lie leur structure phonique et que le logarithme de leur probabilit d'emploi tait proportionnel au nombre de leurs phonmes. Quoi qu'il en soit, substitue au principe de moindre effort, la notion d'conomie a amen les thoriciens de l'information reprendre, en les affinant ou en les interprtant de fa von diffrente, les donnes accumules par Zipf trente ans plus tt. Pierre Guiraud (2) a regroup sans tenir compte de leur chelle des donnes fournies sparment par Zipf: 2. P. Guiraud : Thorie de la communication in le Langage (Encyclopdie de la Pliade, Paris 1968). ZIPF ET LA LINGUISTIQUE STATISTIQUE

1000

c o 100

On a successivement 1 : tirades longueur (The Great God Brown, E. O'Neill) 2 : mots frquence (Ulysse, J. Joyce) 3 : villes population (U.s.a.) 4 : commerces points de vente (U.s.a.) 5 : personnes revenus (U.s.a.)

10

100 rang

1000

La loi de Zipf est galement susceptible d'tre applique de nombreux domaines qui ne concernent pas l'utilisation des mots. Dans National Unity and Disunity qu'il publia en 1941, puis dans Human Behavior and the Principle of Least Effort, Zipf tudie la taille des villes et les mouvements de population. Ainsi la ville qui vient au dixime rang possde environ un dixime de la population de la plus grande ville. De la mme faon, Zipf a tabli la distribution des revenus des villes d'aprs le nombre de leur habitants, celle des commerces d'aprs le nombre de leurs points de vente, etc. Dans chaque cas, il a observ que la grandeur, c'est--dire tour tour la frquence des dollars, des habitants ou des succursales^ tait proportionnelle au rang de l'organisme considr, et que l'quation fx r zz constante tait toujours valable. On peut s'tonner que des phnomnes aussi diffrents puissent prendre une forme analogue. Pierre Guiraud nous en fournit l'explication. C'est, dit-il, qu'on a, dans tous les cas, une population compose d'individus numrables : formes d'un texte, dollars des revenus, habitants d'un pays, boutiques d'un commerce ; cette masse est ensuite divise en catgories : mots, revenus individuels, villes, commerces, chacune tant caractrise par le nombre d'individus qui la composent ; chaque mot comprend un certain nombre de rptitions, chaque revenu, chaque ville, chaque commerce, un certain nombre de dollars, d'habitants, de boutiques. L'quation rang-frquence, poursuit Pierre Guiraud, apparat partout o l'on dfinit les catgories observes comme la somme d'un certain nombre d'units de base ; c'est une proprit de la substance discrte (discontinue et numerable). Au-del de Zipf On peut, trente ans plus tard, reprocher Zipf d'tre all trop loin dans l'interprtation de ses rsultats; on ne saurait sans injustice contester l'ampleur et l'importance de ces rsultats INFORMATIQUE 27

eux-mmes. En attirant l'attention sur le caractre stochastique des processus qui caractrisent les sciences sociales, en multipliant lui-mme les statistiques, les courbes et les graphiques, le linguiste amricain a forg un instrument dont les recherches actuelles montrent encore l'indiscutable fcondit. Philippe Bully

ZIPF ET LA LINGUISTIQUE STATISTIQUE

Você também pode gostar