Escolar Documentos
Profissional Documentos
Cultura Documentos
Jean-Pierre Masson
Jean-Sbastien Pierre
Professeurs
Ecole doctorale Vie, Agro, Sant commune
Agrocampus Rennes et Universit de Rennes1
Avril 2004
Pluralitas non est ponenda sine necessitate
Frustra fit per plura quod potest fieri per pauciora
Entia non sunt multiplicanda practer necessitatem
William of Occam. Milieu du XIVme sicle.
Les Anciens, comme nous lapprend Pappus, firent beaucoup de cas de la Mcanique dans linterprtation de la
nature, & les modernes ont enfin, depuis quelques temps, rejet les formes substantielles & les qualits occultes,
pour rappeler les Phnomnes naturels des lois mathmatiques.
1
re
phrase de Monsieur Newton la prface de la premire dition des Principes en 1686.
Natura non facit saltus.
Leibniz.
I think I may fearly make two postulata.
First, That food is necessary to the existence of man;
Secondly, That the passion between the sexes is necessary and will remain nearly in the present state.....
Assuming then my postulata as granted, I say, that the power of population is indefinitely greater than the power
in the earth to produce subsistence for man.
Population, when unchecked, increases in a geometrical ratio. Subsistence increases only in an arithmetical
ratio....
Thomas Malthus. An essay on the Principle of Population, 1798.
Nous devons envisager ltat prsent de lunivers comme leffet de son tat antrieur et comme la cause de
celui qui va suivre. Une intelligence qui, pour un instant donn, connatrait toutes les forces dont la nature est
anime et la situation respective des tres qui la composent, si dailleurs elle tait assez vaste pour soumettre ces
donnes lanalyse, embrasserait dans la mme formule les mouvements des plus grands corps de lunivers et
ceux du plus lger atome ; rien ne serait incertain pour elle, et lavenir, comme le pass, serait prsent ses
yeux.
Pierre-Simon Laplace (1749-1827). Thorie analytique des probabilits.
Il existe en effet une forme raffine du machinisme dans laquelle la machine est en quelque sorte mise au
service de la curiosit de lesprit : cette forme, cest la technique exprimentale qui fournit au savant les moyens
ncessaires pour tudier la Nature et en dterminer les lois. Chaque progrs important de lAstronomie, de la
Physique, de la Chimie ou de la Biologie a eu pour condition pralable lexistence ou linvention de certains
appareils ou dispositifs et plus ces sciences ont voulu progresser, plus il a fallu que la technique instrumentale se
dveloppe et saffine.
Louis de Broglie. Matire et lumire, 1937.
Everything should be made as simple as possible, but not simpler.
Albert Einstein.
Nous ne raisonnons que sur des modles .
Paul Valry.
1
Rsum
Aprs avoir explor nouveau le concept de modle, nous dfendons lide que le seul
discours verbal nest pas suffisant pour comprendre et expliquer une dynamique dans les
sciences de la vie; ce discours doit tre mathmatis . Ici le discours de Malthus nous en
fournit loccasion. Conscients quil nous faut investir les concepts de linformatique et de la
physique, nous rflchissons alors sur les mthodes intgratives dans les sciences de la vie ; l
cest le paradigme scientifique de la thorie cintique des gaz parfaits qui simpose nous et
qui est expos. Ensuite lchantillonnage est le plus souvent un pralable incontournable
toute tude ; nous prsentons le modle le plus simple : lchantillonnage alatoire simple
sans remise, porte dentre sur les techniques de randomisation dans les plans dexprience et
sur les techniques de retirage dans un chantillon et de bootstrap. Enfin Galton et ses donnes
de rgression disponibles sur la toile nous invitent revisiter quelques modles de la
rgression simple.
1. Introduction
Ce travail sadresse de jeunes chercheurs ou de jeunes ingnieurs des sciences du vivant. Il
a lambition de faire passer au moins le message suivant : ltude dun phnomne biologique
ncessite une rflexion pralable accompagne dune modlisation. Ce travail prsente
quelques concepts auxquelles il convient davoir rflchi avant daborder une modlisation
en biologie. Les concepts, et les mthodes et les techniques qui les accompagnent, sont
introduits en partant des travaux qui leur ont donn naissance au fil de lhistoire. Les aspects
techniques qui nous paraissent ncessaires pour soutenir le texte et piquer la curiosit sont
reports en annexe. Le lecteur pourra alors imaginer les extensions du propos et utiliser la
toile ou les articles et ouvrages indiqus en bibliographie, pour une tude plus
approfondie.
Cet expos pourra tre utilis au niveau master ou en cole doctorale pour susciter des
interrogations, des demandes de formations supplmentaires et des discussions. Notre propos
empreint, nous lesprons, de modernit, na rien de dogmatique ; il sappuie sur notre
hritage culturel et scientifique occidental ; ceci explique les nombreuses citations en
exergue : Guillaume dOccam, Newton, Leibniz, Malthus, Laplace, de Broglie, Einstein, Paul
Valery.
Il ne fait plus aujourdhui aucun doute : il faut former un plus grand nombre de biologistes
ayant une solide formation en mathmatique lens through which to view the universe
comme nous y invite Simon A. Levin dans Mathematics and Biology : The interface
[Web1]. Cest de ce vivier que natrons des spcialistes de la modlisation en biologie. Le
travail assez complet de S. A. Levin fait le tour des apports rciproques de la biologie aux
mathmatiques et inversement ; il pose les grandes questions du moment et donne des pistes
pour une formation en biomathmatiques.
Depuis plus dun sicle la biomtrie linterface entre la biologie et les mathmatiques a
t un domaine de recherche qui a permis des progrs considrables la fois la biologie et
diffrentes branches des mathmatiques et tout particulirement au calcul des probabilits,
2
aux processus stochastiques et la statistique. Pensons la rgression de Galton, au
processus de Galton Watson (processus de branchement), aux travaux de Fisher, de Lotka,
de Volterra, Plus rcemment les besoins des biologistes ont conduit de nouveaux
dveloppements sur les quations diffrentielles et les drives partielles ordinaires et
stochastiques, des travaux nouveaux sur le chaos, les fractales et les thories de la
complexit dans un contexte o le calcul et le calculable sont omniprsents. Ne parle-t-on
pas de nouvelles mathmatiques exprimentales ! En ce dbut de sicle toutes les branches de
la mathmatique et de linformatique avec la logique sont mobilises. Le terme de
biomathmatiques (Mathematical Biology) est aujourdhui dutilisation courante. Ce nest
sans doute pas une science mais cest srement un champ dinvestigation considrable
ouvrant sur de nouvelles activits de recherche et de dveloppement et des mtiers davenir
dans les sciences de la vie.
Aujourdhui la pratique de la modlisation en biologie oblige une connaissance aussi
approfondie que possible de champs scientifiques diffrents : les mathmatiques appliques et
la biologie. Notre propos ici est certes linterface entre la biologie et les mathmatiques et
nous voulons explorer diffrents concepts mis en uvre plus ou moins consciemment par le
modlisateur ; nous les illustrons pour diffrents exemples extraits ou construits partir de
vieux problmes. Nous esprons que ce papier contribuera la formation
pluridisciplinaire que nous dispensons dans le cadre de lcole doctorale "Vie, agro, sant"
commune lAgrocampus de Rennes et lUniversit de Rennes1. Il convient en effet, pour
faire un travail de modlisation, d'engager - ds le dbut du travail - une collaboration
pluridisciplinaire ; et pour faire un travail de modlisation fructueux il ne suffit pas de mettre
ensemble des experts de disciplines diffrentes mais des experts excellents dans leurs
disciplines, capables d'couter un autre discours et de faire un vritable travail de maeutique
avec leurs collgues.
De fait nous n'avons ni la capacit ni la prtention de couvrir en quelques pages un sujet aussi
vaste que la modlisation et ses rapports la biologie et inversement. De nombreux cours sont
consacrs ces sujets et la "toile" nous offre beaucoup de matriaux pour nous former et de
nous informer sur ce thme de la modlisation applique la biologie. Cependant aprs avoir
prcis la notion de modle et de ses rapports la ralit (2), nous dveloppons deux ides
auxquelles la plus grande partie de la communaut des chercheurs en biologie est maintenant
sensible :
- le seul discours verbal nest pas suffisant et mrite dtre mathmatis . Nous vous
prsentons une telle tentative sur le discours malthusien au paragraphe 3.
- le passage du local au global avec ses changements dchelle mrite dtre modlis.
On parle aujourdhui beaucoup de sciences de la vie intgratives . De fait nous
consacrons une bonne partie du paragraphe 4 la construction de la loi des gaz
parfaits car les biomathmaticiens doivent se pntrer des ides des probabilistes, des
physiciens et des dynamiciens.
Nous donnons ensuite (5) une prsentation de lchantillonnage alatoire simple sans remise.
Ce type de prsentation peut tre appliqu dans des contextes plus compliqus (nous navons
pas dit plus complexes !) et de mieux comprendre les modles qui supportent les
techniques de re-chantillonnage, les modles statistiques des plans dexprience randomiss
et cetera.
Il nous a paru ncessaire, pour terminer, de revisiter diffrents modles de la rgression
linaire simple et dinviter le lecteur consulter les donnes de Sir Galton sur la toile. En effet
bien des confusions sont entretenues faute de prendre le temps de dgager les concepts. Il faut
dire que la rgression linaire simple est encore aujourdhui la technique statistique la plus
utilise dans le monde.
3
2. Quest ce quun modle ?
A chaque artiste appartient sa manire de reprsenter un sujet ou un modle. Dans notre
propos un modle est une reprsentation de la ralit. Cette assertion, avec les concepts de
reprsentation et de ralit , a fait, fait et fera lobjet de nombreux dbats scientifiques
et philosophiques. Mais prenons comme point de dpart la partie de la communication de feu
Ren Thom
1
que voici :
Alors, en quoi consiste la modlisation ?
Eh bien ! On peut linterprter de la manire suivante. Nous avons au dpart une situation
nigmatique que jappellerai X . Cest donc la situation qui fait le problme. La situation
nigmatique nous pose des questions. Ces questions, je suppose que nous sommes en mesure
de les formuler. Je vais appeler cela
R.
Et cette rponse
1
=
( )
N
Pendant ce temps, nous admettrons que
- la fcondit f est indpendante des rserves de nourriture (le lit de la misre est
fcond !)
La mortalit m , gale m en priode dabondance, saccrot linairement avec la
disette, partir du moment o la ressource disponible est infrieure ou gale ,
tant le coefficient daccroissement.
0
Na k
Nous sommes alors amens tudier le systme diffrentiel non linaire :
0 0
sup ,
inf ;
dN R
fN m m k N N
dt a
dR R
a N
dt N
' l 1 1
1
l = +
1
( ) 1 l
l 11
!
1
1
1
= 1
1
( )
11+
Ce systme a deux branches, et deux points fixes, selon la branche sur laquelle on se trouve.
En fait il est agrable dtudier sparment les deux rgimes, et de voir ensuite si, dans le
cours de lvolution de la population, on passe de lun lautre.
10
- Rgime A : R , les ressources sont en excs par rapport la population. aN >
( )
0
dN
f m N
dt
dR
aN
dt
'
1
1 =
1
1
1
!
1
1
=
1
1
1+
- Rgime B : , les ressources sont infrieures aux besoins de la population. R aN <
0
dN R
fN m k N N
dt a
dR
R
dt
' l 1 1
1
l = +
1
( ) 1 l
1 l
!
1
1
= 1
1
1+
Lanalyse thorique de ce modle est expose en annexe i.
Figure 3
Evolution dans le temps du modle de Malthus : La population (courbe 1) saccrot
exponentiellement jusqu la crise des ressources (t=100). Les ressources croissent
linairement (de manire arithmtique) puis seffondrent (courbe 2). La population et les
ressources se stabilisent ensuite un niveau trs bas.
11
Isocline R =
Figure 4
Plan de phase du mme modle. En abscisse la population, en ordonne les ressources. Le
systme bascule lorsque la consommation totale de la population excde les ressources
disponibles, puis se stabilisent sur un point fixe (R=10, N=53) qui est un nud stable.
Dans cette interprtation, conformment ce que prvoyait Malthus, si initialement la
population dispose de ressources en excs par rapport ses besoins, elle va saccrotre de
manire exponentielle, puis seffondrer, lorsque la disette sinstalle. Mais, le modle prdit
aussi un tat stable de la population, assez bas, vivant dans une conomie de subsistance
o la mortalit est leve, et toute ressource produite immdiatement consomme.
12
4. Le changement dchelle : du local au global
Pour comprendre un phnomne une chelle donne il est maintenant dusage courant de
procder l intgration des comportements individuels. Par individu on entend, selon le
contexte, soit un des membres dune population soit un des compartiments du systme que
lon tudie. Lapproche analytique classique que lon pourra qualifier de top-down est
remplace par une approche synthtique bottom-up . On parle alors de systmes
dynamiques et de sciences de la vie intgratives.
Les physiciens ont, depuis I. Newton et G.-W. Leibniz, une longue 3 sicles pratique de ce
procd. Lutilisation courante des concepts de la physique Newtonienne en biologie est
beaucoup plus rcente. Les premiers travaux significatifs datent des annes 30 (1930 !)
(Lotka, Volterra, Fisher).
Dans ce chapitre, aprs avoir rappel les bases de la cinmatique, nous ne ferons quaborder
les modlisations multi-agents (Systme Multi-Agents (SMA)) et les modlisations individus
centres. Le lecteur pourra se reporter aux travaux mentionns que lon trouve facilement sur
la toile. Nous terminerons ce chapitre par un expos dulcor mais rigoureux dun paradigme
scientifique de la fin du XIXme sicle avec L. Boltzmann : la loi des gaz parfaits bien
connue notre chelle et obtenue par intgration des comportements individuels des atomes ;
ceci pour signifier que la modlisation de beaucoup de phnomnes biologiques peut tre
aborder avec les outils que met lanalyse mathmatique notre disposition (quations
diffrentielles et aux drives partielles dterministes ou stochastiques). Nous aborderons
donc successivement les points suivants :
- Quelques rappels de mcanique
- Systmes Multi-Agents et modlisations individus centres
- Ne fait-on pas comme L. Boltzmann en biologie ? Du microscopique au
macroscopique : calcul des probabilits et loi des gaz parfaits.
Quelques rappels de mcanique
La mcanique commence par ltude du mouvement dun point matriel en fonction
du temps t . Il sagit bien de ltude dun systme dynamique. On se reportera aux traits de
mcanique pour en savoir plus sur la dynamique de 2 corps ou de 3 corps en interaction et
lon sait que H. Poincar a t le premier dcouvrir que la dynamique des 3 corps est
chaotique.
M
Dans un repre cartsien le point M a les cordonnes( . Nous
utiliserons le vecteur vitesse instantane
au temps t ( ), ( ), ( )) x t y t z t
( v t = ) ( , ,
dx dy dz
dt dt dt
)
et le vecteur acclration
instantane
2 2 2
2 2 2
( ) ( , , )
d x d y d z
t
dt dt dt
=
2. F m =
(axiome de la masse : 2
me
loi de Newton)
3. Indpendance des effets des diffrentes forces.
Si la loi de F
( , , ) m M v =
t
13
Cest une quation diffrentielle du second ordre qui dfinit lunique mouvement de M
quand on a prcis sa position et sa vitesse lorigine du temps t . Do la fameuse
citation de Laplace en exergue.
0
t =
Ces concepts et ce modle de la mcanique newtonienne nont rien dvident. Ils apparaissent
assez tardivement dans lhistoire des Sciences. La seconde loi de Newton est familire tout
tudiant en sciences ayant des notions mme rudimentaires de physique. Elle est nonce dans
tous les manuels sous la formeF m =
: la force est proportionnelle la masse, et le
coefficient de proportionnalit est lacclration. Ou bien : la force est proportionnelle
lacclration et le coefficient de proportionnalit est la masse. La formule est si familire que
la plupart de ses utilisateurs oublient quil sagit dun modle, modle fondateur du concept
mme de force.
Un ami dun des auteurs, physicien, fait remarquer quel point cet nonc de la seconde loi
de Newton est peu pdagogique et peu sensible. La formule rend le concept de force
mystrieux. Pourquoi cette grandeur rsulterait-elle du produit dune masse par une
acclration ? Il ny a l rien de naturel. Il propose denseigner la loi sous la forme :
F
m
=
Lapplication dune force F
Mais il nest pas non plus sans intrt de voir comment cette loi tait exprime chez Newton
lui-mme. Les principia ne contiennent aucune criture mathmatique du genreF m =
,
mais un nonc verbal : Les changements qui arrivent dans le mouvement sont
proportionnels la force motrice, et se font dans la ligne droite dans laquelle cette force a t
imprime. Le mouvement tant dfini auparavant, conform e qui avait dj
dfini le concept, comme le produit de la masse par la vitesse, p (aujourdhui : quantit
de mouvement). Nulle mention de lacclration. En considrant ces deux dfinitions, on
peroit quelle fut la difficult pour dfinir proprement la notion mme de force.
Aujourdhui, la notion de force semble plus immdiate et plus accessible que celle de quantit
de mouvement. Ce ntait pas le cas au XVII
ment Galil
mv =
e
sicle. Force, puissance et nergie ntaient pas
clairement dgages les unes des autres. La force vive dAristote tait plus assimilable
lnergie cintique et la force tout court la quantit de mouvement. Cette dernire
grandeur fut un bon intermdiaire intuitif, un modle de passage.
Lide centrale est qu vitesse gale une grande masse reprsente plus de mouvement quune
petite. Elle est plus difficile arrter, ncessite une force plus importante pour tre
immobilise. La dfinition de la force devient ainsi possible, et mesurable de manire simple.
Lquation F m =
est alors la reconstruction moderne de la seconde loi de Newton. La
traduction en quation de la phrase de Newton est bien entendu :
dp
F
dt
=
Soit
( )
d dv
F mv m
dt dt
= = = m
,
14
dans une perspective newtonienne o la masse se conserve comme grandeur invariable.
Ainsi la variation de quantit de mouvement est gale ce qui est nomm
aujourdhui impulsion.
Le modle a dimmenses mrites. Avec lui, on construit toute la mcanique classique et on
ltend, avec les amnagements adquats, la mcanique relativiste. Notons seulement que
son criture, si simple annihile le dveloppement historique du concept de force et, par sa
puissance heuristique mme, peut obscurcir laccs la comprhension de la physique pour le
dbutant. Dans son apprentissage, ce dernier va passer (douloureusement) du concept statique
ou la force est un vecteur qui se combine avec dautres forces selon des rgles gomtriques
simples, au concept dynamique o lacclration apparat, de manire bien mystrieuse.
Mais aprs tout Newton tait alchimiste !
Citons Jean-Marc Levy-Leblond pour nous entraner plus loin :
Aussi bien peut-on se demander pourquoi seules la position et la drive premire, la
vitesse, sont convoques pour dfinir ltat instantan dune particule classique et pas
lacclration et les drives suivantes. Cela tient au fait que lquation de Newton donne
justement lacclration en termes de la position et de la vitesse, et que sa solution est donc
dtermine par la donne initiale de ces deux grandeurs. Sans pousser plus loin (pourquoi
lquation de Newton est-elle une quation diffrentielle du second ordre et non du
troisime ?), on notera quel point la notion dtat en mcanique classique est loin dtre
naturelle.
Il ny a donc gure de raison pour exiger quun objet physique soit ncessairement dcrit par
deux grandeurs physiques, sa position et sa vitesse, prenant, qui plus est, des valeurs
numriques uniques et bien dtermines. Certes, si lon veut tout prix attribuer un lectron
une valeur de sa position ou de sa vitesse, alors la seule faon de le faire est de considrer
cette valeur comme alatoire et gouverne par une loi de probabilit. Mais ny a-t-il pas l une
rification indue par laquelle on tente dimposer llectron un mode de description dont rien
ne dit quil soit conforme sa nature ? .
De mme l nergie cintique est un travail :
2
1
( ). . ( ). ( ). . . . . . ( . . )
2
tg
F t dx m t v t dt m v dt mv dv d mv = = = =
o est la composante du vecteur acclrations sur le vecteur vitesse linstantt .
tg
= =
(0)
Et tout le monde sait bien que pour raliser une vitesse moyenne donne il est bien des
manires de se comporter sur la route !
Systmes Multi-Agents et modlisations individus centres
Certes lagent nest pas toujours un point matriel dont le mouvement est inexorablement
pilot par une quation dterministe. Lagent peut tre dou dune intelligence ou du moins
dune capacit ragir certaines conditions du milieu.
15
Dans les systmes autonomes lagent (un individu, un processus informatique,)
ventuellement susceptible dapprentissage laide dune boucle sensori-motrice -
produit un comportement en interaction avec son environnement. Dans les modles de
systmes multi-agents (SMA) les agents peuvent, en suivant les rgles du jeu que le
modlisateur leur impose, tre amens conjuguer leurs actions et produire dans certaines
conditions des phnomnes globaux ventuellement inattendus de lobservateur quest le
modlisateur. On parle alors dmergence et de phnomnes mergents. On notera sans entrer
dans une quelconque polmique que beaucoup de modles ayant une porte intgrative - et
notamment les modles diffrentiels ou aux diffrences et les modles probabilistes - peuvent
dans certaines conditions produire des comportements globaux catastrophiques, chaotiques,
tranges,
Les modles SMA peuvent tre simuls grce aux capacits actuelles de calcul. Les
simulations informatiques sont souvent trs lourdes pour atteindre les solutions . On
comprendra aisment que non seulement la biologie et les sciences de la vie mais aussi les
sciences humaines et sociales utilisent ces nouveaux moyens pour comprendre et tenter
dexpliquer le monde complexe dans lequel nous vivons.
On pourra consulter sur le net de nombreux travaux avec des applications non triviales la
dynamique des populations, par exemple. Citons Pascal Ballet et coll. avec Cellular
automata, Reaction-Diffusion and Multiagents Systems for Artificial Cell Modeling ,
Franois Bousquet et coll. avec les SMA et la gestion des ressources renouvelables, Yvan
Lagadeuc pour la modlisation et la simulation multi-agents en cologie et Jean-Pierre Mller
avec des travaux ayant un caractre informatique plus marqu.
Au dbut de ce XXIme sicle on parle beaucoup de complexit et de systmes complexes
plutt que de systmes compliqus dont on peut prvoir le comportement par addition des
effets des diffrents composants. Encore faut-il savoir de quoi lon parle : complexit
algorithmique, entropie,, thories de linformation. L encore un travail de veille
scientifique et technologique sur le net peut vous donner en quelques temps le vertige [Reda
Benkirane].
La tradition veut que dans notre systme ducatif on enseigne encore actuellement
essentiellement des modles analytiques et non des modles systmiques [Jean-Louis Le
Moigne : La modlisation des systmes complexes]. Il y a bien du vrai dans ces propos et
plutt que dessayer daborder la mcanique statistique des automates cellulaires nous allons
faire leffort de nous placer avec L. Boltzmann la fin du XIXme sicle.
Ne fait-on pas comme L. Boltzmann en biologie ? Du microscopique au
macroscopique : calcul des probabilits et loi des gaz parfaits.
Tous les jours notre chelle (niveau macroscopique) nous pouvons vrifier que la fameuse
loi des gaz parfaits :
. . PV n RT = .
sajuste quasi parfaitement (dans une large plage de temprature et de pression) aux donnes
exprimentales.
Par tablir nous entendons dduire cette loi, de faon thorique, dhypothses classiques
de la mcanique statistique faites sur la distribution des vitesses des atomes (et donc un
niveau microscopique). Nous supposons ici que le gaz est monoatomique (pour ne pas avoir
tenir compte des aspects lis la rotation des molcules sur elles-mmes).
Prcisons les rgles du jeu :
1. atomes se dplacent dans un volume V sans collision entre eux (pour viter
quelques complications !).
N
16
2. Nous ne nous occupons pas de la position de chacun des atomes en fonction du
temps; et cest heureux car ils sont trs nombreux ; nous supposons cependant quils
sont, tout instant, uniformment rpartis dans le volumeV ; et nous appliquons les
axiomes de la physique de Newton!
3. Concernant les vecteurs vitesses des atomes, nous notons leurs
coordonnes dans un quelconque repre cartsien (mais bien fix). Nous supposons
que la distribution du point ( est uniforme dans
lespaceR . Cette notion de distribution uniforme dans tout lespace reoit un
sens prcis dans le cadre des algbres de probabilits conditionnelles (cf. Rnyi),
cadre bien adapt la statistique Baysienne.
, , ( 1,..., )
i i i
i =
, )
N N N
N
1 1 1 2 2 2
, , , , , ,..., ,
3N
4. Les variables de position et de vitesse sont stochastiquement indpendantes.
5. Les atomes rebondissent (de faon lastique) sur les parois du rcipient de volumeV .
6. Le rcipient tant isol, lnergie cintique totale est constante. Pour un gaz
monoatomique de masse atomique m :
E
( )
2 2
1
1
. .
2
N
i i i
i
E m
=
= +
2
+
Nous sommes l - dans lesprit au moins - assez proche de rgles pour des simulations multi-
agents. On trouvera de tels simulateurs sur le net permettant de re-re-dcouvrir le
comportement global notre chelle quand le nombre datomes qui se dplacent nest pas
trop grand (quelques centaines datomes alors que le nombre dAvogadro est de lordre
de10 ).
23
Nous supposerons que lnergie cintique est proportionnelle la tempratureT :
3
. . .
2
E kT = N o k est la constante de Boltzmann et N le nombre datomes.
Nous allons prciser dans un premier temps (a) la distribution des vitesses au niveau
microscopique; puis dans un deuxime temps (b) nous ferons le passage du niveau
microscopique au niveau macroscopique.
(a) Lorsquon fait tendre le nombre datomes N vers linfini :
- la densit de la composante de la vitesse sur un axe du rfrentiel, conditionnellement
la temprature T , tend vers la distribution normale centre sur et de variance 0
2
kT
m
=
- les variables alatoires composantes de la vitesse sur les 3 axes du repre tendent
devenir indpendantes.
Le mme type de technique appliqu
2 2 2 2
2
v
1 1 1
= + +
( ) ( ) ( )
conduit la densit de la
racine du 3 degrs de libert :
2
2
2
2
. . exp
2
x
x
( )
; et, par suite, pour le module de la
vitesse v
1
= <
( )
< .
17
Nous aurions pu demble supposer que, la limite ( dans tout repre cartsien les
trois composantes de la vitesse sont indpendantes et centres sur 0 ; cela nest pas vident !
On montre alors, en tenant fixe un axe du repre et en utilisant les rsultats thoriques
rappels en annexe iii, que :
)
t
N
- les trois composantes de la vitesse sont indpendantes et normalement distribues
centres sur et de mme variance. 0
- la direction du vecteur vitesse est uniformment distribue dans R et la distribution
de son module est Maxwellienne et rciproquement ; et ceci quand les projections du
vecteur vitesse sur les axes dun repre cartsien sont distribus normalement
(centres sur et de mme variance). Pour une tude approfondie on consultera W.
Feller.
3
0
(b) Connaissant la distribution des vitesses au niveau microscopique nous allons maintenant
passer au niveau macroscopique.
Considrons la surface lmentaire (plane) dS de la paroi du rcipient de volume V
contenant notre gaz monoatomique.
Supposons quun atome de vitesse v faisant un angle avec la normale la surface dS
touche celle-ci entre t t . Il est ncessairement dans le cylindre oblique de base dS et
de hauteur . La probabilit quil appartienne ce cylindre est gale
et d +
dt . cos . v
. cos
V
. v d . t dS
compte tenu de notre 4
me
rgle du jeu. Il en rsulte que lesprance du nombre datomes dans
le volume du cylindre oblique qui nous occupe, est gale
. . cos . . N v dt dS
V
quand v sont
fixs. La variation (conditionnelle) de la quantit de mouvement est alors gale :
,
2 2
. . cos . .
( . / , ) 2. . cos
= .2 . cos . .
N v dt dS
E F dt v mv
V
N
mv dt dS
V
=
Notons P la pression du gaz (force par unit de surface). Alors :
( )
2 2
/ , / , . . cos
F N
E v E P v mv
dS V
1
= =
( )
Et comme lnergie e de latome est gale
2
1
2
mv ,
2
( / , ) .4. . cos
N
v e
V
= E P .
Enfin { }
2
,
( / , ) .4. ( ). (cos )
v
N
P v E e E
V
= E E
Nous savons que
2
3
( ) et (cos )
2 6
kT
E =
1
= E e (voir annexe iii). Par suite :
( )
NkT
E P
V
=
La pression P ne scartant pratiquement pas de sa valeur moyenne compte tenu de la loi des
grands nombres, nous venons de re-re-dcouvrir la formule clbre :
PV NkT nRT = =
o est la quantit de gaz exprime en moles et R la constante des gaz parfaits (nombre
(dAvogadro) de molcules dans une mole multipli par la constante de Boltzmann).
n
Et voici un changement dchelle dpouill de son mystre et expurg de tout verbiage
systmique : on part dune loi simple sur les lments et lon arrive une loi
18
mergente non moins simple. Cette dmarche, finalement bien cartsienne est-elle bien
diffrente de celle qui prvaut dans ltude passionnante au demeurant des phnomnes
auto - organiss ? Ne lgitime-t-elle pas un certain rductionnisme ? On se contentera de
poser la question.
19
5. Quid du hasard introduit: lchantillonnage alatoire simple.
Nous adoptons ici une prsentation du calcul des proprits classiques de la moyenne dans
le cadre du modle de tirage dun chantillon alatoire simple sans remise qui utilise
essentiellement la proprit de linarit de lesprance mathmatique. Il sagit de donner au
lecteur les moyens daller plus loin dans la comprhension des techniques de randomisation.
Lobjectif
Dans une population P de taille , les individus sont nomms . On sintresse
la variables X quon souhaiterait mesurer sur tous les individus de . Notons X .
Ainsi la moyenne et la variance dans la population sont :
N
1 2
, ,...,
N
P ( )
i i
=
P
1
2 2
1
1
1
( )
N
u
u
N
u
u
N
N
=
=
=
=
Pour une raison ou une autre (manque de moyens, chantillonnage destructif, perturbation de
lenvironnement, ) nous ne pouvons mesurer quun chantillon de taille n . Mettons
que notre objectif premier soit destimer la moyenne de la population P et dvaluer
la prcision de cette estimation ou toute autre caractristique de la population P (variance,
histogramme, la plus grande valeur, et cetera).
N <
Nous ne pouvons gure aller plus loin sans prciser un modle pour le tirage de lchantillon.
Le modle
Supposons que :
1. tous les individus ont la mme chance dtre tirs.
2. un individu tir est mesur et nest pas remis dans , P
Cela peut se traduire en langage probabiliste de la manire suivante.
Etant donnes les n N variables alatoires avec i n , u N et: .
iu
1,..., = 1,..., =
1 si est tir au tirage
0 sinon
iu
iu
u i ' =
1
1
1
!
1 =
1
1+
1. Alors
{ }
1
{ 1}
1
0 1
iu
iu
P
N
P
N
'
1
1 = =
1
1
= =
1
1
1+
11
!
1
Pour lobjectif que nous poursuivons savoir une estimation de la moyenne - le modle
nest pas encore suffisamment spcifi ; il nous faut encore prciser la loi de probabilit dun
couple ( , )
iu jv
2. quand i j , et quand i j , . {( 1) ( 1)} 0
iu jv
P = = = = u v u v =
1
{( 1) ( 1)}
iu jv
P
N
= = = quand i et . j = u v =
1 1
{( 1) ( 1)} ( 1)
1
iu jv iu jv
P P
N N
= = = = =
quand i et . j u v
20
Les variables alatoires observables , i sont ralises au moment
du tirage de notre chantillon de taille n .
1
.
N
i i
u
X
=
=
u
n
u
1,..., =
Quelques calculs.
Vous vrifierez aisment que E X et que, par suite, ( )
i
= ( ) = E X . Nous disposons donc,
dans limmdiat, dautant destimateurs non biaiss que de variables alatoires observables
. Pour atteindreVar et
i
X (X )
i
( ) X
)
Var il nous faut calculer la covariance
; cette covariance est gale Var quand i j .
Tous calculs faits, Var est gale (voir annexe iv).
( , )
i j
u v
X X =
.
u v
C
( )
i
X
( ,
iu jv
ov
2
Cov (
i
X ) =
Nous disposons aussi de X comme estimateur non biais de et sa prcision mesure en
terme de variance est bien moindre !
2
1
( ) (1 )
1
n
X
n N
Var .
Nous sommes l pratiquement dans les mthodes de r-chantillonnage (bootstrap). Et
linfrence dpasse largement des paramtres simples comme la moyenne et la variance. La
distribution dans lchantillon est un estimateur de la distribution dans la population (Efron) !
Notons que cest un modle de tirage au hasard qui assure cette magnifique proprit.
Le mme type de dveloppement permet la construction du modle statistique et la mise en
place aprs randomisation (alatisation, en franais) - des plans dexpriences.
21
6. Quelques modles de regression
Dans ce chapitre nous abordons par la rgression quelques aspects de la modlisation
statistique. Une variable expliquer et une variable explicative nous suffirons. Vous
trouverez dans les ouvrages spcialiss les extensions naturelles plusieurs variables
explicatives (avec ventuellement plusieurs variables expliquer simultanment (rgression
multiple multivariable)). Nous souhaitons simplement ici convaincre quil convient de se
placer dans un contexte appropri au problme pos, aux ides a priori, la modlisation et
lexprience qui en a rsult. Pour ce faire nous prsenterons succinctement trois contextes
classiques de la rgression et nous appuierons sur lexemple clbre de Sir Francis Galton.
6.1. Un premier contexte de rgression consiste approcher la variable alatoire Y
expliquer par la variable combinaison linaire Y a de la variable alatoire
constante gale 1 et de la variable explicativeX . Nous noterons et les esprances de
et de , et les variances et la covariance entre Y et .
. b X = +
Y
X
X
Y X
2
Y
2
X
XY
Quand on choisit de minimiser le critre dapproximation en moyenne quadratique on
obtient pour a et b :
2
.
Y X
XY
X
a b
b
= +
=
Nous noterons la variable alatoire diffrence Y a : ( . b X + )
2
( . ) .(
XY
Y X
X
Y a b X Y X
= + = )
+
Elle est non corrle avec a b . .X +
Do un modle qui scrit souvent: Y a . La statistique donne les
moyens destimer notamment a etb .
. b X = + +
Quand nous supposons de plus que le couple ( , est distribu selon une loi
normale 2 dimensions, avec les mmes notations que prcdemment, les esprances,
variances et covariance spcifient compltement la loi du couple. Nous savons alors
que la variable alatoire esprance conditionnelle E Y est de la forme a b
o les coefficients a et b sont encore ceux dtermins au paragraphe ci-dessus:
) X Y
( / ) X .X +
( / ) . E Y X a b X = +
Il parat naturel de choisir E Y comme prdicteur de Y et
dcrire Y sous la forme :Y E .
( / ) . X a b X = +
( / ) . Y X a b = + = X +
Les variables et E Y , pour les raisons dj vues, sont de covariance nulle et
donc indpendantes compte tenu de lhypothse de normalit. Dans ce cas particulier
suit une loi normale centre sur 0 et de variance rsiduelle gale
( / ) X
2
2
2
XY
Y
X
. Il va
sans dire que cette variance rsiduelle est souvent bien plus petite que la variance
(variance phnotypique de la gntique quantitative) deY .
2
Y
22
Nous voudrions attirer lattention du lecteur sur le fait quen gnral, quand la loi du
couple nest pas binormale, lesprance conditionnelle E Y nest pas de la forme
. Ceci nempche pas le modlisateur de souhaiter approcher Y par la
meilleure combinaison a b au sens du critre quil choisit. Nous avons choisi
ci-dessus de minimiser le critre de la moyenne quadratique qui conduit la
prsentation classique de lannexe v.
( / ) X
. a b X +
.X +
Sir Francis Galton, cousin de Darwin et mentor de Pearson, a publi en 1886 une tude
devenue clbre sous le titre Regression Towards Mediocrity In Hereditary Stature
dans le Journal of the Anthropological Institute . A partir dun chantillon de taille
raisonnable (n ) il prdit linairementY , la taille de lenfant en fonction de , la
taille moyenne des deux parents (de fait la taille de la mre a t multiplie par 1.08
avant de prendre la moyenne !). Les modles du contexte que nous venons dtudier
linstant sont des modles candidats car chacun des couples( , , rsultant dune
enqute, peut tre considr comme une valeur prise par le couple de variables
alatoires( , .
75 =
) X Y
X
) x y
Galton stonne destimer une pente (b
71.24 2.602
69.59 2.904
0.46
y y
x x
xy
= =
= =
=
Do
46.45 0.41. Y X = +
36.82 0.51. X Y = +
Il ny a l rien dtonnant car la pente (b ) est le produit du coefficient de corrlation et
du rapport de lcart-type de la variable expliquer sur lcart-type de la variable
explicative. Ici le rapport des cart-types est voisin de 1 et la corrlation est positive et
relativement faible (0.46).
6.2. Un deuxime contexte de rgression linaire consiste poser comme modle une
relation structurelle affine entre 2 variables et certaines (souvent appeles variables
mathmatiques pour convaincre quelles nont rien dalatoire) :
. = +
n
i
i
n
i
Cependant les variables et ne sont pas directement observables. Les couples( , ,
sont entachs derreurs. Nous devons donc complter notre modle de dpart, par
exemple de la faon suivante :
)
i i
1,..., i =
i i
i i
X
Y
= +
= +
o le couple de variables alatoires ( , prendra la valeur ( , la i me observation,
. Les variables et sont supposes centres et respectivement de variances
et . Nous supposerons ici de plus quelles sont indpendantes et normalement distribues.
)
i i
X Y )
i i
x y
1,..., i =
2
i i
2
2
= connu.
Alors lestimateur du maximum de vraisemblance du paramtre inconnu estimer est :
2 2 2 2 2
1 1 1 1 1
1
. ( . ) 4 .(
2.
n n n n n
i i i i
i i i i i
n
i i
i
Y X Y X X
XY
= = = = =
=
+ +
=
2
)
i i
Y
Pour simplifier lcriture de , doit tre compris comme
i
X
i
X X et Y comme
i i
Y Y .
- Quand on suppose alors lestimation de est prcisment gale la pente du 1 1 =
n
er
axe
principal de lanalyse en composante principale portant sur la matrice des variances et
covariance des donnes ( , , i . Les valeurs de )
i i
x y 1,..., = et de sont celles qui
minimisent la somme des carrs des distances des points ( , la droite dquation
)
i i
x y
. y x = +
n n
- Quand on suppose de plus que et alors lestimation de est gale
selon que le coefficient de corrlation linaire est positif ou ngatif !
2
1
1
i
i
x
=
=
2
1
1
i
i
y
=
=
1
Le lecteur trouvera plus de dtails en annexe vi et dans les travaux de Henri Caussinus qui
sont de petits joyaux !
6.3. Un troisime contexte est gnralement celui dans lequel on se place pour enseigner la
rgression linaire des dbutants.
Lexprience consiste :
- choisir et contrler (sans erreur) diffrentes valeurs de la variable explicative x i , 1,...,
i
n =
- observer les variables expliquerY i . , 1,...,
i
n =
Le modle associ lexprience scrit :
. .
i i
Y a b x = + +
i
ar(
2
2
( ) 0 V )
i i
= =
Le statisticien utilise, entre autres critres, le plus souvent le critre des moindres carrs pour
estimer les paramtres : ; mais l nest pas notre propos.
2
, ,
6.4. Quelques remarques et conclusions
Au risque de nous rpter nous affirmons quil nest pas possible dinterprter des rsultats
exprimentaux sans hypothses a priori. Dans ce sens ajuster une droite un ensemble de
points exprimentaux est un problme qui prend du sens quand les hypothses du plan
dexprience et le modle sont prciss au dpart. Il ny a donc pas lieu dopposer des
pratiques qui correspondent des objectifs et des modlisations diffrentes.
Quel comportement aurait Sir Francis Galton face ce discours ? Le terme de rgression
naurait sans doute pas vu le jour.
24
7. Annexes
Annexe i
Et si Malthus avait modlis
Si le taux de mortalit m est de la forme
0 0
sup ,
R
m k N
a
m m
l
1
l = +
( ) l
l
; Alors,
0 0
sup ,
R
r f m m k N
a
l
1
l = +
( ) l
l
et
0 0
sup ,
dN R
fN m m k N N
dt a
l 1
l = +
( ) l
l
Dans le plan de phase, il existe une sparatrice entre les deux rgimes : la droiteR . Le
systme est linaire dans le rgime A, non linaire en N dans le rgime B. En choisissant les
conditions initiales de part ou dautre de la sparatrice, il est trs simple dtudier les deux
rgimes sparment. On dterminera ensuite ce qui se passe au voisinage de la sparatrice.
aN =
Rgime A : en posant r f , on obtient videmment
0
m =
0
rt
N N e =
que lon substitue dans la seconde quation
0
rt
dR
aN e
dt
=
qui est immdiatement intgrable en :
0
rt
a
R t N e
r
= +C
avec
0
a
C R N
r
= +
0
Et les trajectoires ont donc pour quations :
0
0 0
rt
rt
N N e
a
R t N e R N
r r
'
= 1
1
11
!
1
= + +
1
1
1+
0
a
0 0
Il est alors facile de savoir si lon va ou non couper la sparatrice. Nous avons choisi
telles queR . Il reste rsoudre la question :
0
et R N
0
>aN
0 0 0
? 0/ ? 0/
rt rt
a a
t R aN t t N e R N aN e
r r
> < > + + <
0
25
0 0
1
1
rt
a
t aN e R N
r r
0
l
< + l
l
l
mais daprs les conditions initiales, il existe une valeur h strictement positive telle
queR a . On peut donc rcrire comme suit :
0 0
N = +h
(
0
1
1
rt
t h aN e
r
) 1
l
+ < + l
l
l
Le membre de gauche est dordre linaire, le membre de droite dordre exponentiel, et par
consquent, il existe t positif qui vrifie lingalit. La valeur prcise de t est donne
par une fonction de Lambert
i
. Cela nous suffit. Tt ou tard, la population tombera
videmment en disette. La sparatrice sera donc franchie et on passera dans le rgime
B.
Rgime B :
0
dN R
fN m k N N
dt a
dR
R
dt
' l 1 1
1
l = +
1
( ) 1 l
1 l
!
1
1
= 1
1
1+
Cette fois, cest lquation 2 qui sintgre directement par sparation des variables.
Cependant, comme lquation 1 est non linaire, il est sans doute plus intressant de travailler
par linarisation au voisinage du ou des points fixes.
En fait, le point fixe est unique. Lquation 2 conduit immdiatement
* R =
La droite R tant isocline dans le plan de phase( . Par substitution dans la premire
quation, on trouve :
= ) , R N
0
*
m f
N
a k a
= = +
r
k
Le jacobien de ce point fixe a pour expression :
2 * *
0 1
k k
r kN N
a a J
1
+
( )
soit
*
0 1
k
r k N
a a J
1
( )
en posant, comme prcdemment, . Le produit des valeurs propre
est
0
f m r =
P r , strictement positif. Les valeurs propres sont donc de mme signe.
Leur somme est S , strictement ngative daprs ce qui prcde. Les deux
racines sont donc relles et ngatives, et le point fixe trouv est un nud stable.
k
a
= +
1 = P
26
Annexe ii
Dmonstration de
2
3 1
( ) et (cos )
2 6
kT
E = = E e .
Une caractrisation de la loi Normale
Dmonstration de
3
( )
2
kT
= E e
Nous avons tabli dans le texte que, la limite,
2
2
v
2
(3)
2
1
2
mv est distribue comme
2 2
1
. (3)
2
m .
2
1 3
( )
2 2
E e E mv m
1
= =
( )
2
puisque lesprance dun est gale son nombre de degrs de
libert ;
2
2
kT
m
= . Do :
3
( )
2
kT = E e
Dmonstration de
2
1
(cos )
6
= E
Soit O dansdS , surface lmentaire plane sur le repreOx , et la sphre unit centre sur O
rapporte au repre orthonorm Ox (Oz orient vers lextrieur du rcipient).
y
yz
Soit un M sur la sphre tel que
( )
, 0
2
Oz OM
=
(
M
1
)
= .
Il en rsulte la projection de sur Oz , savoiru , est distribue uniformment sur
et donc
M cos =
[0,1]
1
0
. u
2 2 2
1 1
( ) (cos .
2 6
E u E du ) = = = .
Une caractrisation de la loi normale
(Voir W. Feller vol. 2 pp. 525-526 pour les dmonstrations)
Thorme 1. Soient deux variables alatoires dont la somme est distribue normalement.
Alors ces deux variables sont distribues normalement.
Thorme 2. Soient deux variables alatoires indpendantes et :
1
et X X
2
2
2
2
2
1
1 11 1 12
2 21 1 22
Y a X a X
Y a X a X
= +
= +
Si de plus Y e sont indpendantes alors :
1
tY
- soit les 4 variables sont normales
- soit la transformation linaire ci-dessus est dgnre avec
soit : Y a
1 1 2
. . X et Y b X = =
soit : Y a
1 2 2
. . X et Y b X = =
27
Annexe iii
Echantillonnage : quelques calculs complmentaires
Dans cette annexe nous donnons les moyens au lecteur de vrifier pas pas les rsultats
donns au 3. Rappelons que :
- les indices et u sont relatifs aux individus dans la population : u v v
j
)
)
)
j j
, 1,..., N =
- les indices i sont relatifs aux individus de lchantillon : i j . et , 1,...,n =
Nous avons mont que :
( , ) . ( , )
i j u v iu jv
u v
Cov X X Cov =
Quand nous aurons calcul Cov le travail sera donc dj trs avanc. ( ,
iu jv
( , ) ( . ) ( ). (
iu jv iu jv iu jv
Cov E E E =
Le produit des variables ne prend que la valeur ou la valeur1. Il sen suit que : .
iu jv
0
( . ) ( . 1
iu jv iu jv
E P = = .
Cette probabilit est nulle quand i et u ou quand i et u v . = v =
Elle est gale
1
N
quand i et u et gale j v = =
1
( 1 N N )
j
)
quand i et u v .
La covariance Cov sen dduit et, par suite, la covariance Cov . ( ,
iu jv
( , )
i j
X X
Quand i j , =
2 2
1
( , ) ( ) ( )
i j i u
u
X X Var X
N
= = =
Cov et
quand i j ,
2 2
1 1 1
( , ) ( )
1 1
i j u
u
X X
N N N
= =
Cov .
Nous touchons au but :
2
1
( ) ( , )
i j
i j
Var X Cov X X
n
=
2 2
2
1 1
{ . ( 1)( )}
1
n n n
n N
= +
2
1
(1 )
1
n
n N
=
2
(1 )
n
n N
, o
n
N
est appel taux de sondage.
Annexe iv
Le contexte du premier modle de rgression
Munissons lespace vectoriel des variables alatoires de carrs sommables du produit scalaire
; le carr de la distance induite entre deux variables et Y est gal
la moyenne quadratique : E X .
, ( X Y E XY < >= . ) X
2
( ) Y
Nous noterons et les esprances de Y et , et les variances et la
covariance entre Y et .
Y
X
X
X
2
Y
2
X XY
' = +
1
1
1
1
!
= 1
1
1
1+
comme dj annonc dans le corps du texte. Par consquent la meilleure approximation de Y
est
( . ) . .(
Y X Y
b X b X = + = + )
X
a
Y b .
Rappelons que la projection dune variable sur le sous-espace vectoriel des constantes est
gale son esprance :
. 1 (1.( )) 0 ( ) Z E Z a E Z = =
La variable
YY
0
, qui a t appele dans le texte, est orthogonale la constante 1; elle est
centre sur et est donc de covariance nulle avec la variable
Y prdiction
deY :
.( )
Y
X
.X +
X
Y b . Elle est bien sr aussi de covariance nulle avec toute
combinaison de et notamment de X .
= +
X
Enfin
Y Y . YY = +
Remarque : ces quelques dveloppements nous permettent de travailler dans le sous-espace
vectoriel des variables centres.
Annexe v
Rgression avec erreurs sur les variables explicatives
Liens avec lanalyse en composantes principale et lanalyse discriminante
classique
Nous disposons dune vaste famille paramtre par destimateur de la pente ; nous
rappelons ici sa formule :
2 2 2 2 2
1 1 1 1 1
1
. ( . ) 4 .(
2.
n n n n n
i i i i
i i i i i
n
i i
i
Y X Y X X
XY
= = = = =
=
+ +
=
2
)
i i
Y
Nous sommes loin du bon estimateur linaire classique qui dans son cadre habituel est non
biais et de variance minimum. Mais nous ne travaillons pas ici sur le mme modle !
o Liens avec lanalyse en composantes principales.
Nous avons not au 4.2 que lorsque lestimation de la pente se confond avec la pente
du 1
1 =
er
axe de lanalyse en composantes principales. Nous allons le montrer maintenant.
2 2 2 2 2
1 1 1 1 1
1
( ) 4.(
2.
n n n n n
i i i i i
i i i i i
n
i i
i
Y X Y X XY
XY
= = = = =
=
+ +
=
2
)
i
Cette galit peut se mettre sous la forme :
29
2 2 2 2 2 2 2
1 1 1 1 1 1 1
1
( ) 4.(( ) ( )( ))
2.
n n n n n n n
i i i i i i i
i i i i i i i
n
i i
i
Y X Y X XY X Y
XY
= = = = = = =
=
+ + +
=
2
i
i
Y
( )
En effet rechercher cette pente cest rechercher le vecteur propre - de coordonne gale 1 en
et gale en Y - associ la plus grande valeur propre deB .Calculons la plus
grande valeur propre . Lquation caractristique est gale :
X
1
1
2 2 2 2 2
1 1 1 1 1
. ( ). .
n n n n n
i i i i i i
i i i i i
B I X Y X Y XY
= = = = =
= + + =
0
Do :
2 2 2 2 2 2
1 1 1 1 1 1 1
1
( ) 4.( .
2
n n n n n n n
i i i i i i i
i i i i i i i
X Y X Y XY X Y
= = = = = = =
+ + + +
=
2
)
i
i
Y
Pour obtenir utilisant par exemple la premire ligne du systme linaire :
( )
1
1
. 0 B I
1
=
( )
2
1
1 1
. 0
n n
i i
i i
X X
= =
+ =
qui donne bien la valeur de annonce plus haut:
2
1
1
1
n
i
i
n
i i
i
X
XY
=
=
c.q.f.d.
o Liens avec lanalyse discriminante linaire classique
Notre modle de dpart est toujours :
. = +
complt par :
i i
i i
X
Y
= +
= +
i
i
avec : E E . Mais nous supposons maintenant que les variables alatoires et
sont lies et que leur covariance est gale . Do la matrice des variances et covariance
classiquement note W :
( ) ( ) 0
i i
= =
30
2
2
W
1
( )
De plus nous supposerons que W est connue et que tous les calculs sont faits sous
lhypothse de normalit du couple( , , i . Pour estimer , la mthode du
maximum de vraisemblance revient minimiser le rapport suivant :
)
i i
1,..., = n
1
1
1 1
. .
1 1
. .
t
t
B
W
1 1
( ) ( )
1 1
( ) ( )
.
Il sagit donc de rechercher la direction propre correspondant la plus petite valeur propre
de lquation :
min
1 1 1
min max
. . . . . B a W a W B a a
= = .
max
min
1
= .
Le vecteur propre associ ayant comme coordonne sur laxe des x et comme
coordonne sur laxe desy sen dduit. Nous faisons ainsi une analyse discriminante linaire
et maximisons le critre classique de Fisher, rapport de la variabilit INTER la variabilit
INTRA.
max
1
Si la mesure faite en ( , , point contrl par une variable instrumentale externe
(instrumental variable), peut tre rpte n fois ; alors W peut tre estim et nous voici dans
le cadre dun modle danalyse de la variance multivariable :
)
i i
i
( , ), 1,..., ,
il il i i
i
X Y l n n n = =
Quand est proportionnelle lidentit on est ramen lanalyse en composantes
principales de B .
W
31
8. Sur le Web
o [Web1] Mathematics and Biology: The interface, Simon A. Levin, Cornell
University, 21/02/96
http://www.bio.vu.nl/nvtb/Contents.html
o [Web2] Thomas Malthus. An essay on the Principle of Population, as it affects
the future improvement of society with remarks on the speculations of Mr.
Godwin, M. Concorcet, and others writers. London, Printed for J. Johnson, in St.
Pauls church-yard, 1798.
http://www.ac.edu/~stephan/malthus/malthus.0.html
o [Web3] Isaac Newton : Principes mathmatiques de la philosophie naturelle.
Tome I / Isaac Newton, Jacques Gabay ed., Paris, 1995 [trad. de l'anglais par feue
Madame la Marquise du Chastellet]. Accessible sur le web (bibliothque
lectronique gallica Bibliothque Nationale) : http://gallica.bnf.fr/
9. Bibliographie
1. Baudouin J, 1989. Karl Popper. Que sais-je ? Presses Universitaires de France, Paris.
2. Benkirane R., 2002. La Complexit, vertiges et promesses. Editions Le Pommier,
Paris.
3. Berg P., Pomeau Y., Vidal Ch., 1984. Lordre dans le chaos : Vers une approche
dterministe de la turbulence. Hermann diteurs des sciences et des arts, Paris.
4. Bouleau N., 2000. Processus stochastiques et applications. Collection Mthodes.
Hermann, diteurs des sciences et des arts, Paris
5. Bouleau N., 2002. Y a-t-il lieu denvisager des Mathmatiques Post-modernes ? ZDM
2002 Vol.34 (4) pp. 120-126
6. Bouleau N., 2002. La modlisation dans les sciences de lingnieur, in Enqute sur le
concept de modle, Sous la dir. De Pascal Nouvel, PUF, Paris.
7. Bouroche J.-M., Saporta G., 1980. Lanalyse des donnes. Que sais-je ? Presses
Universitaires de France, Paris.
8. Box George E. P., 1976. Science and Statistics. Journal of the American Statistical
Association. (volume 71, Number 356, pp. 791 799).
9. Caussinus H., 1983. Modles pour lanalyse en composantes principales. Universit
Paul Sabatier. Mini-cours n03-83. Octobre 1983.
10. Caussinus H., 1986. Quelques reflexions sur la part des modles probabilistes en
analyse des donnes. Data analysis and informatics, IV. E. Diday et al. (editors).
Elsevier Science Publishers B. V. (North-Holland).
11. Cherruault Y., 1983. Biomathmatiques. Que sais-je ? Presses Universitaires de
France, Paris.
12. de Broglie L., 1937. Matire et lumire. Albin Michel, Paris.
13. Diu B., Guthmann C., Lederer D., Roulet B., 1989. Physique statistique. Hermann,
diteurs des sciences et des arts, Paris.
32
14. Efron B., 1982. The Jacknife, the Bootstrap, and other Resampling Plans, SIAM-NF-
CBMS, Monograph, Volume 38.
15. Feller W., 1968. An Introduction to Probability Theory and Its Applications. Volume
1. John Wiley & Sons. New-York. 3
rd
edition.
16. Feller W., 1971. An Introduction to Probability Theory and Its Applications. Volume
2. John Wiley & Sons. New-York. 2nd edition.
17. Fourgeaud G., Fuchs A., 1967. Statistique. Dunod, Paris.
18. Kuhn T.S., 1983. La structure des rvolutions scientifiques. Flammarion, Paris.
19. Lefort G., 1967. Mathmatiques pour les sciences biologiques et agronomiques.
Armand Colin, Paris.
20. Legay J.-M., 1996. Lexprience et le modle : un discours sur la mthode. INRA
ditions, Paris.
21. Lvy-Leblond J.-M., 1996. Aux contraires : Lexercice de la pense et la pratique de
la science. Editions Gallimard, Paris.
22. Murray J.D., 2002. Mathematical Biology I: An Introduction. Springer-Verlag, New-
York.
23. Murray J.D., 2003. Mathematical Biology II: Spatial Models and Biomedical
Applications. Springer-Verlag, New-York.
24. Nouvel P., 2002. Enqute sur le concept de modle. PUF, Paris.
25. Prs J., 1953. Mcanique gnrale.Masson &Cie, diteurs.
26. Popper K. 1956. Misre de lhistoricisme. Rdition Plon. Paris.
27. Popper K. 1981. La qute inacheve. Calman-Lvy. Paris.
28. Rnyi A., 1966. Calcul des Probabilits avec un appendice sur la thorie de
linformation. Dunod. Paris.
29. Sprent P., 1969. Models in Regression and related topics. Methuen&Co LTD, London.
30. Thom R., 1983. Paraboles et catastrophes. Flammarion, Paris.
31. Thom R., 1991. Prdire nest pas expliquer. Flammarion, Paris.
32. Viennot L., Debru C. (2003). Enqute sur le concept de causalit. PUF, Paris.
33