Analyse Numérisue Et Opt

HSCTDOC.blogspot.
com
Notes de cours d'analyse numrique
et d'optimisation continue.
TELECOM BRETAGNE
S1, MTS 435 et prparation Master SISEA (Rennes I)
Thierry CHONAVEL
thierry.chonavel@telecom-bretagne.eu
Mai 2011
HSCTDOC.blogspot.com
Table des matires
1 Introduction 8
2 Un exemple introductif 13
I Analyse numrique matricielle 20
3 Rappels sur les matrices et les systmes d'quations linaires 21

3.1 Applications linaires et matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2 Changement de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3 Quelques familles de matrices importantes . . . . . . . . . . . . . . . . . . . . . . 24
3.4 Dterminant et inverse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.4.1 Valeurs propres et vecteurs propres . . . . . . . . . . . . . . . . . . . . . . 26
3.4.2 Image et noyau d'une matrice . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.4.3 Changement de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.4.4 Factorisation de matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.5 Produits scalaires et normes vectorielles et matricielles . . . . . . . . . . . . . . . 28
3.5.1 Projection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.6 Notions gnrales sur les algorithmes numriques . . . . . . . . . . . . . . . . . . 29
3.6.1 Complexit algorithmique . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1
TABLE DES MATIRES 2
3.6.2 Conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4 Systmes d'quations sur-dtermins et sous-dtermins 32

4.1 Systmes sur-dtermins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.2 Systmes sous-dtermins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.3 Cas gnral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.4 Matrices blocs et rsolution partielle des systmes linaires . . . . . . . . . . . . . 35
5 Rsolution directe des systmes linaires 36

5.1 Mthodes de Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.1.1 Principe gnral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5.1.2 Stabilit et pivot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.1.3 Cot de calcul, dterminant et inverse . . . . . . . . . . . . . . . . . . . . 38
5.1.4 Mthode de Cholesky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2 Triangularisation par orthonormalisation . . . . . . . . . . . . . . . . . . . . . . . 40
5.2.1 Mthode de Householder . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.2.2 Mthode des rotations de Givens . . . . . . . . . . . . . . . . . . . . . . . 41
5.2.3 Mthode de Gram-Schmidt . . . . . . . . . . . . . . . . . . . . . . . . . . 42
6 Rsolution itrative des systmes linaires 43
7 Dcompositions en valeurs propres et en valeurs singulires 45

7.1 Diagonalisation des matrices symtriques : la mthode de Jacobi . . . . . . . . . 46
7.2 Forme Hessenberg des matrices carres . . . . . . . . . . . . . . . . . . . . . . . . 47
7.3 Dcomposition en valeurs propres : le cas gnral . . . . . . . . . . . . . . . . . . 49
7.3.1 Aspects algorithmiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

TABLE DES MATIRES 3
7.3.2 Lien avec la dcomposition de Jordan . . . . . . . . . . . . . . . . . . . . 49
7.4 Dcomposition en valeurs singulires . . . . . . . . . . . . . . . . . . . . . . . . . 50
7.4.1 Ralisation de la dcomposition en valeurs singulires . . . . . . . . . . . . 51
II Introduction
aux oprateurs linaires 55
8 Introduction 56
9 Espaces de Hilbert 57
9.1 Dnition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
9.1.1 produit scalaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
9.1.2 Espace de Hilbert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
9.2 Thorme de projection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
9.3 Bases orthonormes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
9.4 Sparabilit et isomtrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
9.4.1 Sparabilit et bases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
9.4.2 Projection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
9.4.3 Isomtrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
10 Oprateurs linaires 62
10.1 Norme d'un oprateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
10.2 Reprsentation matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
III Interpolation et intgration 67
11 Interpolation et intgration 68
TABLE DES MATIRES 4
11.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
11.2 Interpolation polynomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
11.2.1 Interpolation de Lagrange . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
11.2.2 Le phnomne de Runge . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
11.3 Intgration de Newton-Cotes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
11.4 Mthode de Gauss-Legendre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
11.5 Mthode de Clenshaw-Curtis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
11.6 Calcul d'erreur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
IV Optimisation 76
12 Introduction 77
13 Elments de calcul direntiel 80

13.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
13.2 Rappels sur les espaces L(X, Y ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
13.3 Drivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
13.3.1 Application drive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
13.3.2 Drivation pour f dnie sur des espaces produits . . . . . . . . . . . . . 81
13.3.3 Composition des applications drivables . . . . . . . . . . . . . . . . . . . 82
13.4 Drive seconde . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
13.5 Formules de Taylor et thorme des fonctions implicites . . . . . . . . . . . . . . 83
13.6 Accroissements nis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
13.7 Formules de taylor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
14 Optimisation sans contraintes : critres d'optimalit 85

TABLE DES MATIRES 5
14.1 Dnitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
14.1.1 Optimalit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
14.1.2 directions admissibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
14.2 Conditions ncessaires d'optimalit . . . . . . . . . . . . . . . . . . . . . . . . . . 86
14.3 Conditions susantes d'optimalit . . . . . . . . . . . . . . . . . . . . . . . . . . 88
14.4 Convexit et optimalit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
14.4.1 Dnitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
14.4.2 Caractrisations de la convexit . . . . . . . . . . . . . . . . . . . . . . . . 89
14.4.3 Exemples de fonctions convexes . . . . . . . . . . . . . . . . . . . . . . . . 90
14.4.4 Minima des fonctions convexes . . . . . . . . . . . . . . . . . . . . . . . . 90
14.5 Fonctions quadratiques et elliptiques . . . . . . . . . . . . . . . . . . . . . . . . . 91
15 Algorithmes d'optimisation sans contraintes 93

15.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
15.2 Mthode de relaxation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
15.3 Algorithme du gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
15.3.1 Choix du pas et convergence . . . . . . . . . . . . . . . . . . . . . . . . . . 94
15.4 Mthode de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
15.4.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
15.4.2 Autre interprtation dans le cas scalaire . . . . . . . . . . . . . . . . . . . 97
15.4.3 Mthodes de type quasi-Newton . . . . . . . . . . . . . . . . . . . . . . . 97
15.4.4 Convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
15.4.5 L'algorithme de Levenberg-Marquart . . . . . . . . . . . . . . . . . . . . . 99
15.5 L'algorithme du gradient conjugu . . . . . . . . . . . . . . . . . . . . . . . . . . 99

TABLE DES MATIRES 6
16 Optimisation sous contraintes : critres d'optimalit 100

16.1 Le thorme des fonctions implicites . . . . . . . . . . . . . . . . . . . . . . . . . 100
16.2 Points rguliers et espace tangent . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
16.2.1 Contraintes d'galit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
16.2.2 Contraintes d'galit et d'ingalit . . . . . . . . . . . . . . . . . . . . . . 102
16.3 conditions d'optimalit en prsence de contraintes d'galit . . . . . . . . . . . . . 102
16.3.1 Condition ncessaire d'optimalit . . . . . . . . . . . . . . . . . . . . . . . 102
16.4 Conditions d'optimalit en prsence de contraintes d'galit et d'ingalit . . . . 106
16.4.1 Condition ncessaire du premier ordre . . . . . . . . . . . . . . . . . . . . 106
16.4.2 Conditions du second ordre . . . . . . . . . . . . . . . . . . . . . . . . . . 107
16.5 Lagrangien, points selles, et dualit . . . . . . . . . . . . . . . . . . . . . . . . . . 108
16.5.1 Points selles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
16.5.2 Problmes primal et dual . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
17 Optimisation sous contraintes : algorithmes 110

17.1 Extension des mthodes sans contraintes . . . . . . . . . . . . . . . . . . . . . . . 110
17.1.1 Mthode de relaxation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
17.1.2 Thorme de projection et gradient projet . . . . . . . . . . . . . . . . . 110
17.1.3 Mthode de point intrieur . . . . . . . . . . . . . . . . . . . . . . . . . . 111
17.1.4 Mthode de pnalisation externe . . . . . . . . . . . . . . . . . . . . . . . 112
17.1.5 Mthode d'Uzawa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
18 Programmation linaire 114

18.1 Le problme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
18.2 Bases ralisables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

TABLE DES MATIRES 7
18.2.1 Solutions de base ralisables optimales . . . . . . . . . . . . . . . . . . . . 115
18.3 Changement de base ralisable . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
18.4 algorithme du simplexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
18.5 Programmation linaire et dualit . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
18.5.1 Problme primal et problme dual . . . . . . . . . . . . . . . . . . . . . . 117
18.6 Equivalence du problme primal et du problme dual . . . . . . . . . . . . . . . . 117
18.7 Thorme de dualit pour la programmation linaire . . . . . . . . . . . . . . . . 118
A Master SISEA
Corrig des examens
sessions de janvier 2006 2010 122
Chapitre 1
Introduction
L'analyse numrique et l'optimisation constituent deux aspects importants et souvent compl-

mentaires des mathmatiques de l'ingnieur. Une connaissance de notions de base dans ces deux
domaines est indispensable pour une ingnierie de bon niveau. Les dveloppements rapides de
l'informatique ont fait de ces branches des mathmatiques des outils universellement utiliss dans
l'industrie et les services.
De nombreux logiciels utilisent divers algorithmes performants d'analyse numrique et d'opti-

misation, mais avant de pouvoir les utiliser, il faut dj avoir conscience de leur existence, des
problmes qu'ils peuvent rsoudre, avec leurs performances et leurs limitations. Avant mme cela,
il faut savoir mettre en forme le problme tudi sous la forme mathmatique approprie la
mise en oeuvre d'algorithmes.
Une fois la mise en forme d'un problme eectue et les techniques gnrales pour le rsoudre connues,
il peut tre utile, pour des implmentations spciques qui peuvent concerner par exemple la mise
en oeuvre sur des processeurs de traitement de signal ou pour des adaptations des algorithmes
dans le cadre d'activits de R&D, d'tre capable de 'dcortiquer' le fonctionnement d'un algo-
rithme, ce qui suppose un minimum de familiarit avec les principes sur lesquels ils reposent.
Aussi, mme si l'essentiel des algorithmes n'est pas dtaill en cours ou n'est que rapidement test
lors des travaux pratiques, un certain nombre de mthodes standard est prcis dans le polycopi. Les
codes fournis visent en particulier montrer que souvent l'implmentation informatique conduit un
code simple et concis.
Ce cours vise d'abord rappeler quelques notions lmentaires d'analyse numrique matricielle
et d'optimisation et donner les grandes lignes de mthodes classiques importantes pour les
problmes d'ingnierie courants. La partie relative aux matrices est complte par une partie
d'introduction aux oprateurs linaires qui tendent naturellement en dimension innie les no-
tions de fonctions linaires et de matrice. Cette dernire partie est encore incomplte et sera
dveloppe dans les versions ultrieures du polycopi.
On prsente galement ici quelques notions de base sur l'interpolation polynomiale des fonctions
et leur intgration numrique qui constituent des outils standards d'ingnierie. Pour l'analyse
8
CHAPITRE 1. INTRODUCTION 9
numrique matricielle, on envisagera surtout les outils classiques de rsolution des systmes
d'quations linaires et on donnera quelques indications sur la diagonalisation des matrices.
Pour ce qui concerne l'optimisation, on indiquera les mthodes de recherche d'optima utiliser
selon les proprits des critres optimiser et la nature des contraintes.
Prcisons maintenant un peu plus la nature des problmes que l'on va envisager.
Commenons par reproduire ici la dnition de l'analyse numrique fournie par l'encyclopdie
en ligne Wikipedia :
l'analyse numrique est l'tude des algorithmes permettant de rsoudre les problmes de math-
matiques continues (distingues des mathmatiques discrtes). Cela signie qu'elle s'occupe
principalement de rpondre numriquement des questions variable relle ou complexe comme
l'algbre linaire numrique sur les champs rels ou complexes, la recherche de solution numrique
d'quations direntielles et d'autres problmes lis survenant dans les sciences physiques et
l'ingnierie.
Comme on l'a dj indiqu plus haut, on se limite essentiellement ici l'analyse numrique
matricielle. Le premier but de ce cours est de mettre en vidence l'intrt de la mise en forme
matricielle de problmes classiques rencontrs en traitement statistique de l'information. L'-
tude de la rsolution exacte ou approche des systmes linaires d'quations sera l'occasion de
prsenter un certain nombre de rsultats sur la dcomposition des matrices, utiles l'tude de
nombreux problmes. On distinguera, comme c'est gnralement le cas dans ce genre d'expos les
mthodes directes qui fournissent une solution au prix d'un nombre limit x d'oprations des
mthodes itratives qui fournissent une solution approche chaque itration, la solution exacte
n'tant gnralement obtenue qu'asymptotiquement. On s'intressera galement au problme de
la dcomposition en valeurs propres des matrices, qui n'a pas de solution numrique exacte en
gnral puisqu'il s'apparente au problme de recherche des racines d'un polynme (en l'occurence
le polynme caractristique de la matrice).
Dans le domaine de l'intgration numrique, les techniques gnralement envisages visent

construire des approximations des intgrales par l'intgration d'interpolants polynomiaux des
fonctions intgrer. Cela conduit des formules de quadrature de la forme
Z b n
X
f (x)dx wk f (xk )n, (1.1)
a k=1
o le choix des noeuds xk et les poids wk de la quadrature conditionnent la prcision de la
quadrature. On prsentera quelques solutions classiques ce problme.
Dans le cadre de l'optimisation, on s'intressera ici essentiellement des problmes d'optimisation

continue, variables relles ou complexes et de forme gnrale

minx f (x)
(1.2)
fi (x) bi i = 1, . . . , m
qui consiste rechercher les valeurs de x qui minimisent f (x) dans l'ensemble des contraintes
U = {x; fi (x) bi i = 1, . . . , m}.
Notons ici que la recherche de la solution d'un problme d'optimisation d'un critre fonction d'une
variable vectorielle peut souvent faire appel aux outils de l'analyse numrique matricielle. Consid-
rons en eet l'exemple simple suivant : en l'absence de contrainte, un problme d' optimisation
quadratique du type f (x) =k Ax b k, o k x k2 =
xT x est la norme euclidienne, le minimum
T T
du critre est donn par la rsolution du systme d'quations linaires (A A)x = A b. La
recherche du vecteur x par ce critre fournit une approximation du vecteur b sous la forme Ax
et est connue sous le nom de mthode des moindres carrs.
Cependant, tous les problmes d'optimisation ne se ramnent pas des problmes d'analyse
numrique matricielle et la thorie de l'optimisation mathmatique recense des classes de prob-
lmes importants pour lesquels on sera en mesure de fournir des rsultats thoriques en terme
de conditions ncessaires et/ou susantes sur l'existence de solutions ainsi que des algorithmes
pratiques performants permettant de les calculer.
Ce cours est donc essentiellement constitu de deux parties, traitant respectivement de d'anal-
yse numrique matricielle (et plus particulirement de la rsolution des systmes d'quations
linaires) et d'optimisation, avec un accent particulier mis sur l'optimisation convexe dont on a
voqu l'importance ci dessus. Pour ce qui concerne les prrequis, ce cours suppose acquis un
niveau de mathmatiques gnrales bac+2. Par ailleurs, des connaissances de bases en probabil-
its et en statistiques seront ncessaires pour apprhender certains des exemples prsents.
Les rsultats sont souvent justis de manire succinte et on pourra trouver des complments
utiles dans la littrature et sur le WEB. Chacune des parties analyse numrique et optimisation
possde sa propre bibliographie. Aussi, les numros de rfrence correspondent t'ils la bibli-
ographie de la partie concerne. Pour ce qui concerne la partie relative l'analyse numrique, la
rfrence [2] constitue une bonne rfrence en franais dans laquelle les principaux algorithmes
d'analyse numrique matricielle sont expliqus. La rfrence [3] constitue un outil trs utile pour
l'ingnieur qui doit implmenter des algorithmes. De nombreuses mthodes sont dtailles et les
implmentations en pseudo-code sont fournies. Notons que la rfrence [2] constitue une bonne
introduction l'analyse numrique de mme qu' l'optimisation, tout comme la rfrence [1].
Tout comme pour l'analyse numrique, il existe de nombreux ouvrages gnralistes et d'excel-
lente qualit sur l'optimisation, tels que [7], [8] ou [9]. Pour le cas important de l'optimisation
convexe, on pourra par exemple se rfrer [3], [4] ou [5].
Notations et Abrviations
|a|, |M| module d'un nombre complexe, dterminant d'une matrice
vT , MT transpos d'un vecteur, d'une matrice
a , v , M valeur conjugue d'un scalaire, d'un vecteur, ou d'une matrice
vH , MH valeur transpose et conjugu d'un vecteur ou d'une matrice
< x, y > produit scalaire de x et de y
T r(M) trace d'une matrice
sign(a) sign(x) = +1, 1, 0, selon que a est positif, ngatif, nul
a,b a,b = 1 si a = b, et 0 sinon (symble de Kronecker)
[v]i , [M]ij lment d'indices i, ou (i, j), d'un vecteur ou d'une matrice
kMk norme de M (la norme choisie est dnie par le contexte)
Re[z], Im[z] partie relle, imaginaire, de z
a=b mod[p] a est le reste de la division de b par p
N, Z, R, C ensembles des nombres entiers, entiers relatifs, rels, et complexes
D disque unit ouvert
Ck ensemble des fonctions k fois drivables, de drives continues
C (K) ensemble des fonctions inniment drivables,

de support compact et contenu dans K
L(X, Y ), L(X) ensembles des applications linaires continues

de X dans Y, de X dans X
L(X, R) = X 0 espace dual de X
L2 (X, Y ) applications bilinaires continues bijectives de X X dans Y

Isom(X, Y ) applications linaires continues bijectives de X dans Y ,

et d'inverses continues (isomtries de X dansY)
(h) fonction telle que limkhk0 (h) = 0
O ensemble ouvert
V espace vectoriel norm
Vx voisinage du point x
B(a, r) boule ouverte de centre a et de rayon r
B(Rn ) tribu borlienne de Rn
vect{(Xi )iI } espace vectoriel engendr par les combinaisons linaires nies des Xi
vect{(Xi )iI } prolongement de vect{(Xi )iI } en un espace complet
1IA fonction indicatrice de l'ensemble A

Chapitre 2
Un exemple introductif
Dans ce chapitre, on prsente un exemple introductif qui illustre un certain nombre de notions
sur lesquelles on reviendra dans les chapitres suivants. On y prsente, sous la forme d'un exercice
un exemple d'application qui met en oeuvre un certain nombre de concepts d'analyse numrique
matricielle et d'optimisation dans le cadre du traitement dterministe ou statistiques de signaux.
On considre une quation de convolution de la forme y = h x, o h reprsente la rponse

impulsionnelle d'un ltre, x y Rsa sortie. L'chantillonnage de l'quation intgrale
son entre et
T
de convolution y = hx donne pary(t) = 0 h h(u)x(tP u)du (Th est la dure de la rponse
impulsionnelle du ltre causal h) conduit l'criture yn = k=0,L hk xnk , o xn = x(nT ) et hn =
T 1 h(nT ) sont obtenus par l'chantilonnage de l'quation de convolution avec un pas gal T .
On suppose dans un premier temps que le ltre h est connu mais que le signal x est inconnu.
On cherche retrouver les valeurs de xn , . . . , xn+N partir de l'observation de y sur le mme
intervalle de temps, c'est dire l'observation de yn , . . . , yn+N .
Question 1 Ecrivez la relation matricielle qui lie le vecteur observ y = [yn , . . . , yn+N ]T
l'entre x et vriez que du fait de l'talement temporel introduit par le ltrage, elle fait intervenir
le vecteur [xnL , . . . , xn , . . . , xn+N ]T . Cette relation matricielle est dite sous-dtermine car elle
fait intervenir plus d'inconnues que d'quations. Indiquez la forme gnrale de l'ensemble des
solutions pour x = [xn , . . . , xn+N ]T en montrant qu'on peut la paramtrer par xnL , . . . , xn .
(Il s'agit d'un cas particulier d'un rsultat plus gnral connu sous le nom de thorme des
fonctions implicites.)
Rponse Les relations de convolution s'crivent
X
yn+k = hj xn+ki ,
j=0,L
13
CHAPITRE 2. UN EXEMPLE INTRODUCTIF 14
pour k = 0, . . . , N . Mises sous forme matricielle, elles s'crivent

yn hL hL1 . . . h0 0 ... 0 xnL
yn+1 0 hL hL1 . . . h0 0 . . .
xnL+1

.. = .. .. . (2.1)

. . 0 .
yn+N 0 ... 0 hL hL1 . . . h0 xn+N
Notons maintenant que dans un systme d'quations gnral de la forme y = Ax o A a l lignes

et c colonnes, on peut crire A sous la forme A = [A1 |A2 ] o A1 et A2 sont de tailles respectives
l c1 et l c2 , avec c1 + c2 = c. De mme x s'crit comme xT = [xT1 |xT2 ], o les sous vecteurs
sont de tailles c1 et c2 . Il rsulte de cette criture que l'on peut reprsenter y sous la forme
y = A1 x1 + A2 x2 .
En appliquant ce principe notre problme, on voit que

hL hL1 . . . h1
0 hL . . . h2
yn

.. ..

xnL

yn+1 . . hL . . .
.
.. = 0 0 hL ..

.
0 xn1
yn+N

.. .
.
. .
0 ... 0
(2.2)

h0 0 ... 0
h1 h0 0 ... 0

..
xn

.
.
hL hL1 . . . h0
+ 0 ... 0 ..
0 h h . . . h 0 . . .
L L1 0 xn+N

..
. 0
0 ... 0 hL hL1 . . . h0
En reformulant cette galit sous la forme plus compacte suivante,

xnL
y = H0 ... + Hx, (2.3)

xn1
on voit que l'ensemble des vecteurs x recherch est de la forme

xnL
x = H1 [y H0 ... ]. (2.4)

xn1
x est bien paramtr par xnL , . . . , xn1 .
Question 2 Reformulez le problme dans le cas particulier o on suppose que xnL = . . . =

xn1 = 0.Vriez qu'alors x est obtenu par la rsolution d'un systme linaire d'quations faisant
intervenir une matrice triangulaire. Montrez que ce systme se rsoud simplement avec un faible
cot de calcul.
Rponse Lorsque xnL = . . . = xn1 = 0, la reprsentation (2.3) prend la forme plus simple
y = Hx, avec

h0 0 ... 0
h1 h0 0 ... 0

..
.

H = hL hL1 . . . h0
0 ... 0
0 hL hL1 . . . h0 0 . . .

..
. 0
0 ... 0 hL hL1 . . . h0
On voit alors que les systme d'quations se rsoud simplement de faon itrative puisqu'on a
alors
xn = yn /h0 ,
xn+1 = [yn+1 h1 xn ]/h0 ,
. (2.5)
.
.
Pmax{k,L}
xn+k = [yn+k i=1 hi xn+ki ]/h0 , pour k = 1, . . . , N.
On voit que le calcul de x rclame ici de l'ordre de 1 + 2 + 3 . . . + (N + 1) multiplications, soit
environ N 2 /2 oprations.
Question 3 Plus gnralement, on verra dans le cours qu'une matrice carre A inversible peut
s'crire sous la forme A = LU, o L et U sont respectivement triangulaire infrieure et trian-
gulaire suprieure. Vriez que A est inversible si et seulement si les diagonales de L et de U ne
contiennent pas de termes nuls. Dans ce cas, si L et U sont connues, indiquez comment on peut
rsoudre le systme d'quations y = Ax et donnez un ordre de grandeur du nombre d'oprations
que requiert cette rsolution. En fait, on verra que c'est la mise en forme LU de A qui reprsente
le cot de calcul prpondrant (de l'ordre de N 3 oprations).
De mme, la matrice A peut s'crire sous la forme A = QR, o Q et R sont respectivement

orthogonale (c'est dire que QQT = I) et triangulaire suprieure. L encore, si Q et R sont
connues, indiquez comment on peut rsoudre le systme d'quations y = Ax.
Rponse |A| = |L| |U| = i=1,N Lii Uii . A est inversible si et seulement si |A| =
6 0, c'est
dire si les termes diagonaux de L et de U sont non nuls.
Si y = Ax et A = LU, alors y = L(Ux) et on voit en posant z = Ux que x peut tre calcul
en rsolvant successivement les deux systmes d'quations triangulaires y = Lz puis z = Ux, ce
qui demandera environ N2 oprations (en ne comptant que les multiplications).
De mme, si A = QR avec QQT = I, on voit que QT y = Rx et l'on est simplement amen

T
calculer Q y, ce qui demande environ N 2 oprations, puis rsoudre le systme triangulaire,
2
soit au total 3N /2 oprations.
Question 4 Reprenons notre problme de dpart et supposons que le signal x est constitu d'un
prambule, qui reproduit les derniers symboles de la squence xn , . . . , xn+N , c'est dire que l'on
a
(xnL , . . . , xn1 ) = (xn+N L+1 , . . . , xn+N ). (2.6)
Ce genre de technique est utilise dans certaines mthodes de transmissions numriques, telle
l'OFDM (Orthogonal Frequency Division Multiplexing). Reformulez le problme sous forme ma-
tricielle et montrez que maintenant les inconnues xn , . . . , xn+N sont lies y par une relation
qui fait intervenir une matrice circulante, c'est dire que chaque ligne de la matrice se dduit
de la prcdente par une permutation circulaire. Montrez que les vecteurs propres d'une matrice
circulante sont les vecteurs de la transforme de Fourier discrte, c'est dire de la forme
Wk = [1, e2ik/(N +1) , e2i2k/(N +1) , . . . , e2iN k/(N +1) ]T /sqrtN + 1. (2.7)
Calculez les valeurs propres correspondantes et indiquez la forme de la dcomposition en valeurs

propres d'une telle matrice. En dduire une technique simple pour calculer x. Montrez comment
ces rsultats sont lis avec la formulation frquentielle de l'opration de convolution.
Rponse On vrie facilement que l'introduction du prambule a pour eet de conduire au

systme d'quations y = Cx, avec

h0 0 ... 0 hL . . . h1
..
h1 h 0 0 . . . 0 .

.. ..
. .

hL1 . . . h0 0 ... 0 hL
C=
hL hL1 . . . h0 0 ... 0

0 hL hL1 . . . h0 0 . . .

.. ..
. .
0 ... 0 hL hL1 . . . h0
On observe que C est une matrice circulante : on passe d'une ligne l'autre de la matrice par
permutation circulaire vers la droite de ses coecients.
En remarquant que e2ink/(N +1)P= e2i(nN 1)k/(N +1) , on vrie facilement que la tme com-
posante du vecteur CWk vaut [ p=0,L hp e2ipk/(N +1) ]e2itk/(N +1) . Finalement, on voit que
X
CWk = [ hp e2ipk/(N +1) ]Wk . (2.8)
p=0,L
2ipk/(N +1) est la kme composante de la transforme de Fourier

P
Remarquons que p=0,L hp e
T
discrte du vecteur de taille N + 1 [h0 , h1 , . . . , hL , 0, . . . , 0] , qui est obtenu en compltant le
vecteur h avec N L coecients nuls. Notons hk = P =
2ipk/(N +1) . Le vecteur h
p=0,L hp e
0, h
[h 1, . . . , h
N ] reprsente la rponse frquentielle du ltre h chantillonne sur N + 1 points sur
la bande d'chantillonnage.
Notons la matrice diagonale

W = [W0 , . . . , WN ], la matrice de transforme de Fourier et diag(h)
dont
les termes diagonaux sont les composantes de h. On voit que les relations (2.8) conduisent

CW = Wdiag(h),
et comme W est une matrice unitaire, c'est dire que WWH = I,

C = Wdiag(h)W H
.
Mais alors, le systme d'quations y = Cx s'crit encore

(WH y) = diag(h)(W H x) et WH x et
WH y reprsentent respectivement les transformes de Fourier discrtes de x et de y que l'on

notera
x et .
y Finalement, on a y x,
= diag(h) ce qui s'exprime composante par composante
comme
y kx
k = h k k = 0, . . . , N. (2.9)
Ces relations ne font qu'exprimer le fait qu'en passant dans le domaine de Fourier l'opration de
convolution devient une simple multiplication.
Notons que partant du systme d'quations y = Cx obtenu en circularisant l'opration de

convolution (c'est dire en priodisant x), les oprations de transformes de Fourier discrtes de
y et de h requirent chacune de l'ordre de N log2 N oprations par l'emploi de l'algorithme de
FFT (Fast Fourier Transform). Les directement. x
relations (2.9) permettent alors de calculer x
s'en dduit par transforme de Fourier inverse. Au total, on voit donc que la rsolution du systme
d'quations est seulement de l'ordre de 3N log2 N oprations, grce au passage dans le domaine
de Fourier que l'on a justi ici en passant par la dcomposition en valeurs propres de la matrice
C. On voit sur cet exemple comment des notions d'analyse (la convolution et la transforme
de Fourier) et d'algbres (la dcomposition en valeurs propres des matrices circulantes) peuvent
s'clairer mutuellemnt.
Question 5 Supposons maintenant que le signal x soit connu et que l'on observe
L
X
ym = hk xmk + vm , m = n, n + 1, . . . , n + N, (2.10)
k=0
o les coecients du ltre h sont maintenant inconnus, et v est un bruit d'observation. Exprimez
la relation matricielle qui lie l'observation y au vecteur h = [h0 , . . . , hL ]T sous la forme y =
Xh + v.
Rponse On a clairement

yn xn xn1 . . . xnL vn
yn+1 xn+1 h0
xn . . . xn+1L
.. vn+1

= + , (2.11)

.. .
. . .
..

. .
hL
yn+N xn+N L xn+N L+1 . . . xn+N vn+N
ce que l'on note simplement sous la forme y = Xh + v.
Question 6 Supposons que N > L. Le systme comporte alors plus d'quations que d'inconnues ;
Il est dit sur-dtermin. Lorsque v est nul, il est clair que l'on obtient un systme d'quations
redondantes mais il n'est cependant pas vident de savoir a priori pour un systme sur-dtermin
quelles quations liminer pour se ramener un systme carr inversible (en supposant que la
matrice intervenant dans la relation initiale soit de rang plein). De plus, lorsque v 6= 0, le systme
y = Xh n'aura pas de solution en gnral du fait de la prsence de bruit qui introduit une erreur
de modlisation dans la description de y comme un lment de l'espace image de la matrice X.
A dfaut d'une solution exacte, on cherche une solution approche et un critre naturel consiste
chercher la valeur de h pour laquelle le modle y = Xh est, en un certain sens, le moins
erron possible. Dans de nombreuses situations, on cherche minimiser la norme de l'erreur de
modlisation, c'est dire qu'on choisi pour h la grandeur
hM C = arg min k y Xh k2 . (2.12)

h
Calculez hM C . La minimisation du critre k y Xh k2 est appele mthode des moindres

carrs.
Rponse Le critre minimiser s'crit
k y Xh k2 = (y Xh)T (y Xh)
= yT y hT XT y yT Xh + hT XT Xh (2.13)
= hT (XT X)h 2hT (XT y) + yT y.
Rappelons maintenant que la minimisation d'une fonction drivable f d'une variable vectorielle
u Rn peut tre envisage en considrant la condition ncessaire fournie par l'annulation du
gradient de f au point o la fonction prend sa valeur minimale. Rappelons aussi que le gradient
de f est dni par
f f T
f = [ ,..., ] .
u1 up
En laissant de ct le terme constant yT y, la minimisation de k y Xh k2 vis vis de h est

quivalente celle de J(h) = hT (XT X)h 2hT (XT y) qui s'exprime encore comme
L
X L
X
J(h) = (XT X)ij hi hj 2 (XT y)i hi .
i,j=0 i=0
Calculons les drives partielles de J. Pour k = 0, . . . , L,

J PL T
=2 i=0 (X X)kj hj 2(XT y)k
hk
(2.14)
= [2( L T T
P
i=0 (X X)kj hj 2(X y)k )]k
= [2(XT X)h 2XT y]k .
Le gradient de J(h) prend donc la forme simple suivante :
J(h) = 2[(XT X)h XT y]
La condition d'annulation du gradient de J(h) est donc donne par (XT X)h XT y = 0, soit
hM C = (XT X)1 XT y. (2.15)
Les quations (XT X)h = XT y sont appeles les quations normales du critre des moindres
carrs k Xh y k2 .
Remarque Une faon plus directe d'aboutir au rsultat consiste utiliser le thorme de pro-
jection qui indique en particulier que dans Rn la dirence entre un vecteur et sa projection or-
thogonale sur un sous espace vectoriel quelconque est orthogonale tous les lments de l'espace
sur lequel la projection est eectue. Ici, XhM C VX engendr
reprsente le vecteur de l'espace
par les colonnes de la matrice X qui est le plus proche de y. En d'autres termes XhM C est
la projection orthogonale de y sur VX . L'orthogonalit de y XhM C et de VX se traduit par
l'orthogonalit de y XhM C et des colonnes de X, qui forment une base de VX . Cela se traduit
par
XT [y XhM C ] = 0
et conduit directement la relation (2.15).
Question 7 Supposons maintenant que v soit un vecteur de loi connue : v N (0, v ). Donnez
la loi du vecteury et calculez l'estimateur du maximum de vraisemblance de h. Montrez l'intrt
de cet estimateur par rapport hM C dans le cas particulier o la matrice v est diagonale.
Que se passe t'il si v est proportionnelle la matrice identit ? Dduisez en une interprtation
statistique de hM C .
Rponse
hM V = (XT 1 1 T 1
v X) X v y. (2.16)
Question 8 Supposons enn que h n'est plus dcrit comme un paramtre inconnu mais comme
une variable alatoire de loi connue, appele loi a priori. On se place donc ici dans le cadre des
mthodes dites d'estimation bayesienne. On suppose que h N (0, h ). Calculez, en utilisant
la formule de Bayes, la densit de probabilitp(h|y), appele densit de probabilit de la loi a
posteriori, et donnez l'expression de l'estimateur du maximum de vraisemblance a posteriori
de h dni par
hM AP = arg max p(h|y). (2.17)
h
Rponse
1 1 T 1
hM V = (XT 1
v X + h ) X v y. (2.18)
Premire partie
Analyse numrique matricielle
20
Chapitre 3
Rappels sur les matrices et les systmes

d'quations linaires
Revenons rapidement sur les origines de la notion de matrice. On se limite ici au cas des espaces
vectoriels de type Rn , mme si l'extension de la prsentation Cn est immdiate.
3.1 Applications linaires et matrices
Soit f une application de Rm dans Rn . Soient (ei )i=1,m une base de Rm et (ki )i=1,n une base de
Rn . On suppose que f est linaire, c'est dire que pour tous x1 , x2 Rm et a1 , a2 R,
f (a1 x1 + a2 x2 ) = a1 f (x1 ) + a2 f (x2 ).
Soit x Rm et notons y = f (x). On souhaite exprimer les composantes de y dans la base

(ki )i=1,n en fonction des composantes de x dans la base (ei )i=1,m . On va montrer qu'une telle
expression s'obtient facilement en fonction des composantes des vecteurs (f (ei ))i=1,m dans la
base (ki )i=1,n .
Si on note X
f (ej ) = Aij ki ,
i=1,n
et que l'on reprsente les coecients Aij dans un tableau not A, de taille nm et appel
matrice, dont le terme qui se trouve l'intersection de la ime ligne et de la j
me colonne est
prcisemment Aij , il apparat que la j

me colonne de A contient les composantes du vecteur ej
exprimes dans la base (ki )i=1,n .
Considrons maintenant la relation y = f (x). Les expressions de x et de y dans les bases

respectives (ei )i=1,m et (ki )i=1,n sont donnes par
X X
x= xj ej et y= yi ki ,
j=1,m i=1,n
21
CHAPITRE 3. RAPPELS SUR LES MATRICES ET LES SYSTMES D'QUATIONS LINAIRES22
et la linarit de f permet d'crire que
P
f (x) = f ( j=1,m xj ej )
P
= j=1,m xj f (ej )
(3.1)
P P
= j=1,m xj [ i=1,n Aij ki ]
P P
= i=1,n [ j=1,m Aij xj ]ki .
P
Comme la reprsentation de y = f (x) sous la forme y= i=1,n yi ki est unique, la relation
X X X
y= yi ki = [ Aij xj ]ki
i=1,n i=1,n j=1,m
entrane que
X
yi = Aij xj , pour i = 1, . . . , n. (3.2)
j=1,m
On voit que yi s'exprime comme le produit scalaire des vecteurs [Ai1 , Ai2 , . . . , Aim ]T et x, ce qui
s'exprime classiquement par l'criture

x1
x2

yi = Ai1 Ai2 . . . Aim . . (3.3)
..
xm
En concatnant ces relations pour i = 1, . . . , n, on obtient l'expression des coordonnes de y

dans la base (ki )i=1,n :

y1 A11 Ai2 . . . A1m x1
y2 A21 A22 . . . A2m x2
.. = .. . (3.4)

.
. .
. .
yn An1 An2 , . . . Anm xm
Il faut interprter cette expression comme un rsum des relations (3.2).
Notons que souvent, lorsqu'il n'y a pas d'ambiguit sur les bases choisies on identie les vecteurs
x et y avec leurs reprsentations

x1 y1
x2 y2
et (3.5)

.. ..
. .
xm yn
dans ces bases et on note la relation (3.4) sous la forme compacte
y = Ax. (3.6)
3.2 Changement de base
On a vu que la matrice A caractrise une application linaire f pour des bases xes des espaces
de dpart et d'arrive. On peut se demander comment l'expression de A se trouve modie lors
d'un changement de base.
Limitons nous ici au cas d'une application f de Rn dans Rn et supposons que A reprsente la
matrice de A n
pour la base (ei )i=1,n de R . Considrons une autre base de Rn , note (e0i )i=1,n et
0
notons A la reprsentation matricielle de f dans cette nouvelle base.
On va voir que la relation entre A et A0 peut tre exprime en fonction des relations de passage
de la base (ei )i=1,n la base (e0i )i=1,n . Posons
X
e0j = Pij ei . (3.7)
i=1,n
Dans la matrice P, de terme gnral Pij , la jme colonne contient donc les coecients du vecteur
e0j exprim dans la base (ei )i=1,n .
Soit maintenant un vecteur v = f (u). On dsignera par x et x0 les vecteurs de coordonnes

u et
0
de u dans les bases respectives (ei )i=1,n et (ei )i=1,n . De faon analogue, les composantes de v
0
dans ces bases seront notes y et y :
u = i=1,n xi ei = i=1,n x0i e0i

P P
(3.8)
0 0
P P
v = i=1,n yi ei = i=1,n yi ei .
Considrons par exemple la premire relation. D'aprs la relation (3.7),
0 0
P P
i=1,n xi ei = j=1,n xj ej
0
P P
= j=1,n xj [ i=1,n Pij ei ] (3.9)
0
P P
= i=1,n [ i=1,n Pij xj ]ei .
0 x = Px0 .
P
Ainsi, xi =i=1,n Pij xj pour i = 1, . . . , n et donc De faon tout fait identique, on
peut tablir que y = Py .
0
Les reprsentations matricielles de la relation v = f (u) dans les deux bases s'crivent y = Ax
et y 0 = A 0 x0 . Mais la relation y = Ax associe aux relations x = Px0 et y = Py0 conduit
Py0 = APx0 ,
soit y0 = (P1 AP)x0 , ce qui montre clairement que
A0 = P1 AP.
Dans le cadre de la rsolution des systmes d'quations linaires, notons que le systme d'qua-
tions y0 = A0 x0 , o x0 est inconnue, peut tre plus simple rsoudre que le systme d'quations
initial y = Ax. Comme on le verra plus loin, l'ide consistant mettre en vidence une reprsen-
tation quivalente d'un systme d'quations linaires pour laquelle la matrice mise en jeu est
simple (typiquement triangulaire ou diagonale) est la base de nombreuses mthodes d'analyse
numrique matricielle.
Exercice On considre l'application linaire donne dans la base canonique de R3 (repre or-
thonorm orient dans le sens direct), note (e1 , e2 , e3 ) par

1 2 0
A = 0 1 0 . (3.10)
2 3 1
On considre maintenant la nouvelle base de R3 dnie par e01 = e3 , e02 = e1 et e03 = e2 . Calculez
la matrice de passage P de la premire la seconde base et vriez que dans la nouvelle base on
obtient une matrice A0 triangulaire. Dduisez en l'expression du vecteur x tel que Ax = y pour
y = [1, 1, 1]T .
3.3 Quelques familles de matrices importantes
Etant donne une matrice A de coecients rels ou complexes, de terme gnral d'indice (i, j)
not Aij , on notera A = (Aij ). La transpose et conjugue hermitienne ou transpose-
conjugue de A sont dnies respectivement par
AT = (Aji ), et AH = (Aji ). (3.11)
Pour une matrice carre A, de taille n, rappelons maintenant la dnition de quelques matrices
particulires importantes
matrice symtrique relle AT = A

matrice hermitienne complexe AH = A
matrice orthogonale relle AAT = AT A = I (3.12)
matrice unitaire complexe AAH = AH A = I
matrice normale AH A = AAH .
Les matrices hermitiennes et unitaires peuvent tre vues comme les analogues valeurs com-
plexe des matrices symtriques et orthogonales respectivement. Les matrices orthogonales (resp.
unitaires) sont celles dont les colonnes (ai )i=1,n forment une base orthonorme, c'est dire que
aTi aj = i,j (resp. aH
i aj = i,j , o i,j = 1 si i = j , et 0 sinon).
Notons que les matrices symtriques relles et complexes hermitiennes constituent des cas par-
ticuliers de matrices normales. De plus, les matrices symtriques (resp. hermitiennes) jouent un
rle important dans de nombreuses situations, en particulier en probabilit et en statistiques
puisque la matrice de covariance d'un vecteur alatoire rel X (resp. complexe), dnie par
RX = E[XXT ] E[X]E[X]T (resp. RX = E[XXH ] E[X]E[X]H ) est clairement symtrique
(resp. hermitienne).
3.4 Dterminant et inverse
Rappelons que le dterminant de la matrice A de taille n est dni par
X
|A| = A(1),1 . . . A(n),n , (3.13)
Gn
o Gn reprsente l'ensemble des permutations de l'ensemble {1, . . . , n} dans lui mme, et la sig-
nature de la permutation , qui vaut +1 ou -1 selon que le nombre de permutations lmentaires
de deux coecients successifs qu'il faut raliser pour passer du vecteur (1, 2, . . . , n) au vecteur
((1), (2), . . . , (n)) est pair ou impair. Notons une proprit importante du dterminant :
|AB| = |A|.|B| (3.14)
Si (et seulement si) |A| =

6 0, alors, la matrice A est inversible pour la multiplication matricielle,
c'est dire qu'il existe une matrice, note A1 , telle que
AA1 = A1 A = I, (3.15)
o I reprsente la matrice identit (ici de taille n). On sait que
A1 = |A|1 Com(A)T , (3.16)
o Com(A) est la comatrice de A : Com(A)ij est le dterminant de la matrice de taille n1

forme de A prive de sa ligne i et de sa colonne j , multipli par (1)
i+j :
Com(A)ij = (1)i+j |matrice A prive de la ligne i et de la colonne j| .
Arrtons nous un instant sur cette formule. Pour calculer A1 , il faut multiplier n 1 termes
pour chacune des (n 1)! permutations de chacun des n2 termes de Com(A). Au total, on
2
obtient de l'ordre de n n! multiplications. Rappelons de plus que d'aprs la formule de Stierling,

n
n! = n e n 2n(1+(n)), avec limn (n) = 0. On dit que la complexit algorithmique du
calcul de l'inverse est exponentielle, c'est dire que le cot de calcul crot exponentiellement avec
la taille n du problme. En pratique, cela signie que pour des problmes mme de taille rduite
(pour n de l'ordre de quelques dizaines), un ordinateur puissant serait dans l'impossibilit de
complexit
calculer l'inverse d'une matrice en un temps raisonable. En fait, les algorithmes de
exponentielle sont considrs comme irralisables en pratique et on cherche gnralement des
algorithmes de complexit polynomiale. On verra qu'il est possible de raliser l'inversion
matricielle au moyen d'algorithmes dont la complexit est de l'ordre de n3 .
Exercice Vriez le lemme d'inversion matricielle : si les matrices B et D sont inversibles

et A = B + CDE, alors
A1 = B1 B1 C(D1 + EB1 C)1 EB1 . (3.17)
N 1 xn xTn
P
Appliquez cette formule au calcul itratif de l'inverse de la matrice n=1,N qui
reprsente l'estimateur empirique de la matrice de covariance d'un vecteur alatoire centr X,
associe une squence de vecteurs d'observation (xn )n=1,N . xn sont des ralisations in-
Si les
dpendantes de la matrice de covariance d'un vecteur alatoire X = au + B, o u est un vecteur
connu,
2 I, calculez
a une amplitude inconnue, et B un vecteur de bruit de matrice de covariance B
lorsque N varie la formule itrative de l'estimateur du maximum de vraisemblance de a, not
a
N .
Un autre oprateur qui apparat souvent en calcul matriciel est l'oprateur de trace, dni par
X
T r(A) = Aii . (3.18)
i
On vrie aisment que T r(AB) = T r(BA) et T r(A + B) = T r(A) + T r(B).
3.4.1 Valeurs propres et vecteurs propres
Les valeurs propres de la matrice A sont les racines du polynme caractristique de A dni par
P (A) = |A I|. L'ensemble des valeurs propres de A dnit le spectre de la matrice A,
not [
Sp(A) = {i (A)} C. (3.19)
i=1,n
3.4.2 Image et noyau d'une matrice
Etant donne une application linaire f : Cm Cn et A = [A1 , . . . , Am ] la matrice de f pour

des bases xes des espaces de dpart et d'arrive. L'espace image et le noyau de f, que l'on
dnira aussi par extension comme l'espace image et le noyau de A sont dnis respectivement
par
Im(f ) = Im(A) = {Au Cn ; u Cm } = vect{A1 , . . . , Am }
(3.20)
Ker(f ) = Ker(A) = {u Cm ; Au = 0}.
Rappelons le rsultat suivant :
dim(Im(A)) + dim(Ker(A)) = m. (3.21)
Le rang de la matrice A est dni par

rang(A) = dim(Im(A)) (3.22)
On dira que la matrice A est de rang plein si rang(A) = min(m, n).

Notons qu'en anglais rang(A) s'exprime par rank(A) tandis que Im(A) s'crit range(A) et
Ker(A) s'exprime par N ull(A).
3.4.3 Changement de base
Comme on l'a vu au paragraphe 3.2, si A est une matrice carre de taille n, correspondant
l'expression d'une application linaire dans une base B = (x1 , . . . , xn ) et siB2 = (y1 , . . . , yn )
reprsente une autre base, avec [y1 , . . . , yn ] = P [x1 , . . . , xn ], alors, l'expression de la transforma-
tion linaire dans la base B2 est A2 = P
1 AP. Le changement de base conduit donc factoriser
la matrice A sous la forme A = PA2 P

1 .
En analyse numrique, il est souvent utile de factoriser une matrice A sous la forme d'un produit
de matrices an d'obtenir des problmes plus simples rsoudre. C'est en particulier le cas,
comme on le verra, pour la rsolution des systmes d'quations linaires. Le paragraphe suivant
liste les principales factorisations de matrices utilises pour la rsolution des systmes d'quations
linaires, ou la dcomposition en valeurs propres.
3.4.4 Factorisation de matrices
Le thorme de Schur montre que pour une matrice A il est toujours possible de trouver un
changement de base unitaire, c'est dire pour lequel la matrice de changement de base P est
unitaire, tel que dans la nouvelle base la matrice soit triangulaire.
Notons dj qu'un des avantages des changements de base unitaires est que le facteur P1 qui
apparat dans la transformation se ramne simplement P
1 = PH , ce qui fournit sans calcul
l'inverse de P.
Thorme 1 (thorme de Schur) Soit A une matrice carre. Alors, il existe une matrice uni-
taire U telle que UH AU soit une matrice triangulaire.
Corollaire 1 Soit A une matrice normale. Alors, il existe une matrice unitaire U telle que
UH AU soit une matrice diagonale.
Exercice Dmontrer le thorme de Schur et le corrolaire.

Le corrolaire indique que les matrices normales, et en particulier les matrices symtriques relles
et les matrices complexes hermitiennes, admettent une dcomposition en valeurs propres et que
la base des vecteurs propres est une base orthonorme.
Lorsque A est une matrice non normale ou non carre, on peut cependant toujours trouver une
factorisation de A avec des matrices unitaires et une matrice diagonale. Simplement les facteurs
unitaires de droite et de gauche ne sont plus conjugus l'un de l'autre. L'obtention de cette d-
composition, appele dcomposition en valeurs singulires, provient du fait que les matrices
AAH et AH A sont hermitiennes. Elles admettent donc respectivement des dcompositions en
valeurs propres de la forme UDU
H et VD0 VH et on peut tablir que D = D0 et A = UDVH .
Les termes diagonaux de D sont appels valeurs singulires de la matrice A.
Donnons maintenant la liste des princiales dcompositions matricielles :

dcomposition LU : A = LU (L, UT triangulaire infrieure)
factorisation de Cholesky : A = LL
T (A symtrique)

H
dcomposition QR : A = QR, Q Q = I, R triangulaire
dcomposition en valeurs propres : A = MDM1

dcomposition de Jordan : A = MJM
1 et J bi-diagonale
dcomposition en valeurs singulires : A = UDV

H (A de dimensions quelconques !)

H
forme Schur : Q AQ = T (T triangulaire suprieure)

H
forme Hessenberg : Q AQ = T+ sous diagonale (T(i + k, i) = 0 pour k 2)
Notons que la forme Hessenberg constitue une forme particulire qui peut tre obtenue par
un calcul direct et sert l'initialisation des techniques itratives qui permettent de calculer la
dcomposition de Schur. On reviendra au chapitre IV sur les dcompositions LU , de Cholesky
et QR et sur les autres au chapitre VI.
3.5 Produits scalaires et normes vectorielles et matricielles
Dans Rn , x et y par
on dnit le produit scalaire des vecteurs
X
< x, y >= yT x = xk y k . (3.23)
k=1,n
Le produit scalaire des matrices A et B par
< A, B >= T r(ABH ). (3.24)
Dans le cas de vecteurs et de matrices complexes ces formules deviennent
< x, y >= yH x et < A, B >= T r(ABH ). (3.25)
A ces produits scalaires, on peut associer le normes scalaires quadratiques et de Frobnius re-
spectivement, dnies par
q
k x k22 = xT x, et k A k2F = T r(AT A). (3.26)
Plus gnralement, on dnit la norme lp d'un vecteur x par
X
k u kp = ( |ui |p )1/p (0 < p < ). (3.27)
On pourra vrier l'ingalit triangulaire pour la norme (encore appele ici ingalit de Minkowski)
titre d'exercice. Rappelons galement au passage l' ingalit de Hlder, qui gnralise l'in-
galit de Cauchy Schwarz : si p1 + q 1 = 1,
|yH x| k x kp k y kq . (3.28)
Pour les matrices, de taille n m, o Rm (resp. Cm ) est muni de la norme la et Rn resp. Cn ) est
muni de la norme lb on peut dnir des normes matricielles sous la forme
k Ax k2b
k A kab = sup = sup k Ax k2b (3.29)
x k x k2a x,kxka =1
On notera simplement la norme k . kaa par k . ka . Bien sr, toutes ces normes sont quivalentes
puisqu'en dimension nie toutes les normes sont quivalentes (rappelons que deux normes sont
quivalentes si un facteur prs la premire est toujours infrieure la deuxime, et rciproque-
ment).
Pour des matrices carres, k.k dsignant une norme oprateur quelconque, on peut vrier que
k AB ka k A ka k B ka . (3.30)
Indiquons maintenant la forme prise par quelques unes des normes matricielles.
P
k A k1 = maxj i |Aij |
k A k2 = [(AH A)]1/2 =k AH k2 (3.31)
P
k A k = maxi j |Aij |.
Exercice Vrier les quations (3.30) et (3.31).

Notons enn que la norme k . k2 est invariante par transformation orthogonale sur les matrices :
si U est une matrice unitaire, k UA k2 =k A k2 .
3.5.1 Projection
Etant donn un sous espace vectoriel de Cn dont une base est donne par les vecteurs {A1 , . . . , Am },
la matrice de projection sur ce sous-espace s'exprime partir de la matrice A = [A1 , . . . , Am ]
par
A = A(AH A)1 AH . (3.32)
I A reprsente clairement le projecteur sur l'espace orthogonal celui engendr par les
colonnes deA, de sorte que tout vecteur x se dcompose sous la forme x = x A + x
A, avec
xA = A x Im(A) et x
A = (I A )x Im(A) .
Exercice Vriez que

(Im(A)) = Ker(AT ). (3.33)
3.6 Notions gnrales sur les algorithmes numriques
3.6.1 Complexit algorithmique
La complexit d'un algorithme s'exprime gnralement en fonction du nombre d'oprations

raliser pour obtenir la solution du problme qu'il doit rsoudre. En fait, si ce paramtre est
trs important, dans certaines applications, la quantit de mmoire informatique ncessaire au
traitement peut galement s'avrer cruciale pour le choix d'un algorithme.
La complexit d'un algorithme est dnie comme le terme dominant de la formule qui exprime
le nombre d'oprations raliser lorsque la dimension caractristique (par exemple la taille de la
matrice) du problme croit. Pour un problme de dimension n, on pourra dnir cette complexit
comme une grandeur (n) telle que
nombre d'oprations en dimension n

lim = 1. (3.34)
n (n)
Dans de nombreuses situations, on se contente d'un ordre de grandeur de la complexit algorith-

mique. Rappelons que g(n) = O((n)) si limn (g(n)/(n)) = C , o C est une constante nie.
Notons que souvent, on ne compte que le nombre de multiplications et de divisions, les additions
et les soustraction n'tant pas prises en compte.
Exercice Calculez la complexit algorithmique lie la rsolution d'un systme d'quations

Ax = b lorsque A est une matrice triangulaire.
3.6.2 Conditionnement
Un autres aspect important li la rsolution algorithmique rside dans la robustesse de la

solution du problme obtenue vis vis d'erreurs sur la connaissance prcise des valeurs des
paramtres du problme et sur la prcision des calculs en machine.
Un problme sera dit bien conditionn lorsque sa solution variera peu lors d'une faible perturba-
tion de ses paramtres. Considrons plus particulirement le cas simple et qui nous intresse ici
des systmes d'quations linaires et prenons l'exemple des deux systmes dquations suivants

2x1 + 6x2 = 8 2x1 + 6x2 = 8
et (3.35)
2x1 + (6 + 10 5)x2 = 8 + 105 2x1 + (6 10 5)x2 = 8 + 2.105 .
On voit bien que la variation relative des paramtres entre ces deux systmes est trs faible
(infrieure 105 ) et que malgr cela les solutions obtenues sont trs loignes.
Exercice Expliquez gomtriquement pourquoi les solutions des deux systmes sont trs dif-
frentes.
Pour quantier la notion de robustesse d'un systme linaire d'quations Ax = b, on va chercher

exprimer la variation relative de la norme de la solution lorsqu'on introduit une perturbation
des paramtres qui conduit un nouveau systme not
(A + F)x() = b + f . (3.36)
En notant x() la solution de ce systme, un dveloppement limit de x autour de = 0 conduit
x() = x + x0 (0) + O(2 ) = x + A1 (f Fx) + O(2 ) (3.37)
d'o il vient que

k x() x k kf k kFk
K(A) + + O(2 ). (3.38)
kxk kbk kAk
On voit donc que la solution sera d'autant plus insensible aux erreurs relatives sur les paramtres
A et b que le paramtre K(A) =k A kk A1 k appel paramtre de conditionnement, ou
simplement conditionnement du systme sera faible. Notons que la valeur de K(A) dpend
de la norme choisie. Cependant, si on note K2 (A) la valeur du conditionnement obtenue pour la
norme k . k2 , on peut vrier que l'on a toujours K(A) K2 (A) 1.
Lorsque K(A) est grand, on dit que le systme est mal conditionn.
Exercice Vriez l'quation (3.38) et montrez que pour une matrice A hermitienne, K2 (A) =
max (A)/min (A).
Chapitre 4
Systmes d'quations sur-dtermins et

sous-dtermins
Dans ce chapitre, on reviend rapidement sur les notions de systmes d'quations sur-dtermins
et sous-dtermins, dj envisages au chapitre 2.
Par opposition un systme dit rgulier d'quations linaires Ax = b pour lequel la matrice
A est carre et inversible, auquel cas on a clairement x = A1 b, les systmes sur-dtermins et
les systmes sous-dtermins qui comportent plus de lignes que de colonnes ou au contraire plus
d'inconnues que d'quations ne permettent pas de trouver une solution exacte, ou au contraire
fournissent tout un sous espace vectoriel de solutions. On rappelle ici brivement les approches
classiques retenues dans ce genre de stuation. On se limite ici au cas rel. Le cas complexe se
traite de faon analogue et pourra tre envisag titre d'exercice.
Notons que la recherche des solutions envisage ici met en oeuvre quelques notions d'optimisation.
Ces notions seront dtailles dans la seconde partie du cours. Pour l'instant, il sut de savoir
qu'une condition d'optimalit ncessaire pour une fonction drivable d'une variable vectorielle
f (x) est fournie par l'annulation de son gradient f (x) aux points ou elle prend sa valeur
optimale. On pourra ici justier du caractre susant du critre d'optimalit f (x) = 0 en
invoquant le thorme de projection qui assure qu' tout vecteur v (resp. tout point M) de
Rn correspond un vecteur (resp. un point) unique de tout sous-espace vectoriel (resp. de tout
sous-espace ane) dont la distance v (resp. M) est minimale parmi l'ensemble des points du
sous-espace.
4.1 Systmes sur-dtermins
Lorsque A est inversible, on a clairement x = A1 b, mais dans de nombreuses situations on est

P
conduit une suite d'observation (bi )i=1,m issues des combinaisons linaires i=1,n Aij xj des
quantites inconnues (xj )j=1,n et des coecients supposs connus de la matrice A. Dans ce type
de situation, pour un nombre important d'observations, c'est dire pour m > n la matrice A
32
CHAPITRE 4. SYSTMES D'QUATIONS SUR-DTERMINS ET SOUS-DTERMINS33
est gnralement de rang plein, c'est dire ici de rang n. Compte tenu notament des erreurs de
mesures ou des imperfections du modle linaire utilis il est rare que les quations du systme
soient compatibles. En d'autres termes le systme d'quations Ax = b n'admet pas de solution.
An d'accder une valeur approche de x un critre naturel consiste rechercher le vecteur x
tel que la norme de l'erreur de reconstruction de b sous la forme Ax soit la plus faible possible.
En gnral, on considre la norme l2 qui a l'avantage de pouvoir tre interprte physiquement
comme une nergie, mais surtout qui conduit une solution qui se formule trs simplement. En
eet la solution de
min k Ax b k22 (4.1)
x
doit vrier le systme d'quations

AT Ax = AT b. (4.2)
Exercice Montrez ce rsultat de deux manires direntes : en annulant le gradient du critre

et en utilisant le thorme de projection. Montrez de plus que comme m>n et que la matrice
T
est de rang plein la matrice A A est inversible.
Finalement la solution fournie par la mthode des moindres carrs est donne par
x = (AT A)1 AT b. (4.3)
Notons que mme lorsque les quations du systme ne sont pas incompatibles, la recherche de la
solution des moindres carrs reste utile pour caractriser la solution du systme lorsque m > n et
que A est de rang plein, car il n'est pas ncessaire ici de rechercher quelles quations redondantes
peuvent tre limines du systme pour se ramener un systme carr inversible.
Exercice Montrez que la solution des moindres carrs fournit l'estimateur du maximum de
vraisemblance de x pour un modle d'observation de la forme b = Ax+w, o w est un vecteur
alatoire gaussien dont les composantes sont dcorlles et de mme variance.
4.2 Systmes sous-dtermins
lorsque le systme Ax = b comporte plus de colonnes que de de lignes (m

< n) et est de rang
nm. En eet,
plein, l'ensemble des solutions du systme constitue un espace ane de dimension
si on dcompose (au besoin en permutant des colonnes) la matrice A sous la forme A = [A1 |A2 ],
o A1 est une matrice carre inversible, et de faon correspondante le vecteur x sous la forme
x = [xT1 |xT2 ]T , l'quation Ax = b, se reformule comme
A1 x1 + A2 x2 = b, (4.4)
soitx1 = A1 1
1 b A1 A2 x2 . on voit donc que l'ensemble des solutions est l'espace ane de
dimension n m dni par
1
A1

n A1 b 1 A2 nm
E = u R |u = + y, y R . (4.5)
0 I
Parmi toutes ces solutions, on est souvent amen choisir une solution particulire. On choisit
alors souvent de considrer la solution de norme minimale. On peut montrer que la solution du
systme Ax = b dont la norme quadratique est minimale est donne par
x = AT (AAT )1 b, (4.6)
Notons que la solution (4.6) est celle du problme d'optimisation sous contraintes
minx xT x

(4.7)
Ax = b.
On verra en cours d'optimisation comment rsoudre de faon systmatique ce genre de problme

en utilisant les multiplicateurs de Lagrange. La caractrisation (4.5) de l'ensemble des so-
lutions de Ax = b peut cependant tre utilise pour obtenir de faon directe, bien qu'un peu
laborieuse, la solution de norme minimale.
Exercice En utilisant la carcatrisation (4.5) de l'ensemble des solutions du systme Ax = b,

dmontrez que la solution de norme minimale vaut x = AT (AAT )1 b. (Indication : utiliser le
lemme d'inversion matricielle pour simplier la formule obtenue).
4.3 Cas gnral
Dans le cas gnral la matrice A du systme Ax = b n'est pas forcment de rang plein. On peut
se ramener un systme de rang plein de diverses faons. Ainsi, par exemple, la dcomposition
en valeurs singulires de A s'crit A = UDVH , o les matrices unitaires U et V sont de tailles
respectives m et n. Si A n'est pas de rang plein, certains des termes diagonaux de la matrice D
H
sont nuls. Considrons le systme quivalent DV x = UH b. La matrice D de taille mn se
rcrit sous la forme

D1 D1 0
D = D1 , D= , D = D1 0 , ouD = , (4.8)
0 0 0
o D1 est une matrice diagonale inversible de taille p. La matrice A est de rang plein si p =
min{m, n} ce qui correspond aux trois premirs cs de gure dcrits par les relations (4.8). En
notant U1 et V1 les matrices constitues des p premires colonnes de U et de V respectivement,
on voit clairement que les solutions des moindres carrs vrient
D1 V1H x = UH
1 b. (4.9)
Si n = p, x est dni de faon unique. Sinon, parmi les valeurs de x solutions de (4.9), on peut
montrer que l'approximation de norme minimale est donne par
x = V1 D1 H
1 U1 b. (4.10)
Exercice Vriez que la solution des moindres carrs de norme minimale est bien donne par
(4.10).
4.4 Matrices blocs et rsolution partielle des systmes linaires
On considre la matrice
A11 A12
A= . (4.11)
A21 A22
avec A11 inversible. On vrie facilement que
I A1

I 0 A11 0 11 A12
A= 1 . (4.12)
A21 A11 I 0 A22 A21 A1
11 A12 0 In
Le coecient 11 A12 est appele complment

A22 A21 A1 de Schur du bloc A11 de la matrice
A. Il est clair que A est une matrice symtrique positive si et seulement si le complment de
Schur est une matrice symtrique positive.
On suppose maintenant de plus que A22 est inversible. Le lemme d'inversion matricielle appliqu
au complment de Schur conduit
(A22 A21 A11 A12 )1 = A1 1 1 1 1

22 + A22 A21 (A11 A12 A22 A21 ) A12 A22 (4.13)
D'aprs la relation (4.12), on peut alors vrier que
I A1

A1 = 11 A12
0 I
A1

11 0 I 0
.
0 A1 1 1 1 1
22 + A22 A21 (A11 A12 A22 A21 ) A12 A22 A21 A1
11 I
(4.14)
On peut galement vrier que Ces formules sont connues sous le nom de lemme d'inversion
matriciel.
Il peut arriver que dans un problme on cherche rsoudre partiellement un systme d'quations
linaires. Ainsi, si on considre le systme d'quations

A11 A12 x1 b1
= , (4.15)
A21 A22 x2 b2
et que l'on cherche simplement la solution pour x1 . On vriera titre d'exercice que
x1 = (A11 A12 A1 1 1
22 A21 ) (b1 A12 A22 b2 ). (4.16)
Chapitre 5
Rsolution directe des systmes

linaires
Considrons un systme linaire rgulier d'quations Ax = b. Par opposition aux mthodes

itratives, les mthodes de rsolution directe permettent d'obtenir la solution exacte d'un tel
systme (aux erreurs numriques prs) aprs un nombre d'oprations x, fonction de la taille
du systme. Les mthodes directes assurent la rsolution des systmes d'quations linaires de
taille n pour un cot de calcul de l'ordre de n3 oprations.
Les mthodes de rsolution directe visent ramener la rsolution du systme Ax = b la rso-

lution d'un systme d'quations triangulaire Tx = b0 , pour lequel la matrice T est triangulaire
et la complexit de n2 oprations. Il apparat en fait que c'est la transformation du systme
Ax = b Tx = b0 qui sera la plus couteuse en termes de cot de calcul. Pour le
en le systme
0
systme triangulaire Tx = b , si on suppose par exemple que T est triangulaire suprieure, c'est
dire que Tij = 0 pour i > j , on vrie facilement que x est fourni par l'algorithme itratif
suivant, prsent en utilisant la syntaxe de Scilab [10] :
for k=n:-1:1,
x(k) = (b(k)-T(k,k+1:n)*x(k+1:n))/T(k,k);
end;
Dont la complexit est (n) = n2 /2.
On distingue deux types de mthodes directes : celles qui conduisent une factorisation de A sous
la forme A = LU, o les matrices L et U sont respectivement triangulaire infrieure et triangu-
laire suprieure (de l'anglais L comme 'lower' et U comme 'upper'), et celles de type A = QR
pour lesquelles la matrice Q est orthogonale (unitaire dans le cas complexe) et R est triangu-
laire suprieure. On vrie aisment qu'une telle criture constitue une orthogonalisation de
Gram-Schmidt des colonnes de A. En eet,
Dans la suite, on va dtailler les algorithmes qui permettent d'obtenir les dcompositions LU et
36
CHAPITRE 5. RSOLUTION DIRECTE DES SYSTMES LINAIRES 37
QR
5.1 Mthodes de Gauss
5.1.1 Principe gnral
La mthode de Gauss consiste liminer successivement pour k = 1, . . . , n 1 les contributions

de la variable xk dans les quations k + 1, . . . , n du systme, en les combinant avec la k me
quation. Sous rserve que les divisions mises en jeux soient possibles (pas de division par 0), on
obtient nalement le schma algorithmique suivant
for k=1:n-1,
for l=k+1:n,
A(l,k:n) = A(l,k:n) - (A(l,k)/A(k,k))*A(k,k:n);
b(l) = b(l) - (A(l,k)/A(k,k))*b(k);
end
end
A la n de cet algorithme, la matrice A est devenue triangulaire grce la succession des

combinaisons de ses lignes.
Notons que la k me boucle de l'algorithme revient multiplier gauche les deux membres du
systme courant par la matrice Mk qui possde des 1 sur sa diagonale et des zros partout
(k) (k)
ailleurs, sauf pour ses termes d'indice (k, l), lorsque l > k, pour lesquels [Mk ]kl = Alk /Akk .
On construit ainsi la suite de matrices
A(1) = A, A(2) = M1 (1) A(1) , . . . , A(k+1) = Mk A(k) , . . . , (5.1)
et on obtient nalement le systme
M1 ..Mn1 Ax = Ux = M1 ..Mn1 b = b0 . (5.2)
La rsolution du systmeUx = b0 est immdiate puisque U est triangulaire suprieure. Penchons

1 1
nous un instant sur l'galit M1 . . . Mn1 A = U. Notons que A = [Mn1 . . . M2 ]U. Une
1
proprit remarquable de la matrice Mk est quel s'obtient simplement partir de Mk par
un changement de signe des coecients placs sous la diagonale, ce que l'on pourra vrier
titre d'exercice. De plus, on vrie facilement en procdant par rcurrence que le produit
L = [M1 1
n1 . . . M2 ] est tel que la k me colonne de L concide avec la k me colonne de Mk au
signe prs des termes sous-diagonaux. Finalement L est triangulaire infrieure, avec

= 0 si k < l
Lkl = = 1 si k = l (5.3)
(k) (k)
= Alk /Akk si k > l,
soit,

1 0 0 0
(1) (1) .. .
A21 /A11 . .
1 .
L=

. . .
(5.4)
. . ..
. . 0
(1) (1) (2) (2)
An1 /A11 An2 /A22 1
On a donc bien ralis la dcomposition LU de la matrice A, avec L triangulaire infrieure et
U triangulaire suprieure.
5.1.2 Stabilit et pivot
Comme on l'a vu prcdemment, la mthode de Gauss ne vaut que s'il n'y a pas de division par
(k)
0, c'est dire si la squence des coecients (Akk )k=1,n1 n'a pas de terme nul. En pratique,
(k)
si Akk a une valeur non nulle mais proche de 0, cela peut entraner des erreurs numriques qui
aectent de faon importante la solution obtenue.
La mthode du pivot de Gauss permet de remdier ce problme de la faon suivante : la k me

itration de l'algorithme, on vient prlever le terme du bloc d'indices A
(k) (k : n, k : n) de plus
grand module et on vient le placer en position (k, k) au moyen d'une permutation Pck sur les
colonnes k n de A(k) et d'une permutation Plk sur les lignes k n. Finalement, la suite des
transformations de la matrice A peut se rsumer comme suit :
(Mn1 Pln1 . . . M1 Pl1 )A(Pc1 . . . Pcn1 ) = U, (5.5)
o U est triangulaire suprieure. En fait, cette stratgie est appele pivot total, par opposition
une mthode plus simple, dite de pivot partiel, qui consiste simplement permuter les
lignes k n de la matrice pour venir remplacer la ligne k par la ligne j, avec j k, pour
(k)
laquelle le coecient |Alk | est maximum. Cette stratgie moins performante vis vis des erreurs
numriques est galement moins coteuse puisque le nombre de comparaisons entre coecients
eectuer est nettement plus faible.
5.1.3 Cot de calcul, dterminant et inverse
A(k) x = b(k) ncessite de l'ordre de

P
L'obtention de la suite des systmes d'quations k=1,n1 (n
k)2 multiplications, soit 3
(n) = n /3 pour la rsolution du systme, puisque l'inversion du sys-
2
tme triangulaire obtenu ne rclame qu'environ n /2 multiplications.
Notons maintenant que la connaissance de la dcomposition LU de A fournit directement le

dterminant de A :
(k)
|A| = k=1,n Akk (5.6)
On peut galement ainsi obtenir l'inverse de la matrice 1, . . . , A

A puisque si on note A1 = [A n ],
les colonnes de A1 sont fournies par la rsolution
des n systmes d'quations LUAk = ek , qui
peuvent chacun se ramener la rsolution successive de deux systmes triangulaires :
Lyk = ek (n) = n3 /6,

(5.7)
UA k = yk (n) = n3 /2,
o les vecteurs ek sont les vecteurs de la base canonique ([ek ]i
= k,i ). Le premier systme rclame
moins de calcul que le second du fait de la prsence de 0 sur les k 1 premires composantes
du vecteur ek . La rsolution des quations matricielles (5.7) rclame donc un total de 2n /3
3
3
oprations. Mais comme la factorisation LU elle mme requiert n /3 oprations, on obtient
(n) = n3 multiplications pour le calcul de l'inverse de A.
5.1.4 Mthode de Cholesky
Dans le cas particulier o la matrice A est symtrique relle (A

T = A) positive , on peut
vrier que A = LLT avec L triangulaire infrieure. L'adaptation de la mthode de Gauss
cette situation conduit l'algorithme suivant, connu sous le nom de factorisation de Cholesky.
On note que
L211 L11 aT1 L11 aT1

L11 0 1 0
A= = . (5.8)
L11 a1 An1 a1 I 0 An1 a1 aT1 0 I
On procde de mme sur la matrice positive An1 a1 aT1 et on itre la procdure.
Exercice Justiez la formule (5.8) et la positivit de la matrice An1 a1 aT1 .

La construction de la matrice L de la factorisation de Cholesky peut nalement tre rsume par
les relations ci dessous :
( q
2
P
Ljj = Ajj i=1,j1 Lji
L= (5.9)
= L1
P
Lij jj (Aij k=1,j1 Lik Ljk ) (i = j + 1, . . . , n),
procdure dont le cot de calcul est (n) = n3 /6. Notons de plus que la positivit de la matrice
A assure la stabilit de la mthode.
En pratique, le code informatique correspondant pourra prendre la forme suivante :
L = zeros(n,n);
L(1,1) = sqrt(A(1,1));
for k=1:n-1,
L(k+1:n,k) = (A(k+1:n,k) - L(k+1:n,1:k-1)*(L(k,1:k-1))')/L(k,k);
L(k+1,k+1) = sqrt(A(k+1,k+1)-L(k+1,1:k)*L(k+1,1:k)');
end;
La factorisation LDLT relativement proche permet d'viter la division par L2jj et les ventuels
problmes de stabibilit associs cette division. Elle s'crit
L1 aT1 d1 aT1

d1 1 0 d1 0
A= = (5.10)
L1 a1 An1 a1 I 0 An1 d1 a1 aT1 0 I
Notons que pour une matrice A hermitienne complexe (A

H = A), on a un rsultat analogue.
Il sut alors de remplacer les transpositions par des transpositions-conjugaisons dans ce qui
prcde, et A = LLH
5.2 Triangularisation par orthonormalisation
Rappelons que pour une matrice Q orthogonale (QQ

T = I) on a pour toute matrice A
K2 (QA) = K2 (A). (5.11)
Le conditionnement du systme Ax = b n'est donc pas aect par une transformation orthogo-
nale et il ne sera pas ncessaire de prendre de prcautions telles que la mthode du pivot vue dans
le cadre de la factorisation LU lorsqu'on triangularise le systme. On va maintenant indiquer
deux techniques importantes de triangularisation par orthonormalisation.
5.2.1 Mthode de Householder
Pour un vecteur norm u (k u k= 1), on dnit la matrice de rexion de Householder

associe par
Hu = I 2uuT . (5.12)
Notons que Hu HTu = I et Hu x = x 2u(xT u). Ainsi, pour u = (x k x k e1 ),
Hu x = k x k e1 , (5.13)
o [ek ]i = i,k et =k x k x k e1 k1
On peut appliquer cette mthode la triangularisation de la matrice A de taille n en considrant

une squence de n1 transformations de Householder. On pose A(1) = A et on construit
successivement des transformations Hk (k = 1, . . . , n1) qui annulent les termes sous diagonaux
de la colonne k de A
(k) = Hk1 A(k1) :

Ik1 0
Hk = k , (5.14)
0 H
o Ik1 est la matrice identit de taille k
k 1, et H une matrice de Householder de taille nk +1
qui annule les nk derniers termes de la colonne k de la matrice A
(k) . Ainsi,
(Hn1 . . . H1 )A = QT A = R, (5.15)
avec QQT = In et R triangulaire suprieure. Ainsi, A = QR.
Pour ce qui est du cot de calcul, pour la construction de la k me matrice et sa multiplication

par Ak , il faut compter de l'ordre de 2(n k)2
+ O(n k)Poprations, soit au total, pour les
n 1 itrations de la procdure, (n) = 2n /3 oprations ( k 2(n k)2 ).
3
5.2.2 Mthode des rotations de Givens
Au lieu d'essayer de construire des matrices qui liminent une sous colonne d'une matrice comme
s'tait le cas avec la mthode de Householder, on se limite ici l'limination d'un unique coef-
cient de la matrice chaque opration grce une rotation dans un sous espace de dimension
deux, appele rotation de Givens. L'avantage de cette approche rside dans le fait que pour
des matrices A creuses, c'est dire des matrices prsentant un grand nombre de coecients
nuls, le cot de calcul de la triangularisation de A peut devenir nettement plus faible que pour la
mthode de Householder. Pour un vecteur u (ui , uj ) dans le sous espace dni
de composantes
par les indices i et j , on considre la rotation Gij () qui agit dans ce sous espace et dont l'angle
est choisi de sorte annuler la composante de u selon la direction j . Le vecteur transform
v = Gij ()u est tel que

vi = cui suj
vj = Gij ()ui : vj = sui + cuj (5.16)
vk = xk k 6= i, j.

q
avec c = cos et s = sin . Pour tan = uj /ui , on aura vi = u2i + u2j et vj = 0.
On peut appliquer cette mthode la triangularisation de la matrice A de taille n en considrant

une squence de (n1)+(n2)+. . .+1 = n(n1)/2 rotations de Givens ; Ces rotations agissent
sur des sous espaces d'indices (i, i + 1) et vise liminer successivement les coecients d'indices
(n, 1), (n 1, 1), . . . (2, 1), puis (n, 2), (n 1, 2), . . . (3, 2), . . ., (n, k), (n 1, k), . . . (k + 1, k), . . .,
et enn (n, n 1) de la matrice A. On construit ainsi la matrice Q A = R, avec
T
QT = Gn1,n (n1,n ) Gn2,n1 (n2,n1 )Gn1,n (n1,n ) . . .

(5.17)
. . . G1,2 (1,2 ) . . . Gn1,n (n1,n ).
Finalement, A = QR, avec QQT = In et R est triangulaire suprieure.
(n) = 4n3 /3 2
P
On peut vrier facilement que la complexit de la mthode est de ( k (n k) ).
Voici une implmentation informatique de la factorisation QR d'une matrice carre A au moyen

de rotations de Givens :
Q = eye(n,n);
R = A;
for k1=1:n-1,
for k2=n-1:-1:k1,
x = R(k2,k1);
y = R(k2+1,k1);
if y~=0 then
rho = sqrt(x^2+y^2);
Cos = x/rho;
Sin = y/rho;
R(k2,k1) = rho;
R(k2+1,k1) = 0.0;
for u=k1+1:n,
R_aux = Cos*R(k2,u) + Sin*R(k2+1,u);
R(k2+1,u) = -Sin*R(k2,u) + Cos*R(k2+1,u);
R(k2,u) = R_aux;
end;
for v=1:n,
Q_aux = Cos*Q(v,k2) + Sin*Q(v,k2+1);
Q(v,k2+1) = -Sin*Q(v,k2) + Cos*Q(v,k2+1);
Q(v,k2) = Q_aux;
end;
end;
end;
end;
Dans cette procdure, chaque itration, on a A = QR avec la matrice R qui devient pro-
gressivement triangulaire, les rotations gauche appliques chaque tape la matrice R tant
cmpenses par des rotations droite en sens inverse appliques Q.
5.2.3 Mthode de Gram-Schmidt
On peut chercher appliquer directement la procdure d' orthogonalisation de Gram-Schmidt

sur les colonnes de la matrice A pour obtenir la dcomposition QR. On obtient alors une proc-
dure qui peut tre rsume comme suit : Pour k = 1, . . . , n,
Rik = QTi AkP

, i = 1, . . . , k 1
Zk = Ak i=1,k1 Rik Qi
(5.18)
Rkk =k Zk k
Qk = Zk /Rkk .
avec la notation M = [M1 , . . . , Mn ].
H
P
Pour comprendre cette procdure, notons que Zk = (I i=1,k1 Qi Qi )Ak . On pourra aisment
I i=1,k1 Qi QH
P
vrier que i est la matrice de projection sur l'orthogonal de l'espace engen-
dr par {Q1 , . . . , Qk1 }. Donc, comme vect{Q1 , . . . , Qk1 } = vect{A1 , . . . , Ak1 }, Zk apparat
comme la projection de Ak sur l'othogonal de vect{A1 , . . . , Ak1 }. De plus, Qk est simplement
une version normalise du vecteur Zk .
Notons pour nir que cette approche n'est pas trs stable numriquement et on lui prfre
gnralement une mthode de Gram-Schmidt modie [3].
Chapitre 6
Rsolution itrative des systmes

linaires
Les mthodes de rsolution itrative des systmes d'quations linaires consistent reprsenter
le systme d'quations sous la forme d'une quation matricielle rcurrente qui permet, partir
d'un vecteur initial x de construire une suite de vecteurs dont on espre qu'elle converge vers
la solution du systme. Plus prcisemment, pour le systme linaire d'quations Ax = b, si on
dcompose A sous la forme A = M N, il apparat que la solution x de Ax = b est galement
solution de Mx = Nx + b. En d'autres termes, x est un point xe de l'quation de rcurrence
Mx(t) = Nx(t1) + b, t = 1, 2, . . . , (6.1)
pour laquelle x(0) est une valeur initiale xe quelconque. Bien sr, pour trouver x(t) connaissant
x(t1) , il serait souhaitable que l'inversion de M soit simple, ce qui conduit souvent choisir M
gale la partie diagonale ou la partie triangulaire, par exemple infrieure, de A. Ces choix
conduisent respectivement aux mthodes de Jacobi et de Gauss-Siedel.
Notons que si l'algorithme converge, la convergence on doit avoir Mx = Nx + b, et donc, par
dirence avec l'quation (6.1)
(x(t) x) = (M1 N)t (x(0) x). (6.2)
On voit donc que la convergence se traduit par le fait que les valeurs propres de la matrice
M1 N sont de modules infrieurs un. Cela permet d'obtenir les conditions de convergence
suivantes pour les algorithmes itratifs en gnral et les algorithmes de Jacobi et de Gauss Siedel
en particulier [2] :
l'algorithme (6.1) converge vers la solution de Ax = b si et seulement si les valeurs propres
de M1 N sont de modules infrieurs un.
Si k M
1 N k< 1, alors l'algorithme (6.1) converge vers la solution de Ax = b.
P
Si |Aii | > | j6=i |Aij |, i, la mthode de Jacobi converge.

T
Si A est symtrique dnie positive (A = A et A > 0), la mthode de Gauss-Siedel converge.
En pratique, la mthode de Jacobi peut prendre la forme du code suivant :
x = zeros(n,1);
43
CHAPITRE 6. RSOLUTION ITRATIVE DES SYSTMES LINAIRES 44
dA = diag(A);
A_ = -A+diag(dA);
for nb=1:nb_iter,
x = (A_*x +b)./dA;
end;
La mthode de Gauss-Siedel, quant elle, peut tre programme sous la forme suivante :
x = zeros(n,1);
for nb=1:nb_iter,
for k=1:nb_symb,
x(k) = x(k) + (-A(k,:)*x+b(k))/A(k,k);
end;
end;
Il est possible d'acclerer l'algorithme de Gauss-Siedel au moyen d'une technique dite de sur-
relaxation dont le fonctionnement gnral est dcrit ci dessous :
(t+1) P (t+1) P (t)
i
x = j<i Aij xj j>i Aij xj + bi
(6.3)
(t+1) (t+1) (t)
xi =
xi + (1 )xi
On peut montrer que si A est symtrique dnie positive la convergence est assure pour 0 <
< 2 et que la vitesse de convergence est optimale pour une valeur de comprise en un et deux.
Chapitre 7
Dcompositions en valeurs propres et

en valeurs singulires
On s'intresse ici au problme du calcul pratique des valeurs propres d'une matrice. On verra
que le problme de la dcomposition en valeurs singulires est troitement li au prcdent. Il
n'existe pas en gnral de formule qui permette de calculer de faon exacte les valeurs pro-
pres d'une matrice puisque ce sont les racines de son polynme caractristique et que pour des
degrs suprieur 4 les racines quations polynmiales n'admettent pas en gnral de forme
explicite. Il faut donc mettre en oeuvre des techniques itratives pour obtenir la dcomposi-
tion en valeurs propre des matrices. Notons ici qu'en gnral on ne cherche pas les racines du
polynme caractristique pour trouver les valeurs propres d'une matrice mais qu'on travaillera
plutt sur la recherche d'un changement de base permettant d'obtenir une forme diagonale de
la matrice, ou du moins triangulaire (dcomposition de Schur). Pour justier de l'quivalence
entre les racines d'un polynme et les valeurs propres d'une matrice, notons que les racines du
polynme P (x) = a0 + a1 x + a2 x2 + . . . + an1 xn1 + xn concident avec les valeurs propres de
sa matrice companion, dnie par :

an1 an2 . . . a0
1 0 ... 0

0 1 0 ... 0
. (7.1)
..
.
0 ... 0 1 0
Exercice Vrier que les valeurs propres de la matrice (7.1) concident bien avec les racines de
P (x) = a0 + a1 x + a2 x2 + . . . + an1 xn1 + xn .
45
CHAPITRE 7. DCOMPOSITIONS EN VALEURS PROPRES ET EN VALEURS SINGULIRES46
7.1 Diagonalisation des matrices symtriques : la mthode de Ja-

cobi
On se limitera ci dessous au cas de matrices symtriques valeurs rlles. L'extension au cas des
matrices hermitiennes suppose la prise en compte d'un terme exponentiel complexe supplmen-
taire dans les matrices de rotation de Givens qui ne modie pas le principe de la dmarche.
La mthode repose sur l'emploi des rotations de Givens, dj rencontres dans le paragraphe sur
la dcomposition QR des matrices. Commenons par considrer une matrice symtrique 22

A11 A12
A= . (7.2)
A21 A22
et, en appliquant les notations du paragraphe 5.2.2, appliquons la rotation G12 () gauche de
A et G12 ()T = G12 () droite de A, on obtient, en prenant en compte la relation A12 = A21 ,
G12 ()AG12 ()T =
A11 A22

2 2 (7.3)
A11 cos () + A22 sin () A12 sin(2) A12 cos(2) +
2
sin(2)
A11 A22 .
A12 cos(2) + sin(2) A11 sin2 () + A22 cos2 () + A12 sin(2)
2
On voit donc que la matrice obtenue est diagonale ds lors que
A22 A11
cot(2) = . (7.4)
2A12
Exercice An de construire la matrice de rotation prcdente, montrer que cos() = (1 + t2 )1/2
et sin() = t(1+t2 )1/2 , o t est la racine de module infrieur ou gal 1 de t2 +( A22AA
12
11
)t1 = 0.
Plus gnralement, pour une matrice A de taille n on pourra appliquer successivement des
rotations droite et gauche dans les sous-espaces d'indice(i, j) an d'annuler les termes d'indice
(i, j) de la matrice. On vrie facilement que dans cette opration, la somme des carrs des termes
diagonaux est augmente de deux fois le carr du terme prcdemment situ en position (i, j).
Comme la norme de Frobenius de la matrice reste invariante par les transformations orthogonales
que sont les rotations de Givens, il apparat qu' chaque itration l'nergie hors diagonale dans
la matrice dcroit et que l'nergie de la diagonale crot d'autant.
On peut soit chaque itration chercher annuler le terme hors diagonal le plus grand (mthode
de Jacobi classique), soit balayer successivement chaque composante hors diagonale (mthode de
jacobi cyclique), par exemple colonne par colonne. En pratique, on n'excute la rotation que si
l'amplitude du terme diagonal considr reste suprieure un certain seuil. On peut tablir la
convergence de la mthode de Jacobi [2].
Voici un exemple d'implmentation de la procdure de Jacobi sur une matrice A symtrique de

taille n qui annule chaque itration le terme hors diagonale de plus grande amplitude.
V = eye(n,n); //initialisation de la matrice des vecteurs propres

D = A; //initialisation de la matrice des valeurs propres

test = 2*seuil;
while test>seuil,
[test,ind] = max(abs(D-diag(diag(D))));
p = ind(1); // (p,q): indices du terme hors diagonal \`a \'eliminer
q = ind(2);
coef = (D(q,q)-D(p,p))/(2*D(p,q));
t = - coef + sqrt(coef^2+1);
Cos = 1/sqrt(1+t^2);
Sin = t*Cos;
// rotation a gauche sur D
Daux = D(p,:);
D(p,:) = Cos*D(p,:) - Sin*D(q,:);
D(q,:) = Sin*Daux + Cos*D(q,:);
// rotation a droite sur D
Daux = D(:,p);
D(:,p) = Cos*D(:,p) - Sin*D(:,q);
D(:,q) = Sin*Daux + Cos*D(:,q);
// rotation a droite sur V
Vaux = V(:,p);
V(:,p) = Cos*V(:,p) - Sin*V(:,q);
V(:,q) = Sin*Vaux + Cos*V(:,q);
end;
7.2 Forme Hessenberg des matrices carres
On va voir qu'il est particulirement intressant, pour calculer les valeurs propres d'une matrice
A de se ramener la forme Hessenberg de la matrice qui consiste appliquer un changement de
base orthonorme de telle sorte que la nouvelle matrice, note H soit tridiagonale, c'est dire
telle que [H]ij = 0 pour |i j| > 1. La factorisation de Hessenberg est obtenue simplement
en appliquant une suite de rotations de Givens droite et gauche de la matrice A.
Cette dcomposition s'applique aussi bien aux matrices symtriques qu'aux matrices carres
quelconques. On obtient nalement une reprsentation de A sous la forme A = UTriVT , o
Tri est une matrice tridiagonale. Dans le cas o A est symtrique, cette reprsentation devient
simplement A = UTriUT .
Il est remarquable que la forme Hessenberg, la dirence de la forme diagonalise de la matrice,

puisse tre obtenue avec un nombre ni d'oprations. On peut y parvenir soit au moyen d'une
suite de n2 transformations de Householder, soit au moyen d'une suite de (n 1)(n 2)/2
rotations de Givens..
Voici un exemple de programme permettant d'obtenir la forme Hessenberg dans le cas d'une
matrice carre quelconque par la mthode des rotations de Givens. Dans le cas symtrique, la
procdure se simplie du fait que U=V et la matrice Tri est galement symtrique.
U = eye(n,n);
V = eye(n,n);
Tri = A;
for p=1:n-2
for q=n:-1:p+2
// traitement de la partie sous-diagonale
if abs(Tri(q,p))>0,
rho = sqrt(Tri(q-1,p)^2+Tri(q,p)^2);
Cos = Tri(q-1,p)/rho;
Sin = -Tri(q,p)/rho;
// rotation a gauche sur Tri
Taux = Tri(q-1,:);
Tri(q-1,:) = Cos*Tri(q-1,:) - Sin*Tri(q,:);
Tri(q,:) = Sin*Taux + Cos*Tri(q,:);
// rotation a droite sur U
Uaux = U(:,q-1);
U(:,q-1) = Cos*U(:,q-1) - Sin*U(:,q);
U(:,q) = Sin*Uaux + Cos*U(:,q);
end;
// traitement de la partie sur-diagonale
if abs(Tri(p,q))>0,
rho = sqrt(Tri(p,q-1)^2+Tri(p,q)^2);
Cos = Tri(p,q-1)/rho;
Sin = -Tri(p,q)/rho;
// rotation a droite sur Tri
Taux = Tri(:,q-1);
Tri(:,q-1) = Cos*Tri(:,q-1) - Sin*Tri(:,q);
Tri(:,q) = Sin*Taux + Cos*Tri(:,q);
// rotation a droite sur V (a gauche sur V')
Vaux = V(:,q-1);
V(:,q-1) = Cos*V(:,q-1) - Sin*V(:,q);
V(:,q) = Sin*Vaux + Cos*V(:,q);
end;
end;
end;
Tri = Tri.*(abs(Tri)>1.0e-10);
Exercice Dans le cas o la matrice A est symtrique, Simplier le programme scilab prcdent.
Il existe plusieurs situations o il est utile d'exploiter la forme Hessenberg de la matrice A, en
particulier pour la ralisation des dcompositionsen valeurs propres. Ainsi, pour une matrice
symtrique, la forme Hessenberg peut tre exploite pour calculer plus rapidement les valeurs
propres de la matrice A par la mthode de Jacobi. Dans le cas gnral, la forme Hessenberg
permet d'initialiser la mthode itrative base sur la dcomposition QR prsente ci dessous
pour le calcul de la dcomposition de Schur de la matrice.
7.3 Dcomposition en valeurs propres : le cas gnral
7.3.1 Aspects algorithmiques
Soit A une matrice diagonalisable. La mthode des puissances permet de calculer un vecteur
propre associ la valeur propre de module le plus lev de faon itrative : partir d'un vecteur
initial u0 , on construit itrativement la suite de vecteurs
Aun
un+1 = , (7.5)
k Aun k
qui converge vers un vecteur propre associ la valeur propre de module le plus lev. On peut
s'en convaincre en exprimant Aun en fonction de la dcomposition en valeurs propres de A.
En fait, cette mthode peut se gnraliser pour construire une matrice de vecteurs propres comme
limite asymptotique d'une suite de matrice. La procdure itrative est rsume ci dessous :

Zn+1 = AQn
(7.6)
Qn+1 Rn+1 = Zn+1 ( dcomposition QR).
QHn AQn converge vers la dcomposition de Schur de A. Cet algorithme ncessite de l'ordre de
n3 oprations par itration.
Cependant, ce cot de calcul peut tre rduit en utilisant la forme Hessenberg H de la matrice A
dcrite plus haut. Une fois la forme Hessenberg obtenue la complexit numrique des itrations
la dcomposition de Schur se trouve rduite. La proccdure s'crit ainsi
= QH

H0 0 AQ0 (initialisation : forme Hessenberg )
Hk1 I = Qk Rk (dcomposition QR ) , (7.7)
Hk = Rk Qk + I

(k)
o est un coecient qui permet d'acclerer la vitesse de convergence. En eet, si on note i
la ime valeur propre obtenue l'itration k , alors on peut montrer que
i+1 () k

(k)
|(i ) i | . (7.8)
i ()
La suite des formes Hessenberg calcules converge vers la matrice triangulaire T de la forme
2
Schur. Le cot de calcul de chaque itration est maintenant de l'ordre de n oprations dans le
cas gnral et de seulement n oprations si A est symtrique ou hermitienne car alors H0 est
alors une matrice tridiagonale.
7.3.2 Lien avec la dcomposition de Jordan
Pour une matrice carre A, il existe une matrice orthogonale Q telle que QH AQ = T avec T
triangulaire suprieure. La reprsentation de A sous la forme QTQH est appele dcomposition
de Schur de A. On peut montrer que la diagonale de T contient les valeurs propres de A. On a

vu prcdemment qu'une telle reprsentation peut tre obtenue comme lmimite d'une suite de
formes Hessenberg. T est alors simplement bi-diagonale : elle ne possde de termes non nuls
que sur la diagonale et la premire parallle la diagonale, ici la parallle suprieure, dnie par
les termes d'indices (i, i + 1).
Exercice Montrez que la diagonale de T contient les valeurs propres de A.

La dcomposition en valeurs propres d'une matrice carre A peut ne pas exister (considrer
par exemple la matrice triangulaire suprieure 22 dont tous les termes non nuls sont gaux
1), mais que par contre il existe toujours une forme, dite de Jordan dnie comme suit :
A Cn Cn , P, P1 AP = J = diag(J1 , . . . , Jp ), avec

i 1 0
.. ..
. .
Ji = 0 . (7.9)

i 1
i
Une mme valeur propre peut dnir plusieurs matrices blocs Jk . Notons que le nombre d'oc-
curences d'une valeur propres dans J correspond son degr comme solution du polynme
caractristique de A. Donc, si les valeurs propres sont distinctes A est diagonalisable puisque les
blocs dgnrent alors en matrices de taille 1.
Exercice Montrez que si A est normale, alors elle est diagonalisable dans une base orthonorme.
7.4 Dcomposition en valeurs singulires
Rappelons que pour la matrice A, il existe toujeours deux matrices unitaires, U et V telles que
H
la matrice U AV soit diagonale et valeurs positive. Les valeurs diagonales de A sont appelees
valeurs singulires de A.
Notons que si A = UDVH , alors
AAH = UD2 UH et AH A = VD2 VH . (7.10)
On voit donc que les valeurs singulires de A sont les racines carres des valeurs propres de
AAH (et de AH A). De plus, U et V sont les matrices de vecteurs propres de AAH et de AH A
respectivement.
Clairement, la dirence de la dcomposition en valeurs propres, la dcomposition en valeurs

singulires est dnie mme pour des matrices qui ne sont pas carres. De plus, on voit facilement
que les colonnes de U associes aux valeurs singulires non nulles dnissent une base orthonor-
me de l'espace image de A, tandis que les colonnes de V associes la valeur singulire nulle
dnissent une base du noyau de A.
Ainsi, on peut par exemple dcrire facilement le projecteur sur un espace vectoriel S = vect{x1 , ., xp }
en considrant la matrice A = [x1 , . . . , xp ] = UDVH . Le projecteur est donn simplement par

H
P
PS = i,Dii 6=0 Ui Ui .
Comme on l'a vu, on peut galement formuler aisment la rsolution des systmes linaires
d'quations sur-dtermins et sous-dtermins partir de la dcomposition en valeurs singulires
de la matrice A.
Autre intrt de la dcomposition en valeurs singulires, elle peut tre employe pour approximer
une matrice par une matrice de rang plus faible. Ce type d'approximation peut tre exploite,
par exemple, en traitement d'images. Etant donne une matrice A on cherche la matrice B de
rang r0 , infrieur au rang de A telle que k A B k2F = T r[(A B)(A B)H ] soit minimale. La
solution est fournie par le rsultat suivant :
Proposition 1 Si la dcomposition en valeurs singulires de A scrit UDVH , avec rang(A) = r,

pour < r, minrang(B)=r0 k A B k2F est obtenu pour B = UD0 VH , o D0 est obtenu en forant
r0
0 les r r0 plus petites valeurs singulires non nulles de A dans D.
Exercice Dmontrer la proposition prcdente.

La dcvomposition en valeurs singulires sert aussi dcrire la distance entre sous-espaces vecto-
riels : pour deux sous espaces S1 et S2 dont des bases orthonormes sont dnies par les colonnes
q
des matrices U1 et U2 est dnie comme suit : d(S1 , S2 ) =k PS1 PS2 k= 1 mini ii (U1H U2 )
7.4.1 Ralisation de la dcomposition en valeurs singulires
Matrices symtriques
Pour une matrice symtrique positive, la dcomposition en valeurs singulires est quivalente
et pour une matrice symtrique non positive, on passe trs facilement d'une forme l'autre (le
vrier titre d'exercice). Dans le cas d'une matrice symtrique, on pourra chercher acclerer
la vitesse de convergence de la mthode de Jacobi en commenant par se ramener forme
Hessenberg et en exploitant les spcicits du cas symtrique dans la dmarche prsente ci
dessous pour le cas de matrices carres quelconques.
Matrices quelconques
Notons d'abord qu'on pourrait obtenir la dcomposition en valeurs singulires d'une matrice A
T
quelconque en ralisant les dcompositions en valeurs propres des matrices symtriques AA et
T
A A. On peut cependant procder de faon plus directe, comme on va le voir.
En partant de la forme Hessenberg d'une matrice A = UTriVT quelconque, on peut faire la

remarque suivante : l'limination de la premire sous diagonale de A par une squence de n1
rotations de Givens transforme la matrice en une matrice triangulaire suprieure qui possde des
termes non nuls sur les deux premires sur-diagonales. On reviend une matrice tridiagonale
en liminant la deuxime sur-diagonale (termes d'indices (i, i + 2)) par une squence de n2
rotations de Givens appliques droite. On applique alors de mme une technique d'limination
de la premire sur-diagonale de A par une squence de n1 rotations de Givens appliques
droite suivie de l'limination des termes de la deuxime sous-diagonale au moyen de n2
rotations de Givens.
En partant de la forme Hessenberg A = UTriVT , cela peut se traduire par un code de la forme
suivante :
D = Tri;
while max(abs(D-diag(diag(D))))>1.0e-15,
// Reduction de la 1ere // sous-diagonale
for p=1:n-1,
if abs(D(p+1,p))>1.0e-15,
rho = sqrt(D(p,p)^2+D(p+1,p)^2);
Cos = D(p,p)/rho;
Sin = -D(p+1,p)/rho;
Daux = D(p,:);
D(p,:) = Cos*D(p,:) - Sin*D(p+1,:);
D(p+1,:) = Sin*Daux + Cos*D(p+1,:);
Uaux = U(:,p);
U(:,p) = Cos*U(:,p) - Sin*U(:,p+1);
U(:,p+1) = Sin*Uaux + Cos*U(:,p+1);
end;
end;
// traitement de la 2eme // sur-diagonale
for p=1:n-2,
if abs(D(p,p+2))>1.0e-15,
rho = sqrt(D(p,p+1)^2+D(p,p+2)^2);
Cos = D(p,p+1)/rho;
Sin = -D(p,p+2)/rho;
Daux = D(:,p+1);
D(:,p+1) = Cos*D(:,p+1) - Sin*D(:,p+2);
D(:,p+2) = Sin*Daux + Cos*D(:,p+2);
Vaux = V(:,p+1);
V(:,p+1) = Cos*V(:,p+1) - Sin*V(:,p+2);
V(:,p+2) = Sin*Vaux + Cos*V(:,p+2);
end;
end;
// traitement de la 1ere // sur-diagonale
for p=1:n-1,
if abs(D(p,p+1))>1.0e-15,
rho = sqrt(D(p,p)^2+D(p,p+1)^2);
Cos = D(p,p)/rho;
Sin = -D(p,p+1)/rho;
Daux = D(:,p);
D(:,p) = Cos*D(:,p) - Sin*D(:,p+1);
D(:,p+1) = Sin*Daux + Cos*D(:,p+1);
Vaux = V(:,p);
V(:,p) = Cos*V(:,p) - Sin*V(:,p+1);
V(:,p+1) = Sin*Vaux + Cos*V(:,p+1);
end;
end;
// traitement de la 2eme // sous-diagonale
for p=1:n-2,
if abs(D(p+2,p))>1.0e-15,
rho = sqrt(D(p+1,p)^2+D(p+2,p)^2);
Cos = D(p+1,p)/rho;
Sin = -D(p+2,p)/rho;
Daux = D(p+1,:);
D(p+1,:) = Cos*D(p+1,:) - Sin*D(p+2,:);
D(p+2,:) = Sin*Daux + Cos*D(p+2,:);
Uaux = U(:,p+1);
U(:,p+1) = Cos*U(:,p+1) - Sin*U(:,p+2);
U(:,p+2) = Sin*Uaux + Cos*U(:,p+2);
end;
end;
end;
D = D.*(abs(D)>1.0e-15);
On pourrait bien sr rduire la longueur de ce code en ralisant par exemple les rotations dans
une fonction spcique, mais les appels cette fonction peuvent rduire la vitesse d'execution.
Notons galement qu'on a suppos ici que la matrice A est carre. On peut toujours se ramener
ce cas, au besoin en compltant la matrice A par des lignes ou des colonnes nulles, mme si
d'un point de vue pratique, il vaut mieux aner l'criture de l'algorithme pour viter d'alourdir
les calculs et de stockage entrans une telle compltion de la matrice A par des 0.
Bibliographie
[1] G. Allaire, Analyse numrique et optimisation, ditions de l'cole Polytechnique, 2005.
[2] P.G. Ciarlet, Introduction l'Analyse Numrique Matricielle et l'Optimisation, Masson,

1982.
[3] G.H. Golub, C.F. Van Loan, Matrix Computation, The John Hopkins University Press, 1989.
[4] S.A. Teulkoski,W.T. Vetterling,B.P. Flannery, Numerical Recipes in C : the Art of Scientic
Computing, W.H.Press, Cambridge University Press.
[5] http ://www.univ-lille1.fr/ eudil/jbeuneu/index.html (analyse numerique, cours et pro-

grammes C, en franais)
[6] http ://www.indiana.edu/rac/hpc/numerics.html (site de ressources pour le calcul nu-

merique)
[7] http ://dmawww.ep.ch/rappaz.mosaic/Support/support/ (cours d'analyse numrique de

l'EPFL)
[8] http ://www.netlib.org/lapack/lug/lapack_lug.html (bibliothque Fortran LAPACK ; gra-

tuit)
[9] http ://hpux.connect.org.uk/hppd/hpux/Maths/LinAlgebra/CLAPACK-1.0/ (tlcharge-

ment de la version C de LAPACK nomme CLAPACK ; gratuit)
[10] http ://www.scilab.org/ (Scilab langage homepage)
54
Deuxime partie
Introduction
aux oprateurs linaires
55
Chapitre 8
Introduction
L'objectif de cette partie est d'tendre la notion de matrice au cas de transformations linaires
sur des espaces de dimension innie. Lorsqu'on considre des fonctions dnies sur des espaces
vectoriels de dimension innie (c'est dire qui admettent des familles innies de vecteurs linaire-
ment indpendants), on parle d' oprateur plutt que de fonction, mme s'il s'agit au fond de
la mme chose ; simplement, il est un peu plus commode de parler d'un oprateur dni sur un
espace de fonctions que d'une fonction dnie sur un espace de fonctions.
On se limite ici une prsentation des oprateurs sur des espaces de Hilbert. Les espaces
de Hilbert gnralisent la notion d' espace hermitien, un espace hermitien tant un espace
vectoriel de dimension nie sur le corps des complexes muni d'un produit scalaire. Les espaces
hermitiens constituent eux mme une gnralisation au cas complexe des espaces euclidiens
qui eux sont dnis sur le corps des rels. Un des intrts des espaces de Hilbert rside dans le fait
que les proprits gomtriques usuelles des espaces euclidiens ou hermitiens s'y transposent, ce
qui contribue faciliter la rsolution de nombreux problmes et en fournir une interprtation
gomtrique simple.
Dans le chapitre 9, on prsente rapidement la notion d'espace de Hilbert et de base ortogonale

sur ces espaces. Le chapitre 10 fournit des notions de base importantes sur les oprateurs linaires
des espaces de Hilbert.
56
Chapitre 9
Espaces de Hilbert
9.1 Dnition
9.1.1 produit scalaire
Rappelons tout d'abord qu'un produit scalaire hermitien x, y < x, y > sur un espace
vectoriel E sur le corps des nombres complexes est une application de E E dans C caractrise
par les proprits suivantes qui gnralisent celles du produit scalaire euclidien :
1. < x, x > 0, avec < x, x >= 0 x = 0

2. < x, y >= < y, x >
3. < x, y >= < x, y >
4. < x + y, z >=< x, z > + < y, z >
Bien entendu, le produit scalaire hermitien induit une norme et une distance sur E :

d(x, y) =k x y k= < x y, x y >. (9.1)
9.1.2 Espace de Hilbert
Un espace de Hilbert est un espace vectoriel norm H, complet et muni d'un produit scalaire
hermitien qui induit la norme de H. Rappelons ici que par dnition H est complet si toute suite
de Cauchy (xn )nN de H, c'est dire telle que limm,n k xm xn k= 0, est convergente.
Exemples
l2 2
P
(i) L'espace des suites x = (xk )kN telles que kN |xk | < est un espace de Hilbert pour
le produit scalaire hermitien dni par
X
< x, y >= xk yk . (9.2)
kN
57
CHAPITRE 9. ESPACES DE HILBERT 58
Pour la dmonstration du caractre complet de l2 , on pourra se rfrer [3] (chap. I).

2
Rb
(ii) De mme, l'espace L ([a, b]) des fonctions f de carr intgrable sur [a, b] (
a |f (t)|2 dt < )
est un espace de Hilbert pour le produit scalaire hermitien dni par
Z b
< f, g >= f (t)g(t) dt, (9.3)
a
ds lors que l'on identie les fonctions gales presque partout par rapport la mesure de Lebesgue,
c'est dire gales partout sauf ventuellement sur un ensemble de mesure nulle par rapport la
mesure de Lebesgue, car < f, f >= 0 f = 0 p.p.
9.2 Thorme de projection
On retrouve pour le produit scalaire dans les espaces de Hilbert des proprits analogues
celles du produit scalaire classique. Ainsi, le thorme de projection se gnralise aux espaces de
Hilbert :
Thorme 2 Si K est un sous ensemble convexe ferm d'un espace de Hilbert H, alors
x H, !y K, k x y k= inf k x z k . (9.4)
zM
De plus, y est caractris par la relation suivante :
z K, < x y, z x > 0. (9.5)
Si K est un sous-espace vectoriel ferm de H, l'ingalit (9.5) devient une galit.
On pourra trouver la dmonstration de ce rsultat dans [2] (chap. V).
Exemple : Esprance conditionnelle Dans un espace probabilis (, A, P ), l'ensemble L2 (, A, P )

des variables alatoires X valeurs complexes et telles que E[|X|2 ] < forme un espace de
Hilbert, muni du produit scalaire < X, Y >= E[XY ]. Par ailleurs, l'ensemble
Z
2 2
L (PY ) = h; h(Y ) (, A, P ), |h(y)| PY (dy) < (9.6)
est un sous-espace ferm de L2 (, A, P ), ce qui assure l'existence d'un unique optimum au

problme
min k X h(Y ) k, (9.7)
hL2 (PY )
, qui est caractris par les relations (voir l'quation (9.5))

p
avec k Z k= E[|Z|2 ]. Cet optimum h
)) g(Y ) ] = 0,
g L2 (PY ), E[(X h(Y (9.8)
dnit l'esprance conditionnelle de X sachant Y : ).

E[X|Y ] = h(Y Concernant la justication
2
du caractre complet des espaces L (), o est une mesure borne, on pourra se rfrer [5]
(chap. 3, p. 58). Concernant l'esprance conditionnelle dans L2 (, A, P ), on pourra par exemple
se rfrer [1] (chap. 4).
9.3 Bases orthonormes
Dans toute la suite, H dsigne un espace de Hilbert.
Dnition 1 Une famille F = (k )kK de H, avec K ni ou dnombrable, est dite libre si toute
sous famille de taille nie de F est une famille libre. F est une famille orthonorme de H si ses
lments vrient
< k , l >= k,l . (9.9)
dans la suite, pour simplier les notations, on prendra K = N et simplement K = 1, 2, . . . , n

pour un espace de dimension nie.
Notons la proprit suivante : x y k x + y k=k x k + k y k, dont la dmonstration est

| < x, y > | k x k . k y k
immdiate. De plus, il est clair que l'ingalit de Cauchy-Schwarz
s'applique aussi dans les espace de Hilbert. Indiquons galement la proprit suivante :
Proposition 2 Dans un espace de Hilbert, si xn x et yn y , alors < xn , yn >< x, y >.
Exercice Dmontrer la proprit prcdente.

Les rsultats prcdents permettent d'tablir les proprits suivantes des familles orthonormes :
Thorme 3 Si F = (k )kK (K N) est une famille orthonorme de H, alors pour tout

x H,
1. k | < x, k > | k x k (ingalit de Bessel)
2
P
2. k < x, k > k converge

P
3. k ck k converge si et seulement si
2
P P
k |ck | <
4. Si x = k ck k , alors ck =< x, k >.
P
Exercice Dmontrer les proprits nonces dans le thorme.

On dit qu'une famille orthonorme F = (k )kK deP H est une base orthonorme si tout
lment x de H peut se reprsenter sous la forme x = k ck k . Notons que d'aprs le thorme
prcdent ck =< x, k > (proprit 4).
Thorme 4 Si F = (k )kK de H est une famille orthonorme de H, les proprits suivantes

sont quivalentes
1. F est une base de H
2. (k, < x, k >= 0) x = 0
3. L'ensemble vect(F ) des combinaisons linaires nies d'lments de F est dense dans H
4. x H, k x k2 = | < x, k > |2 (galit de Parseval)

P
k
5. x, y H, < x, y >= k < x, k > < y, k >
P
Preuve (1)(5)P: Si x =
P P
k=1 xk P
k et y = k=1 yk k , la continuit du produit scalaire donne,
n n
en notant x
n = x
k=1 k k et y
n = y
k=1 k k :
n
X
< x, y >= lim < x
n , yn >= lim xk yk , (9.10)
n n
k=1
La conclusion vient du fait que xk =< x, k > et yk =< y, k >.
(5)(4) : prendre x=y dans (5).
Pn Pn
(4)(3) : k x k=1 < x, k > k k=k x k k=1 | < x, k > |2 et le terme de droite de
l'galit tend vers 0.
Pn Pn
(3)(2) : k=1 < x, k > k x et k=1 < x, k > k = 0, donc x = 0.
P P
(2)(1) : i, < x k < x, k > k , i >= 0 x = k < x, k > k .
Exemple Les polynmes de Legendre (Ln )nN

r
2n + 1 1 dn 2
Ln (x) = (x 1)n (9.11)
n 2n n! dxn
forment une base orthonormale de L2 ([1, 1)]. Nous aurons l'occasion d'utiliser ces polynmes
dans le chapitre de ce document consacr l'intgration numrique. On pourra vrier titre
d'exercice que les polynmes de Legendre forment une base orthonorme de l'ensemble des
polynmes sur [1, 1]. De plus, le thorme d'approximation de Weierstrass (voir paragraphe
11.2.2), l'ensemble des polynmes est dense dans l'ensemble des fonctions continues. Enn,
l'ensemble des fonctions continues sur [1, 1] est dense dans L2 ([1, 1)] ([4], chap. I, p. 42). D'o,
d'aprs la relation (3) prcdente, le
2
fait que (Ln )nN est une base orthonormale de L ([1, 1)].
Exercice Montrer que si (n )nN et (n )nN sont des bases de L2 ([a, b]), alors les fonctions
(mn )m,nN , avec mn = m n forment une base de L2 ([a, b] [a, b]).
9.4 Sparabilit et isomtrie
9.4.1 Sparabilit et bases
Un espace de Hilbert H est dit sparable s'il possde une famille nie ou dnombrable d'lments
qui est dense dans H.
Thorme 5 H contient une base orthonorme dnombrable si et seulement si il est sparable.

Preuve Si H est sparable, on peut construire itrativement, par orthogonalisation de Schmidt,

une famille orthonorme de H qui engendre un espace dense dans H, ce qui tablit que cette
famille orthonormale est une base de H d'aprs le thorme 4 (proprit 3). Rciproquement,
d'aprs ce mme thorme, toute base orthonorme dnombrable engendre par combinaisons
linaires nies un sous espace dnombrable dense de H.
Notons que tous les espaces de Hilbert ne sont pas sparables. Ainsi, les fonctions dnies sur
R par t 7 eit , avec R forment une famille orthonorme non dnombrable pour le produit
scalaire Z T
1
< f, g >= lim f (t)g(t) dt (9.12)
T 2T T
et engendrent donc un espace de Hilbert non sparable. Comme en gnral on s'intresse cepen-
dant essentiellement aux espaces de Hilbert sparables, les bases mises en oeuvre seront nies ou
dnombrables.
9.4.2 Projection
D'aprs ce qui prcde, un sous espace ferm sparable H0

de H possde une base orthonormale
dnombrable (k )kK . Si y H, il est ais de vrier d'aprs le thorme de projection que la
projection
0 0
de y sur H , note y|H , est donne par
X
y|H0 = < y, k > k . (9.13)
k
9.4.3 Isomtrie
Thorme 6 Deux espaces de Hilbert H1 et H2 de dimensions innies et sparables sont linaire-

ment isomtriques, c'est dire qu'il existe une application linaire A : H1 H2 , telle que pour
tout x de H1 , k Ax k=k x k.
Preuve (k )k et (k )k dsignant des bases de H1 et H2 respectivement, il sut de prendre A

telle que
X
Ax = < x, k > k . (9.14)
k
L'ingalit de Parseval permet alors de conclure.
Notons en particulier que tout espace de Hilbert sparable de dimension innie est isomtrique
l2 A : H l2 x=
P
: l'application associe k=1 < x, k > k la suite (< x, k >)kN de ses
coecients. Notons que les coecients < x, k > sont appels coecients de Fourier de x
associs la base (k )k .
Remarque Parfois, on utilise plutt l'isomtrie de H avec l2 (Z), l'ensemble des suite indices
par Z dont les carrs sont absolument sommables. Ceci est utile en particulier pour identier les
R
fonctions x de L2 ([1/2, 1/2]) la suite de leurs coecients de Fourier xk = x(t)e2ikt dt,
avec k Z.
Chapitre 10
Oprateurs linaires
On considre ici des oprateurs linaires A : H1 H 2 , o H1 et H2 sont des espaces de Hilbert

sur le corps des complexes. La notion d'oprateur linaire permet la gnralisation de la notion
de matrice au cas de dimensions innies.
10.1 Norme d'un oprateur
On dnit la norme de A par
k Ax k
k A k= sup = sup k Ax k . (10.1)
kxk kxk kxk1
Notons que la norme d'un oprateur ainsi dnie dnit eectivement une norme sur l'espace
vectoriel L(H1 , H2 ) des oprateurs linaires de H1 dans H2 .
Si k A k< , l'oprateur est dit born. Comme en dimension nie, la linarit entrane une
quivalence entre le caractre born d'un oprateur et son caractre continu :
Thorme 7 l'oprateur linaire A : H1 H2 est born si et seulement si il est continu, sa

continuit tant elle mme quivalente sa continuit uniforme sur H1 .
On pourra dmontrer l'quivalence des trois proprits titre d'exercice.
62
CHAPITRE 10. OPRATEURS LINAIRES 63
10.2 Reprsentation matricielle
Les espaces de Hilbert sparables de dimension innie tant isomtriques, on peut les identier.
Considrons donc maintenant un oprateur born A de H dans lui mme. Comme
P
Ax = j < x, j > Aj
(10.2)
P P
= j < x, j > ( i < Aj , i > i )
on a X
[Ax]i = < Aj , i >< x, j > . (10.3)
j
On voit donc que l'oprateur A peut tre reprsent par la matrice de taille innie de coecient
gnral (i, j) gal < Aj , i >. Notons que selon que la base est indice par N ou par Z, on
obtiendra respectivement une matrice "innie vers la droite et vers la gauche" ou "doublement
innie".
Exemple On considre Z b
Ax = k(t, s)x(s)ds, (10.4)
a
dni sur L2 ([a, b]). En utilisant l'ingalit de Cauchy Schwarz, il apparat que
Z
k A k |k(t, s)|2 dsdt. (10.5)
[a,b][a,b]
A est donc born ds lors que k L2 ([a, b]2 ). Dans ce cas, la matrice associe A est de terme
gnral Z
aij = |k(t, s)|2 i (s)j (t) dsdt =< k, ji >, (10.6)
[a,b][a,b]
o ij (s, t) = i (s)j (t) , est parfaitement dnie. Comme (ij )ij est une base de L2 ([a, b]2 ), il
est clair que les coecients aij sont de carrs absolument sommables :
X X
|aij |2 = | < k, ji > |2 =k k k2 < (10.7)
ij ij
Les notions d'image et de noyau d'un oprateur linaire sont dnies exactement comme en
dimension nie. Lorsque Im(A) est un espace de dimension n nie, on dit que A est de rang n.
Exemple
P Si 1 , . . . , n et 1 , . . . , n sont des familles de H1 et de H2 respectivement, l'oprateur
n
x 7 k=1 < x, k > k est de rang ni, au plus gal n. Rciproquement, on a le rsultat suivant :
Thorme 8 Si un oprateur linaire born A : H1 H2 est de rang ni n, il existe des

familles de vecteurs 1 , . . . , n et 1 , . . . , n , dans H1 et H2 respectivement, telles que
n
X
Ax = < x, k > k . (10.8)
k=1
La preuve de ce thorme fait appel au thorme important de reprsentation de Riesz :
Thorme 9 (Riesz) Toute forme linaire borne : H C est caractrise par un unique
lment y H tel que
(x) =< x, y >, x H (10.9)
De plus, k k=k y k.
Preuve Commenons par dmontrer le thorme de Riesz. Si = 0, alors y = 0. Supposons

donc que 6= 0. Ker est clairement un sous espace vectoriel de H. De plus Ker est ferm

d'aprs la continuit du produit scalaire. Il existe v 6= 0 dans (Ker) . En eet, il existe un
vecteur u H qui n'appartient pas Ker (sinon, on aurait = 0). Notons u la projection
orthogonale de u sur Ker. D'aprs le thorme de projection, le vecteur v = u u appartient
(Ker) et est non nul car u
/ Ker. Notons y = v(v) / k v k2 . Pour tout x H, notons que
(x) (x)
x=y + (x y ), (10.10)
(y) (y)
o le deuxime terme de la somme appartient Ker et est donc orthogonal y. On a donc
(x) (x) (x) (x)

< x, y >=< y + (x y ), y >=< y , y >=k y k2 = (x), (10.11)
(y) (y) (y) (y)
car la relationy = v(v) / k v k2 entrane que (y) =k y k2 . L'unicit de y provient du fait que
0 0 0
si y vrie galement (x) =< x, y > pour tout x, alors < x, y y >= 0 en particulier pour
0 0 0
x = y y . Par suite k y y k= 0 et y = y . Enn, k k=k y k d'aprs l'ingalit de Cauchy
Schwarz, ce qui achve la dmonstration du thorme de reprsentation de Riesz.
Dmontrons maintenant le thorme 8 Prenons pour 1 , . . . , n une base ortonorme de ImA.

Comme Ax ImA,
n
X
Ax = < Ax, k > k . (10.12)
k=1
Comme k : x 7< Ax, k > est une forme linaire borne, on peut encore crire d'aprs le
thorme de reprsentation de Riesz que k (x) =< x, k > pour un certain lment k de H1 ,
d'o le rsultat.
Exemple : ltrage Le thorme de reprsentation de Riesz montre en particulier que toute

forme linaire borne A : L2 (R) CR se reprsente pour toute fonction x L( R) de de faon
2
unique sous la forme intgrale Ax =
R x(s)g(s) ds, o g L (R). Ainsi, il apparat qu'un ltre,
qui un instant t associe un signal d'entre x d'nergie nie une valeur en sortie y(t), peut
tre mis sous la forme Z
y(t) = x(s)gt (s) ds. (10.13)
R
Un ltre tant un dispositif linaire et de plus invariant par translation temporelle, l'expression
Z
z(t) = x(s )gt (s) ds (10.14)
R
impose que z(t) = y(t ), soit
Z
y(t ) = x(s)gt (s + ) ds. (10.15)
R
En posant t = u et h(v) = gt (t v) , comme gt (s + ) = gt (t (u s)) = h(u s), on

obtient nalement Z
y(u) = x(s)h(u s)ds, (10.16)
R
et on retrouve le rsultat bien connu de l'expression du ltrage comme une convolution.
Bibliographie
[1] M. Benam, N. El Karoui, Promenade alatoire - chanes de Markov et simulations, martin-

gales et stratgies, Ed. Ecole Polytechnique, 2004.
[2] H. Brezis, Analyse fonctionnelle, masson, 1992.
[3] I. Gohberg, S. Golberg, M. A. Kaashoek, Basic classes of linear operators, Birkhuser, 2003.
[4] V. Trenoguine, Analyse fonctionnelle, Ed. MIR, Moscou, 1980.
[5] M. Willem, Analyse harmonique relle, Hermann, 1995.
[6] K. Yosida, Functional analysis, Springer Verlag, 1980.
66
Troisime partie
Interpolation et intgration
67
Chapitre 11
Interpolation et intgration
11.1 Introduction
En gnral, l'intgrale sur un intervalle [a, b] d'une fonction g(x) est approche en considrant
l'intgration exacte d'un approximant polynomial de cette fonction. Aussi, nous allons envisager
ici quelques aspects classiques de l'interpolation polynomiale et de l'intgration. Notons qu'en
posant f (x) = g( a+b ba
2 + 2 x), avec x [1, 1] on transfert le problme de l'interpolation ou de
l'intgration sur [a, b] en un problme analogue sur l'intervalle [1, 1]. Ainsi, dans la suite, on se
restreindra sans perte de gnralits des fonctions dnies sur [1, 1].
11.2 Interpolation polynomiale
Les formules de quadrature classiques sont connues pour assurer l'intgration exacte des fonctions
polynomiales jusqu' un degr au moins gal ` n 1, o n reprsente le nombre de points,
ou noeuds, de la quadrature. Nous allons montrer qu'en d'autres termes cela signie que la
quadrature
Z n
X
f (x)dx wk f (xk ) (11.1)
[1,1] k=1
est dnie de sorte assurer l'intgration exacte de l'interpolant de Lagrange de f aux points
xk .
11.2.1 Interpolation de Lagrange
An de prciser les choses, commenons par rappeler ici la notion d'interpolant polynomial de
Lagrange d'une fonction. Etant donns n points xk (k = 1, . . . , n) on dnit les polynmes
68
CHAPITRE 11. INTERPOLATION ET INTGRATION 69
suivants :
w(x) = k=1,n (x xk )
wk (x) = j=1,n (x xj ) (11.2)

j6=k
wk (x)
lk (x) = wk (xk )
Il est clair que lk (xk ) =1 et lk (xj ) =0 pour xj 6= xk : lk (xj ) = k,j .
Etant donne une fonction f (x) dnie sur [1, 1] il est alors clair que le polynme de degr n
qui passe par les points (xk , f (xk ))k=1,n est donn par
n
X
fn (x) = lk (x)f (xk ). (11.3)
k=1
fn (x) est appel polynme d'interpolation de Lagrange de f (x) aux points x1 , . . . , xn .
11.2.2 Le phnomne de Runge
Malheureusement, lorsqu'on calcule un interpolant de Lagrange pour des points xk rgulirement

espacs dans [1, 1], on observe que son comportement tend se dgrader du fait de l'apparition
d'oscillations vers les extrmits de l'intervalle, qui tendent crotre avec le degr n de l'interpo-
lation. Ce phnomne est connu sous le nom de phnomne de Runge [2, 9]. En pratique, ce
phnomne devient trs marqu pour des valeurs de n de l'ordre de 10, mme pour des fonctions
inniment drivables variant lentement, telle la fonction f (x) = (1 + 16x2 )1 considre par
Runge pour mettre en vidence le phnomne.
Dans ces conditions, il apparat que l'emploi d'un interpolant polynomial de Lagrange calcul
sur des points rgulirement espacs pour approcher l'intgrale d'une fonction f via l'intgration
de cet interpolant ne conduit pas de bons rsultats.
Cela ne signie cependant pas qu'on ne puisse pas utiliser d'approximant polynomial pour in-
tgrer une fonction de faon prcise. En eet, le thorme de Weierstrass indique que pour
toute fonction f continue sur [1, 1], si Pn reprsente l'ensemble des polynmes de degr infrieur
ou gal n, alors il existe une squence (qn )nN , avec qn Pn , telle que [7]
lim sup |f (x) pn (x)| = 0. (11.4)

n p P , |x|1
n n
Une faon d'obtenir une telle suite de polynmes consiste considrer des interpolants de La-
grange de f (x) xk irrgulirement espacs. Plus prcisemment, si on choisit
dnis en des points
(n)
pour n x des points (xk )k=1,n tels que lorsque n augmente ces points soient asymptotiquement
distribus dans [1, 1] selon la densit suivante [2]
1
(x) = , (11.5)
1 x2
alors, la suite correspondante des interpolants de Lagrange converge uniformment vers f sur
[1, 1].
11.3 Intgration de Newton-Cotes
L'intgration de Newton-Cotes consiste remplacer l'intgration de la fonction f par celle

de son interpolant polynomial de Lagrange calcul pour des points
Pn xk rgulirement espacs.
L'interpolant est donn par fn (x) = k=1 lk (x)f (xk ) de l'quation (11.3), avec par exemple
xk = (2k n 1)/n, et k = 1, . . . , n.
La formule de quadrature pour f (x) est donc donne par
Z 1 Z 1 n Z
X 1
f (x)dx fn (x)dx = lk (x)dx fn (xk ). (11.6)
1 1 k=1 1
Pn
Comme fn (xk ) = f (xk ), les poids de la quadrature k=1 wk f (xk ) qui assurent une quadrature
exacte de l'interpolant de Lagrange sont donns par
Z 1
wk = lk (x)dx. (11.7)
1
En particulier, les polynmes 1, x, x2 , . . . , xn1 sont gaux leurs interpolants de Lagrange

obtenus sur n points. Donc les poids dnis par (11.7) vrient galement les quations linaires
Z 1 n
X
xm dx = wk xm
k , m = 0, . . . , n 1, (11.8)
1 k=1
soit

1 1 ... 1 w1 a1
x1 x 2 ... x n
w2 a 2
.. = .. , (11.9)

.. .
.
.
.
. . . . .
xn1
1 x n1
2 ... x n1
n wn an
avec
1
1 (1)k
Z
ak = xk1 dx = . (11.10)
1 k
On vrie que pour des points xk rgulirement espacs la matrice prcdente est mal condi-
tionne et que l'amplitude des coecients wk est trs uctuante. L'amplitude des oscillations
des coecients wk augmente d'ailleurs exponentiellement avec n [2]. Ce mauvais comportement
numrique limite l'ordre de quadrature envisageable pour la mthode de Newton-Cotes et en pra-
tique, on la met souvent en oeuvre en dcoupant l'intervalle [1, 1] en plusieurs sous-intervalles
et en appliquant la quadrature de Newton Cotes avec un petit nombre de noeuds sur chacun
d'eux. De plus, compte tenu de la mauvaise qualit de l'approximation fournie par l'interpola-
tion polynomiale pour un chantillonnage rgulier (phnomne de Runge), on comprend que la
quadrature de Newton-Cotes qui est base sur cette approximation fournisse des rsultats assez
mdiocres. On donne ci dessous un programme Matlab simple pour raliser la quadrature de
Newton-Cotes. On pourra y vrier l'inuence de la valeur de n sur les poids
f = @(t) cos(pi*t); % fonction a intgrer

n = 20; % nombre de noeuds de quadrature
x = linspace(-1,1,n); % noeuds
M = flipud(vander(x)'); % matrice de VanderMonde de calcul des poids
w = inv(M)*((1-(-1).^(1:n))./(1:n))'; % poids
I = f(x)*w % calcul de l'intgrale par la mthode
% de Newton Cotes
11.4 Mthode de Gauss-Legendre
On peut chercher corriger les eets du phnomne de Runge associ au choix de noeuds rgulire-
ment espacs pour le polynme d'interpolation de Lagrange d'une fonction en considrant une
rpartition irrgulire des noeuds xk . Les mthodes de Gauss, bases sur le choix de noeuds de
quadrature gaux aux zros de polynmes orthogonaux constituent un choix appropri. On se
limitera ici au cas des polynmes orthonorms sur [1, 1] dnis par
Z 1
pn (x)pm (x)dx = m,n , (11.11)
1
avec pn de degr n, et qui dnissent les polynmes de Legendre. Ceux ci se caractrisent de
diverses manires [10]. On peut en particulier dnir les versions non normaliss de ces polynmes
au moyen de la rcurrence trois termes suivante :
p0 (x) =1
p1 (x) =x (11.12)
(n + 1)Pn+1 (x) = (2n + 1)xPn (x) nPn1 (x).

R1 2
La normalisation peut ensuite tre obtenue en notant que
1 pn (x)dx = 2/(2n + 1). Considrons
maintenant la quadrature dont les noeuds sont dnis par les zros de pn (x) et dont les poids
correspondants sont solution des quations (11.9). Ces paramtres dnissent la quadrature de
Gauss-Legendre sur n points. On a alors la proprit remarquable suivante :
Thorme 10 La quadrature de Gauss-Legendre sur n points est une formule de quadrature

exacte pour tous les polynmes de degr infrieur ou gal 2n 1.
Preuve Comme les paramtres de la quadrature satisfont aux quations (11.9), il apparat qu'elle
est exacte pour tout polynme de degr infrieur ou gal n 1. Maintenant, tout polynme
q(x) de degr infrieur ou gal 2n 1 pourra s'crire
X X
q(x) = ak xk + pn (x)( bl xk ). (11.13)
k=0,n1 l=0,n1
La relation (11.13) provient simplement de la division euclidienne de q(x) par pn (x) et de la

contrainte de degr sur q(x). Donc
Z 1 Z 1 X Z 1 X
k
q(x)dx = ( ak x )dx + pn (x)( bk xk )dx. (11.14)
1 1 k=0,n1 1 k=0,n1
La quadrature de Gauss-Legendre de la premire intgrale du terme de droite de l'galit (11.14)

est exacte car le polynme intgr est de degr infrieur ou gal n 1. Notons maintenant que
le polynme pn est orthogonal aux polynmes p0 , p1 , . . . , pn1R. Or, ces Pderniers engendrent le
1
mme espace vectoriel que les polynmes 1, x, . . . , xn1 . Donc 1 pn (x)( k=0,n1 bk xk )dx = 0.
De plus,
X X
wj pn (xj ) ak xkj = 0, (11.15)
j=1,n k=0,n1
puisque les xj sont les zros de pn . Donc, la quadrature de Gauss-Legendre est encore exacte
pour la seconde intgrale du terme de droite de l'galit (11.14), ce qui termine la dmonstration.
En pratique, on observe un excellent comportement pour la quadrature de Gauss-Legendre.

Notons galement que la quadrature de Gauss correspond bien l'intgration de l'interpolant
polynomial de Lagrange associ aux zros de pn (x) puisque les poids satisfont aux quations
(11.9) et donc aux quations (11.7). On peut de plus montrer [8] que les zros de pn (x) sont
asymptotiquement distribus suivant la densit donne par l'quation (11.5), ce qui conrme la
capacit de la mthode chapper au phnomne de Runge.
Indiquons ici qu'une valuation approche des poids peut tre obtenue partir de la formule
suivante ([4] p.89)

4(n k) 1 n1 4(n k) 1 1
xk = cos + cot( ) + o( ) , k = 1, . . . , n. (11.16)
4n + 2 8n3 4n + 2 n4
Ces valeurs des noeuds peuvent ventuellement tre amliores par un algorithme de Newton de
recherche des zros de pn (x) et initialis successivement par chacune des valeurs xk de la relation
(11.16).
Le programme suivant utilise l'approximation prcdente et pourra tre employ pour mettre en
vidence le meileur comportement de la mthode de Gauss-Legendre compar la mthode de
Newton-Cotes.

x = pi*(4*(n:-1:1)-1)/(4*n+2);
x = cos(x+((n-1)/(8*n^3))*cot(x)); % noeuds approchs
M = flipud(vander(x)'); % matrice de VanderMonde
w = inv(M)*((1-(-1).^(1:n))./(1:n))'; % poids
I = f(x)*w % calcul de l'intgrale par la mthode
% de Gauss-Legendre approche
Il s'agit cependant ici d'une criture sous-optimale du programme objectif purement pda-
gogique. Ainsi, on vriera que lorsque n augmente, le conditionnement de la matrice M se
dgrade, ce que l'on peut tester avec la commande Matlab 'cond(M)'.
Il est tabli dans la littrature que la rcurrence (11.12) permet d'obtenir les noeuds et les poids
comme solution d'un problme de valeurs propres d'une matrice tridiagonale [6], pour un cot
de calcul de l'ordre de O(n2 ) oprations. Sans entrer dans le dtail de cet algorithme, indiquons
que sa mise en oeuvre conduit au code suivant propos dans [8] et dont on pourra comparer la
bonne robustesse celle du programme prcdent :

m = n-1;
T = diag(0.5./sqrt(1-(2*(1:m)).^(-2)),1);
T = T + T'; % matrice de Jacobi
[V,D] = eig(T); % diagonalisation
x = diag(D);
[x,a] = sort(x); % noeuds classs par ordre croissant
w = 2*V(1,a).^2; % poids
I = w*f(x) % calcul de l'intgrale par la mthode
% de Gauss-Legendre
On pourra vrier qu' la dirence de ce que l'on observe avec la mthode de Newton-Cotes la
dispersion des valeurs des poids crot lentement avec n. Avec ce code, on vrie que l'erreur de
quadrature dcroit rapidement vers le bruit de calcul lorsque n augmente.
Notons enn que la mthode de Gauss Legendre se gnralise pour des intgrales sur des in-
tervalles semi-innis au moyen des polynmes de Laguerre et pour des intgrales sur R au
moyen des polynmes d'Hermite [1].
11.5 Mthode de Clenshaw-Curtis
Nous terminons cet expos en voquant la mthode de quadrature de Clenshaw-Curtis,

introduite en 1960 [3] et qui est devenue trs populaire ces dernires annes compte tenu de sa
facilit de mise en oeuvre. Cette mthode, pour n noeuds de quadrature, n'est exacte que pour
les polyonmes de degr au plus gal n 1, mais le calcul de ses noeuds et de ses poids est
extrmement simple. De plus, pour l'intgration de nombreuses fonctions standard, il apparat
que son comportement dire trs peu de celui de la quadrature de Gauss-Legendre [8]. Cela
tient en particulier au fait qu'ici, comme pour la mthode de Gauss-Legendre, la distribution
asymptotique des noeuds dans [1, 1] satisfait l'quation 11.5.
Pour la mthode de Clenshaw-Curtis, les poids sont simplement choisis de la forme
nk
xk = cos( ), k = 1, . . . , n. (11.17)
n1
On notera, pour n grand, la ressemblance des poids de Gauss-Legendre (Eq. (11.16)) avec ceux
de Clenshaw-Curtis. Gentleman [5] a montr que les poids peuvent tre obtenus par transforme
de Fourier rapide, et donc avec un cot de calcul de O(n.log2 (n)), contre O(n2 ) oprations pour
calculer les paramtres de Gauss-Legendre [6]. Ceci explique l'intrt port la mthode de
Clenshaw-Curtis qui fournit donc pour un cot de calcul nettement moindre une quadrature de
prcision souvent comparable celle de Gauss-Legendre. Le code Matlab suivant, propos dans
[8] implmente la mthode de calcul des poids de [5].

m = n-1;
x = cos(pi*(0:m)'/(m)); % poids
fx = f(x)/(2*m);
g = real(fft(fx([1:m+1 m:-1:2]))) % transforme de Fourier rapide
a = [g(1); g(2:m)+g(2*m:-1:m+2) ;g(m+1)]; % coefficients de Chebychev
w = 0*a'; w(1:2:end) = 2./(1-(0:2:m).^2); % poids
I = w*a % calcul de l'intgrale par la mthode
% de Clenshaw-Curtis
11.6 Calcul d'erreur
Indiquons pour terminer que pour les mthodes prcdentes il est possible d'exprimer de faon
prcise l'erreur lie la quadrature. Pour une quadrature sur n points qui est exacte pour les
polynmes de degr infrieur ou gal M et une fonction f, au moins m fois continuement
drivable, avec m M, on peut montrer que la fonction d'erreur de quadrature, note E(f ), est
donne par ([4], p. 218)
R1 Pn
E(f ) = 1 f (x)dx k=1 wk f (xk )
(11.18)
R1 (m+1) (x)K (x)dx,
= 1 f m
o Km (x) est le noyau de Peano, dni par

n
(1 x)m X (max(xk x, 0))m1
Km (x) = wk . (11.19)
m! (m 1)!
k=1
Exercice Dmontrer la formule d'erreur prcdente (indication : utiliser la formule de Taylor

avec reste intgrale).
Bibliographie
[1] M. Abramowitz and I.A. Stegun. Handbook of Mathematical Functions with Formulas,
Graphs, and Mathematical Tables. Dover, New York, ninth dover printing, tenth gpo printing
edition, 1964.
[2] J.P. Berrut and L.N. Trefethen. Barycentric lagrange interpolation. SIAM rev., pages 501
517, 2004.
[3] A.R. Curtis C.W. Clenshaw. A method for numerical integration on an automatic computer.
Numer. Math. 2, pages 197205, 1960.
[4] P.J. Davis and P. Rabinowitz. Methods of Numerical Integration. N.Y. : Academic Press,
1975.
[5] W.M. Gentleman. Implementing clenshaw-curtis quadrature, i- computing the cosine trans-
formation. Communications of the ACM, 15(5) :337342, Feb. 1972.
[6] G.H. Golub and J.H. Welsch. Calculation of gauss quadrature rules. Math. Comp., 23 :221
230, 1969.
Weierstrass's Theorem on Approximation by Polynomials, P

[7] H. Jereys and B.S. Jereys.
14.08 in Methods of Mathematical Physics, 3rd Ed. England : Cambridge University Press,
1988.
[8] L.N. Trefethen. Is gauss quadrature better than clenshaw-curtis ? SIAM Rev., Society for
Industrial and Applied Mathematics, 50(1) :6787, 2008.
[9] wikipedia. Phnomne de runge. http ://fr.wikipedia.org/wiki/Ph%C3%A9nom%C3%A8ne_de_Runge.
[10] wikipedia. polynmes de legendre. http ://fr.wikipedia.org/wiki/Polyn%C3%B4me_de_Legendre.
75
Quatrime partie
Optimisation
76
Chapitre 12
Introduction
Lorsqu'on cherche rsoudre un problme de la forme inf vUad f (v), on parlera de problme
d'optimisation contraint lorsque U est un sous ensemble particulier inclu dans le domaine de
dnition de f . Si Uad concide avec le plus grand domaine sur lequel on peut dnir f on parlera
de problme d'optimisation non contraint.
On s'intresse dans cette partie des problmes d'optimisation continue, variables relles ou
complexes, de forme gnrale

minx f (x)
(12.1)
fi (x) 0 i = 1, . . . , m.
Le problme (12.1) consiste rechercher les valeurs de x qui minimisent f (x) dans l'ensemble
des contraintes U = {x; fi (x) 0 i = 1, . . . , m}. Notons qu'une contrainte d'galit de la forme
fi (x) = bi peut toujours se reformuler dans ce contexte par les ingalits fi (x) bi 0 et
fi (x) + bi 0. Dans la suite, on sera cependant souvent amen distinguer les situations de
contraintes de type ingalit et de type galit.
On a dj rencontr un problme de ce type dans le cours d'analyse numrique matricielle,

psent en premire partie, lors de la recherche de la solution de norme minimale d'un systme
sous-dtermin, problme qui s'crit
minx xT x

(12.2)
Ax = b.
Plus gnralement, les problmes de la forme
minx 21 xT Qx + xT r

Ax = b (12.3)
Gx h

o Q est une matrice symtrique positive et u v signie que uk vk pour chaque composante
des vecteurs u et v, sont appels programmes quadratiques. En prsence de contraintes
d'ingalit, l'obtention de la solution est gnralement moins directe qu'avec les seules contraintes
d'galit. Dans ce dernier cas on dispose d'une forme analytique directe du problme tandis que
dans le premier il faut faire appel des algorithmes itratifs d'optimisation.
77
Lorsque les fonctions f et (fi )i=1,m sont linaires, le problme est appel problme de program-
mation linaire. Il existe des algorithmes performants pour rsoudre ce genre de problme,
mme si le nombre d'oprations raliser n'est pas bien matris en gnral. Notons galement
qu'il peut tre un peu plus dlicat d'identier un problme de programmation linaire qu'un
problme d'optimisation quadratique. Ainsi, la minimization de la norme l1 de
P Ax b, dnie
par f (x) =k Ax b k1 = i |Ai x bi |, o Ai reprsente ici la i-me ligne de la matrice A peut
se reformuler sous la forme du programme linaire suivant :
P

mint i ti
ti 0 i = 1, . . . , m

(12.4)
A x bi ti 0 i = 1, . . . , m
i

Ai x + bi ti 0 i = 1, . . . , m.
Pour un problme pour lequel le critre f ou certaines des contraintes (fi )i=1,m ne sont pas
linaires, on parlera d'un problme de programmation non linaire. Une dicult essentielle
du problme d'optimisation (12.1) dans le cas non linaire rside dans fait que des conditions
ncessaires bien connues d'optimalit telles que l'annulation de la drive (du gradient dans le
cas d'une fonction de plusieurs variables) ne permettent gnralement que d'tablir l'optimalit
locale d'une solution.
Il existe une exception remarquable ce fait qui est celui de l' optimisation convexe pour
lequel les fonction f et (fi )i=1,m sont convexes. Dans ce cas, non seulement on est en mesure de
caractriser la nature globale d'optima locaux, mais de plus, il existe des algorithmes performants
de recherche de telles solutions. En particulier, les mthodes de point intrieur, galement
utilises en programmation linaire, ou les mthodes de plans scants, orent une solution
performante pour l'optimisation de problmes d'optimisation convexe. En fait, la dicult essen-
tielle des problmes d'optimisation convexe rside souvent dans la dicult que l'on peut avoir
identier le problme tudi comme un problme convexe.
Si, comme on l'a indiqu, pour un problme d'optimisation non convexe il est souvent facile de
caractriser des optima locaux ds lors que l'on dispose d'hypothses de rgularit, telle que la
direntiabilit, sur les fonctions mises en jeux, on ne pourra pas en gnral trouver d'algorithme
qui assure la convergence vers un optimum global. On verra cependant que l'utilisation des
rsultats de l'optimisation convexe peuvent tre utiliss pour fournir des approximations souvent
intressantes de la solution.
Pour le problme minuU f (u) Les conditions d'optimalit dpendent de la nature de U. Pour
les conditions ncessaires, on peut citer les conditions suivantes qui seront dveloppes dans les
chapitres suivants :
quations d'Euler : f 0 (u) = 0
0
inquations d'Euler : f (u)(v u) 0
multiplicateurs de Lagrange lorsque U = {v; fk (v) = 0, k = 1, m}
conditions de Kuhn et Tucker lorsque U = {v; fk (v) 0, k = 1, m}.
Les conditions susantes font souvent appel la convexit de f pour l'optimalit globale et plus
simplement au comportement de la drive seconde de f au voisinage de u pour l'optimalit
locale.
Outre l'tude des conditions d'optimalit on se penchera sur les aspects algorithmiques de la
recherche d'optima. Pour les problmes sans contraintes, on considrera en particulier les algo-
rithmes de relaxation, de Newton, du gradient ou du gradient conjugu. Pour les problmes avec
contraintes, on envisagera la possibilit d'extension des mthodes sans contraintes ainsi que des
algorithmes gnralistes tels que les mthodes d'Uzawa, les mthodes de plans scants ou encore
les mthodes de points intrieurs. L'algorithme du simplexe important pour le cas particulier de
la programmation linaire sera galement prsent.
Le chapitre 9 prsente quelques rappels de calcul direntiel sur lesquels reposent les conditions
d'optimalit dveloppes par la suite. Le chapitre 10 traite des conditions d'optimalit pour les
problmes non contraints et le chapitre 11 des algorithmes classiques pour traiter ce type de
problmes. Le chapitre 12 traite des conditions d'optimalit pour les problmes contraints et le
chapitre 13 des algorithmes correspondants. Le cas particulier de la programmation linaire est
abord au chapitre 14.
Les version antrieures de ces notes de cours s'inspiraient en particulier de [6] o l'optimisation
est aborde sous un angle trs gnral. Pour l'optimisation avec contraintes, la version actuelle
emprunte plus la prsentation de [8] qui traite de faon allge, quoi que rigoureuse, la thorie
pour des problmes dans les espaces de type Rn . Pour les algorithmes, [9] et [4] constituent
galement des rfrences intressantes. Les autres rfrences indiques constituent galement
des sources d'information enrichissantes. Les notes de cours [5] ou le livre [10] constituent des
rfrences plus approfondies sur la notion de convexit.
Chapitre 13
Elments de calcul direntiel
13.1 Introduction
Les conditions d'existence d'optima locaux pour les problmes contraints ou non contraints font
intervenir les drives d'ordres un et deux de la fonction optimiser. Ainsi, la condition de drive
nulle est la base d'une mthode importante, la mthode de Newton, qui sera tudie plus loin.
On fait ici quelques rappels concernant la drivation dans des espaces gnraux car la variable
vis vis de laquelle on eectue l'optimisation peut tre une fonction. C'est le cas par exemple
lorsqu'on cherche la surface d'aire minimale qui s'appuye sur un contour x de R3 , auquel
cas la variable recherche est la fonction qui dcrit cette surface. Dans ce chapitre, on va donc
dvelopper un formalisme gnral pour la notion de drivation. Pour xer les ides, le lecteur
pourra considrer le cas particulier d'espaces X et Y tels que X = Rn et Y = Rm . On se limitera
d'ailleurs ce cadre dans les chapitres suivants.
13.2 Rappels sur les espaces L(X, Y )
Soient X et Y deux espaces vectoriels norms, de normes notes respectivement k kX et k kY .

L'ensemble L(X, Y ) des applications linaires continues de X dans Y , not simplement L(X) si
X =Y, est norm par
k Ax kY
A L(X, Y ), k A k= sup = sup k Ax kY . (13.1)
xX k x kX xX, kxkX 1
L(X, Y ) est complet si Y est complet. Dans l'ensemble L2 (X, Y ) des applications bilinaires
continues de X X dans Y, la norme est dnie par
k A(x1 , x2 ) kY
A L2 (X, Y ), k A k= sup . (13.2)
x1 ,x2 X k x1 kX k x2 kX
80
CHAPITRE 13. ELMENTS DE CALCUL DIFFRENTIEL 81
13.3 Drivation
Soit O un ensemble ouvert et

f : O X Y, (13.3)
Soit a O. La drive en a, lorsqu'elle existe, est dnie par f 0 (a) L(X, Y ) telle que
f (a + h) = f (a) + f 0 (a)h+ k h k (h). (13.4)
Si f 0 (a) existe, elle est unique. Remarquons que f 0 (a)h est une notation simplie pour f 0 (a)(h),
0
c'est dire la valeur prise par l'application linaire f (a) en h.
13.3.1 Application drive
L'application drive de f est dnie par
f 0 : O L(X, Y ); x 7 f 0 (x). (13.5)
Exercices.
1) Si f (x) = B(x, x), o B est bilinaire et continue, monrer que
f 0 (x)h = B(x, h) + B(h, x). (13.6)
2) Calculez le gradient de f dnie sur Rn par f (x) = xT Ax. Que devient cette formule lorsque
A est symtrique ?
13.3.2 Drivation pour f dnie sur des espaces produits
Si
f : O X Y = Y1 . . . Ym ; x 7 f (x) = [f1 (x), . . . , fm (x)]T , (13.7)
f est drivable en aO si et seulement si fk0 (a) existe pour k = 1, m.
f 0 (a) = f10 (a), . . . , fm

0 (a) (fk0 (a) L(X, Yi )).

(13.8)
Le vecteur f (a) = [f 0 (a)]T est appel gradient de f au point a. Si maintenant
f : O X = X1 . . . Xn Y ; x 7 f (x) (13.9)
avec O = O1 . . . On , produit d'ouverts, on dnit les applications partielles par
f k : Ok Xk Y ; u 7 f (x1 , . . . , xk1 , u, xk+1 , . . . , xn ) (13.10)
Si f est drivable en a, les applications partielles le sont et
X
f 0 (a)h = k f (a)hk , (13.11)
k=1,n
o h = [h1 , . . . , hn ]T k f (a) est la drive de la k me application partielle (k f (a) L(Xk , Y )).

et
La rciproque est fausse ; Ainsi, pour f (x1 , x2 ) = 1 0,x1 x2 , 1 f (0, 0) = 2 f (0, 0) = 0, mais f
n'est pas drivable en 0.
Plus gnralement, soit
f : O X = X1 . . . Xn Y = Y1 . . . Ym , ; x 7 f (x) = [f1 (x), . . . , fm (x)]T , (13.12)
avec O = O1 . . . On et notons k = f 0 (a)h. Les coordonnes de h et de k sont lies par les

relations X
ki = j fi (a)hj , i = 1, m j = 1, n. (13.13)
j=1,n
Ainsi, si f : Rn Rm est de classe C 1 , de X = Rn dans Y = Rm , k = Mf h, o Mf est la

matrice des drives partielles de f en a :
fi (a)
[Mf ]ij = = j fi (a). (13.14)
xj
On note alors Mf = [f ]T . f est la matrice jacobienne, dnie par

1 f1 (a) . . . 1 fm (a)
.
f (a) = . . (13.15)

.
n f1 (a) . . . n fm (a)
Notons galement que dans le cas o m = n, le dterminant |f | de la matrice jacobienne est

appel jacobien.
13.3.3 Composition des applications drivables
Soitf : O X Y , drivable en a et g : O0 Y Z , avec f (O) O0 , drivable en b = f (a).

Alors h(x) = g(f (x)) = (g of )(x) est drivable en a et
h0 (a) = g 0 (b)f 0 (a). (13.16)
Dans le cas rel, X = Rn , Y = Rm , et Z = Rl . On a alors Mh = Mg Mf , soit
X
j hi (a) = k gi (b)j fk (a) i = 1, m j = 1, n, (13.17)
k=1,m
ou encore h = f g .
13.4 Drive seconde
On dnit, si elle existe, l'application drive seconde par
f 00 (a) = (f 0 (a))0 L(X, L(X, Y )). (13.18)

Notons que les espaces L(X, L(X, Y )) et L(X X, Y ), encore not L2 (X, Y ), sont isomorphes,
c'est dire que l'on peut passer de l'un l'autre au moyen d'une transformation linaire bijective.
f 00 (a) dnit donc une application bilinaire continue de X X dans Y . On montre de plus que
cette application bilinaire est symtrique, c'est dire que f 00 (a)(k, h) = f 00 (a)(h, k). Pour
le calcul pratique des drives secondes, remarquons
00
que f (a)(h, k) est la drive en a de
x f 0 (x)k, applique au point h.
Exemples. Si f (x) = B(x, x) + C(x) + d, o B est bilinaire, et C linaire,
f 0 (x)k = B(x, k) + B(k, x) + C(k)

(13.19)
f 00 (x)(k, h) = B(h, k) + B(k, h).
Dans le cas rel, si X = Rn , et Y = R, on obtient
Pn
f 00 (a)(h, k) = i,j=1 hi kj f
00 (a)(e , e )
i j
(13.20)
Pn
= i,j=1 hi kj i,j f (a).
Les vecteurs ei de la base canonique sont dnis par [ei ]k = i,k . La matrice 2 f , de terme
2
gnral [ f (a)]ij = ij f (a) est appele matrice hessienne, ou hessien de f au point a.
Ainsi,
f 00 (a)(h, k) = kT 2 f (a)h. (13.21)
13.5 Formules de Taylor et thorme des fonctions implicites
Les formules de Taylor qui permettent d'obtenir des approximations polynomiales locales des
fonctions exprimes partir de leurs drives successives et sont utiles pour justier certaines
conditions d'optimalit prsentes au chapitre suivant. Mme si les preuves des conditions d'op-
timalit ne seront pas dveloppes pour la plupart il est intressant de comprendre les notions
auxquelles elles se rattachent, ce qui motive ce paragraphe. On pourra par exemple trouver la
dmonstration des formules de Taylor dans [2, 6]
13.6 Accroissements nis
Soit f : R R, continue et drivable sur ]a, b[.
c ]a, b[, f (b) f (a) = f 0 (c)(b a). (13.22)
La gnralisation aux dimensions suprieures n'est pas directe. Pour s'en convaincre on peut par
exemple considrer la fonctionf (t) = [cos t, sin t]T , sur [0, 2].
13.7 Formules de taylor
Soit
f :O X Y, avec [a, a + h] O. (13.23)
Thorme 11 (drive premire)

1) Si f est drivable en a, f (a + h) = f (a) + f 0 (a)h+ k h k (h).
2) Accroissements nis. Si f est continue sur O et drivable sur ]a, a + h[,
k f (a + h) f (a) k sup k f 0 (x) kk h k . (13.24)

x]a,a+h[
3) Taylor-Mac Lauri. Si f est continue sur O, drivable sur ]a, a + h[ et Y = R,
f (a + h) = f (a) + f 0 (a + h)h 0 < < 1. (13.25)
4) Taylor avec reste intgrale. Si f C 1 (O) et Y complet,

Z
f (a + h) = f (a) + (f 0 (a + th)h)dt. (13.26)
[0,1]
Thorme 12 (drive seconde).
Taylor-Young. Si f est drivable dans O et deux fois en a,

1
f (a + h) = f (a) + f 0 (a)h + f 00 (a)(h, h)+ k h k2 (h). (13.27)
2
Accroissements nis gnraliss. Si f C 1 (O) et deux fois drivable sur ]a, a + h[,
!
0 1 00
k f (a + h) f (a) f (a)h k sup k f (x) kL2 (X,Y ) k h k2 . (13.28)
2 x]a,a+h[
Taylor-Mac Laurin. Si f C 1 (O), deux fois drivable sur ]a, a + h[ et Y = R,

1
f (a + h) = f (a) + f 0 (a)h + f 00 (a + h)(h, h) 0 < < 1. (13.29)
2
Taylor avec reste intgral. Si f C 2 (O) et Y complet,
Z
0
f (a + h) = f (a) + f (a)h + (1 t)(f 00 (a + th)(h, h))dt. (13.30)
[0,1]
Chapitre 14
Optimisation sans contraintes : critres

d'optimalit
Des critres portant sur les drives premire et seconde ou la convexit de f permettent d'obtenir
des conditions ncessaires mais aussi des conditions susantes d'optimalit et de prciser le
caractre minimum ou maximum d'un extremum, voir mme de prciser si c'est un optimum
conditions
global. Les conditions portant sur la drive premire sont classiquement appeles
du premier ordre et celles portant sur les drives secondes conditions du second ordre.
14.1 Dnitions
14.1.1 Optimalit
Soit f : U Rn R. On dit que u est un minimum local de f , s'il existe un voisinage de u

Vu U tel que f (u) f (v) (resp. f (u) f (v)), v Vu . On dnit de mme un maximum
local par la relation f (u) f (v), v Vu U . Bien sr, on dira de mme que u reprsente un
maximum local de f si f possde un minimum local en u.
Si v U , f (u) f (v), on parlera alors de minimum global. Un extremum local est encore
appel extremum relatif et un extremum global est encore appel extremum strict.
Lorsque sur un voisinage point Vu {u} de u on a f (u) < f (v), v Vu {u}, on dit que u
est un minimum local strict de f.
85
CHAPITRE 14. OPTIMISATION SANS CONTRAINTES : CRITRES D'OPTIMALIT 86
14.1.2 directions admissibles
On dit que d est une direction admissible de f en u si
> 0, v [u, u + d[, u U. (14.1)
On dira de plus que d est une direction de descente de f en u si
< , t [0, ], f (u + td) f (u). (14.2)
14.2 Conditions ncessaires d'optimalit
Fonctions continues
Considrons d'abord le cas d'une fonction continue. Le thorme de Weierstrass fournit le

rsultat suivant :
Thorme 13 (Weierstrass) tant donne une fonction continue f : K Rn R, o K est

compact, c'est dire, puisque K Rn un ferm born de Rn . L'image de K par f est un
intervalle ferm de R. Il existe donc un point u K tel que f (u) soit minimum sur K en u .
Pour des fonctions dont la valeur tend vers l'inni lorsque k u k , et dnies sur Rn tout
entier on a un rsultat analogue :
Dnition 2 On dit que la fonction f : U Rn R est coercive si

lim f (u) = 0. (14.3)
kuk; uU
Corollaire 2 Soit une fonction f continue et coercive f : Rn R. Il existe un minimum u de

f (u) sur Rn .
Fonctions drivables
Pour les fonctions drivables, on peut prciser une condition ncessaire pour qu'un point donn
de U soit un optimum local.
Thorme 14 (condition ncessaire du premier ordre) Soit f : O Rn R, avec O un

ensemble ouvert. Si f a un extremum local en u et est drivable en u, f 0 (u) = 0. Cette galit
est appele quation d'Euler.
Dmonstration Supposons par exemple que f est un minimum en un point u. Soit h un vecteur
x et g(t) = f (u + th). g doit tre minimale en 0. Donc, pour t > 0, (g(t) g(0))/t > 0 et
g(t) g(0)
lim = g 0 (0) > 0, (14.4)
t0 h
et de mme, pour t < 0, (g(t) g(0))/t < 0 et
g(t) g(0)
lim = g 0 (0) < 0. (14.5)
t0 h
Donc nalement, f 0 (u)h = g 0 (0) = 0. Cette relation tant vrie pour tout h x, on a f 0 (u) = 0.
Dans le cas o le domaine de dnition de f n'est pas forcment un ouvert, on a une condition
ncessaire d'optimalit plus gnrale :
Thorme 15 (condition ncessaire du premier ordre) Si u est minimum local de f :

U Rn R, pour toute direction admissible d en u ,
[f (u )]T d 0. (14.6)
Cette ingalit est appele ingalit d'Euler.
Dmonstration La dmonstration de ce rsultat est assez directe ; Il sut de considrer le

dveloppement de Taylor du premier ordre de f. En changeant le signe de l'ingalit d'Euler, on
vrie facilement que si u est un point intrieur de U , alors toutes les directions sont admissibles
et par suite le thorme conduit la condition ncessaire bien connue d'optimalit en un point
d'un ensemble ouvert, donne par f (u ) = 0, prsente dans le thorme 14.
Fonctions deux fois drivables
De la mme faon que le dveloppement de Taylor au premier ordre permet d'exprimer une con-
dition ncessaire d'optimalit, le dveloppement de Taylor au second ordre permet de complter
ce rsultat pour les fonctions deux fois drivables, en prcisant le caractre minimal ou maximal
de l'optimum considr.
Thorme 16 (condition ncessaire du second ordre) Si u est minimum local de f :

U Rn R, pour toute direction admissible d en u , une des deux conditions suivantes est
ncssairement vrie
1. [f (u )]T d 0,
2. [f (u )]T d = 0 et dT 2 f (u )d 0.
Notons que la condition ncessaire du thorme 16 n'est pas susante, comme on peut le voir
par exemple pour la fonction f : R R, f (v) = v 3 au point v = 0.
14.3 Conditions susantes d'optimalit
On a vu que si f : U Rn R est deux fois drivable en u U et si u est un minimum

relatif de f, alors pour toute direction admissible d, dT 2 f (u)d 0. On peut montrer que
l'existence de drives secondes permet d'obtenir des conditions non seulement ncessaires mais
encore susantes :
Thorme 17 (conditions susantes du second ordre) Soit f : O Rn R, drivable

dans l'ensemble ouvert O, et u O tel que f (u) = 0. Alors,
si f est deux fois drivable en u et si
> 0, d Rn , dT [2 f (u)]d k d k2 , (14.7)
alors f admet un minimum local strict en u.
Si f est deux fois drivable sur une boule B(u, r) O, avec
d Rn , dT [2 f (v)]d 0, (14.8)
alors f admet un minimum local en u.
Remarque On voit que la deuxime partie de l'nonc est rendue ncessaire car la condition
(14.7) n'est plus valable pour = 0. En eet, il sut pour s'en convaincre de considrer la
fonction f : R R, f (v) = v 4 en 0.
14.4 Convexit et optimalit
L'objectif est ici de rappeler les dnitions et proprits de base associes la convexit et montrer
qu'elles permettent de prciser le caractre global d'un optimum. Ce caractre global d'optimaux
locaux constitue probablement la proprit la plus remarquable des fonctions convexes.
14.4.1 Dnitions
Commenons par quelques dnitions.
Dnition 3 On dit qu'un ensemble U est convexe si pour x, y U le segment [x, y] est dans
U , c'est dire que
x, y U, [0, 1], x + (1 )y U. (14.9)
Les sous espaces vectoriels et les boules ouvertes ou fermes sont des exemples d'ensembles
convexes.
Dnition 4 Une fonction f est convexe sur l'ensemble convexe U si
u, v U, [0, 1], f (u + (1 )v) f (u) + (1 )f (v). (14.10)
Notons que la dnition de la convexit d'une fonction est gnralement associe (comme s'est
ici le cas pour notre dnition) la convexit de son ensemble de dnition. C'est en eet dans
ce cadre que les proprits des fonctions convexes sont les plus riches.
On dit que f est strictement convexe si
u, v U, u 6= v, ]0, 1[, f (u + (1 )v) < f (u) + (1 )f (v). (14.11)
On dit que f est concave si f est convexe. Les rsultats suivants permettent de caractriser la
convexit pour des fonctions une ou deux fois drivables.
14.4.2 Caractrisations de la convexit
Les thormes suivant permettent de caractriser la convexit des fonctions partir de proprits
de leurs drives premire et seconde.
Thorme 18 (Convexit et drives premires) Soit f : U Rn R, drivable, avec U

convexe.
f convexe u, v U, f (v) f (u) + f 0 (u)(v u)
f strictement convexe u, v U, u 6= v f (v) > f (u) + f 0 (u)(v u).
Ce thorme indique que le graphe d'une fonction convexe se trouve au dessus des tangeantes en
chacun de ses points.
Thorme 19 (convexit et drives secondes) Soit f : U Rn R, deux fois drivable,

avec U convexe.
f convexe u, v U, (v u)T [2 (f )(u)](v u) 0,
f strictement convexe u, v U, u 6= v (v u)T [2 f (u)](v u) > 0.
Notons que la rciproque de la dernire implication est fauss, comme on l'a vu dans l'exemple de
la remarque la n du paragraphe 14.3 (prendre par exemple f : R R, f (v) = v4 , en v = 0).
Pour un point u intrieur U, il apparat donc que la convexit correspond la positivit de la

matrice 2 f (u).
Exemple f (v) = (1/2)vT Av vT b. f est convexe si et seulement si A 0 et strictement

convexe si et seulement si A > 0.
Soit f : U Rn R, avec U convexe. On notrera que l'ensemble des directions admissibles en

un point u de U est donn par les vecteurs v u, avec v U .
14.4.3 Exemples de fonctions convexes
Les diverses proprites des fonctions convexes nonces plus haut permettent de vrier la con-
vexit d'une fonction donne. Notons qu'il n'est pas toujours ais de vrier qu'une fonction est
eectivement convexe. On pourra dmontrer la convexit des fonctions suivantes titre d'exer-
cice.
Les fonctions suivantes f :RR sont convexes :
f (x) = ax + b, x log x. (14.12)
Les fonctions suivantes f : Rn , R sont convexes :
X
f (x) = Ax + b avec A 0, k x k, max xi , log( xi ), (i=1,n xi ). (14.13)
i=1,n
i=1,n
La fonction matricielle suivante

n , R, f (m) = log |M |,
f : S++ o
n
S++ est l'ensemble des
matrices dnies positives de taille n, est convexe.
14.4.4 Minima des fonctions convexes
Dans le cas des fonctions convexes, l'ingalit d'Euler f 0 (u)d 0, pour toute direction admissible
d devient simplement
f 0 (u)(v u) 0, v U. (14.14)
De plus, le thorme suivant montre le fait remarquable que dans le cas convexe le caractre nces-
saire de cette condition d'optimalit est galement susant. Le caractre susant ne ncessite
pas ici de faire intervenir explicitement de condition du second ordre. Cela est bien comprhen-
sible car les conditions susantes d'optimalit du second ordre dcrites au pagraphe 14.3 sont
implicitement satisfaites par la convexit de la fonction f d'aprs le thorme (19). Le caractre
global des optima locaux dans le cas convexe est galement mis en vidence par le thorme
suivant :
Thorme 20 (Condition ncessaire et susante d'optimalit des fonctions convexes)

Soit f : U Rn R, avec U et f convexes.
Un minimum relatif de f sur U est un minimum global.
Si f est strictement convexe, elle admet un minimum au plus, et c'est alors un minimum strict.
Si f est drivable en u U , f est minimum en u par rapport U si et seulement si v U ,

f 0 (u)(v u) 0.
Si U est un ouvert, la condition 3) est quivalente l'quation d'Euler f 0 (u) = 0.
Exemple Si u Rn , c Rm , avec m n, et f (u) =k Bu c k2 . f est convexe, f 0 (u) =

BT Bu BT c, et tout optimum global vrie BT Bu = BT c. Si B est de rang n, il s'agit d'un
T
optimum strict, et il est gal u = (B B)
1 BT c. Ce rsultat conrme l'optimalit globale de
u comme minimum du critre des moindre carrs tudi dans le cadre de l'analyse numrique
matricielle.
14.5 Fonctions quadratiques et elliptiques
On va maintenant s'intresser des fonctions convexes particulires que sont les fonctions quadra-
tiques coercive et leurs extensions que constituent les fonctions elliptiques. Les fonctions ellip-
tiques prsentent l'avantage de pouvoir tre optimises aux moyens d'algorithmes d'optimisation
itratifs gnraux qui seront dcrits au chapitre suivant.
Fonctions quadratiques
Soitf (v) = (1/2)vT Av vT b, avec A est dnie positive, c 'est dire que > 0, A I.
2
Alors, il est clair que f est strictement convexe puisque f = A > 0. f admet donc un minimum
global unique.
Fonctions elliptiques
Dnition 5 Une fonction f : U R, avec U convexe, est dite elliptique si f est continuement
drivable
> 0, u, v U, (f (v) f (u))T (v u) k v u k2 . (14.15)
Bien entendu, la fonction quadratique f (v) = (1/2)vT Av vT b, avec A > 0 est elliptique.
Notons que parfois cette dnition ne suppose pas la convexit de U, que l'on rajoute alors
comme hypothse dans le thorme suivant qui montre que l'ellipticit est une proprit trs
forte, impliquant en particulier la convexit :
Thorme 21 1. Si f est elliptique, elle est strictement convexe et coercive, avec de plus

, u, v U, f (v) f (u) + f (u)T (v u) + k v u k2 . (14.16)
2
2. Si U est non vide et ferm, et f elliptique, le problme f admet une solution unique.
3. f , deux fois drivable, est elliptique si et seulement si
u, v U, (v u)T [2 f (u)](v u) k v u k2 . (14.17)
Bien entendu, du fait de sa convexit une fonction elliptique bbcie en particulier de toutes
les proprits dvellopes au paragraphe 14.4. Notons de plus que la proprit (14.16) est une
proprit quivalente la proprit de convexit forte[5] qui est dnie par

, u, v U, [0, 1] f (u+(1)v) f (u)+(1)f (v)+ (1) k vu k2 . (14.18)
2
Chapitre 15
Algorithmes d'optimisation sans

contraintes
15.1 Introduction
En l'absence de contraintes sur le support de la fonction f, on s'intresse des algorithmes de

0
recherche de racines de l'quation d'Euler f (u) = 0. L'algorithme de Newton et ses variantes
(appeles algorithmes quasi-Newton) permettent d'atteindre un tel point. Parmi ces variantes,
l'algorithme du gradient est rput pour sa simplicit de mise en oeuvre. De faon gnrale, les
algorithmes abords ici visent construire une suite de points (uk )k0 , tels que
uk+1 = uk + k dk , (15.1)
o dk est une direction de descente de l'algorithme.
Direction de descente et choix du pas
Les dirents algorithmes prsents ci dessous seront essentiellement caractriss par leur direc-
tion de descente.
Le choix du pas k de l'algorithme de descente constitue le deuxime lment prendre en

compte pour la construction d'un algorithme de descente. Ainsi, au point uk , pour une direction
de descente dk , le choix particulier d'un pas optimum conduit prendre
k = arg min f (uk + dk ). (15.2)

Ce choix est intressant du point de vue de la vitesse de convergence en terme de nombre

d'itrations de l'algorithme eectuer sur l'indice k, mais exige chaque fois la rsolution d'un
problme de minimisation scalaire, pouvant lui mme tre rsolu de faon itrative. Par suite,
cette stratgie peut s'avrer moins rapide
93
CHAPITRE 15. ALGORITHMES D'OPTIMISATION SANS CONTRAINTES 94
15.2 Mthode de relaxation
Face au problme du choix d'une direction de descente, une stratgie simple consiste considrer
itrativement chaque axe de coordonnes comme direction de dplacement. On cherche alors
minimiser la fonction vis vis de chacune de ses composantes itrativement puis rpter la
procdure jusqu' la convergence de l'algorithme qui est obtenue lorsque la valeur du critre f
n'volue plus.
Ainsi, l'itration k , partant d'un point courant uk = (uk,1 , . . . , uk,n ), on calcul successivement
uk+1,1 = arg minv f (v, u0,2 , . . . , u0,n ), uk+1,2 = arg minv f (uk+1,1 v, u0,3 , . . . , u0,n ),. . . , uk+1,n =
arg minv f (uk+1,1 , . . . , uk+1,n1 , v). On ritre ensuite l'opration en partant de uk+1 = (uk+1,1 , . . . , uk+1,n ).
En l'absence de contraintes de support sur f le comportement de la mthode de relaxation est

satisfaisant comme l'indique le thorme suivant :
Thorme 22 Si f : Rn R est elliptique, la mthode de relaxation converge.
On verra dans le cadre de l'optimisation sous contraintes que si U 6= Rn , ce rsultat n'est plus
vrai en gnral.
Dans le cas d'un critre f quadratique la mthode de relaxation conduit simplement la rso-
lution d'un systme linaire par la mthode de Gauss-Seidel, prsente dans le cadre de la
rsolution des systmes d'quations linaires. Aussi, la mthode de relaxation est encore parfois
appele mthode de Gauss-Seidel, mme quand f n'est pas une fonction quadratique.
15.3 Algorithme du gradient
On suppose ici que f est drivable. Le dveloppement au premier ordre de f conduit donc
T
f (uk + w) = f (uk ) + f (uk ) w+ k w k (w), (15.3)
avec limw0 (w) = 0. Il apparat donc qu'en posant w = k f (uk ), avec k w k susamment
petit et k > 0, on a f (uk + w) f (uk ), et f (uk ) est bien une direction de descente. Ainsi,
on obtient la forme gnrale de l'algorithme du gradient qui s'crit :
uk+1 = uk k f (uk ). (15.4)
15.3.1 Choix du pas et convergence
Pas optimal
L'optimisation du pas k conduit la mthode du gradient pas optimal :
k = arg min f (uk f (uk )). (15.5)

Thorme 23 Si f : Rn R est elliptique, la mthode de gradient pas optimal converge.
Exercice Considrons la fonction quadratique elliptique f (v) = (1/2)vT Av bT v. Vriez que

le pas optimum est donn par
k Auk b k2
k = . (15.6)
(Auk b)T A(Auk b)
Quel peut tre l'intrt de l'algorithme du gadient par rapport une inversion directe des qua-
tions normales ?
Pas constant et pas dcroissant
D'autres stratgies, moins couteuses, mais conduisant gnralement un plus grand nombre
d'itrations, consistent choisir un pas constant ou un pas dcroissant.
Pas dcroissant et gradient normalis
Lorsqu'on norme le gradient chaque itration, on dispose d'un rsultat de convergence intres-
sant (voir par exemple [9]) :
Thorme 24 Pour un algorithme du gradient dont la suite des pas k dcroit vers 0, avec
X
lim k = 0, et k = +, (15.7)
k
k=0,
l'algorithme du gradient dni par

f (uk )
uk+1 = uk k (15.8)
k f (uk ) k
converge vers un minimum local de f .
Convergence
Pour des fonctions elliptiques, on obtient le rsultat de convergence suivant :
Thorme 25 . Si f : Rn R est drivable et si , M > 0 tels que u, v Rn

(f (v) f (v))T (v u) k v u k2
(15.9)
k f (v) f (v) k2 M k v u k2 ,
et a, b > 0 tels que 0 < a k b < (2/M 2 ), la mthode du gradient converge et
< 1, k uk u k k k u0 u k . (15.10)
Notons que la premire condition n'est autre que la condition d'ellipticit, tandis que la seconde
nonce la caractre Lipshtzien
1 du gradient f qui indique que le gradient ne doit pas varier
trop rapidement.
Voici le code d'un exemple simple o on cherche le minimum de la fonction de RosenBroeck

2 2 2
f (x, y) = 50 (y x ) + (1 x) par la mthode du gradient pour un
dnie par pas dcroissant
k = 1/ k . Pour ce choix, la convergence est obtenue au bout de 5000 itrations
f = @(x,y) 50*(y-x^2)^2+(1-x)^2;
grad_f = @(x,y)[-200*x*(y-x^2)-2*(1-x); 100*(y-x^2)];
pt = [-2; 9]; % initialisation
pt_min = [1; 1]; % point o le critre est minimum
nb_iter = 1000;
err = norm(pt-pt_min);
for k=1:10000,
x = pt(1);
y = pt(2);
g = [-200*x*(y-x^2)-2*(1-x); 100*(y-x^2)]; % gradient du critre
pas = 1/k^0.5;
pt = pt - pas*g/(norm(g)+eps);
err = [err norm(pt-pt_min)];
end;
plot(err)
15.4 Mthode de Newton
15.4.1 Principe
La mise en oeuvre de la mthode de Newton suppose que f C2 et consiste considrer en

chaque point uk l'approximation quadratique de f fournie par son dveloppement de Taylor
l'ordre 2 au voisinage de uk . Ainsi, si
1
f (v) = f (u) + f (u)T (v u) + (v u)T [2 f (u)]T (v u)+ k v u k2 (v u), (15.11)
2
avec limw0 (w) = 0, l'approximation quadratique
1
f(v) = f (u) + f (u)T (v u) + (v u)T [2 f (u)]T (v u), (15.12)
2
sera optimale au point v tel que f(v) = 0, c'est dire pour f (u) + 2 f (u)T (v u) = 0. En
posant uk = u et uk+1 = v, on obtient l'expression de l'algorithme de Ne wton :
uk+1 = uk [2 f (u)]1 f (u). (15.13)
1. une fonction g est dite Lipschitzienne de rapport M si u, v, k g(u) g(v) k2 M k u v k2 .

Pour rester dans les conditions de validit de l'approximation quadratique, c'est dire pour
assurer que k uk+1 uk k reste petit, on utilise souvent l'algorithme sous la forme uk+1 = uk
k [2 f (u)]1 f (u), avec 0 < k < 1. Notons que pour pouvoir mettre en oeuvre l'algorithme
2
de Newton, il faut que f soit deux fois drivable et que f (u) soit inversible.
Nous reprennons la fonction de Rosenbroeck, f (x, y) = 50 (y x2 )2 + (1 x)2 , dont on cherche

maintenant calculer le minimum par la mthode de Newton. On voit que maintenant la conver-
gence est obtenue aprs quelques itrations.
f = @(x,y) 50*(y-x.^2).^2+(1-x).^2;
grad_f = @(x,y)[-200*x*(y-x^2)-2*(1-x); 100*(y-x^2)];
hess_f = @(x,y)[-200*(y-x^2)+400*x^2+2 -200*x; -200*x 100];
pt = [-2; 9]; % initialisation
pt_min = [1; 1]; % point o le critre est minimum
err = norm(pt-pt_min);
nb_iter = 10;
for k=1:nb_iter,
x = pt(1);
y = pt(2);
pt = pt - inv(hess_f(x,y))*grad_f(x,y);
err = [err norm(pt-pt_min)];
end;
plot(err)
15.4.2 Autre interprtation dans le cas scalaire
Supposons que Rn = R et posons g(u) = f 0 (u). uk+1 =

L'algorithme de Newton s'crit alors
uk [g 0 (u)]1 g(u). Un simple graphique montre clairement que uk+1 reprsente l'intersection avec
l'axe des x de la tangente au graphe de g au point (uk , g(uk )).L'algorithme de Newton permet
donc la recherche itrative d'une racine de l'quation g(u) = 0. C'est pourquoi les algorithmes de
Newton sont prsents soit comme des algorithmes de recherche de la solution d'une quation,
soit comme des algorithmes de recherche du minimum d'une fonction.
15.4.3 Mthodes de type quasi-Newton
L'inversibilit de 2 f et la complexit du calcul de cette inverse sont deux contraintes fortes de

l'algorithme de Newton. Aussi, on peut envisager des simplications numriques de l'algorithme,
consistant par exemple garder la mme matrice 2 f (xk ) pendant plusieurs itrations ou
prendre toujours la mme matrice. Finalement, on obtient une famille d'algorithmes de forme
gnrale
xk+1 = xk A1
k f (xk ) (15.14)
Ainsi, pour Ak = k I, on retrouve un algorithme du gradient. En prenant Ak = I et en posant

f (xk ) = g(xk ), l'algorithme xk+1 = xk g(xk ) qui cherche itrativement un zro de la fonction
g est appel mthode des approximations successives.
Exemple [6] Pour g(x) = x2 1/4, la convergence de la mthode des approximations successives
n'est assure que pour x0 [1/2, 3/2]. Plus prcismment, ] 1/2, 3/2[ reprsente le bassin
d'attraction de la racine 1/2 et {1/2, 3/2} le domaine d'attraction de la racine 1/2.
Des conditions de convergence de l'algorithme (15.14) portant sur la squence des matrices
(Ak )k0 pourront tre trouves par exemple dans [6].
15.4.4 Convergence
Pour dcrire la convergence les diverses variantes de la mthode de newton dans un mme for-
malisme, on considre des algorithmes de la forme
xk+1 = xk [Ak (xk0 )]1 f (xk ), et 0 k 0 k. (15.15)
avec Ak (x) inversible x O. On indique ici des conditions susantes de convergence d'un tel
algorithme.
Thorme 26 Soit f : O Rn R. On suppose que f C 2 (O). S'il existe r, M, , tels que

B(x0 , r) O (r > 0), < 1 et
1. supk0 supxB(x0 ,r) k A1
k (x) k M

2. supk0 supx,x0 B(x0 ,r) k 2 f (x) Ak (x0 ) k ,
M
3. k f (x0 ) k r
M (1 ),
alors, la suite (xk )k0 est dans B(x0 , r), et converge vers un zro de f qui est le seul zro de
f dans B(x0 , r), not a. La convergence est gomtrique :
k
k xk a k k x1 x 0 k . (15.16)
1
Dans le cas o Ak (x) ne dpend pas de x, on a le rsultat suivant
Thorme 27 Si f C 2 (O), avec f (a) = 0, A = 2 f (a) inversible et

(1/2)
sup k Ak A k< , (15.17)
k0 k A1 k
alors, il existe r > 0 tel que x0 B(a, r) la suite
xk+1 = xk A1
k f (xk ) (15.18)
soit contenue dans B(a, r) et converge vers a. De plus, a est la seule racine de f = 0 dans
B(a, r). La convergence est gomtrique :
< 1, k xk a k k k x0 a k . (15.19)
Remarque L'utilisation de ce dernier thorme suppose la connaissance pralable du point a.

15.4.5 L'algorithme de Levenberg-Marquart
Pour les algorithmes gnraux de la forme xk+1 = xk A1

k f (xk ), le dveloppement de f au
voisinage de xk conduit
f (xk+1 ) = f (xk ) T f (xk )[Ak (xk0 )]1 f (xk )+ k xk+1 xk k (xk+1 xk ), (15.20)
avec limx0 (x) = 0. On voit donc que si on peut ngliger les termes du second ordre, [Ak ]1
f (xk ) est une direction de descente ds lors que T f (xk )[Ak ]1 f (xk ) > 0. Il sut pour cela
2
que la matrice Ak soit positive. Or, outre le cot de calcul de f , la matrice hessienne peut,
dans le cas gnral, ne pas tre positive chaque itration. Une faon pratique de corriger ce
problme consiste remplacer 2 f (xk ) par 2 f (xk )+k I, avec k > 0 tel que 2 f (xk )+k I > 0.
Pour tester la positivit de
2
la matrice Ak = f (xk ) + k I, on peut augmenter k tant que la
factorisation de Choleski ne peut pas tre calcule. On a vu en eet dans la premire partie,
consacre l'analyse numrique, que cette factorisatin n'tait dnie que pour des matrices
2 f (xk ) + k I = LLT , avec L triangulaire
positives. De plus, la connaissance de la factorisation
permet le calcul ais de la direction de descente dk = [Ak ]
1 f (x ), car il sut alors de
k
T
rsoudre le double systme triangulaire d'quations linaires LL dk = f (xk ).
15.5 L'algorithme du gradient conjugu
On considre pour terminer ce chapitre une technique populaire de minimisation qui consiste
utiliser plus d'information sur f pour calculer la direction de descente qu'avec la mthode du
gradient, sans pour autant tre conduit au cot lev de la mthode de Newton, qui ncessite
le calcul du hessien et son inversion. A partir du point courant uk , on cherche ici uk+1 tel que
f (uk+1 ) = minvGk f (uk + v), avec
X
Gk = { i f (ui ); 1 , . . . , k R}. (15.21)
i=1,k
Pour une fonction quadratique elliptique f (v) = (1/2)vT Av bT v, on peut vrier que uk+1 =
uk k dk , avec
dTk f (uk )
k =
dTk Adk
(15.22)
k f (uk ) k2
et dk = f (uk ) + dk1 .
k f (uk1 ) k2
Thorme 28 Si f : Rn R est quadratique et elliptique la mthode de gradient conjugu

converge en n itrations au plus.
Dans le cas gnral, pour une fonction f non ncesairement quadratique, on prfre souvent
utiliser la mthode de gradient conjugu de Polak et Ribire pour laquelle
[f (uk )]T (f (uk ) f (uk1 ))

dk = f (uk ) + dk1 . (15.23)
k f (uk1 ) k2
Chapitre 16
Optimisation sous contraintes : critres

d'optimalit
16.1 Le thorme des fonctions implicites
Le thorme des fonctions implicites [2, 6] joue un rle important dans la justication
de l'introduction du Lagrangien qui sera prsent un peu plus loin et constitue un outil de
base pour l'tude des conditions ncessaires et susantes des problmes d'optimisation sous
contraintes d'galit ou d'ingalit.
Soit g : Rn Rm . On cherche ici savoir si tant donn un point a = (a1 , a2 ), avec f (a1 , a2 ) = b,
il existe un voisinage Va1 Va2 de ce point tel que la courbe de niveau g(x1 , x2 ) = b sur ce
voisinage soit paramtre par une fonction h telle que x2 = h(x1 ) ; C'est dire que pour tous les
couples (x1 , x2 ) de ce voisinage tels que g(x1 , x2 ) = b, on ait x2 = h(x1 ).
Thorme 29 Soit g : O Rnm Rm Rm , (x1 , x2 ) 7 g(x1 , x2 ) de classe C 1 . Supposons

que f (a1 , a2 ) = b, et que la matrice jacobienne 2 g(a1 , a2 ), de taille m m, soit inversible.
Alors, il existe un voisinage ouvert O1 O2 de (a1 , a2 ) et une fonction h : Rnm Rm continue
appele fonction implicite, telle que
{(x1 , x2 ) O1 O2 ; g(x1 , x2 ) = b} = {(x, h(x)); x O1 } . (16.1)
De plus, h est drivable et

h0 (a1 ) = [2 g(a1 , a2 )]1 1 g(a1 , a2 ). (16.2)
16.2 Points rguliers et espace tangent
On considre dans la suite deux ensembles de fonctions drivables {f1 , . . . , fm } et {fm+1 , . . . , fm+p }
et on notera f e = (f1 , . . . , fm )T et f i = (fm+1 , . . . , fm+p )T les vecteurs de fonctions associs re-
100
CHAPITRE 16. OPTIMISATION SOUS CONTRAINTES : CRITRES D'OPTIMALIT 101
spectivement des contraintes d'galit et d'ingalit. On va maintenant prciser la notion de

rgularit d'un point satisfaisant un ensemble de contraintes de type galit ou ingalit.
16.2.1 Contraintes d'galit
L'ensemble V = {x; f1 (x) = 0, . . . , fm (x) = 0}, o les fonctions fk sont de classe C1 est appel
varit direntielle. et on dnira la notion de point rgulier comme suit
Dnition 6 On dira qu'un point u V de V = {x; f1 (x) = 0, . . . , fm (x) = 0} est un point

rgulier si les vecteurs f1 (u), . . . , fm (u) forment une famille libre.
Dnition 7 L'espace tangent V au point u est l'espace engendr par les tangentes en u aux
courbes drivables de V passant par u.
On a le rsultat suivant important pour la suite :
Thorme 30 L'espace tangent V = {x; f e (x) = 0} en un point rgulier u concide avec

l'ensemble
Ker((f e )0 (u)) = {v; [fk (u)]T v = 0, k = 1, . . . , m} = {v; (f e )0 (u)v = 0}. (16.3)
Preuve Soit v un vecteur du plan tangent au point u. Il existe une courbe x(t), t R telle que
x(0) = u et x0 (0) = v. Comme f e (x(t)) = 0, [f e (x(t))]0 = (f e )0 (x(t))x0 (t) = 0. En particulier,
e 0 e 0
pour t = 0, on obtient (f ) (u)v = 0, soit v Ker((f ) (u)).
e 0
Rciproquement, soit v Ker((f ) (u)). Montrons que v appartient au plan tangent V en u.
Soit
g : R Rm Rm ; t w 7 g(t, w) = f e (u + tv + f e (u)w). (16.4)
Notons que g(0, 0) = f e (u) et que w g(t, w)|(t,w)=(0,0) = [f e (u)]T f e (u). Comme u est un
e T e
point rgulier, la matrice [f (u)] f (u) est inversible. On peut donc appliquer le thorme
des fonctions implicites : il existe une fonction w(t) dnie sur un voisinage de 0, sur lequel on
a g(t, w(t)) = g(0, 0) = 0.
Posons maintenant
u(t) = u + tv + f e (u)w(t). (16.5)
Comme g(t, w(t)) = f e (u(t)) = 0,
d e
f (u(t))|t=0 = [f e (u)]T [v + f e (u)w(0)]
= 0. (16.6)
dt
Donc,
w(0) = [(f e (u))T f e (u)]1 [f e (u)]T v. Mais, comme v Ker((f e )0 (u)), [f e (u)]T v =

0 et donc w(0)
= 0. Par suite, u(t)(0) = v, ce qui montre que v appartient au plan tangent V
en u puisque u(t) est une courbe de V drivable sur un voisinage de u(0) = u.
16.2.2 Contraintes d'galit et d'ingalit
Dans le cas o on est en prsence de contraintes d'galit f e (x) = 0 et d'ingalit f i (x) 0, la

notion de point rgulier est dnie de faon plus gnrale que prcdemment. En eet, pour les
contraintes de la forme f i (x) 0, en un point u x l'galit peut tre atteinte pour certaines des
i
composantes de f , auquel cas on dira que les contraintes sont actives, ou encore satures, et
on aura une ingalit stricte pour les autres quations de contrainte de f i (x). Dans ce dernier cas,
on voit que le point u apparat comme un point intrieur vis vis des contraintes inactives en ce
point, ce qui conduira a prendre en compte cette particularit dans la description des conditions
d'optimalit, en particulier en modiant la dnition de la rgularit en prsence de contraintes
d'ingalit.
En un point x on dnit l'ensemble
A(x) = {i; fi (x) = 0, i = m + 1, . . . , m + p} . (16.7)
des indices des contraintes d'ingalit actives. La rgularit d'un point est alors dnie comme
suit
Dnition 8 On dira qu'un point u {x; f e (x) = 0, f i (x) 0} est un point rgulier si
l'ensemble des vecteurs {fi (u); i {1, . . . , m} A(u)} est une famille libre.
16.3 conditions d'optimalit en prsence de contraintes d'galit
On considre le problme suivant

min f (x)
(16.8)
f e (x) = 0,
o f e : Rn Rm ; u 7 f e (x) = (f1 (x), . . . , fm (x))T .
16.3.1 Condition ncessaire d'optimalit
Condition ncessaire du premier ordre
Un rsultat important rside dans le fait que si un point u estune solution du problme (16.8),
alors le gradient de f en ce point doit tre orthogonal au plan tangent. Cela ce traduit par le
thorme suivant :
Thorme 31 (Condition ncessaire du premier ordre) Si u est un point rgulier et un

optimum local pour le problme (16.8), alors
Rm , f (u) + f e (u) = 0. (16.9)

Dans la suite, on considrera classiquement le lagrangien du problme (16.8), dni par :

L(x, ) = f (x) + f e (x). (16.10)
Il est clair que la condition du premier ordre (16.9) prcdente associe aux contraintes du
problme (16.8) s'exprime comme l'annulation du gradient du Lagrangien vis vis de u et de
respectivement :
v L(u, ) = 0,
(16.11)
L(u, ) = 0.
Les coecients (i (u))i=1,m introduit ci dessus sont appels multiplicateurs de Lagrange associs
l'extremum u.
Une dmonstration du thorme faisant appel la notion de dualit en programmation linaire

sera prsente dans le chapitre sur la programmation linaire. Une dmonstration plus directe
est fournie ici.
Preuve Considrons le plan tangent V au point rgulier u. Pour tout vecteur v de cet hyper-
plan, on peut construire sur V une courbe y(t) de tangente v au point u. La condition d'opti-
d T
malit
dt f (y(t))|t=0 = f (u) v = 0 montre que f (u) est orthogonal l'hyperplan tangent,
e
et donc appartient l'espace engendr par les vecteurs colonnes de f (u), d'aprs le thorme
e
30. Puisque f (u) est dans l'espace image de la matrice f (u), il existe une vecteur d R
m
e e
tel que f (u) = f (u)d et en posant = d, on obtient nalement f (u) + f (u) = 0.
Exemple On peut vrier que pour le problme

f (v) = 12 vT Av vT b

(16.12)
U = {v Rn ; Cv = d},

o A est une matrice symtrique (A

T
= A), la condition ncessaire d'optimalit (16.9) s'crit
A CT

u b
= . (16.13)
C 0 d
Exercice Montrez que si A est inversible et si C, de taille m n est de rang m, la matrice de

l'quation (16.13) est inversible. Exprimer la solution u en fonction de A,b,C et d.
Conditions du second ordre
Si f, f e C 2 , les conditions ncessaires et susantes du second ordre tablies dans le cadre

de l'optimisation sans constraintes se gnralise en des condidtions analogues portant ici sur la
restriction de la drive seconde du lagrangien l'espace tangent.
Rappelons que le lagrangien et ses drives sur u sont donns par
L(u, ) = f (u) + T f e (u),

u L(u, ) = f (u) + f e
P (u), (16.14)
u L(u, ) = f (u) + i=1,m i 2 fi (u).
2 2
Thorme 32 (Conditions ncessaires du second ordre) Si u est un minimum local rgulier

du problme (16.8), alors
Rm , u L(u, ) = 0
(16.15)
v Ker((f e )0 (u)), vT [2u L(u, )]v 0.
Preuve Soit x(t) une courbe de V = {v, ; f e (v) = 0}, avec x(0) = u et = x(0)
= v. La condition
ncessaire du second ordre pour l'optimisation sans contrainte montre que l'on doit avoir
d2 d T
2

[f (x(t))]t=0 = [(x(t)) f (x(t))]t=0 = vT 2 f (u)v + [
x(0)]T f (u) 0. (16.16)
dt dt
En drivant par ailleurs deux fois la relation T f e (x(t)) en 0, on obtient
d2 T e d dx T e T
X
2 d2 xT
[ f (x(t))]t=0 = [( ) f (x(t))]t=0 = v f
i i (u) + (0)f e (u) 0.
dt2 dt dt dt2
i=1,m
(16.17)
En additionnant les relations (16.16) et (16.17) et en prenant en compte la relation u L(u, ) =
0, dj tablie dans le thorme 31, on obtient directement la relation vT [2u L(u, )]v 0.
Comme pour le cas non contraint, la condition ncessaire de positivit de la matrice hessienne
devient l encore une condition susante ds lors qu'on peut en assurer la positivit stricte. Ici
comme pour la condition ncessaire ce dessus il s'agit de la positivit du hessien du lagrangien
restreinte au sous espace tangent.
Thorme 33 (Conditions susantes du second ordre) Si u est un point rgulier de f e et

si
Rm , u L(u, ) = 0
(16.18)
v Ker((f e )0 (u)), vT [2u L(u, )]v > 0,
alors, u est un minimum local strict du problme (16.8).
Preuve On va faire une dmonstration par l'absurde. Si u satisfait aux hypothses du thorme
mais n'est pas un optimum local strict, il existe une suite (uk )k1 de V qui converge vers u et
telle que f (uk ) f (u). On pose uk = u + k dk , avec k dk k= 1. La suite (dk )k1 tant borne,
elle admet une sous suite convergente. Pour simplier les critures et sans perte de gnralit,
on pourra supposer ici que la suite (dk )k1 est elle mme convergente vers une certaine valeur,
note d. On considre ici les formules de Taylor du second ordre appliques aux fonctions f et
(fi )i=1,m et donnes par
2k T 2
0 = fi (uk ) fi (u) = k fi (u)T dk + d [ fi (u)]dk + 2k i (k )
2 k
(16.19)
2k
0 f (uk ) f (u) = k f (u)T dk + dTk [2 f (u)]dk + 2k (k )
2
avec lim0 i () pour i = 0, 1, . . . , m. En multipliant les premires relations par les coecients
i correspondants, en les additionnant la dernire relation, et en prenant enP compte la relation
u L(u, ) = 0, il vient que dTk 2u L(u, )dk + (k ) 0, avec () = 0 () + i=1,m i i (). En
T 2 T 2
passant la limite, il vient que limk dk u L(u, )dk + (k ) = d u L(u, )d 0.
Notons maintenant que [fi (uk ) fi (u)]/k = fi (u)T dk + (k ) = 0, avec limk k = 0 et

lim () = 0. Il apparat donc en passant la limite que limk fi (u)T dk = fi (u)T d =
0. Donc d Ker((f e )0 (u)) et dT 2u L(u, )d 0, ce qui contradictoire avec les hypothses du
thorme, CQFD.
Remarque En pratique, la proprit v Ker((f e )0 (u)), vT [2u L(u, )]v > 0 peut tre vrie
en considrant une base {v1 , . . . , vnm } de l'espace tangent V au point u et en construisant la
T 2
matrice V = [v1 , . . . , vnm ] puis la matrice V u L(u, )V dont il sut alors de tester la positiv-
it des valeurs propres. En eet, l'espace tangent s'crit encore {V; R
nm } et la positivit
2
de la restriction de u L(u, ) cet espace s'crit donc R
nm {0}, VT 2u L(u, )V > 0,
T 2
soit V u L(u, )V > 0.
De plus, soit il est facile de construire de faon directe une telle base V de l'orthogonal de
l'espace engendr par {f1 (u), . . . fm (u)}, soit on peut en construire une par un procd sys-
tmatique par exemple partir de la matrice de projection sur Ker((f ) (u)). Rappelons ici
e 0
que la matrice de projection sur l'espace engendr par les colonnes d'une certaine matrice M
s'crit M(M M)
T 1 MT (voir Eq. (3.32) de la premire partie de ce document). par suite, la ma-
e 0 e 0 e 0 T e 0
1 e 0
trice de projection sur Ker((f ) (u)) est I (f ) (u) [(f ) (u)] (f ) (u) [(f ) (u)]T . On peut
e 0
en dduire une base de Ker((f ) (u)) en extrayant par exemple une famille libre de dimension
maximale (n m) de la famille des vecteurs
1 e 0
vk = I (f e )0 (u) [(f e )0 (u)]T (f e )0 (u) [(f ) (u)]T ek
1 (16.20)
= ek (f e )0 (u) [(f e )0 (u)]T (f e )0 (u) fke (u),
o ek = (0, . . . , 0, 1, 0, . . . , 0)T est le k me vecteur de la base canaonique.
Exemple
Rsoudre le problme d'optimisation suivant :
min(x,y) x2 + y 2 xy

(16.21)
x2 + y 2 4x 4y + 6 = 0
Le lagrangien s'crit L(x, y, ) = x2 + y 2 xy + (x2 + y 2 4x 4y + 6) et

2(1 + )x y 4
(x,y) L(x, y, ) = = 0. (16.22)
2(1 + )y x 4
En additionnant et en soustrayant les deux quations prcdentes, on trouve que (2+1)(x+y) =

8 (2 + 3)(x y) = 0. De la deuxime quation, on dduit que x = y ou = 3/2.Si x = y ,
et
2
la contrainte se rcrit x 4x+ 3 = (x1)(x 3) = 0 et on en dduit que (x, y, ) = (1, 1, 1/2)
ou (x, y, ) = (3, 3, 1/2). Si = 3/2, y = x + 8/(2 + 1) = 6 x et la contrainte se rcrit
x2 6x + 9 = (x 3)2 = 0, soit (x, y, ) = (3, 3, 3/2).
Les solutions des conditions du premier ordre sont donc (x, y, ) = (1, 1, 1/2), (x, y, ) =
(3, 3, 1/2) et (x, y, ) = (3, 3, 3/2). La matrice hessienne s'crit pour = 1/2

2 2(1 + ) 1 1 1
(x,y) L(x, y, ) = = (16.23)
1 2(1 + ) 1 1
qui est positive, les valeurs propres valant 0 et 2. Le gradient de la fonction de contrainte vaut
(2x 4, 2y 4)T . Il est donc colinaire (1, 1)T pour x = y et l'espace tangent est engendr
T T
par le vecteur (1, 1) .Comme (1, 1) est le vecteur propre associ la valeur propre nulle, la
condition susante du second ordre n'est pas vrie ici. De mme, pour = 3/2, la matrice
hessienne a tous ses termes gaux -1 et ses valeurs propres sont 0 et -2 ; Les conditions susantes
du second ordre ne sont donc pas vries ici non plus.
Finalement, il apparat que les conditions ncessaires du premier ordre sont satisfaites pour (x, y)
gal (1, 1), (3, 3) ou (3, 3). Pour ces trois couples, le critre optimiser vaut respectivement
1, 9 et 27. Donc seul le point (1, 1) peut reprsenter le minimum global du problme. (1, 1) est
eectivement la solution du problme d'aprs le thorme de Weierstrass (le critre est continu
et la contrainte qui est une ellipse est bien un ensemble compact).
16.4 Conditions d'optimalit en prsence de contraintes d'galit

et d'ingalit
On considre mintenant le problme suivant

min f (x)
f e (x) = 0, (16.24)
i
f (x) 0,
o f e : Rn Rm ; x 7 f e (x) = (f1 (x), . . . , fm (x))T , et f i : Rn Rm ; u 7 f i (x) =

(fm+1 (x), . . . , fm+p (x))T . On se limitera ici l'tude de l'optimalit en des points rguliers
au sens de la dnition 8, qui permet une dnition simple mais couvre un grand nombre de
situations.
16.4.1 Condition ncessaire du premier ordre
Thorme 34 (conditions de Khun et Tucker) Si u est point rgulier et un optimum local

du problme (16.24), alors,
Rm , Rp+ , f (u) + f e (u) + f i (u) = 0,
(16.25)
f i (u) = 0.
Notons que la condition f i (u) = 0 associe la positivit de et la ngativit de f i (u), se

i
rcrit en fait k = 1, . . . , p, k fk (u) = 0. Rappelons galement que A(u) reprsente l'ensemble
des indices des contraintes d'ingalit actives en u, c'est dire les valeurs de k {m+1, . . . , m+p}
telles que fk (u) = 0, les contraintes d'galit tant quant- elles bien entendu toujours actives
en un point ralisable.
Preuve Pour les contraintes inactives, on a fk (u) < 0 et on xe k = 0. Ainsi, on a bien
f i (u) = 0. D'aprs le thorme 31, on a alors galement
Rm , Rp , f (u) + f e (u) + f i (u) = 0. (16.26)
Il reste vrier la positivit des composantes de k pour k A(u). Eectuons une dmon-
stration par l'absurde en supposant qu'il existe k A(u) tel que k < 0, Notons Vk (u) =
{v; f e (v) = 0, j A(u) {k} fji (v) = 0}. Comme u est un point rgulier, fk (u) n'ap-
partient pas l'espace normal au plan tangent au point u la varit Vk (u), dni par
{v; [fj (u)]T v = 0, j {1, . . . , m} (A(u) {k})}. Il existe donc un vecteur v de ce plan
T T
tangent tel que fk (u) v < 0. Comme fj (u) v = 0 pour j {1, . . . , m} (A(u) {k}) et
j = 0 pour j / A(u), on trouve que
[f (u) + f e (u) + f i (u)]T v = f (u)T v + k fk (u)T v = 0. (16.27)
Mais, puisque fk (u)T v < 0 et k < 0, f (u)T v < 0. En utilisant le

on doit alors avoir
thorme des fonctions implicites, on peut alors construire une courbe x(t) de Vk (u), et donc
de l'ensemble des contraintes, avec t 0, telle que x(0) = u et x(0) = v. On aurait alors
d T
l'ingalit
dt f (x(t)) = f (u) v < 0, qui est contraire l'hypothse de minimalit locale de u,
CQFD.
16.4.2 Conditions du second ordre
Condition ncessaire
D'aprs le paragraphe prcdent, il est clair que le thorme de condition ncessaire du second
ordre prsent dans le cas de contraintes d'galit s'tend directement au cas de contraintes d'in-
galit en intgrant la condition les contraintes d'ingalit actives, ce qui conduit au thorme
suivant :
Thorme 35 (Conditions ncessaires du second ordre) Si u est un minimum local rgulier

du problme (16.24), alors
Rm , Rp+ , f (u) + f e (u) + f i (u) = 0,
f i (u) = 0.
v x fk (u)T x = 0, k {1, . . . , m} A(u) , vT 2u L(u, , )v 0.

(16.28)
Ici, le lagrangien L(u, , ) est dni par L(u, , ) = f (u) + f e (u)T + f i (u)T , et son hessien
est donn par
X X
2u L(u, , ) = 2u f (u) + k 2u fke (u) + k 2u fki (u). (16.29)
k=1,m k=1,p
Remarques
i) Il se peut que pour une solution (u, , ) des conditions de Khun et Tucker une contrainte
d'ingalit fk (u) 0 fk (u) = 0, et que simultanment on ait k = 0.
soit active, c'est dire que
ii) Pour traduire la positivit de la matrice 2 L(u, , ) pour les vecteurs de l'espace E(u) =
u
v fk (u)T v = 0, k {1, . . . , m} A(u) , il sut de dnir une base {v1 , . . . , vl } de cet espace

et la matrice V dont les colonnes sont constitues de ces vecteurs : V = [v1 . . . vl ]. On pourra alors
2
montrer titre d'exercice que la positivit (resp. la positivit stricte) de u L(u, , ) restreinte
E(u) est quivalente la positivit (resp. la positivit stricte) de la matrice VT [2u L(u, , )]V.
Cette proprit est utile en pratique pour vrier la condition susante nonce ci dessous.
Condition susante
Thorme 36 (Conditions susantes du second ordre) Si u est un point rgulier du

problme (16.24), avec f, (fk )k=1,...,m+p C 2 , et si
Rm , Rp+ , f (u) + f e (u) + f i (u) = 0,
f i (u) = 0.
v x fk (u)T x = 0, k {1, . . . , m} {k; k > 0} , vT 2u L(u, , )v > 0.

(16.30)
alors u est un minimum local strict du problme (16.24).
Preuve On pourra faire la dmonstration titre d'exercice en reprenant, avec des notations
analogues, la dmonstration par l'absurde du thorme 33.
16.5 Lagrangien, points selles, et dualit
16.5.1 Points selles
Considrons le problme

min f (x)
(P ) (16.31)
f i (x) 0.
Le lagrangien L(u, ) est une fonction de Rn Rp dans R. On dit que (u, ) est un point selle
de L si v L(v, ) a un minimum en u et si L(u, ) a un maximum en .
Thorme 37 . Si (u, ) est un point selle,
sup inf v L(v, ) = inf v sup L(v, )

(16.32)
= L(u, ).
16.5.2 Problmes primal et dual
Thorme 38 (problmes primal et dual)

1. Soit L(v, ) = f (v) + i=1,p k fki (v). Si (u, ) Rn Rp est un point selle de L,alors u
P
appartient l'ensemble U = {v; fki (v) 0} et reprsente une solution du problme (16.31).
2. Si f et (fki )i=1,p sont convexes et drivables en un point rgulier u qui est un minimum
local du problme (16.31), alors Rp+ , (u, ) est un point selle de L.
L(v, ) est appel lagrangien associ au problme (P ).

Si on connait la valeur de associe un point selle, on est ramen au problme sans contraintes
de la recherche d'un vecteur u tel que
(P ) L(u , ) = inf L(v, ). (16.33)

v
Pour trouver ce , il aura fallu rsoudre
(D) Rp+ , G() = sup G(), avec G() = inf L(v, ). (16.34)
Rp+ v
(P ) et (D) sont respectivement appels problme primal et problme dual.
Thorme 39 (lien entre les problmes primal et dual)

1) Si les (fkk )i=1,p sont continues et que Rm + (P ) admet une unique solution u , avec
u continue, alors une solution de (D) correspond une solution u qui est solution de
(P ).
2) Si u est un point rgulier solution de (P ), que f et les (fki )i=1,p sont convexes et drivables en
u, (D) admet au moins une solution.
Ainsi, avec les hypothses prcdentes,
(u, ) est point selle de L est solution de (D)
est solution de (D) (u , ) est point selle de L.
Exemple. f (v) = 1 T
2 v Av v T b, et U = {v; Cv d}, C Rm Rn . On a les relations
suivantes
L(v, ) = 21 vT Av vT (b CT ) T d
u = A1 (b CT )
(16.35)
G() = 12 (b CT )A1 (b CT ) T d
CA1 CT 0.
Donc G() admet un minimum, unique si C est de rang p, qui annule
G() = CA1 CT + (CA1 b d). (16.36)

Chapitre 17
Optimisation sous contraintes :

algorithmes
Ce chapitre, en cours de rdaction, prsente quelques techniques d'optimisation pour les prob-
lmes contraints.
17.1 Extension des mthodes sans contraintes
Une premire ide consiste, pour les problmes contraints, chercher gnraliser les techniques
dveloppes pour les problmes non contraints.
17.1.1 Mthode de relaxation
Thorme 40 Soit f : Rn R elliptique. Si l'ensemble U des contraintes est de la forme

k=1,n [ai , bi ] (ai , bi R), la mthode de relaxation converge.
L'extension du thorme des ensembles plus gnraux n'est pas immdiate (considrer par
exemple le cas o f (v) = v12 + v22 , et U = {(v1 , v2 ); v1 + v2 2}).
17.1.2 Thorme de projection et gradient projet
Le thorme de projection est un outil d'usage courant pour l'optimisation dans les espaces de
Hilbert. Rappelons qu'un espace de Hilbert H est un espace vectoriel norm complet (c'est
dire tel que toute suite de Cauchy y est convergente) muni d'un produit scalaire. Dans un tel
espace, on a le rsultat fondamental suivant appel thorme de projection. On en donne ici
un nonc{e retreint Rn .
110
CHAPITRE 17. OPTIMISATION SOUS CONTRAINTES : ALGORITHMES 111
Thorme 41 Soit U Rn un ensemble convexe ferm et non vide. Alors
x Rn , !xP U, et k x xP k= inf k x y k . (17.1)

yU
xP est l'unique lment z de U tel que y U , (z x)T (y z) 0.

L'application P : x xP est telle que
x1 , x2 Rn , k x1P x2P kk x1 x2 k . (17.2)
P est linaire si et seulement si U est un sous espace vectoriel de Rn , auquel cas
y U, yT (xP x) = 0. (17.3)
Thorme 42 (Convergence de la mthode de gradient projet). Soit f : Rn R, et U Rn

est un ensemble convexe non vide. Si , M > 0, tels que x, y Rn
(f (y) f (x))T (y x) k y x k2
(17.4)
k f (y) f (x) k M k y x k,
et a, b > 0 tels que 0 < a < k b < (2/M 2 ), la mthode du gradient projet converge et
< 1, k uk u k k k u0 u k . (17.5)
Notons cependant que la construction de l'oprateur de projection PU est parfois dicile.
17.1.3 Mthode de point intrieur
Les mthodes de point intrieur visent remplacer les contraintes du critre par un terme additif
qui tend vers l'inni la frontire du domaine des contraintes lorsqu'on augmente un paramtre
de rglage d'adquation aux contraintes que l'on notera ici t. Ainsi, au problme

minx f (x)
(17.6)
f i (x) 0, i = 1, . . . , p,

on pourra associer le critre non contraint suivant
1 X
f (x) + (f i (x)), (17.7)
t
i=1,p
o (z) est une fonction dcroissante sur R+ qui prsente une divergence en 0. En pratique,
on cherchera minimiser itrativement cette fonction tout en faisasnt crotre la valeur de t.
Typiquement, on prendra (z) = log z .
La mthode de point intrieur constitue une technique de pnalisation interne qui conduit
des algorithmes itratifs qui doivent tre initialiss l'intrieur du domaine des contraintes.
17.1.4 Mthode de pnalisation externe
On peut aussi envisager des mthodes de pnalisation externe qui consistent remplacer
les contraintes d'ingalit par une fonction nulle dans le domaine des contraintes et strictement
positive l'extrieur. Indiquons ici un rsultat de convergence pour une telle mthode.
Thorme 43 Soit f : Rn R, coercive et strictement convexe, U Rn un ensemble non

vide, convexe et ferm, et : Rn R, continue, convexe et telle que y Rn , (y) 0, et
(y) = 0 y U . Alors,
1
> 0, !ut Rn , f (ut ) = infn [f (x) + (x)], (17.8)
xR
et lorsque 0, ut tend vers arg inf yU f (y).
Notons qu' la dirences des mthodes de points intrieur, la construction pratique de la fonction
peut s'avrer dlicate pour une pnalisation externe.
17.1.5 Mthode d'Uzawa
Considrons de nouveau le problme

minx f (x)
(17.9)
f i (x) 0, i = 1, . . . , p.

Notons P+ la projection sur Rm

+ : [P+ ]i = max{i , 0}. Le problme dual (D) peut tre rsolu
par la mthode du gradient projet :
k+1 = P+ (k + G(k )), (17.10)
o G() = [f 1 (), . . . , f p ()]T .
u = arg minv [f (v) + i=1,p i f i (v)]. La mthode d'Uzawa consiste calculer itra-
P
Notons
tivement, partir de 0 x, uk = uk , puis k+1 par la relation (17.10). On remplace ainsi le
problme contraint par une suite de problmes non contraints.
Thorme 44 (convergence de la mthode d'Uzawa) Soit f : Rn R, elliptique, et U = {v

Rn ; Cv d} 6= (C Rp Rn ). Si 0 < < 2 k C k2 , o alpha satisfait la relation (14.15),
la suite (uk )kN converge vers l'unique solution de (P ). Si de plus C est de rang p, la suite
(k )kN converge vers l'unique solution du problme dual (D).
Exemple f (v) = 12 vTAv vT b, et U = {v; Cv d}, C Rp Rn . L'algorithme scrit

uk = A1 (b CT k )
k+1 = P+ (k + G(k ))
(17.11)
= P+ (k + (CA1 (b f C T k ) d))
= P+ (k + (Cuk d)).
Chapitre 18
Programmation linaire
18.1 Le problme
On cherche rsoudre le problme d'estimation d'une fonction linaire sous des contraintes
linaires de type galit ou ingalit :
P P
max
P j=1,n cj xj max
P j=1,n+m cj xj
(I) j=1,n Aij xj bi , i = 1, m j=1,n+m Aij xj = bi , i = 1, m
i 0 i = 1, n xi 0 i = 1, n + m

x
(18.1)
max z = cx
maxxU z = cx
Ax = b
U = {x Rm+n ; Ax = b, x 0}
x0

o on a pos, pourj > 0 Aij = i,n+i . U est un polytope convexe, c'est dire un sous ensemble
convexe de R
m+n dont la frontire est dnie par un nombre ni d'hyperplans. U a un nombre
ni de points extrmes, c'est dire de points qui ne se trouvent pas sur un segment ]a, b[ o a
et b appartiennent U.
Thorme 45 Si U est non vide et born, minxU cx est atteint en au moins un point extrme
de U . Si le minimum est atteint en plusieurs points extrmes, le convexe qu'ils engendrent est un
ensemble de solutions du problme.
18.2 Bases ralisables
On peut supposer que A est de rang m (sinon le systme Ax = b n'a pas de solution ou est
redondant, auquel cas on peut liminer les quations redondantes). On appelle base une sous ma-
trice AB de de taille m extraite de A et inversible. On note xB les composantes correspondantes
de x. On a alors
z = cB xB + cB xB et Ax = AB xB + AB xB = b (18.2)
114
CHAPITRE 18. PROGRAMMATION LINAIRE 115
On appelle solution de base AB le vecteur x dni par xB = A1

B b et xB = 0. Une solution de
base est dite ralisable si xB 0.
Thorme 46 L'ensemble des points extrmes de U correspond l'ensemble des solutions de

base ralisables
18.2.1 Solutions de base ralisables optimales
Le problme (I) se ramne donc celui de la recherche des solutions de base ralisables optimales.
Notons A = [AB AB ] = [A1 , . . . , Am , Am+1 , . . . , Am+n ].
xB + (A1 1
B AB )xB = AB b, (18.3)
donc
z = cB [A1 1
B b (AB AB )xB ] + cB xB
(18.4)
cB A1 1
P
= B b jB [cB AB Aj cj ]xj .
Notons j = cB A1
B Aj . On a alors le rsultat suivant :
Thorme 47
A1

[i B, j cj 0] B b est une solution optimale. (18.5)
0
18.3 Changement de base ralisable
B tant une base ralisable, on cherche la transformer en une nouvelle base : B B0 =

B {s} + {r} o s et r correspondent aux indices des colonnes AS et AR de A qui sortent et
entrent dans la base respectivement.
Proposition 3 B 0 est une base si et seulement si [A1

B Ar ]s 6= 0.
Preuve Cela provient du fait que

X X
i Ai + r Ar = 0 i ei + r A1
B Ar = 0. (18.6)
iB,i6=s iB,i6=s
Cherchons quelle condition la nouvelle base est ralisable.
0
x
AB Ar B0 = b. (18.7)
xr
avec x0s = 0. Donc,
x0B

A1 0 = A1 0 1 0 1

I B Ar xr B b xs + [(AB Ar )s xr ] = (AB b)s (18.8)
Comme la base B est ralisable et que x0s = 0 est nulle pour la nouvelle solution de base,
x0r = (A1 1 1
B Ar )s (AB b)s . (18.9)
Comme la base B est ralisable, (A1

B b)s 0 et il faut que (A1
B A r )s soit positif pour que x0r le
soit. De plus, dans la nouvelle base,
X
x0i ei + (A1 0 1
B Ar )i xr = AB b. (18.10)
iB,i6=s
Donc,
x0i = (A1 1 0
B b)i (AB Ar )i xr , i 6= r. (18.11)
r tant x, on choisit s tel que x0r = (A1 1 1

B Ar )s (AB b)s soit minimal. comme d'aprs les
relations (18.9) et (18.11) on a
!1
(A1
B b)i
x0i = (A1 0
B b)i 1 xr 1
(18.12)
(AB Ar )i
et il apparat que le facteur de droite de lgalit prcdente est positif. De plus, xi = (A1
B b)i 0.
POur le choix de s retenu, on assure bien la positivit de du vecteur de
0
base x .
18.4 algorithme du simplexe
Pour la valeur de s xe comme prcdemment, cherchons r telle que B0 soit meilleure que B.
B 0 est meilleure que B si r cr > 0 (r = cB (A1
B Ar )). En eet, d'aprs (18.4), la solution x0
dans la nouvelle base vrie
cx = = cB A1 1
cj ]x0j
P
B b jB 0 [cB AB Aj
(18.13)
= cB A1
B b (r cr )xr ,
c'est dire que z(x0 ) = z(x) (r cr )xr . On voit donc que la dcroissance du crtre est assure
si r cr > 0. An de favoriser une d{ecroissance forte du critre, on cherchera une valeur
positive minimale de r cr .
L'algorithme du simplexe implmente cette stratgie de faon itrative :
tant que i B , i ci > 0,

chercher r tel que |r cr | = max(i ci )>0 |i ci |
prendre s tel que x0r = (A1 1 1
B Ar )s [(AB b)s ]
1 soit minimal,
avec (AB Ar )s > 0

1
Notons que tous les xi de la solution de base sont alors positifs chaque itration.
18.5 Programmation linaire et dualit
18.5.1 Problme primal et problme dual
Considrons le programme
min cT x

Ax = b (18.14)
x0

Le Lagrangien associ ce problme s'crit
L(x, , ) = cT x + T (Ax b) + T x = (cT T A + T )x T b, (18.15)
avec Rn+ et i xi = 0 pur i = 1, . . . , n. La minimisation sur x du lagrangien L(x, , ) admet

une solution si et seulement si (cT T A)i 0.
On voit que l'existence d'un point selle (x, ) se traduit par le fait que pour xi > 0 on doit avoir
(cT T A)i 0, car sinon l'augmentation de xi se traduirait par la diminution du critre ce
qui est incompatible avec la dnition du point selle.
Finalement, pour le problme primal (18.14) on obtient un problme dual de la forme
max bT x

AT c (18.16)
x0

Dans la suite, on va tablir les proprits de dualit pour les progralmes linaires qui ont servi
la dmonstration du thorme (31). Mais auparavant, on va indiquer les liens existants entre
problme primal et problme dual.
18.6 Equivalence du problme primal et du problme dual
Considrons le problme primal (P ) et son dual (D) :
min cT x

max bT x

(P ) : Ax = b (D) : (18.17)
AT c
x0

Le Lagrangien associ ce problme s'crit
L(x, ) = cT x + T (Ax b) + T x = (cT T A + T )x T b, (18.18)
Proposition 4 L'ensemble des problmes primaux concide avec l'ensemble des problmes duaux
Preuve Considrons le problme (P ), et notons que Ax = b peut se reformular comme les deux
ingalits Ax b et Ax b. Donc(P ) se reformule comme le programme dual suivant :
T

max c
x

A b
(18.19)
A x b

I 0

Inversemmment, en posant = 1 2 , avec 1 0 et 2 0 on peut rcrire (D) sous la

forme primale ; Pour cela, introduisons un vecteur y 0 supplmentaire tel que AT + y = c
et notons = [T T yT ]T . Les
1 2 composantes de y sont appeles variables d'cart. Il apparat
nalement que (D) se rcrit :

T T

T b T b 0
min
A A =c
I (18.20)
x 0,

qui est bien la forme d'un programme primal. Donc l'ensemble des programmes primaux concide
avec l'ensemble des programmes duaux.
Montrons enn que le dual du programme (D) est le programme (P ). Le dual du programme
dual (D) rcrit sous la forme (18.20) est
max cT u

A b
(18.21)
A u b .

I 0

En posant x = u et en ramplaant les relations Au b et Au b par Ax = b, on

retrouve bien le programme primal (P )
18.7 Thorme de dualit pour la programmation linaire
Notons maintenant que si x et sont des valeurs ralisables (c'est dire satisfaisant qux
contraintes) pour les problmes (P ) et (D) respectivement, alors les conditions Ax = b, AT c
et x0 conduisent aux relations
T b = T Ax cT x. (18.22)
La relation T b cT x est connue sous le nom de proprit de dualit faible et conduit

l'nonc suivant :
Proposition 5 L'ensemble des points ralisables du dual conduit des valeurs du critre dual
infrieures l'ensemble des valeurs prises par le critre primal pour ses points ralisables. En
termes mathmatiques, on a donc :
{bT ; AT c}, {cT x; Ax = bx 0}, (18.23)

Cette propritt permet d'tabir le thorme suivant qui montre l'quivalence des problmes (P )
et (D).
Thorme 48 Si l'un des problmes (P ) ou (D) admet une solution, il en est de mme pour
l'autre et les valeurs de l'optimum sont identiques. Inversement (P ) n'est pas born infrieurement
ou (D) n'est pas born suprieurement, alors l'autre problme n'admet pas de valeur ralisable.
Dmonstration Comme on a vu au paragraphe prcdant que tout problme primal pouvait

prendre la forme quivalente d'un problme dual et que le dual du dual d'un problme donn
correspond au problme primal de dpart, on pourra se contenter de dmontrer le rsultat en
considrant exclusivement les hypothses nonces pour le problme primal (P ).
Supposons donc que le problme primal admet une solution et notons z la valeur de l'optimum.
L'existence d'une valeur ralisable optimale pour le problme dual (D) qui conduirait un
optimum gal z peut se reformuler sous la forme
Rm , x Rn+ , t R+ , (cT T A)x + t(T b z) 0. (18.24)
En eet, on sait que pour une valeur ralisable de (D) on a ncessairement T b z 0 ;

T
La proprit (18.24) imposera donc pour tre vrie d'avoir b z = 0 (prendre x = 0 et t
arbitraierement grand).
Pour montrer (18.24), notons que cette proprit se rcrit encore comme
Rm , x Rn+ , t R+ , (tz cT x) + T (tb Ax) 0. (18.25)
Pour tablir cette dernire relation, on considre le cne convexe ferm
C = (r, w); r = tz cT x, w = tb Ax, t 0, x 0 .

(18.26)
Si on parvient dmontrer que / C , le thorme de sparation de

(1, 0) Han-Banach 1
permet d'tablir l'existence d'un couple (s, : ) tel que l'hyperplan d'quation
H = (, ) Rm+1 ; s + T = 0

(18.27)
spare C et (1, 0), avec

(r, w) C, s1 + T 0 < 0 sr + T w. (18.28)
Sans perte de gnralit, on pourra choisir s = 1 et, compte tenu de la dnition de C , l'ingalit
de droite de (18.28) correspond alors prcisemment la relation (18.25) que l'on cherche tablir.
Il nous reste donc vrier que (1, 0)
/ C.
Si on avait (1, 0) C , il devrait exister t 0 et x 0 tels que Ax = tb et tz cT x > 0. Pour

t > 0, en
0 0 T 0
notant x = x/t, on aurait Ax = b et c x > z , ce qui est impossible puisque z est
1. Thorme de sparation de Han-Banach : tant donn deux ensembles convexes ferms, C1 et C2 , il existe un
hyperplan qui spare strictement C1 et C2 , c'est dire que C1 et C2 se trouvent de part et d'autre de cet hyperplan
(sparation) et que l'un au plus de ces ensembles admet des points communs avec l'hyperplan (sparation stricte).
De plus, lorsque comme ici un des deux convexes est un cne, on peut choisir un hyperplan passant par l'origine
la valeur minimale prise par le critre (P ). Pour t = 0, on aurait Ax = 0 et cT x > 0 et donc,

pour tout vecteur y0 tel que Ay = b, on aurait
0, y + x 0, A(y + x) = b, et lim cT (y + x) = , (18.29)

ce qui est contradictoire avec la valeur optimale nie z de (P ). On a donc bien (1, 0)
/ C.
Si maintenant le problme (P ) n'est pas infrieurement, la proprit de dualit faible indique

que six et sont des valeurs ralisables pour les problmes (P ) et (D) respectivement, alors
T b cT x. Comme x peut tre choisi tel que cT x soit arbitrairement petit on devra avoir
T b = , ce qui est impossible. Donc le problme dual n'admet pas de valeur ralisable.
Exemple d'application A titre d'illustration de l'emploi possible du thorme de dualit,

on va proposer ici une dmonstration de la condition ncessaire d'optimalit du premier ordreen
programmation non linaire sous contrainte d'galit base sur son emploi. Rappelons ici l'nonc
de ce thorme :
Si u est un point rgulier et un optimum local pour le problme

min f (x)
, (18.30)
f e (x) = 0,
alors
Rm , f (u) + f e (u) = 0. (18.31)
Voici la dmonstration faisant appel la notion de dualit en programmation linaire
Preuve Soit u un point rgulier du problme (18.30). Considrons le problme de programmation

linaire suivant :
max f (u)T v

(P L) (18.32)
f e (u)T v = 0,
On va tout d'abord montrer que pour un point rgulier optimal u de (18.32), [f e ]T (u)v =
0 [f (u)]T v = 0 ce qui tablit l'existence d'un optimum du problme primal et donc, d'aprs
le thorme de dualit 48, l'existence de solutions ralisables pour le problme dual, dont on
montrera que l'ensemble de contrainte sur est prcismment dcrit par la relation f (u) +
f e (u) = 0.
Commenons donc par tablir que [f e (u)]T v = 0 f (u)T v = 0. Si [f e (u)]T v = 0, v

appartient au plan tangent la varit f
eT (x) = 0 au point x = v. Il existe donc une courbe
e
t y(t) de V = {x; f (x) = 0}, avec y(0) = u et y(0) = v. L'optimalit de u pour le problme

(18.32) entraine en particulier l'optimalit de f (y(t)) en t = 0. Donc y(0) = [f (u)]T v =
0. Le problme (P L) admet donc une solution et la valeur optimale du critre vaut donc 0.
Comme indiqu plus haut, le problme dual admet donc au moins une valeur qui satisfait aux
contraintes. Pour crire ce programme dual, commenons par remttre le problme (P L) sous une
T T T
forme standard quivalente en posant v = v1 v2 , avec v1 0 et v2 0, et x = [v1 v2 ] . On
obtient ainsi la forme

min f (u) f (u) x
(f e (u))T (f e (u))T x = 0

(P L) : (18.33)
x0

dont la forme duale est

T

max
0e
(DL) : f (u) f (u) (18.34)
.
f e (u) f (u)

Il apparat donc, en considrant les contraintes de ce problme, qu'il existe Rm tel que
f (u) + f e (u) = 0. (18.35)

Annexe A
Master SISEA
Corrig des examens
sessions de janvier 2006 2010
122
ANNEXE A. MASTER SISEACORRIG DES EXAMENSSESSIONS DE JANVIER 2006 2010123
Janvier 2010
I On veut construire une boite rectangulaire ouverte avec une surface de 192cm2 de carton.
i) Si la base doit tre carre, quelles dimensions donnent le plus grand volume ?
En notant a le cot de la base et h la hauteur, le problme s'crit alors
V = a2 h

max

(A.1)

a2 + 4ah = 192cm2
a 0, h 0

Les contraintes d'ingalit devront bien sr tre inactives. Sinon on obtiendrait

V =0 qui est le
minimum du problme (obtenu pour (a, h) = ( 192, 0)).
Le lagrangien s'crit L(a, h, ) = a2 h + (a2 + 4ah 192) et son gradient

2ah + (2a + 4h)
(a,h) L(a, h, ) = = 0. (A.2)
a2 + 4a
La dernire quation conduit a=0 ou a=6 0 du fait que a2 + 4ah = 192,

= a/4. Comme
on doit avoir = a/4. La premire quation se rcrit alors 4h (a + 2h) = 0, soit h = a/2.
2 2

La contrainte a + 4ah = 192 donne alors 3a = 192, soit a = 64 = 8cm. On a ainsi h = 4cm
et V = 256cm .
3
Les conditions ncessaires du premier ordre conduisent donc la solution (a, h, ) = (8, 4, 2).
Cette condition est susante car on cherche ici maximiserV = a2 h qui est une fonction continue
2
sur le domaine de contraintes ferm et born {a +4ah = 192, a 0, h 0}. D'aprs le thorme
de Weierstrass le problme admet donc une solution qui ne peut donc tre que (a, h) = (8, 4).
ii) Mme question si la base peut tre rectangulaire.
Dans ce cas, en notant b le second ct du rectangle, on obtient

max V = abh

(A.3)

ab + 2(a + b)h = 192
a, b, h 0

L encore le maximum est atteint lorsque les contraintes d'ingalit sont inactives. Le lagrangien
s'crit L(a, h, ) = abh + (ab + 2(a + b)h 192) et son gradient

bh + (b + 2h)
(a,h) L(a, h, ) = = 0. (A.4)
ah + (a + 2h)ab + 2(a + b)
la dirence des deux premires quations donne (b a)(h + ) = 0. Si = h, bh + (b + 2h) =

0= 2h2 et le volume serait nulle. Donc a = b et le problme est quivalent celui de la question
prcdente. La solution est encore (a, b, h) = (8, 8, 4)cm.
II Montrez qu'on peut carter la dernire contrainte du problme suivant :

1 2

minx,y
2x +y

2x + y 2 (A.5)
xy 1

x0

Les deux premires contraintes se rcrivent x 1y/2 et y x1. Donc, x 1(x1)/2, soit
x 1. La dernire contrainte est donc redondante avec les deux premires et peut tre carte.
ii) Trouver la solution.
Le lagrangien s'crit
1
L(x, y, ) = x2 + y 2 + 1 (2 2x y) + 2 (x y 1)
2
avec i 0 (i = 1, 2), et les conditions de Khun et Tucker sont donnes par

x 21 + 2
=0

2y 1 2

(A.6)
(2 2x y) =0
1

2 (x y 1) =0
Si 1 et 2 sont non nuls, (x, y) = (1, 0) et le critre vaut 1/2.
Si 1 = 0 et 2 6= 0, y = x 1 et en additionnant les deux quations de L = 0, on trouve

x + 2y = 0. Donc (x, y) = (2/3, 1/3). Mais alors 2 = 2/3, ce qui est impossible.
Si 1 6= 0 et 2 = 0, y = 2 2x et la condition L = 0 conduit x = 4y . Finalement, (x, y) =

(8/9, 2/9), 1 = 4/9 > 0 et le critre vaut 4/9.
Le point (x, y) = (8/9, 2/9) est donc le point qui parmi ceux qui assurent les conditions nces-
saires de Khun et Tucker conduit la valeur minimale du critre. La condition ncessaire est ici
susante car en tout point

2 1 0
L= > 0. (A.7)
0 2
III Trouvez l'optimum du problme suivant en passant par les conditions de Khun et Tucker :
Pn

miny i=1 yi

(A.8)
n y = 1
i=1 i

yi 0 i = 1, . . . , n.
Notons que les contraintes yi 0 ne peuvent pas tre actives puisqu'on doit avoir ni=1 yi = 1.
On va donc chercher simplement rsoudre le problme sans les contraintes d'ingalit en se
restreignant ensuite aux solutions positives. Le lagrangien s'crit alors
L(y, ) = yT 1I + (ni=1 yi 1) (A.9)
et son gradient est

y L = 1I + (ni=1 yi )diag(1/y1 , . . . , 1/yn )1I = 0. (A.10)
Il apparat donc que l'on doit avoir tous les yi gaux ni=1 yi . ni=1 yi = yin = 1
La contrainte
donne alors yi = 1, i {1, . . . , n}, compte tenu de la contrainte de positivit. Par suite, = 1.
Notons de plus que la matrice hessienne du lagrangien vaut alors
2y L = (ni=1 yi ) 2 2
[1/y1 , . . . , 1/yn ]T [1/y1 , . . . , 1/yn ] = I 1I1IT

diag(1/y1 , . . . , 1/yn ) (A.11)
Le gradient de ni=1 yi 1 au point (1, . . . , 1) est le vecteur 1I et tout vecteur v de l'espace tangent
T T 2 T T
la contrainte en ce point vrie donc v 1I = 0. Il en rsulte que v (y L)v = v (I 1I1I )v =k
v k2 . La restriction du hessien du lagrangien au point (1, . . . , 1) est donc strictement positive,
ce qui tablit que la condition ncessaire d'annulation du lagrangien en ce point est galement
Pn
susante. Finalement, la valeur du minimum est i=1 = n.
ii) En dduire que

n
1X
xi (ni=1 xi )n , xi 0, i = 1, . . . , n. (A.12)
n
i=1
L'ingalit est clairement vrie si un des xi est nul. Maintenant, si tous les xi sont non nuls, en
posant
Pn yi = xi /(nj=1 xj )1/n , comme ni=1 yi = 1, il est clair d'aprs la question prcdente que
i=1 y i n, ce qui conduit immdiatement au rsultat dsir.
IV Pour a, b et c trois constantes strictement positives xes, on veut minimiser la somme de

trois nombres positifs x, y et z sous la contrainte :
a b c
+ + = 1. (A.13)
x y z
i) Montrez qu' l'optimum les inconnues sont strictement positives.
La contrainte d'galit ne pourrait pas tre satisfaite si un des nombres x, y ou z tait nul.
ii) Trouver la solution en passant par la mthode des multiplicateurs de Lagrange et justiez
votre rponse.
Puisque les contraintes de positivit ne sont pas actives, le problme se rsume la recherche
des solutions positives parmi les solutions du problme d'optimisation sous la seule contrainte
d'galit. Le lagrangien s'crit alors
a b c
L(x, y, z, ) = x + y + z + ( + + 1) (A.14)
x y z
et son gradient est
xyz L(x, y, z, ) = 1I [a/x2 , b/y 2 , c/z 2 ]T . (A.15)
L = 0, on trouve donc que > 0 et

En considrant les conditions ncessaires du premier ordre
p
(x, y,z) = ()( a, b, c). En rinjectant ces valeurs dans l'quation de contrainte, on trouve

que = a + b + c. La matrice hessienne en ce point vaut
2xyz L(x, y, z, ) = 2diag(a/x3 , b/y 3 , c/z 3 ) > 0. (A.16)
La condition susante est donc galement satisfaite et la solution du problme est obtenue en

(x, y, z) = ( a + b + c)( a, b, c) (A.17)

et en ce point, le critre vaut x + y + z = ( a + b + c)2 .
Janvier 2009
I Trouver la solution de
(x + y z 1)2 + (x + y)2 + 5x2

min
(A.18)
2x + z = 0

en se ramenant un problme non contraint.
Comme z = 2x, il sut de minimiser
f (x, y) = (3x + y 1)2 + (x + y)2 + 5x2 (A.19)
Le gradient de f est

15x + 4y 3
f (x, y) = 2 . (A.20)
4x + 2y 1
L'annulation du gradient conduit (x, y) = (1/7, 3/14). De plus, la matrice hessienne de f vaut

2 15 4
f (x, y) = 2 . (A.21)
4 2
La trace et le dterminant de cette matrice valent respectivement 17 et 14 et correspondent la
somme et au produit de ses valeurs propres, qui sont donc positives. Donc la matrice 2 f (x, y)
est positive en tout point (x, y) etf est convexe. (x, y) = (1/7, 3/14) ralise donc le minimum
(global strict) de f. On en dduit z = 2x = 2/7.
ii) En passant par le lagrangien (justiez vos rponses)
L(x, y, z, ) = (x + y z 1)2 + (x + y)2 + 5x2 + (2x + z). (A.22)
Son gradient est

2(7x + 2y z 1 + )
xyz L(x, y, z, ) = 2(2x + 2y z 1) . (A.23)
2(x + y z 1) +
L'annulation du gradient conduit x = /5 (dirence des deux premires lignes du gradient)
etz = 1 (combinaison des deux dernires lignes). En remplaant ces valeurs dans l'quation
de contrainte, on trouve 2/5 1 = 0, soit = 5/7 et (x, y, z) = (1/7, 3/14, 2/7).
La matrice hessienne du lagrangien est

7 2 1
2xyz L(x, y, z, ) = 2 2 2 1 . (A.24)
1 1 1
En tout point, le gradient de 2x + z est u = [2, 0, 1]T . Donc l'espace tangent la contrainte
est engendr par les vecteurs v = [0, 1, 0]T et w = [1, 0, 2]T . Pour vrier que la restiction de
2xyz L(x, y, z, ) l'espace tangent la contrainte est positive, il est quivalent de montrer que la
matrice

7 2 1 0 1
T 2 0 1 0 2 4
[v w] xyz L(x, y, z, )[v w] = 2 2 1 . 1 0
= (A.25)
1 0 2 4 15
1 1 1 0 2
est positive, ce qui est le cas d'aprs la question prcdente (trace=17, dterminant=14). Le
minimum est donc atteint (x, y, z) = (1/7, 3/14, 2/7) et c'est un minimum global strict.
II Soit la fonction f : R3 R, avec f (x, y, z) = x2 + y2 + z 2 2xyz .

i) Montrer que f n'est borne ni infrieurement ni suprieurement.
En eet, on a par exemple limx f (x, x, x) = limx 3x2 x3 = et limx f (x, x, x) =

.
ii) Montrer que (0, 0, 0) et (1, 1, 1) sont des points stationnaires de f et indiquer pour chacun
d'eux s'il s'agit d'un minimum local, d'un maximum local ou ni l'un ni l'autre.

x yz
f (x, y, z) = 2 y xz (A.26)
z xy
f est nul en (0, 0, 0) et (1, 1, 1). Ce sont donc des points stationnaires.

0 z y
2 f (x, y, z) = 2(I z 0 x) (A.27)
y x 0
En (0, 0, 0), 2 f = 2I. Donc (0, 0, 0) est un minimum local de f. En (1, 1, 1), le dveloppement
au second ordre de f s'crit
f (1 + x , 1 + y , 1 + z ) = [x y z ]2 f (1, 1, 1)[x y z ]T
(A.28)
= x2 + y2 + z2 2(x y + x z + y z ) + o(k k2 ).
notons que pour x > 0 et susamment petit, f (1 + x , 1 + x , 1 + x ) = 3x2 + o(x2 ) < 0 et

f (1 + x , 1, 1) = x2 + o(x2 ) > 0. Donc, le point (1, 1, 1) n'est ni un minimum ni un maximum
local.
III Rsoudre le problme suivant :

x2 + y 2

min
(A.29)
(x 1)3 y 2 = 0

i) Dessiner la courbe de la contrainte .

C'est la courbe en rouge ci dessous. Le point(1,0) n'est pas rgulier car la courbe de contrainte
n'y est pas drivable (point de rebroussement).
ii) Montrer qu'aucun point ne satisfait les conditions ncessaires du premier ordre.
L(x, y, ) = x2 + y 2 + ((x 1)3 y 2 ) (A.30)
et son gradient vaut

3(x 1)2

x
xy L(x, y, ) = 2 + . (A.31)
y 2y
Le gradient s'annule pour (1 )y = 0. La condition =1 est impossible car alors, le premier
terme du gradient vaut 2x + 3(x 1)2 et est strictement positif sur la courbe de contrainte
(x 1) ; Donc y = 0. Mais la contrainte impose alors x = 1, valeur pour laquelle le premier
terme du gradient est non nul. Donc le gradient du lagrangien ne s'annule pas sur le domaine de
contrainte et aucun point ne satisfait les conditions ncessaires du premier ordre.
iii) Quel est le point qui ralise le minimum, conclure.
En tout point de la courbe de contrainte x 1, donc x2 + y 2 1. L'galit n'est satisfaite qu'en

(x, y) = (1, 0) qui ralise donc le minimum (global stricte) du problme. On vrie ici que les
conditions ncessaires du premier ordre ne sont ncessaires que pour les points rguliers et que
les points irrguliers doivent tre considrs sparment.
IV Soit le problme d'optimisation suivant :

x2 + 4xy + y 2

max

x+y 8

(A.32)

x + 2y 4
x0

y0

i) Dterminer graphiquement l'ensemble des points admissibles.
L'ensemble des points admissibles est le polyhdre indiqu en rouge.

ii) Trouver le (les) point qui satisfait les conditions ncessaires du premier ordre. En reformulant
le problme comme un problme de minimisation de (x2 + 4xy + y 2 ) le lagrangien s'crit
L(x, y, ) = (x2 + 4xy + y 2 ) + 1 (x + y 8) + 2 (x + 2y 4) 3 x 4 y (A.33)
avec i 0, i = 1, 2, 3, 4.
Les conditions de Khun et Tucker du premier ordre sont donnes par

2x 4y + 1 2 3

xy L(x, y, ) = =0

4x 2y + 1 + 22 4
1 (x + y 8) =0

(A.34)

2 (x + 2y 4) =0
3 x =0

4 y = 0.
Considrons les dirents cas possibles concernant les contraintes actives, directement observables
sur la gure :
1. 3 > 0, 4 > 0 et 1 = 2 = 0 : x = y = 0 et en fait on doit aussi avoir 3 = 4 = 0.

En (x, y) = (0, 0) le critre vaut 0. C'est clairement un minimum global de x2 + 4xy + y 2
puisque sur R+ R+ ce critre est toujours positif (c'est mme un minimum global strict).
2. 4 > 0 et 1 = 2 = 3 = 0 : y = 0 et 4x 2y = 0. On retrouve (x, y) = (0, 0)

3. 4 > 0, 1 > 0 et 2 = 3 = 0 : (x, y) = (8, 0) mais l'annulation du premier terme du
gradient donne 1 = 16, ce qui est impossible.
4. 1 > 0 et 2 = 3 = 4 = 0 : 2x 4y + 1 = 0,4x 2y + 1 = 0 et x + y 8 = 0 d'o

on dduit que (x, y, 1 ) = (4, 4, 24) et les conditions ncessaires sont satisfaites.
5. 1 > 0, 2 > 0 et 3 = 4 = 0 : 2x 4y + 1 2 = 0, 4x 2y + 1 + 22 , x + y 8 = 0
et x + 2y 4 = 0. On trouve (x, y, 1 , 2 ) = (4, 4, 24, 0) comme prcdemment.
6. 2 > 0 et 1 = 3 = 4 = 0 : 2x 4y 2 = 0, 4x 2y + 22 = 0 et x + 2y 4 = 0.
On trouve (x, y, 2 ) = (20/13, 16/13, 24/13), ce qui est impossible.
7. 2 > 0, 3 > 0 et 1 = 4 = 0 : 2x4y 2 3 = 0, 4x2y +22 = 0 x+2y 4 = 0
et x = 0. Alors (x, y, 2 , 4 ) = (0, 2, 2, 10), ce qui est impossible.
8. 3 > 0 et 1 = 1 = 4 = 0 : 2x + 4y 3 = 0, 4x + 2y = 0 et x = 0. Donc (x, y, 3 ) =

(0, 0, 0).
Finalement, (x, y, z, 1 , 2 , 3 , 4 ) = 0 et (x, y, z, 1 , 2 , 3 , 4 ) = (4, 4, 24, 0, 0, 0) satisfont aux

conditions ncessaires du premier ordre et le premier point correspond un minimum du prob-
lme.
iii) Le point retenu satisfait-il les conditions susantes du second ordre ? Conclure.
Comme on optimise ici une fonction continue sur un ferm born le problme admet un point qui
ralise le minimum et un point qui ralise le maximum. Les conditions ncessaires d'optimalit
sont donc ici galement des conditions susantes, le minimum tant ralis en (0, 0) o le critre
vaut 0 et le maximum en (4, 4) o le critre vaut 96.
Janvier 2008
I Rsoudre le problme suivant :

y2 x

max
(A.35)
x2 + y 2 1.

en justiant votre rponse.
On rsoud le problme quivalent

x y2

min
(A.36)
x2 + y2 1.

Le lagrangien s'crit :
L(x, y, ) = x y 2 + (x2 + y 2 1). (A.37)
Les conditions de Khun et Tucker sont donnes par

1 + 2x

(x,y) L(x, y, ) = =0

2( 1)y (A.38)

(x2 + y 2 1) = 0, 0

et
Comme 1 + 2x = 0, il est clair que >0 et donc que x2 + y 2 = 1.
- Si = 1, x = 1/2 et le problme se ramne la recherche 2

du minimum de y sous la
2 2

contrainte y = 1x = 3/4. Les point (x, y, ) = (1/2, 3/2, 1) satisfont donc les conditions
ncessaires du premier ordre. Pour = 1, le hessien de L est donn par

2 1 0 2 0
L=2 = . (A.39)
0 1 0 0
(x, y) est donne par

La normale la contrainte au cercle unit en
T
le vecteur [x y] et sa tangente

par le vecteur [y
x]T et vaut T
v = [ 3/2 1/2] en P1 = (1/2, 3/2) et v = [ 3/2 1/2]T en
P2 = (1/2, 3/2). La restriction de 2 L l'espace tangent en (1/2, 3/2) est positive :
T 2
pour les deux points, v [ L]v = 1/2 > 0. Donc ces deux points reprsentent des optima locaux
du critre.
- Si y = 0, x = 1 et la valeur correspondante de vaut = 1/2. Dans ce cas,

2 1 0
L= (A.40)
0 2(1 1)
Dans les deux cas, l'espace tangent la contrainte est engendr par le vecteur v = [0 1]T . Si x = 1,
vT [2 L]v = 4 < 0 et on a un maximum local en P3 = (1, 0) et si x = 1, vT [2 L]v = 0
auquel cas on ne peut pas conclure directement pour le point P4 = (1, 0).
En P1 , P2 le critre vaut respectivement 1/2 3/4 = 5/4 et 1 en P4 . Donc la solution du

problme est obtenue en P1 et en P2 .
II Montrer que tous les points du domaine caractris par les 3 contraintes
2

x + y2 1

(A.41)

y 1/2
y 1/2

sont des points rguliers.
Les points intrieurs au domaine (en marron sur la gure) sont rguliers. De plus, les gradients
pour les trois contraintes sont respectivement engendrs par v1 = [y x]T , v2 = [1 0]T et
v3 = [1 0]T . Notons que si une seule contrainte est active on obtient un vecteur non nul (en
2 2
particulier v1 6= 0 car x + y = 1 lorsque la premire contrainte est active). Lorsque deux
contraintes sont actives ce sont soit la premire et la seconde, soit la premire et la troisime, car

les frontires des contraintes 1 et 3 n'ont pas de point commun. Comme |y| = 1/2 |x| = 3/2
dans ces deux situations, il est alors clair que (v1 , v2 ) et (v1 , v3 ) forment des familles libres et les
points pour lesquels deux contraintes sont satisfaites sont rguliers. Enn, comme on l'a vu les
trois contraintes ne peuvent pas tre satisfaites simultanment. Donc, tous les points du domaine
sont rguliers.
III Soit le problme d'optimisation suivant

min |x 2| + |y 2|

(A.42)

x2 + y 2 = 1
x y2 0

1) Dterminer graphiquement l'ensemble des points admissibles.
L'ensemble des points admissibles est donn par la courbe en marron.
2) En dduire l'expression explicite de la fonction minimiser.
Comme on cherche minimiser une fonction continue sur un ensemble ferm born, le problme
admet une solution (thorme de Weierstrass).
On cherche le point de la courbe de contrainte le plus proche du point (2, 2) au sens de la norme
L1 (k M N k1 = |Mx Nx |+|My Ny |). Ce point est clairement dans le quart de plan R+ R+ ,
ce que l'on vriera plus loin. Dans ces conditions, le problme se rcrit

min(2 x) + (2 y)

(A.43)

x2 + y 2 = 1
x y2 0

3) Trouver le minimum en justiant votre rponse.
(x, y) =
Si seule la premire contrainte est active, les conditions de Khun et Tucker conduisent
(1/ 2, 1/ 2) et si les deux contraintes sont actives, le point du quart de plan suprieur qui
2 2
vrie x = y et x + y
2 = 1 est donn par la solution positive de x2 + x 1 = 0, soit
q
(x, y) = ((1+ 5)/2, (1 + 5)/2). De ces deux points, le point (x, y) = (1/ 2, 1/ 2) ralise
le minimum. C'est donc ncessairement le minimum du problme, dont on a tabli l'existence
prcdemment.

Notons enn que |1/ 2 2| + |1/ 2 2| = 4 2 2 et que les points de la courbe situs dans
R+ R vrient |x 2| + |y 2| > |1 2| + |0 2| = 3 > 4 2 2 et ne peuvent donc pas tre
solution du problme.
IV Un importateur dispose de Q units d'un produit qu'il propose de vendre dans n magasins.
Chaque magasin i propose d'acheter di units un prix pi . L'importateur maximise son revenu
j pj xj en jouant sur
P la quantit xi qu'il vend au magasin i, avec 0 xi di . On suppose que
P
i, di > 0, pi > 0, di > Q et pour simplier que p1 > p2 > . . . > pn1 > pn .
1) Dcrire la procdure qui permet d'obtenir les quantits optimales xi pour i = 1, 2, 3, . . .
Intuitivement, le gain de l'importateur est optimis en vendant un maximum de produit au

premier acheteur, puis un maximum de la quantit restante au second, et ainsi de suite jusqu'
puisement du produit disponible. Cela se traduit par la procdure suivante :
x1 = min(d1 , Q)
x2 = min(d2 , Q x1 )
. (A.44)
.
.
Pn1
xn = min(dn , Q k=1 xk ).
2) Dmontrer que la procdure prcdente est optimale en indiquant les valeurs donner aux
3n + 1 inconnues Pxi , i , i , pour i = 1, . . . , n, et 0 , o i est associ la contrainte xi 0, i
xi di 0 et 0 xi = Q, dans les conditions ncessaires et susantes d'optimalit.
On cherche maximiser une fonction linaire sur un ensemble convexe born non vide (puisque
P P
l'hyperplan xi = Q < di a une intersection non vide avec le pav i [0, di ]). Le problme
admet donc une solution (thorme de Weierstrass) et comme on a un problme quivalent
un problme de programmation convexe, les conditions de Khun et Tucker sont ncessaires et
susantes.
Le lagrangien du problme s'crit
X X X X
L= p i xi + 0 ( xi Q) i xi + i (xi di ) (A.45)
Notons p = [p1 , . . . , pn ]T , = [1 , . . . , n ]T , = [1 , . . . , n ]T et 1It le vecteur de taille t de

composantes toutes gales 1. Les conditions de Khun et Tucker s'crivent
x L = p + 0 1In + = 0
i xi =0
i x i = i di (A.46)
i 0
i 0
Les relations i xi = i di indiquent que i = 0 ou xi = di .


P P
Notons k la valeur telle que i<k di Q et i=1,k di > Q. Les conditions de Khun et Tucker
sont satisfaites pour
= [d1 , . . . , dk1 , Q i=1,k1 di , 0, . . . , 0]T

P
x
= [p1 pk , . . . , pk 1 pk , 0, . . . , 0]T
(A.47)
= [0, . . . , 0, pk pk1 , . . . , pk pn ]T
0 = pk
qui correspond la solution fournie par la procdure dcrite dans la question prcdente.
De plus, on notera que le problme tudi consiste minimiser une fonction linaire sur un
ensemble convexe (c'est mme un problme de programmation linaire) qui de plus est ferm, ce
qui tablit que les conditions ncessaires du premier ordre sont galement susantes.
janvier 2007
I On considre le problme
opt 2xy
(A.48)
x2 + y 2 = 1.

1) Chercher les solutions des conditions du premier ordre
Le lagrangien s'crit :
L(x, y, ) = 2xy + (x2 + y 2 1). (A.49)
Les conditions ncessaires du premier ordre s'crivent :

2y + 2x 0
(x,y) L = = (A.50)
2x + 2y 0
(A.50) (y = x x = y ) y = 2 y . Donc {1, 1}.
Il apparat nalement que les conditions (A.50) se traduisent par = 1 et x = y . En

adjoignant la condition x
2 + y2 = 1, on trouve nalement comme solutions des conditions du
premier ordre

1 1 1 1 1 1 1 1
(x, y, ) ( , , 1), ( , , 1), ( , , 1), ( , , 1) . (A.51)
2 2 2 2 2 2 2 2
2) Avec les conditions du second ordre, trouver la nature des points prcdents.

1
2(x,y) L = 2 (A.52)
1
Si = 1, comme l'espace tangent au domaine des contraintes aux points ( 12 , 12 ) est engendr
par t = (1, 1), la restriction de la matrice hessienne cet espace tangent en ces points est donne
par

1 1
2 1 1 = 4( 1) = 8 < 0.
1 1
Donc en ( 12 , 12 ) et en ( 12 , 12 ) le problme possde un maximum local (qui est global
puisque ces maxima locaux ont la mme valeur).
Si = 1, comme l'espace tangent au domaine des contraintes aux points ( 12 , 12 ) est engendr
par t = (1, 1), la restriction de la matrice hessienne cet espace tangent en ces points est donne
par

1 1
2 1 1 = 4( + 1) = 8 > 0.
1 1
Donc en ( 12 , 12 ) et en ( 12 , 12 ) le problme possde un minimum local (qui est global
puisque ces minima locaux ont la mme valeur).

II Trouver le rectangle de primtre donn de surface maximale. Justier la rponse

On note C le primtre, et x et y la longueur des cts du rectangle. Le problme s'crit encore

max xy

2(x + y) = C (A.53)
x0

y 0.

Notons que les contraintes x0 et y0 sont ncessairement inactives puisque sinon xy = 0.

Or, la surface maximale ne peut pas valoir 0 puisque xy > 0 ds lors quex > 0 et y > 0 et
que par exemple x = y = C/4 dnit un point admissible pour lequel xy > 0. Il sut donc de
rsoudre le problme

max xy
(A.54)
2(x + y) = C

et de se restreindre aux solutions de composantes positives. Pour ce dernier problme,
L(x, y, ) = (y + 2, x + 2)T = (0, 0)T ,
soitx = y = 2. La contrainte 2(x + y) = C et la positivit de x et de y conduisent alors

x = y = C/4. La seule solution possible est donc un carr de ct C/4. Cette condition ncessaire
est galement susante d'aprs le thorme de Weierstrass puisque l'ensemble des contraintes
(2(x + y) = C, x 0, y 0) est un ferm born (segment ferm born) et que la fonction
(x, y) xy est continue.
III On considre le problme d'optimisation

min(x 49 )2 + (y 2)2

x+y 6

(A.55)

y x2 0
x0

y 0.

1) Montrer que les conditions de Khun et Tucker sont vries en (3/2,9/4).

Les conditions de Khun et Tucker s'crivent
(x,y) L(x, y, (i )i=1,4 ) = (x,y) (x 94 )2 + (y 2)2 + 1 (x + y 6) + 2 (x2 y) 3 x 4 y

1 (x + y 6) = 2 (x2 y) = 3 x = 4 y = 0.
i 0, i = 1, . . . , 4.
En (3/2, 9/4), on trouve que 1 = 3 = 4 = 0 et x2 y = 0 . On obtient ainsi les conditions

ncessaires suivantes :
2(x 94 ) + 2x2

0
(x,y) L(x, y, (0, 2 , 0, 0)) = = .
2(y 2) 2 0
Pour (x, y, 1 , 2 , 3 , 4 ) = ( 32 , 94 , 0, 21 , 0, 0), les conditions ncessaires du premier ordre sont ef-
fectivement satisfaites.
2) Interprter graphiquement les conditions de Khun et Tucker
Graphiquement, on voit qu'au point (3/2, 9/4) la courbe y = x2 est tangente la courbe de
9 2
niveau la fonction (x, y) (x + (y 2)2 qui passe par ce point, c'est dire au cercle
4)
9 9
centr sur ( , 2) qui passe par (3/2, 9/4). En d'autre termes, (3/2, 9/4) est la projection de ( , 2)
4 4
sur l'ensemble convexe ferm dni par les contraintes. On sait que cette projection existe et est
unique. Enn, le problme tudi est celui de la minimisation d'une fonction strictement convexe
sur un ensemble de contraintes convexes, ce qui tablit ici le caractre susant de la solution
trouve partir des conditions ncessaires.
3) Vrier les CNS du second ordre en ce point.
Pour 2 = 1/2,
1 + 22 0
2(x,y) L(x, y, (i )i=1,4 ) = = 2I > 0,
0 2
donc la condition susante du second ordre est galement vrie en (3/2, 9/4).
4) Dmontrez que ce point est l'unique minimum
Cet aspect a t justi la n de la rponse la question 2.

IV Soit le problme
max(1/3) i=1,n x3i
P

P (A.56)
xi = 0
Pi=1,n 2

i=1,n xi = n
On note et les multiplicateurs de Lagrange respectifs.
1) Cherchez la valeur de et exprimez le critre et les inconnues en fonction de .
On a
x21

.
Lx (x, , ) = . + 1I + 2x

.
x2n
= (1, . . . , 1)T . Comme i=1,n xi = 0, on en dduit que 1IT Lx (x, , ) = n + n = 0,
P
avec 1I
= 1. De plus, xT Lx (x, , ) = i=1,n x3i + 2n = 0, donc i=1,n x3i = 2n.

P P
soit
2)Rcrire les contraintes en fonction de et dduire du critre en fonction de le choix des xi

qui optimise le critre, une permutation prs.
La condition Lx (x, , ) = 0, se rcrit
x2i + 2xi 1 = 0.
p
xiP= + i 2 + 1, avec = 1. Comme les xi 2
P
On trouve ainsi dnis vrient i xi =n
ds lors que i=1,n xi = 0, le problme se rcrit nalement

min p
xi = + i 2 + 1

(A.57)
i = 1
P
i=1,n xi = 0

p
1 + 2 )1pqui peut prendre les valeurs entires
P
Les contraintes conduisent i i = n(
n, nP
+ 2, np+ 4, . . .P
, n. Comme la fonction n( 1P + 2 )1 est croissante et que vaut
2 2
= ( i i )/ n ( i i ) et n'est donc dni
p que pour i i {n+2, n+4, . . . , n2}, le
minimum possible pour est atteint pour n( 2 1
1 + ) = n+2, soit = (n2)/(2 n 1).
p
2 + 1 = (n)/(2 n) = 1/ n 1
Alors, n1 des coecients xi sont gaux
p
et le coecient restant est gal + 2 + 1 = n 1.
3) Conrmer la solution en vriant les conditions susantes du second ordre.
La matrice hessienne du lagrangien est une matrice diagonale

p D de i-me terme diagnal 2xi +2 =
2i 2 + 1. Pour xer les ides on supposera sans perte de gnralit que 1 = . . . = n1 = 1
et n = 1. L'espace tangent aux contraintes est dni par la normale aux gradients des fonctions
de contrainte. Ces derniers valent respectivement 1I et x et dnissent l'espace orthogonal
l'espace tangent aux surfaces de contrainte. Comme le n-me vecteur de la base canonique en est

p
le vecteur propre associ la valeur propre positive 2 2 + 1 et que en 1 1I + x, il est
n1
clair que l'espace tangent aux contraintes rside dans l'espace engendr par les valeurs propres
ngatives de la matrice et donc que la restriction de la matrice hessienne du Lagrangien aux
vecteurs de l'espace tangent aux contraintes est une matrice strictement ngative. Il en rsulte
que l'on a bien trouv un maximum du problme pos.
janvier 2006
I Diviser le nombre 8 en deux rels positifs x et y de faon maximiser xy(x y).

Le problme s'crit encore

max xy(x y)

x+y =8 (A.58)
x 0

y0

Notons que, par exemple, (x, y) = (5, 3) est un point admissible pour lequel xy(x y) > 0. Donc
l'optimum les contraintes d'ingalit ne sont pas actives (on aurait sinon xy(x y) = 0). Il
sut donc d'tudier les conditions ncessaires du premier ordre sans les contraintes de positivit.
Dans ces conditions, le lagrangien s'crit,
L(x, y, ) = xy(x y) + (x + y 8) (A.59)
et les conditions ncessaires du premier ordre s'crivent
2xy y 2 +

xy L(x, y, ) = = 0. (A.60)
x2 2xy +

La solution pour laquelle x>0 et y>0 est (x, y, ) = (4(1 + 1/ 3), 4(1 1/ 3), 32/ 3).
Le domaine des contraintes {x + y = 8, x 0 y 0} est compact et le critre xy(x y)

est continu ce qui assure l'existence d'une solution (thorme
de Weierstrass). (x, y) = (4(1 +
1/ 3), 4(1 1/ 3)) est donc la solution du problme.
II Soit le domaine de points admissibles de R2 dni par les trois contraintes

2 2 2 2 2 2 2
D = (x, y) R |x + y 4, x + 3(y 1) 3, x ( y 1) 1 (A.61)
3
Etudier la rgularit des points suivants : X1 = (0, 0), X2 = (0, 1), X3 = (0, 2)
En X1 les contraintes 2 et 3 sont actives et les gradients ces contraintes valent

2x 0 1 1
= et = . (A.62)
6(y 1) 6 (4/3)(2y 1) 4/3
Ces deux vecteurs forment une famille libre donc le point est rgulier.
X2 est un point intrieur du domaine des contraintes o toutes les contraintes sont inactives.
Donc X2 est un point rgulier.
En X3 les contraintes 1 et 2 sont actives et les gradients ces contraintes valent

2x 0 2x 0
= et = . (A.63)
2y 4 6(y 1) 6
Ces deux vecteurs forment une famille lie, donc le point n'est pas rgulier.
III Soit le problme d'optimisation suivant :

max y

(3 x)3 (y 2) 0 (A.64)
3x + y 9

2x 3y 0

1) Rsolvez le problme graphiquement.
Graphiquement on trouve comme solution (x, y) = (3, 2)
Ecrivez les conditions de Khun et Tucker et trouvez le point qui les satisfait en faisant le bon
choix des contraintes actives et inactives
L(x, y, ) = y + 1 ((3 x)3 (y 2)) + 2 (3x + y 9) + 3 (2x 3y) (A.65)
avec i 0 (i = 1, 2, 3).
L'tude graphique conduit choisir les contraintes 1 et 3 actives et la deuxime inactive. Les
conditions de Khun et Tucker s'crivent alors
31 (3 x)2 + 33

xy L(x, y, ) = =0
1 1 33

(3 x)3 (y 2) = 0 (A.66)
=0

2

2x 3y = 0
La solution des conditions ncessaires du premier ordre est donne par (x, y, ) = (3, 2, 1, 0, 0).
Le domaine des contraintes tant compact et le critre continu, on sait que le problme admet une
solution. De plus, en posant y = x 3 les contraintes 1 et 3 deviennent respectivement y 2 + u3
et y 2 (2/3)u. On notera que la premire condition entrane y 2 pour u 0 et la seconde
y 2 pour u 0. On a donc ncessairement y 2 dans tout le domaine des contraintes, ce qui
tablit que (x, y) = (3, 2) fournit bien la valeur maximale de y dans le domaine des contraintes.
3) Rptez l'analyse en enlevant la dernire contrainte. Cherchez explicitement tous les points
satisfaisant les conditions ncessaires du premier ordre. Commentez.
Ici le domaine n'est pas born. Ainsi, par exemple, les points de coordonnes (x = 3 y/3, y)
appartiennent tous au domaine pour y > 3 (il est alors clair que (3x)3 (y2) (y/3)3 y+2 >
0). Donc le critre n'est pas suprieurement born et le problme n'a pas de solution nie.
L(x, y, ) = y + 1 ((3 x)3 (y 2)) + 2 (3x + y 9) (A.67)

avec i 0 (i = 1, 2) et les conditions de Khun et Tucker s'crivent
31 (3 x)2 + 32

xy L(x, y, ) = =0

1 1 + 2
(A.68)
((3 x)3 (y 2)) = 0
1

2 (3x + y 9) = 0
Les deux contraintes sont simultanment actives en (x, y, 1 , 2 ) = (5, 6, 1/5, 6/5). Ce point
reprsente le minimum global du critre. En (x, y, 1 , 2 ) = (3, 2, 1, 0) seule la premire contrainte
est active On ne peut pas avoir une seule contrainte active en un autre point car alors les quations
xy L(x, y, ) = 0 sont incompatibles entre elles. Le point (x, y) = (2, 3) est singulier mais ne
correspond pas une solution du problme comme on l'a vu. Les points intrieurs du domaine ne
satisfont pas aux conditions de Khun et Tucker.
IV Soit
1
C(x, h) = (ax b)2 + h|x|, h0 (A.69)
2
o a et b sont des rels positifs. On demande de trouver x (h) le minimum de C(x, h) en fonction
de h
Pour x 6= 0,
d
C 0 (x, h) = C(x, h) = a(ax b) + hsign(x). (A.70)
dx
Sur R on a toujours
C 0 (x, h) = a(ax b) h < 0. (A.71)
Sur R+ , C 0 (x, h) = 0 pour

ab h
x (h) = , si ab > h, (A.72)
a2
sinon, on a toujours C 0 (x, h) > 0.
Comme C(x, h) est continue, il apparat donc que le minimum est obtenu en 0 si ab < h et en
abh
x= a2
siab > h.
Bibliographie
[1] G. Allaire, Analyse numrique et optimisation, Editions de l'Ecole Polytechnique, 2005.
[2] J.M. Arnaudies, H. Fraysse, Cours de Mathmatiques ; T2 : analyse, T3 : Complments d'-

analyse, Dunod, 1989.
[3] D.P. Bertsekas, Nonlinear programming, Athena Scientic, 2nd nedition, 2003.
[4] S. Boyd, L. Vandenberghe, Convex Optimization, Cambridge University Press, 2004.
[5] G. Cohen, Convexit et optimisation, polycopi de cours ENPC-INRIA, 2000-2006. www-

rocq.inria.fr/metalau/cohen/documents/Ponts-cours-A4-NB.pdf
[6] P.G. Ciarlet, Introduction l'Analyse Numrique Matricielle et l'Optimisation, Masson,

1982.
[7] J.C. Culioli, Introduction l'optimisation, Elipse, 1994.
[8] D.G. Luenberger, Linear and nonlinear programming, 2nd edition, Kluwer, 2003.
[9] M. Minoux, Programmation Mathmatique, Thorie et Algorithmes, Tome 1, Dunod, 1983.
[10] R. Rockafellar Convex Analysis, Princeton Univ. Press, 1972.
146
Index
galit ensemble
de Parseval, 60 convexe, 88
equation
algorithme d'Euler, 86
de Newton, 93 equations
du gradient, 93 normales, 18
du gradient conjugu, 99 espace
complet, 57
base orthonorme, 59
de Hilbert, 56
coecients de Fourier, 61 euclidien, 56
comatrice, 25 hermitien, 56
complment de Schur, 35 sparable, 60
complexit algorithmique, 25
factorisation
complexit exponentielle, 25
de Hessenberg, 47
complexit polynomiale, 25
de Choleski, 99
condition
fonction
ncessaire du second ordre, 108
coercive, 86
susante du second ordre, 109
convexe, 88, 89
du premier ordre, 85
elliptique, 91
du second ordre, 85
fortement convexe, 92
condition ncessaire
implicite, 101
du premier ordre, 86, 87, 103
Lipschitzienne, 96
du second ordre, 87
quadratique, 91
condition susante
formule
du second ordre, 88, 105
de Stierling, 25
conditionnement, 31
de Taylor, 83
conditions
de Khun et Tucker, 107 gradient, 81
conjugue hermitienne, 24 gradient projet, 111
contraintes
actives, 103 hessien, 83
satures, 103
image, 26
dcomposition ingalit
de Jordan, 50 d'Euler, 87
de Schur, 50 de Bessel, 59
dcomposition en valeurs singulires, 27 de Hlder, 28
direction de Minkowski, 28
admissible, 86 interpolation de Lagrange, 68
de descente, 86, 93 isomtrie, 61
147
INDEX 148
jacobien, 82 interne, 112

phnomne de Runge, 69
Lagrangien, 101 point
lagrangien, 104 rgulier, 102
lemme d'inversion matriciel, 35 polynme
lemme d'inversion matricielle, 25 d'interpolation de Lagrange, 69
polynmes
mthode
d'Hermite, 73
des puissances, 49
de Laguerre, 73
d'Uzawa, 113
de Legendre, 71
de Gauss-Seidel, 94
problme d'optimisation
de Gauss-Siedel, 43
contraint, 77
de Jacobi, 43
non contraint, 77
de pnalisation, 113
produit scalaire hermitien, 57
de point intrieur, 112
programmation
de Polak et Ribire, 100
non linaire, 78
des approximations successives, 98
programmation linaire, 78
des moindres carrs, 18
programme
mthode des moindres carrs, 10
quadratique, 77
mthodes
proprit
de plans scants, 78
de dualit faible, 119
de point intrieur, 78
matrice quadrature
de Householder, 40 de Clenshaw-Curtis, 73
bi-diagonale, 50 de Gauss-Legendre, 71
de Givens, 47 de Newton Cotes, 70
de Householder, 47
de projection, 29 rang, 26
de rotation de Givens, 41 rang plein, 26
hessienne, 83
jacobienne, 82 spectre d'une matrice, 26
tridiagonale, 47 systme
matrice companion, 45 sur-dtermin, 17
maximum de vraisemblance, 33 systme linaire
minimum sous-dtermin, 13
des fonctions convexes, 90

thorme
multiplicateurs de Lagrange, 34
de projection, 111
noyau, 26 de reprsentation de Riesz, 64
noyau de Peano, 74 de sparation de Han-Banach, 120

de Weierstrass, 69, 86
oprateur des fonctions implicites, 13, 102
born, 62 thorme de Schur, 27
optimisation convexe, 78 thorme des fonctions implicites, 101
optimisation quadratique, 10 transpose, 24
orthogonalisation de Gram-Schmidt, 36, 42 transpose-conjugue, 24
pnalisation valeur
externe, 113 ralisable, 119
INDEX 149
singulire, 50
varit direntielle, 102
variables d'cart, 119

Analyse Numérisue Et Opt

Enviado por

Dados do documento

Título original

Direitos autorais

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Analyse Numérisue Et Opt

Enviado por

Direitos autorais:

HSCTDOC.blogspot.

Notes de cours d'analyse numrique

S1, MTS 435 et prparation Master SISEA (Rennes I)

Table des matires

I Analyse numrique matricielle 20

3 Rappels sur les matrices et les systmes d'quations linaires 21

3.2 Changement de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.3 Quelques familles de matrices importantes . . . . . . . . . . . . . . . . . . . . . . 24

3.4 Dterminant et inverse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.4.1 Valeurs propres et vecteurs propres . . . . . . . . . . . . . . . . . . . . . . 26

3.4.2 Image et noyau d'une matrice . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.4.3 Changement de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.4.4 Factorisation de matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.5 Produits scalaires et normes vectorielles et matricielles . . . . . . . . . . . . . . . 28

3.6 Notions gnrales sur les algorithmes numriques . . . . . . . . . . . . . . . . . . 29

3.6.1 Complexit algorithmique . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

TABLE DES MATIRES 2

4 Systmes d'quations sur-dtermins et sous-dtermins 32

4.2 Systmes sous-dtermins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.3 Cas gnral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4.4 Matrices blocs et rsolution partielle des systmes linaires . . . . . . . . . . . . . 35

5 Rsolution directe des systmes linaires 36

5.1.1 Principe gnral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

5.1.2 Stabilit et pivot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

5.1.3 Cot de calcul, dterminant et inverse . . . . . . . . . . . . . . . . . . . . 38

5.1.4 Mthode de Cholesky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

5.2 Triangularisation par orthonormalisation . . . . . . . . . . . . . . . . . . . . . . . 40

5.2.1 Mthode de Householder . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5.2.2 Mthode des rotations de Givens . . . . . . . . . . . . . . . . . . . . . . . 41

5.2.3 Mthode de Gram-Schmidt . . . . . . . . . . . . . . . . . . . . . . . . . . 42

6 Rsolution itrative des systmes linaires 43

7 Dcompositions en valeurs propres et en valeurs singulires 45

7.2 Forme Hessenberg des matrices carres . . . . . . . . . . . . . . . . . . . . . . . . 47

7.3 Dcomposition en valeurs propres : le cas gnral . . . . . . . . . . . . . . . . . . 49

7.3.1 Aspects algorithmiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

TABLE DES MATIRES 3

7.3.2 Lien avec la dcomposition de Jordan . . . . . . . . . . . . . . . . . . . . 49

7.4 Dcomposition en valeurs singulires . . . . . . . . . . . . . . . . . . . . . . . . . 50

7.4.1 Ralisation de la dcomposition en valeurs singulires . . . . . . . . . . . . 51

9.1.1 produit scalaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

9.1.2 Espace de Hilbert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

9.2 Thorme de projection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

9.3 Bases orthonormes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

9.4 Sparabilit et isomtrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

9.4.1 Sparabilit et bases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

10.2 Reprsentation matricielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

III Interpolation et intgration 67

TABLE DES MATIRES 4

11.2 Interpolation polynomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

11.2.1 Interpolation de Lagrange . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

11.2.2 Le phnomne de Runge . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

11.3 Intgration de Newton-Cotes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

11.4 Mthode de Gauss-Legendre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

11.5 Mthode de Clenshaw-Curtis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

11.6 Calcul d'erreur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

13 Elments de calcul direntiel 80

13.2 Rappels sur les espaces L(X, Y ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

13.3.1 Application drive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

13.3.2 Drivation pour f dnie sur des espaces produits . . . . . . . . . . . . . 81

13.3.3 Composition des applications drivables . . . . . . . . . . . . . . . . . . . 82

13.4 Drive seconde . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

13.5 Formules de Taylor et thorme des fonctions implicites . . . . . . . . . . . . . . 83

13.6 Accroissements nis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

13.7 Formules de taylor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

14 Optimisation sans contraintes : critres d'optimalit 85

TABLE DES MATIRES 5

13 Elments de calcul direntiel 80

13.3.2 Drivation pour f dnie sur des espaces produits . . . . . . . . . . . . . 81

13.6 Accroissements nis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

14.3 Conditions susantes d'optimalit . . . . . . . . . . . . . . . . . . . . . . . . . . 88

kMk norme de M (la norme choisie est dnie par le contexte)

C (K) ensemble des fonctions inniment drivables,