Ok

En poursuivant votre navigation sur ce site, vous acceptez l'utilisation de cookies. Ces derniers assurent le bon fonctionnement de nos services. En savoir plus.

19/11/2010

Multiplicateur de Lagrange

Multiplicateur de Lagrange

Page d'aide sur l'homonymie Pour les articles homonymes, voir Théorème de Lagrange.
La méthode des multiplicateurs de Lagrange permet de trouver un optimum, sur la figure le point le plus élevé possible, tout en satisfaisant une contrainte, sur la figure un point de la ligne rouge.

Le multiplicateur de Lagrange est une méthode permettant de trouver les points stationnaires (maximum, minimum...) d'une fonction dérivable d'une ou plusieurs variables, sous contraintes.

On cherche à trouver l'extremum, un minimum ou un maximum, d'une fonction φ de n variables à valeurs dans les nombres réels, ou encore d'un espace euclidien de dimension n, parmi les points respectant une contrainte, de type ψ(x) = 0 où ψ est une fonction du même ensemble de départ que φ. La fonction ψ est à valeurs dans un espace euclidien de dimension m. Elle peut encore être vue comme m fonctions à valeurs réelles, décrivant m contraintes. Si l'espace euclidien est de dimension 2 et si la fonction ψ est à valeurs dans R, correspondant à une contrainte mono-dimensionnelle, la situation s'illustre par une figure analogue à celle de droite. La question revient à rechercher le point situé le plus haut, c'est-à-dire le maximum de φ, dans l'ensemble des points rouges, c'est-à-dire ceux qui vérifient la contrainte.

Le théorème clé se conçoit aisément dans l'exemple de dimension 2. Le point recherché est celui où la courbe rouge ne monte ni ne descend. En termes plus techniques, cela correspond à un point où la différentielle de ψ possède un noyau orthogonal augradient de φ en ce point. Le multiplicateur de Lagrange est une méthode offrant une condition nécessaire. Les fonctions φ et ψ sont différentiables et leurs différentielles continues, on parle de fonction de classe C1. On considère λ un vecteur pris dans l'ensemble d'arrivée de ψ et la fonction L définie par :

L(x,lambda) = varphi(x) + lambdacdot psi(x)

L'opérateur représenté par un point est le produit scalaire. Si x0 est une solution recherchée, il existe un vecteur λ0 tel que la fonction L admet une différentielle nulle au point (x0, λ0). Les coordonnées du vecteur λ0 sont appelées multiplicateurs de Lagrange. Cette technique permet de passer d'une question d'optimisation sous contrainte à une optimisation sans contrainte, celle de la fonction L.

La méthode se généralise aux espaces fonctionnels. Un exemple est donnée par la question de la chaînette, qui revient à rechercher la position que prend au repos, une chaînette attachée à ses deux extrémités. L'optimisation correspond à la position offrant un potentiel minimal, la contrainte est donnée par la position des extrémités et la longueur de la chaînette, supposée fixe. Cette méthode permet de trouver des plus courts chemins sous contrainte, ou encore des géodésiques. Le principe de Fermat ou celui de moindre action permet de résoudre de nombreuses questions à l'aide de cette méthode.

Hugh Everett généralise la méthode aux fonctions non-dérivables, souvent choisies convexes. Pour une résolution effective, il devient nécessaire de disposer d'un algorithme déterminant l'optimum (ou les optima) d'une fonction. Dans le cas non dérivable, on utilise souvent une heuristique adéquate.

Sommaire

 [masquer]

Dimension finie [modifier]

Exemple introductif [modifier]

La nappe correspond à la surface du cylindre, la courbe bleue aux points de volume égal à v0, choisi dans la représentation égal à 1.

Soit v0 un nombre strictement positif, l'objectif est de trouver la portion de cylindre de rayon r et de hauteur h de surface minimale et de volume v0. Pour cela on définit deux fonctions, v et s qui à (r, h) associent respectivement le volume et la surface de la portion de cylindre. On dispose des égalités :

forall r,h in mathbb R_+quad v(r,h) =pi r^2h quadtext{et}quad s(r,h) =2pi r(r+h);

La figure de droite représente la fonction s, qui à r et h associe la surface. La ligne bleue correspond aux points de volume égal à 1, l'objectif est de trouver le point bleu, de plus petite surface pour un volume égal à 1.

On définit une fonction c et L de la manière suivante :

forall r,h in mathbb R_+quad c(r,h) = v(r,h) - v_0quad text{et}quad forall lambda in mathbb R quad L(r,h,lambda) = s(r,h) + lambda cdot c(r,h)

La méthode de Lagrange consiste à rechercher un point tel que la différentielle de L soit nulle. Sur un tel point, la dérivée partielle en λ est nulle, ce qui signifie que la fonction c est nulle, ou encore que la contrainte est respectée. Si l'on identifie s avec son approximation linéaire tangente, son comportement sur la contrainte, aussi identifiée à son approximation linéaire tangente est aussi nécessairement nulle. Ce comportement est illustré par la droite en vert sur la figure. Le long de cette droite, la fonction c est nulle, à l'ordre 1, la fonctions l'est alors nécessairement.

Il suffit, en conséquence, de calculer la différentielle de L, et plus précisément ses trois dérivées partielles, pour l'exemple choisi :

frac {partial L}{partial r} = 2pi (h+ 2r + lambda hr)=0 ,; frac {partial L}{partial h} = pi(2r + lambda r^2) =0,; frac {partial L}{partial lambda}  = pi r^2 h - v_0=0

On trouve les valeurs suivantes :

 r = -frac 2{lambda} = left(frac {v_0}{2pi}right)^{1/3}; h = -frac 4{lambda}=2left(frac {v_0}{2pi}right)^{1/3};text{et}; lambda = -2left(frac {2pi}{v_0}right)^{1/3}

Deuxième exemple : l'isopérimétrie du triangle [modifier]

L'exemple précédent possède l'avantage d'une représentation graphique simple, guidant l'intuition. En revanche, il est trop simple pour que la méthode du multiplicateur de Lagrange soit la meilleure dans ce cas. En effet, on peut aussi calculer la valeur de h pour que l'aire de la frontière soit égale à v0, on trouve :

h = frac {v_0 - 2pi r^2}{2pi r}

Il devient possible d'exprimer le volume du cylindre d'aire égale à v0 en fonction de r et le calcul revient à trouver le minimum d'une fonction de R dans R.

Pour se convaincre de la pertinence de la méthode, on peut rechercher le triangle d'aire maximale et de périmètre p, choisi strictement positif. Si (xyz) est le triplet des longueurs des côtés du triangle, son aire A est égale à :

A = frac 14 sqrt {(x^2 + y^2 + z^2)^2 - 2(x^4 + y^4 + z^4)}

Il est plus simple de maximiser la fonction φ qui associe le quart du carré de A, la contrainte est donnée par la fonction ψ qui associe au triangle la différence du périmètre et de p :

varphi (x,y,z) = frac 14 left((x^2 + y^2 + z^2)^2 - 2(x^4 + y^4 + z^4)right) quadtext{et}quad psi (x,y,z) = x+y+z - p

Un triangle n'est défini, pour un couple (xyz), que si les trois coordonnées sont positives et si la somme de deux coordonnées est supérieure à la troisième. Soit D cet ensemble de points, sur la frontière de D, la fonction φ est nulle. On cherche un point de l'intérieur de D tel que φ soit maximal dans l'ensemble des points d'image par ψ nulle. Comme l'intersection de l'image réciproque de 0 par ψ et de D est un compact, il existe au moins un maximum. On définit comme dans l'exemple précédent la fonction L par :

 L(x,y,z,lambda) = varphi(x,y,z) + lambdapsi(x,y,z);

Si (abc) est un triangle de périmètre p et d'aire maximale, il existe une valeur λ0 telle que la différentielle de L au point (abc, λ0) soit nulle. Un calcul de dérivée partielle montre que ce quadruplet est solution du système d'équations :

frac {partial L}{partial x} =x(-x^2 + y^2 + z^2) + lambda = 0,quad frac {partial L}{partial y} =y(x^2 - y^2 + z^2) + lambda = 0frac {partial L}{partial z} =z(x^2 + y^2 - z^2) + lambda  = 0quadtext{et}quad frac {partial L}{partial lambda} = x+y+z -p = 0

On en déduit que ab et c sont tous racines de l'équation :

(1)quad x^3 - px + q = 0 quadtext{avec}quad p = frac {a^2 + b^2 + c^2}2,quad q = -frac {lambda}2

Si les trois valeurs sont distinctes, elles correspondent aux trois racines de l'équation (1), leur somme est égale au coefficient de degré 2, c'est-à-dire à 0. Un tel point ne peut être dans l'intérieur de D car il est soit égal au triplet nul, soit contient une coordonnée strictement négative. On en conclut qu'au moins deux coordonnées sont égales, par exemple b et c. On peut alors ajouter une cinquième équation aux quatre que fournissent le calcul des dérivées partielles : y = z. En remplaçant z par y dans la première et deuxième équation, on obtient :

x(-x^2 + 2y^2) = yx^2quadtext{et}quad x(x^2 + yx -2y^2) = x(x-y)(x+2y)=0

On trouve trois cas : x = 0 correspond à un point de la frontière de D et c'est un minimum de φ, x = y correspond au triangle équilatéral et x = -2.y est un cas impossible car a est nécessairement strictement positif. L'unique solution est le triangle équilatéral de côté p/3 car a = b = c et la somme des trois longueurs est égale à p.

Remarque : L'objectif est ici d'illustrer la méthode du multiplicateur de Lagrange, on a trouvé le maximum d'une fonction φ dans l'intérieur de D, sous la contrainte définie par ψ. Si l'objectif est uniquement de résoudre le problème isopérimétrique pour le triangle, une solution plus simple est donnée dans l'article sur l'isopérimétrie.

Notations et interprétation géométrique [modifier]

Soit E et F deux espaces vectoriels réels de dimensions respectives n et m avec n plus grand que m. Soit φ une fonction de E dans mathbb{R}, que l'on cherche à optimiser. On cherche un point a tel que φ(a) soit le plus petit possible. Soit ψ une fonction de E dans F, définissant la contrainte. L'ensemble sur lequel on travaille est G, correspondant aux points x tel que ψ(x) = 0.

Si (e1, ..., en) est une base de E, chaque point x de E s'exprime comme une combinaison linéaire des éléments de la base :

x = sum_{i=1}^n x_i e_i;

Cette remarque permet de voir les fonctions φ et ψ de deux manières. Elles peuvent être vues comme des fonctions d'une unique variable x de E, ce qui rend l'écriture plus concise et favorise une compréhension plus simple, mais plus abstraite des mécanismes en jeu. Les applications peuvent aussi être vues comme fonctions de n variables x1, ..., xn, ce qui présente une rédaction plus lourde mais plus aisée pour les calculs effectifs. L'espace F est de dimension m, si (f1, ..., fm) est une base de F, la fonction ψ peut aussi être vue comme mfonctions de n variables :

forall x in E quad psi(x) = sum_{j=1}^m psi_j(x) f_j quadtext{ou encore}quad forall (x_i) in mathbb R^n quad psi(x_1,cdots, x_n) = sum_{j=1}^m psi_j(x_1,cdots, x_n) f_j

L'ensemble G peut être vu comme une unique contrainte exprimée par une fonction à valeurs dans F ou encore comme m contraintes exprimées par les égalités ψj(x) = 0, à valeurs dansR.

Un corollaire du théorème de Rolle indique que l'optimum est atteint en un point de différentielle nulle.
Le fondement théorique de la méthode du multiplicateur de Lagrange peut être vu comme analogue au théorème de Rolle.

Les fonctions φ et ψ sont de classe C1, ce qui signifie qu'elles sont différentiables, autrement dit elles admettent chacune une application linéaire tangente en chaque point. Le terme C1 signifie aussi que les applications qui, à un point associent les différentielles, soit de φ soit de ψ sont continues.

L'optimum recherché vérifie une propriété analogue à celle du théorème de Rolle. Un corollaire de ce théorème, illustré à gauche, indique que l'optimum, un maximum ou un minimum, s'il se situe dans l'intervalle ouvert ]ab[, possède une tangente horizontale, ce qui signifie encore que sa différentielle est nulle. C'est un résultat de cette nature qui est recherché. On peut le visualiser sur la figure de droite, si n et m sont respectivement égaux à 2 et à 1. On représente φ (noté f sur la figure de droite) en bleu par ses courbes de niveau, comme les géographes. Les flèches représentent le gradient de la fonction φ. La différentielle de φ est une application linéaire de E dans R, c'est-à-dire une forme duale. Il est d'usage de considérer E comme un espace euclidien, de choisir la base de E orthonormale et d'identifier la différentielle avec le vecteur de E qui représente la forme duale. Dans ce cas, l'approximation linéaire tangente s'écrit :

forall x,h in E quad varphi(x+h) = varphi(x) + mathrm{grad} ,varphi (x)cdot h + o(h)quadtext{avec}quad mathrm{grad} ,varphi(x) = sum_{i=1}^n frac {partial varphi}{partial x_i}e_i

La lettre o désigne un petit o selon la notation de Landau et le point entre le gradient de φ et h symbolise le produit scalaire. Le vecteur gradient est orthogonal à la courbe de niveau, dans le sens des valeurs croissantes de φ et de norme proportionnelle à la vitesse d'accroissement de φ dans cette direction. La contrainte vérifie une propriété analogue puisqu'elle est aussi différentiable. L'ensemble étudié est celui des valeurs x tel que ψ(x) est nul. Si x0 est élément de G, les points voisins de x0 dans G ont aussi une image nulle par ψ, autrement dit, l'espace tangent à G au point x0 est formé par les accroissements h de x0 qui ont une image par la différentielle de ψ nulle. La direction de l'espace tangent est le noyau de l'application différentielle de ψ. Une analyse par les fonctions coordonnées ψi exprime ce résultat en indiquant que l'espace tangent est l'intersection des hyperplans orthogonaux des gradients de ψi.

Une analyse au point optimal x0 recherché indique, en approximation du premier ordre, qu'un déplacement h dans la direction de l'espace tangent à G ne peut pas accroître la valeur de φ. Ceci signifie que le déplacement h est nécessairement orthogonal au gradient de φ en x0. C'est ainsi que se traduit le théorème de Rolle, dans ce contexte. Géométriquement, cela signifie que la courbe de niveau bleue et la ligne rouge sont tangentes au point recherché. Analytiquement cela se traduit par le fait que le noyau de la différentielle de ψ en x0 est orthogonal au gradient de φ en ce point.

Théorèmes [modifier]

Le problème à résoudre est de trouver le minimum suivant :

forall x in E quad min_{x in G} varphi (x) quadtext{avec}quad G = {x in E,; psi(x)=0}

Les fonctions φ et ψ ne sont pas nécessairement définies sur tout E mais au moins sur des ouverts de E. De plus, le domaine de définition de φ possède une intersection non vide avecG.

La méthode des multiplicateurs de Lagrange se fonde sur un théorème.

Théorème du multiplicateur de Lagrange —  Si le point x0 est un extremum local de φ dans l'ensemble G, alors le noyau de la différentielle de ψ au point x0 est orthogonal au gradient de φ en ce point.1

Un corollaire met en évidence le multiplicateur. Pour cela, il est nécessaire d'équiper F du produit scalaire tel que sa base soit orthonormale, le symbole t signifie la transposée d'une l'application linéaire, elle définit une application du dual de F, ici identifié à F dans le dual de E, encore identifié à E :

Corollaire 1 —  Si le point x0 est un extremum local de φ dans l'ensemble G et si la différentielle de ψ au point x0 est surjective, il existe un vecteur λ0 de F tel que la somme de l'image de λ0 par la transposée de la différentielle de ψ au point x0 et du gradient de φ en ce point soit nulle :

exists lambda_0 in F quad mathrm{grad}; varphi (x_0) + {}^t!Dpsi_{x_0} (lambda_0) = 0

Sous forme de coordonnées, on obtient :

exists (lambda_j) in mathbb R^m quad mathrm{grad}; varphi (x_0) + sum_{j=1}^m lambda_j , mathrm{grad} ; psi_j (x_0) = 0

Un deuxième corollaire est plus pragmatique, car il offre une méthode effective pour déterminer l'extremum. Il correspond à la méthode utilisée dans l'exemple introductif.

Corollaire 2 —  Si le point x0 est un extremum local de φ dans l'ensemble G et si la différentielle de ψ au point x0 est surjective, alors il existe un vecteur λ0 de F tel que la fonction L de ExF dans R admet un gradient nul en (x0, λ0) :2

forall (x,lambda) in Etimes F quad  L(x,lambda) = varphi(x) + lambda cdot psi (x)quad text{et}quad DL_{x_0,lambda_0} = 0

Ces théorèmes possèdent quelques faiblesses, de même nature que celle du théorème de Rolle. La condition est nécessaire, mais pas suffisante. Un point de dérivée nulle pour Rolle ou vérifiant les hypothèses du théorème du multiplicateur de Lagrange n'est pas nécessairement un maximum ou un minimum. Ensuite, même si ce point est un extremum, il n'est que local. Si une solution x0 est trouvée, rien n'indique que cet extremum local est le meilleur. L'approximation linéaire ne précise pas si cet optimum est un maximum ou un minimum. Enfin, comme pour le cas du théorème de Rolle, si les domaines de définition ne sont pas ouverts, il est possible qu'un point frontière soit un optimum qui ne vérifie pas le théorème. Ainsi, sur la figure de gauche, f(a) et f(b) sont des minima, mais la dérivée n'est nulle ni en a ni en b.

Écriture du problème [modifier]

Si l'écriture condensée permet de mieux comprendre la structure du théorème, les notations développées sont plus utiles pour une résolution effective. Dans la pratique, on considère souvent une fonction φ de Rn dans R et m fonctions ψj, avec j variant de 1 à m, aussi de Rn dans R. L'entier m est nécessairement plus petit que n pour pouvoir appliquer les théorèmes du paragraphe précédent. On cherche à trouver un n-uplet (a1, ..., an) tel que :

(1)quad varphi (a_1,cdots , a_n) = min_{(x_i) in G} varphi(x_1,cdots,x_n)quadtext{avec}quad  G = {(x_i)in mathbb R^n, quad  forall j in [1,m] ;psi_j (x_1,cdots, x_n)=0}

Pour cela, on définit la fonction L de Rn+m dans R par :

forall (x_i) in mathbb R^n,; forall (lambda_j) in mathbb R^m quad L(x_1cdots, x_n,lambda_1,cdots, lambda_m) =varphi(x_1,cdots,x_n) + sum_{j=1}^m lambda_j psi_j(x_1,cdots, x_n)

Le deuxième corollaire indique que résoudre les équations suivantes offrent sur condition nécessaire pour élucider le problème d'optimisation (1). Le n-uplet (a1, ..., an) est une solution de (1) seulement s'il existe un m-uplet (α1,...,αm) tel que le n+m-uplet (a1, ..., an, α1,...,αm) soit solution des n + m équations :

forall i in [1,n]quad frac {partial varphi}{partial x_i}(x_1,cdots, x_n) + sum_{j=1}^m lambda_j frac {partial psi_j}{partial x_i}(x_1,cdots, x_n) = 0 quad text{et}quad forall j in [1,m]quad  psi_j(x_1,cdots, x_n) = 0

Cette méthode peut être généralisée aux problèmes d'optimisation incluant des contraintes d'inégalités (ou non linéaires) en utilisant les conditions de Kuhn-Tucker. Mais également sur des fonctions discrètes à maximiser ou minimiser sous contraintes, moyennant un changement d'interprétation, en utilisant la méthode des multiplicateurs d'Everett (ou de Lagrange généralisés), plus volontiers appelée méthode des pénalités.

Application : inégalité arithmético-géométrique [modifier]

La méthode du multiplicateur de Lagrange permet de démontrer l'inégalité arithmético-géométrique5. On définit les applications φ et ψ de scriptstyle{ R_+^n} dans scriptstyle R par :

forall (x_i) in mathbb R_+^{n},quad varphi (x_1,cdots x_n) = prod_{i=1}^n x_iquadtext{et}quad psi(x_1,cdots x_n) = left(sum_{i=1}^n x_iright) - s,quad sin mathbb R_+^{*}

On remarque que l'ensemble G, composé des n-uplets de coordonnées positives et de somme égale à scriptstyle s est un compact de scriptstyle{ R^n}. Sur ce compact la fonction φ est continue, elle admet nécessairement un maximum. Les deux fonctions φ et ψ sont bien de classe scriptstyle{ C^1}, il est donc possible d'utiliser le multiplicateur de Lagrange pour trouver ce maximum. Pour cela, on considère la fonction L :

forall (x_i) in mathbb R_+^{n}, forall lambda in mathbb R quad L(x_1,cdots, x_n,lambda) = varphi(x_1,cdots, x_n) + lambdapsi(x_1,cdots, x_n)

Une solution vérifie les équations :

forall i in [1,n] quad frac {partial L}{partial x_i} L(x_1,cdots x_n,lambda) = 0 Leftrightarrow prod_{k neq i} x_k = -lambdaquad text{et}quad sum_{i=1}^n x_i = s

On en déduit l'existence d'une unique solution, obtenue pour tous les scriptstyle{ x_i} égaux à scriptstyle{ frac s n = bar x} et λ égal à scriptstyle{ -(s/n)^{n-1}}. Ce qui s'exprime, en remplaçant s par sa valeur :

forall (x_i) in mathbb R_+^{n} quad sqrt[n]{prod_{i=1}^n x_i} le frac{sum_{i=1}^n x_i}n

La moyenne géométrique est inférieure à la moyenne arithmétique, l'égalité n'ayant lieu que si les scriptstyle{ x_i} sont tous égaux.

Le multiplicateur de Lagrange offre une démonstration alternative de l'inégalité arithmético-géométrique.

Espace fonctionnel [modifier]

Exemple introductif : La chaînette [modifier]

Article détaillé : Chaînette.
Le Viaduc de Garabit possède une arche dont la géométrie est celle d'une chaînette.

Il existe un autre contexte, qui fait appel au multiplicateur de Lagrange. Considérons une chaînette soumis à la gravité et recherchons son équilibre statique. La chaînette est de longueur a et l'on suppose qu'elle est accrochée à deux points d'abscisses -t0 et t0 et d'ordonnée nulle en ces deux points. Si son ordonnée est notée x, elle suit une courbe y=x(t) sur l'intervalle [-t0t0], dont on se propose de calculer l'équation.

Dire qu'elle est à l'équilibre revient à dire que son potentiel Φ est minimal, où :

Phi(x) = int_{-t_0}^{t_0}alpha cdot x(t)sqrt{ 1 + left(frac {dx}{dt}right)^2} mathrm d t

Ici, α désigne une constante physique, en l'occurrence le produit de g la gravitation terrestre, par la densité linéaire de la chaînette, supposée constante. La formule donnant la longueur d'un arc en fonction d'un paramétrage est donnée dans l'article Longueur d'un arc.

La chaînette n'est pas supposée être élastique, elle vérifie donc la contrainte Ψ, indiquant que sa longueur l0 n'est pas modifiée :

Psi(x) = int_{-t_0}^{t_0}sqrt{ 1 + left(frac {dx}{dt}right)^2} mathrm d t - l_0 = 0

Si C1K(I) désigne l'ensemble des fonctions de [-t0t0] dans R, dérivables et de dérivées continues, nulles en -t0 et t0, le problème revient à rechercher la fonction x0 telle que :

 Phi (x_{0}) = min_{x in G} Phi (x)quadtext{avec}quad G = {x in mathcal C_K^1(I), Psi(x) = 0}

La similitude avec la situation précédente est flagrante. Pour pouvoir appliquer des multiplicateurs de Lagrange, il faut donner un sens au gradient de Φ et Ψ. Dans le cas où il existe deux fonctions de classe C2 de R3 dans R, notées φ et ψ telles que :

Phi(x) = int_{-t_0}^{t_0} varphileft(t, x, dot xright) mathrm d t quadtext{et}quad Psi(x) = int_{-t_0}^{t_0} psileft(t, x , dot xright) mathrm d t,quadtext{avec}quad frac {dx}{dt}(t) = dot x(t)

L'équation d'Euler-Lagrange affirme que :

mathrm{grad},Phi(x) = frac{partial varphi}{partial x}-frac{mathrm d}{ mathrm dt}left( frac{partial varphi}{partial dot x} right)quadtext{et}quad mathrm{grad},Psi(x) = frac{partial psi}{partial x}-frac{mathrm d}{ mathrm dt}left( frac{partial psi}{partial dot x} right)

Dans le cas particulier où les fonctions φ et ψ sont des fonctions de deux variables et ne dépendent pas de t, on obtient la formulation de Beltrami (cf l'article Équation d'Euler-Lagrange):

mathrm{grad},Phi(x) cdot dot x = frac d{dt}left(varphi  -frac {partial varphi}{partial dot x}dot xright) =  frac {alpha x}{sqrt{1+ dot x^2}}quadtext{et}quad mathrm{grad},Psi(x) cdot dot x = frac d{dt}left(psi  -frac {partial psi}{partial dot x}dot xright) = frac 1{sqrt{1+ dot x^2}}

Dire que les deux gradients sont colinéaires revient à dire qu'il existe un réel λ, le multiplicateur de Lagrange, tel que :

mathrm{grad},Phi(x) -lambda mathrm{grad},Psi(x) = 0 ;Rightarrow; frac {d}{dt} left(frac {alpha x - lambda}{sqrt{1+ dot x^2}}right) = 0quadtext{et}quad exists k in mathbb R quad alpha x - lambda = ksqrt{1+ dot x^2}

La résolution de cette équation différentielle est une chaînette. La méthode du multiplicateur de Lagrange permet bien de résoudre la question posée6.

Espace de Sobolev [modifier]

Article détaillé : Espace de Sobolev.

L'exemple précédent montre que le contexte de l'équation d'Euler-Lagrange n'est pas loin de celui du multiplicateur de Lagrange. Si l'ensemble de départ de la fonction x(t) recherchée est un intervalle I ouvert et borné de R et l'ensemble d'arrivée E l'espace vectoriel euclidien, la généralisation est relativement aisée.

On suppose l'existence d'une fonction Φ à minimiser, son ensemble de départ est un espace fonctionnel, c'est-à-dire un espace vectoriel de fonctions, de I dans E et son ensemble d'arrivée R. La fonction Φ est construite de la manière suivante :

Phi(x) = int_I varphi(t,x,dot x) mathrm d t

Le point sur le x indique la fonction gradient, qui à t associe le gradient de x au point t.

La fonction φ est une fonction de RxE2 dans R de classe C2. L'optimisation est sous contrainte, donnée sous une forme analogue à la précédente. On suppose l'existence d'une fonction Ψ de RxE2 dans F, un espace euclidien. La fonction Ψ est encore définie à l'aide d'une fonction ψ de classe C2 de IxE2, mais cette fois dans F un espace euclidien:

Psi(x) = int_I psi(t,x,dot x) mathrm d t

L'ensemble G est composée de fonctions deux fois dérivables de I dans E et dont l'image par Ψ est nulle. On suppose de plus que les valeurs des fonctions de G aux bornes de I sont fixes et, quitte à opérer une translation, on peut toujours supposer, sans perte de généralités, que ces fonctions sont nulles aux bornes de I.

La seule tâche un peu délicate est de définir l'espace vectoriel W2,2(I,E) sur lequel opèrent Φ et Ψ. Pour définir un équivalent de gradient, cet espace comporte nécessairement un produit scalaire. Si l'on souhaite établir des théorèmes équivalents aux précédents les fonctions dérivées et dérivées seconde sont définies et l'espace est complet. Un espace munis d'un produit scalaire et complet est un Hilbert. Sa géométrie est, de fait, suffisamment riche pour étendre les résultats précédents.

On note D l'espace des fonctions de I, à valeur dans E, de classe C^infty et à support compact et D* son dual topologique. L'espace D est muni de la norme de la borne supérieure et l'espace D* est celui des distributions. Ce premier couple n'est pas encore satisfaisant car D est trop petit et D* trop gros pour permettre de définir un bon produit scalaire, à l'origine d'une géométrie aussi simple que celle d'un Hilbert.

L'espace D* contient le Hilbert des fonctions de carrés intégrables L2(I,E). En effet une fonction f de L2(I,E) agit sur D par le produit scalaire <.,.>L défini par l'intégrale de Lebesgue :

forall g in mathcal D quad langle f,grangle = int_I f(t)cdot g(t) mathrm d t

C'est dans L2(I,E) que nous cherchons le bon espace. Dans cet espace, l'intégration par parties permet de définir la dérivée de la fonction f de L2(I). Comme g est à support compact et que I est ouvert, aux bornes de I, la fonction g est nulle. Si f est dérivable au sens classique du terme, on bénéficie des égalités :

langle dot f,grangle_L = int_I dot f(t)cdot g(t) mathrm dt = Big[f(t)cdot g(t)Big]_I - int_I  f(t)cdot dot g(t) mathrm dt = -int_I  f(t)cdotdot g(t) mathrm dt

Si la distribution dérivée de f est encore d'un élément de L2(I,E), on dit qu'elle est dérivable au sens de Sobolev. Si cette dérivée est encore dérivable au sens précédent, on dit qu'elle est deux fois dérivables au sens de Sobolev. On note W2,2(I,E) le sous-espace de L2(I,E) équipé du produit scalaire suivant <.,.>W :

forall f,g in W^{2,2}(I,E)  quad langle f,grangle_W = int_I f(t)cdot g(t) mathrm d t + int_I dot f(t)cdot dot g(t) mathrm d t + int_I ddot f(t)cdot ddot g(t) mathrm d t

Les intégrales sont bien définies car elles correspondent au produit de deux élément de L2(I,E), il est ensuite simple de vérifier que l'espace est bien complet7. Enfin, si f est une fonction dérivable au sens des distributions, il existe un représentant de f continue8. Ainsi tout élément de W2,2(I,E) admet un représentant continu et dont la dérivée admet aussi un représentant continu.

Équation d'Euler-Lagrange [modifier]

Article détaillé : Équation d'Euler-Lagrange.

La difficulté est maintenant d'exprimer le gradient des fonctions Φ et Ψ. L'équation d'Euler-Lagrange cherche dans un premier temps à trouver des fonctions de classe C2 qui minimisent Φ. L'espace vectoriel sous-jacent est celui des fonctions d'un intervalle borné et de classe C2 et nulles aux bornes de l'intervalle. Sur cet espace, le calcul du gradient de Φ n'est guère complexe, il donne aussi une idée de la solution ainsi que de la méthode pour y parvenir. En revanche, ce calcul est insuffisant dans le cas présent. Avec le bon produit scalaire, l'espace des fonctions de classe C2 n'est pas complet, ce qui empêche de disposer de la bonne géométrie permettant de démontrer la méthode du multiplicateur de Lagrange.

L'objectif est de généraliser un peu la démonstration pour permettre de disposer de l'égalité du gradient dans l'espace complet W2,2(I,E). Dans un premier temps, exprimons l'égalité qui définit la différentielle de Φ en un point x, qui représente une fonction de W2,2(I,E) :

forall h in W^{2,2}(I,E) quad Phi(x+h) = Phi(x) + Dphi_x(h) + o(h)

L'application DΦx est une application linéaire continue de W2,2(I,E) dans R, c'est-à-dire un élément du dual topologique de W2,2(I,E), que le produit scalaire permet d'identifier à W2,2(I,E). L'égalité précédente devient :

forall h in W^{2,2}(I,E) quad Phi(x+h) = Phi(x) + langle mathrm{grad} ,Phi_x, hrangle + o(h) =Phi(x) + int_I grad ,Phi_x(t)cdot h(t) mathrm d t + o(h)

Autrement dit, le gradient de Φ au point x est une fonction de L2(I,E) dans R. De fait, ce gradient s'exprime à l'aide de l'équation d'Euler-Lagrange :

  • Le gradient de Φ au point x est la fonction de I dans E, définie par :
mathrm{grad} Phi_x = frac{partial varphi}{partial x}-frac{mathrm d}{ mathrm dt}left( frac{partial varphi}{partial dot x} right)

Si la fonction φ est en général choisie au sens usuel de la dérivation, la fonction x(t) est une fonction de W2,2(I,E). Le symbole d/dt doit être pris au sens de la dérivée d'une distribution, qui n'est ici nécessairement une fonction de carrée intégrable, définie presque partout.

Pour Ψ, la logique est absolument identique, mais cette fois-ci, la fonction est à valeurs dans F. En conséquence, la dérivée partielle de ψ par rapport à sa deuxième ou troisième variable n'est plus une application linéaire de E dans R, mais une application linéaire de E dans F. Ainsi, la différentielle de Ψ au point, une fonction x de I dans E, est une application de I dansL(E,F) l'ensemble des applications linéaires de E dans F. La logique reste la même.

  • La différentielle de Ψ au point x est la fonction de I dans L(E,F), définie par :
D Psi_x = frac{partial psi}{partial x}-frac{mathrm d}{ mathrm dt}left( frac{partial psi}{partial dot x} right)

 

Théorèmes [modifier]

Ce paragraphe est très proche du précédent dans le cas de la dimension finie. Le problème à résoudre est de trouver le minimum suivant :

min_{x in G} Phi (x) quadtext{avec}quad G = {x in W^{2,2}(I,E),; Psi(x)=0quadtext{et}quad x(a) = x(b) = 0}

Théorème du multiplicateur de Lagrange —  Si le point x0 est un extremum local de Φ dans l'ensemble G, alors le noyau de la différentielle de Ψ au point x0 est orthogonal au gradient de Φ en ce point.

On obtient les mêmes corollaire, que l'on peut écrire :

Corollaire —  Si le point x0 est un extremum local de Φ dans l'ensemble G et si la différentielle de Ψ au point x0 est surjective, alors il existe un vecteur λ0 de F tel que la fonction L de W2,2(I,E)xF dans R admet un gradient nul en (x0, λ0) :

forall (x,lambda) in Etimes F quad  L(x,lambda) = Phi(x) + lambda cdot Psi (x)

Cette équation s'écrit encore :

exists (lambda_j) in mathbb R^m quad frac{partial varphi}{partial x} + sum_{j=1}^m lambda_j frac{partial psi_j}{partial x} = frac{mathrm d}{ mathrm dt}left( frac{partial varphi}{partial dot x} + sum_{j=1}^m lambda_j frac{partial psi_j}{partial dot x} right)

Le signe d/dt doit être pris au sens de la dérivée des distributions. On obtient une solution faible, c'est-à-dire une fonction x définie presque partout et dérivable dans un sens faible. En revanche, si une fonction x de classe C2 est solution du problème de minimisation, comme ses dérivées premières et secondes sont des représentants de ses dérivées au sens faible, L'équation précédente est encore vérifiée.

Application : Théorème isopérimétrique [modifier]

Article détaillé : Théorème isopérimétrique.
En répartissant uniformément lacourbure de la frontière on obtient l'optimal isopérimétrique.

On recherche la surface de plus grande aire, ayant une frontière de longueur égale à 2π. On remarque que la surface est nécessairement convexe, d'intérieur non vide. On considère une droite coupant la surface en deux. Cette droite est utilisée comme axe d'un repère orthonormal, dont les abscisses sont notées par la lettre t et les ordonnées par x. La frontière supérieure est paramétrable en une courbe x(t) et, si le repère est bien choisi, on peut prendre comme abscisse minimale -a et maximale a. On recherche alors une courbe x, définie entre -a et a tel que l'aire Asoit maximale :

A = int_{-a}^a x(t) mathrm dt

On sait de plus que la demi longueur de la frontière est égale à π :

int_{-a}^a sqrt {1 + dot x(t)^2}mathrm dt = pi

La recherche de la surface se traite aussi avec le multiplicateur de Lagrange. La même astuce que celle utilisée dans l'exemple introductif montre, avec les notations usuelles :

mathrm{grad} ,Phi(x)cdot dot x = frac d{dt}left(varphi  -frac {partial varphi}{partial dot x}dot xright) =frac d{dt} x(t)quadtext{et}quad mathrm{grad} ,Psi(x)cdot dot x = frac d{dt}left(psi  -frac {partial psi}{partial dot x}dot xright) = frac d{dt}left(frac 1{sqrt{1+ dot x^2}}right)

On en déduit l'existence de valeurs λ et k tel que :

x - frac {lambda}{sqrt{1+ dot x^2}}=k

En notant u = x - k, on obtient :

u^2(1+ dot u^2) =lambda^2

On trouve l'équation d'un demi-cercle de rayon λ, la valeur λ est égale à 1 et k à 0.9

Voir aussi [modifier]

Notes [modifier]

  1.  Ce résultat est énoncé sous une forme équivalente mais moins générale dans : D. Hoareau Cauchy-Schwarz par le calcul différentiel [archive] MégaMaths sur ifrance (2003)
  2.  On trouve ce corollaire dans : D. Klein Lagrange Multipliers without Permanent Scarring [archive] University of California at Berkeley
  3.  Voir par exemple : M. Bierlaire (2006) "Introduction à l'optimisation différentiable" [archive], Presses Polytechniques et Universitaires Romandes, Ecole polytechnique fédérale de Lausanne
  4.  Elle est explicitée dans l'article : D. Hoareau Cauchy-Schwarz par le calcul différentiel [archive] MégaMaths sur ifrance (2003)
  5.  Cet exemple est extrait de : X. Gourdon Analyse, Les maths en tête : Mathématiques pour MP* Ellipses Marketing 2ième édition (2008) (ISBN 2729837590)
  6.  Cet exemple est traité dans : C Barreteau Calcul des variations [archive] Ecole supérieure de physique et de chimie industrielle
  7.  Pour plus de détails voir : L Andry Les espaces de Sobolev [archive] Ecole polytechnique fédérale de Lausanne
  8.  Théorème VIII.2 p 122 Haïm Brezis, Analyse fonctionnelle : théorie et applications [détail des éditions]
  9.  Ce calcul est présenté, par exemple sur : S. Mehl Didon, Carthage, calcul des variations et multiplicateur de Lagrange [archive] Chronomath.com

Liens externes [modifier]

Références [modifier]

  • (fr) X. Gourdon Analyse, Les maths en tête : Mathématiques pour MP* Ellipses Marketing 2ième édition (2008) (ISBN 2729837590)
  • (fr) Haïm Brezis, Analyse fonctionnelle : théorie et applications [détail des éditions]
  • (en) W. P. Ziemer Weakly Differentiable Functions: Sobolev Spaces and Functions of Bounded Variation Springer (1989) (ISBN 0387970177)

22:03 Publié dans Multiplicateur de Lagrange | Lien permanent | Commentaires (0) | |  del.icio.us | | Digg! Digg |  Facebook

Les commentaires sont fermés.