\( \definecolor{colordef}{RGB}{249,49,84} \definecolor{colorprop}{RGB}{18,102,241} \)
CommeUnJeu · L1 MPSI

Espaces préhilbertiens réels

⌚ ~139 min ▢ 17 blocs ✓ 55 exercices Prérequis : Espaces vectoriels, Espaces vectoriels de dimension finie
Au lycée, le produit scalaire a été introduit par les angles et les longueurs : \(\vec{u} \cdot \vec{v} = \|\vec{u}\| \|\vec{v}\| \cos(\widehat{\vec{u}, \vec{v}})\). Dans ce chapitre, nous inversons la théorie. Nous définissons le produit scalaire d'abord comme un objet algébrique abstrait sur un espace vectoriel réel, et nous en dérivons les notions de norme, distance, orthogonalité, angle. L'intérêt est que la même théorie s'applique aux espaces de fonctions \(C^0([a \,;\, b], \mathbb{R})\), de polynômes \(\mathbb{R}[X]\), de matrices \(\mathcal{M}_{n, p}(\mathbb{R})\) --- bien au-delà du cadre géométrique \(\mathbb{R}^2\) et \(\mathbb{R}^3\) du lycée.
Formule de l'angle --- souvenir de lycée et anticipation. Dans \(\mathbb{R}^2\) et \(\mathbb{R}^3\), on garde en tête la formule \(\langle u, v \rangle = \|u\| \|v\| \cos \theta\). Plus loin dans ce chapitre, l'inégalité de Cauchy-Schwarz plus bas donnera \(-1 \le \frac{\langle u, v \rangle}{\|u\| \|v\|} \le 1\) lorsque \(u, v \ne 0\) ; la formule pourra alors être inversée pour définir l'angle par $$ \theta = \arccos\!\left( \frac{\langle u, v \rangle}{\|u\| \|v\|} \right). $$ À ce stade, c'est seulement une anticipation --- pas encore une définition --- car le membre de droite n'est pas encore connu comme étant dans \([-1 \,;\, 1]\). La figure ci-dessous est un souvenir géométrique du lycée, avec \(\theta\) comme angle visible entre \(\vec{u}\) et \(\vec{v}\).
Conventions pour le chapitre.
  • Dans tout le chapitre, \(E\) est un \(\mathbb{R}\)-espace vectoriel, de dimension finie ou infinie sauf mention contraire.
  • Le produit scalaire est noté \(\langle x, y \rangle\) tout au long du chapitre. Les notations \((x | y)\) et \(x \cdot y\) sont des alternatives ; nous les mentionnons une fois dans la Définition ci-dessous puis conservons \(\langle x, y \rangle\).
  • La norme induite vaut \(\|x\| = \sqrt{\langle x, x \rangle}\) ; la distance est \(d(x, y) = \|x - y\|\).
  • Orthogonalité : \(x \perp y\) si et seulement si \(\langle x, y \rangle = 0\) ; \(X^\perp = \{ t \in E \mid \forall x \in X, \langle t, x \rangle = 0 \}\).
  • Symbole de Kronecker : \(\delta_{i, j} = 1\) si \(i = j\), \(0\) sinon.
I Produit scalaire
I.1 Définition et premiers exemples
Un produit scalaire est une application \(E \times E \to \mathbb{R}\) qui capture quatre propriétés algébriques : bilinéarité (linéarité par rapport à chaque variable), symétrie, positivité, et séparation (ou caractère défini). Les quatre propriétés sont les os de la théorie ; tout ce qui suit --- normes, orthogonalité, projections --- en découle. Nous commençons par isoler les quatre propriétés, puis nous énonçons deux remarques pédagogiques (un raccourci de vérification et une Méthode pour vérifier qu'un candidat est un produit scalaire), et enfin nous testons la définition sur quatre exemples empilés : un canonique, deux contre-exemples (un sans séparation, un sans positivité), et un produit scalaire non canonique valide via une matrice symétrique définie positive.
Définition — Produit scalaire
Un produit scalaire sur un \(\mathbb{R}\)-espace vectoriel \(E\) est une application \(\langle \cdot, \cdot \rangle : E \times E \to \mathbb{R}\) vérifiant les quatre propriétés ci-dessous.
  • Bilinéaire : pour tous \(x, x', y, y' \in E\) et \(\lambda, \mu \in \mathbb{R}\), $$ \langle \lambda x + \mu x', y \rangle = \lambda \langle x, y \rangle + \mu \langle x', y \rangle, \quad \langle x, \lambda y + \mu y' \rangle = \lambda \langle x, y \rangle + \mu \langle x, y' \rangle. $$
  • Symétrique : pour tous \(x, y \in E\), \(\langle y, x \rangle = \langle x, y \rangle\).
  • Positive : pour tout \(x \in E\), \(\langle x, x \rangle \ge 0\).
  • Séparée (ou définie) : pour tout \(x \in E\), \(\langle x, x \rangle = 0\) implique \(x = 0_E\).
Notations alternatives : \((x | y)\) et \(x \cdot y\) sont parfois utilisées ; dans ce chapitre nous gardons \(\langle x, y \rangle\).
Définition — Espace préhilbertien réel\(\virgule\) espace euclidien
Un espace préhilbertien réel est un \(\mathbb{R}\)-espace vectoriel \(E\) muni d'un produit scalaire \(\langle \cdot, \cdot \rangle\). Un espace euclidien est un espace préhilbertien réel de dimension finie.
Raccourci pédagogique. Les quatre propriétés ressemblent à quatre vérifications indépendantes. En pratique, une fois la symétrie établie, l'axiome de linéarité par rapport à la première variable implique l'axiome de linéarité par rapport à la seconde variable (par symétrie). On commence donc en général par prouver la symétrie, puis la linéarité par rapport à une seule variable, et la bilinéarité s'en déduit gratuitement. La positivité est alors une vérification directe de signe sur \(\langle x, x \rangle\), et la séparation requiert l'implication « si \(\langle x, x \rangle = 0\) alors \(x = 0_E\) », souvent l'étape la plus délicate.
Méthode — Vérifier qu'une application est un produit scalaire
Étant donnée une application candidate \(\varphi : E \times E \to \mathbb{R}\), vérifier les quatre propriétés dans l'ordre ci-dessous.
  • Étape 1 --- Symétrie. Montrer \(\varphi(y, x) = \varphi(x, y)\) pour tous \(x, y \in E\).
  • Étape 2 --- Linéarité par rapport à la première variable seulement. Montrer \(\varphi(\lambda x + \mu x', y) = \lambda \varphi(x, y) + \mu \varphi(x', y)\). Par l'étape 1, la linéarité par rapport à la seconde variable s'en déduit automatiquement, d'où la bilinéarité.
  • Étape 3 --- Positivité. Montrer \(\varphi(x, x) \ge 0\) pour tout \(x \in E\).
  • Étape 4 --- Séparation. Montrer que \(\varphi(x, x) = 0\) implique \(x = 0_E\). C'est souvent la seule étape non triviale.
Si l'une des quatre étapes échoue, \(\varphi\) n'est pas un produit scalaire. Nous verrons des contre-exemples ci-dessous.
Exemple — Aperçu canonique sur \(\mathbb{R}^2\)
L'application \(\varphi((x_1 \,;\, x_2), (y_1 \,;\, y_2)) = x_1 y_1 + x_2 y_2\) est un produit scalaire sur \(\mathbb{R}^2\). La vérification en quatre étapes :
  • Symétrie : \(\varphi(y, x) = y_1 x_1 + y_2 x_2 = x_1 y_1 + x_2 y_2 = \varphi(x, y)\).
  • Linéarité par rapport à la première variable : directe à partir de la formule.
  • Positivité : \(\varphi(x, x) = x_1^2 + x_2^2 \ge 0\).
  • Séparation : si \(\varphi(x, x) = x_1^2 + x_2^2 = 0\), alors \(x_1 = x_2 = 0\), donc \(x = 0_{\mathbb{R}^2}\).
Ce sera redémontré dans la sous-section suivante comme cas particulier du produit scalaire canonique sur \(\mathbb{R}^n\).
Exemple — Contre-exemple : absence de séparation
L'application \(\varphi((x_1 \,;\, x_2), (y_1 \,;\, y_2)) = x_1 y_1\) sur \(\mathbb{R}^2\) est bilinéaire, symétrique et positive, mais pas séparée : \(\varphi((0 \,;\, 1), (0 \,;\, 1)) = 0 \cdot 0 = 0\) tandis que \((0 \,;\, 1) \ne 0_{\mathbb{R}^2}\). La forme bilinéaire « positive semi-définie » \(\varphi\) n'est donc pas un produit scalaire. L'axiome de séparation est celui qui échoue : \(\varphi\) « oublie » la seconde coordonnée.
Exemple — Contre-exemple : absence de positivité
L'application \(\varphi((x_1 \,;\, x_2), (y_1 \,;\, y_2)) = x_1 y_1 - x_2 y_2\) sur \(\mathbb{R}^2\) est bilinéaire et symétrique, mais pas positive : \(\varphi((0 \,;\, 1), (0 \,;\, 1)) = -1 < 0\). Donc \(\varphi\) n'est pas un produit scalaire. Une telle forme bilinéaire symétrique est indéfinie, pas définie positive.
Exemple — Produit scalaire non canonique valide par une matrice SDP
L'application \(\varphi(X, Y) = X^\top \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix} Y\) est un produit scalaire sur \(\mathbb{R}^2\). La matrice est symétrique définie positive (SDP), et bilinéarité, symétrie sont directes. Pour positivité et séparation, on développe pour \(X = (x_1 \,;\, x_2)^\top\) : $$ X^\top \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix} X = 2 x_1^2 + 2 x_1 x_2 + 2 x_2^2 = x_1^2 + x_2^2 + (x_1 + x_2)^2. $$ Le membre de droite est une somme de trois carrés, donc \(\ge 0\) (positivité) ; il s'annule seulement quand \(x_1 = x_2 = x_1 + x_2 = 0\), soit \(X = 0\) (séparation). Cet exemple réapparaîtra dans la sous-section sur les familles orthonormées plus bas pour montrer que la base canonique de \(\mathbb{R}^2\) n'est pas orthonormée pour ce \(\varphi\).
Compétences à pratiquer
  • Vérifier les quatre axiomes
I.2 Produits scalaires canoniques sur \(\mathbb{R}^n\) et \(\mathcal{M}_{n\virgule p}(\mathbb{R})\)
On généralise l'aperçu sur \(\mathbb{R}^2\) de la sous-section précédente à \(\mathbb{R}^n\) général et aux espaces de matrices \(\mathcal{M}_{n \,;\, p}(\mathbb{R})\), avec un produit scalaire canonique sur chacun. Ces deux produits redonnent le produit scalaire du lycée comme cas particulier et sont les produits scalaires de travail de la section sur projection et distance plus bas.
Proposition — Produit scalaire canonique sur \(\mathbb{R}^n\)
L'application $$ \textcolor{colorprop}{(X, Y) \longmapsto X^\top Y = \sum_{i = 1}^n x_i y_i} $$ est un produit scalaire sur \(\mathbb{R}^n\), appelé le produit scalaire canonique. Ici \(X = (x_1 \,;\, \dots \,;\, x_n)^\top\) et \(Y = (y_1 \,;\, \dots \,;\, y_n)^\top\) sont vus comme vecteurs colonnes, donc \(X^\top Y\) est une matrice \(1 \times 1\) identifiée à son unique coefficient.

On applique la Méthode ci-dessus, en quatre étapes.
  • Symétrie. \(X^\top Y\) est une matrice \(1 \times 1\), donc égale à sa transposée : \(X^\top Y = (X^\top Y)^\top = Y^\top X\).
  • Linéarité par rapport à la première variable. Pour \(\lambda \in \mathbb{R}\), \(X, X', Y \in \mathbb{R}^n\), \((\lambda X + X')^\top Y = \lambda X^\top Y + (X')^\top Y\) par linéarité du produit matriciel par rapport au premier facteur.
  • Positivité. \(X^\top X = \sum_{i = 1}^n x_i^2 \ge 0\).
  • Séparation. Si \(X^\top X = \sum x_i^2 = 0\), alors chaque \(x_i^2 = 0\) (somme de termes positifs), donc chaque \(x_i = 0\), donc \(X = 0_{\mathbb{R}^n}\).

Exemple — Illustration numérique sur \(\mathbb{R}^3\)
Sur \(\mathbb{R}^3\) avec le produit scalaire canonique, \(\langle (1 \,;\, 2 \,;\, 3), (4 \,;\, 5 \,;\, 6) \rangle = 1 \cdot 4 + 2 \cdot 5 + 3 \cdot 6 = 4 + 10 + 18 = 32\).
Proposition — Produit scalaire canonique sur \(\mathcal{M}_{n\virgule p}(\mathbb{R})\)
L'application $$ \textcolor{colorprop}{(A, B) \longmapsto \operatorname{tr}(A^\top B) = \sum_{1 \le i \le n,\ 1 \le j \le p} a_{i, j} b_{i, j}} $$ est un produit scalaire sur \(\mathcal{M}_{n \,;\, p}(\mathbb{R})\), appelé le produit scalaire canonique (de Frobenius).

D'abord l'égalité \(\operatorname{tr}(A^\top B) = \sum_{i, j} a_{i, j} b_{i, j}\) : par définition du produit matriciel, \((A^\top B)_{j, j} = \sum_{i = 1}^n (A^\top)_{j, i} B_{i, j} = \sum_{i = 1}^n a_{i, j} b_{i, j}\), puis somme sur \(j\) pour la trace. Puis la Méthode en quatre étapes.
  • Symétrie. \(\operatorname{tr}(A^\top B) = \operatorname{tr}((A^\top B)^\top) = \operatorname{tr}(B^\top A)\), en utilisant \(\operatorname{tr}(M^\top) = \operatorname{tr}(M)\).
  • Linéarité par rapport à la première variable. Pour \(\lambda \in \mathbb{R}\) et \(A, A', B \in \mathcal{M}_{n \,;\, p}(\mathbb{R})\), \((\lambda A + A')^\top = \lambda A^\top + (A')^\top\) par linéarité de la transposition, puis \(\operatorname{tr}((\lambda A^\top + (A')^\top) B) = \lambda \operatorname{tr}(A^\top B) + \operatorname{tr}((A')^\top B)\) par linéarité de la trace et du produit matriciel.
  • Positivité. \(\operatorname{tr}(A^\top A) = \sum_{i, j} a_{i, j}^2 \ge 0\).
  • Séparation. Si \(\sum_{i, j} a_{i, j}^2 = 0\), chaque \(a_{i, j}^2 = 0\), donc chaque \(a_{i, j} = 0\), donc \(A = 0_{\mathcal{M}_{n \,;\, p}(\mathbb{R})}\).

Compétences à pratiquer
  • Calculer des produits scalaires canoniques
I.3 Produit scalaire intégral sur les fonctions continues sur un segment
On brise le modèle mental « lycée seulement » par un exemple en dimension infinie : le produit scalaire intégral sur l'espace \(C^0([a \,;\, b], \mathbb{R})\) des fonctions continues sur un segment. L'argument-clé de séparation est le lemme du chapitre Intégration sur un segment : si une fonction continue positive sur \([a, b]\) a une intégrale nulle, elle est identiquement nulle.
Proposition — Produit scalaire intégral
Soient \(a, b \in \mathbb{R}\) avec \(a < b\). L'application $$ \textcolor{colorprop}{(f, g) \longmapsto \langle f, g \rangle = \int_a^b f(t) g(t)\, \mathrm{d}t} $$ est un produit scalaire sur \(C^0([a \,;\, b], \mathbb{R})\).

On applique la Méthode en quatre étapes.
  • Symétrie. \(\int_a^b f(t) g(t)\, \mathrm{d}t = \int_a^b g(t) f(t)\, \mathrm{d}t\).
  • Linéarité par rapport à la première variable. Par linéarité de l'intégrale par rapport à son intégrande.
  • Positivité. Pour \(f \in C^0([a \,;\, b], \mathbb{R})\), \(\int_a^b f(t)^2\, \mathrm{d}t \ge 0\) car \(f(t)^2 \ge 0\) pour tout \(t\).
  • Séparation. Si \(\int_a^b f(t)^2\, \mathrm{d}t = 0\), comme \(f^2\) est continue et positive sur \([a \,;\, b]\), le lemme prérequis du chapitre Intégration sur un segment donne \(f^2 = 0\) sur \([a \,;\, b]\), donc \(f = 0\) sur \([a \,;\, b]\).

Attention. L'espace \(C^0([a \,;\, b], \mathbb{R})\) est préhilbertien réel mais pas euclidien, car il est de dimension infinie (la famille \((t \mapsto t^n)_{n \in \mathbb{N}}\) est libre, donc la dimension est \(\ge n\) pour tout \(n\)). Toutes les notions de produit scalaire, norme et orthogonalité (définies plus haut) s'appliquent encore --- on ne peut simplement pas utiliser les théorèmes spécifiques à la dimension finie sur les bases orthonormées et la projection orthogonale (plus bas) directement sur tout \(C^0([a \,;\, b], \mathbb{R})\) ; ils s'appliqueront à ses sous-espaces de dimension finie.
Exemple — Produit scalaire intégral sur l'anneau des polynômes
Soient \(a < b\). La formule \(\langle P, Q \rangle = \int_a^b P(t) Q(t)\, \mathrm{d}t\) définit un produit scalaire sur \(\mathbb{R}[X]\). En effet, tout polynôme se restreint en une fonction continue sur \([a \,;\, b]\), donc \(\mathbb{R}[X] \subset C^0([a \,;\, b], \mathbb{R})\) par restriction, et les quatre propriétés vérifiées dans la Proposition précédente s'y transfèrent. Le seul point non trivial est la séparation : si \(\int_a^b P(t)^2\, \mathrm{d}t = 0\), alors \(P\) s'annule sur \([a \,;\, b]\) (par le lemme de positivité continue), donc \(P\) a une infinité de racines et est par conséquent le polynôme nul.
C'est le produit scalaire de travail derrière les familles de polynômes orthogonaux (Legendre sur \([-1 \,;\, 1]\), etc.) qui apparaissent dans l'exo.
Exemple — Variante sur l'espace des polynômes par points d'évaluation
Soient \(x_0, \dots, x_n \in \mathbb{R}\) des points deux à deux distincts au nombre de \(n + 1\). L'application \((P, Q) \mapsto \sum_{k = 0}^n P(x_k) Q(x_k)\) est un produit scalaire sur \(\mathbb{R}_n[X]\). Symétrie, bilinéarité, positivité sont immédiates. Séparation : si \(\sum P(x_k)^2 = 0\), alors chaque \(P(x_k) = 0\), donc \(P\) a \(n + 1\) racines distinctes ; comme \(\deg P \le n\), cela force \(P = 0\).
Compétences à pratiquer
  • Calculer des produits scalaires intégraux
II Norme associée à un produit scalaire
II.1 Norme\(\virgule\) distance\(\virgule\) propriétés de base
Le produit scalaire induit une norme candidate, une longueur candidate, une distance candidate. Nous les définissons ici comme objets dérivés ; les quatre axiomes de norme (positivité, séparation, homogénéité, inégalité triangulaire) sont alors vérifiés étape par étape --- le dernier axiome (inégalité triangulaire) nécessite l'inégalité de Cauchy-Schwarz plus bas, on énonce donc les trois premiers explicitement maintenant et l'inégalité triangulaire est reportée à la sous-section dédiée plus bas.
Définition — Norme associée\(\virgule\) vecteur unitaire\(\virgule\) distance
Soit \((E, \langle \cdot, \cdot \rangle)\) un espace préhilbertien réel. Pour \(x, y \in E\) :
  • la norme associée de \(x\) est \(\|x\| = \sqrt{\langle x, x \rangle}\) ;
  • \(x\) est dit unitaire (ou normalisé) si \(\|x\| = 1\) ;
  • la distance entre \(x\) et \(y\) est \(d(x, y) = \|x - y\|\).
Proposition — Propriétés de base de la norme
Pour tout \(x \in E\) et tout \(\lambda \in \mathbb{R}\) :
  • (i) \textcolor{colorprop}{\(\|x\| \ge 0\)} (positivité).
  • (ii) \textcolor{colorprop}{\(\|x\| = 0 \iff x = 0_E\)} (séparation de la norme).
  • (iii) \textcolor{colorprop}{\(\|\lambda x\| = |\lambda| \cdot \|x\|\)} (homogénéité positive).

  • (i) Par définition \(\|x\| = \sqrt{\langle x, x \rangle}\) ; la racine carrée est positive.
  • (ii) \(\|x\|^2 = \langle x, x \rangle = 0 \iff x = 0_E\) par l'axiome de séparation du produit scalaire.
  • (iii) \(\|\lambda x\|^2 = \langle \lambda x, \lambda x \rangle = \lambda^2 \langle x, x \rangle = \lambda^2 \|x\|^2\) par bilinéarité ; en prenant la racine carrée, \(\|\lambda x\| = \sqrt{\lambda^2} \cdot \|x\| = |\lambda| \cdot \|x\|\).

Attention. La distance \(d(x, y) = \|x - y\|\) dépend du choix du produit scalaire. Pour le produit scalaire non canonique \(\varphi(X, Y) = X^\top \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix} Y\) introduit plus haut, \(\|(1 \,;\, 0)\|^2 = 2\), donc \(\|(1 \,;\, 0)\| = \sqrt{2} \ne 1\). Le même vecteur a des normes différentes dans différentes structures préhilbertiennes sur le même espace vectoriel sous-jacent.
Compétences à pratiquer
  • Calculer des normes dans divers produits scalaires
II.2 Identité remarquable et formule de polarisation
La bilinéarité donne des identités algébriques reliant la norme d'une somme et le produit scalaire. La première est l'identité remarquable --- un développement direct. La seconde est son inversion : à partir de la norme seule, on peut récupérer le produit scalaire. C'est la formule de polarisation.
Proposition — Identité remarquable
Pour tous \(x, y \in E\) : $$ \textcolor{colorprop}{\|x + y\|^2 = \|x\|^2 + 2 \langle x, y \rangle + \|y\|^2}, \qquad \textcolor{colorprop}{\langle x + y, x - y \rangle = \|x\|^2 - \|y\|^2}. $$

  • Première identité. $$ \begin{aligned} \|x + y\|^2 &= \langle x + y, x + y \rangle && \text{(définition de \(\|\cdot\|\))} \\ &= \langle x, x \rangle + \langle x, y \rangle + \langle y, x \rangle + \langle y, y \rangle && \text{(bilinéarité)} \\ &= \|x\|^2 + 2 \langle x, y \rangle + \|y\|^2 && \text{(symétrie : \(\langle y, x \rangle = \langle x, y \rangle\)).} \end{aligned} $$
  • Seconde identité. $$ \begin{aligned} \langle x + y, x - y \rangle &= \langle x, x \rangle - \langle x, y \rangle + \langle y, x \rangle - \langle y, y \rangle && \text{(bilinéarité)} \\ &= \|x\|^2 - \|y\|^2 && \text{(la symétrie annule les termes croisés).} \end{aligned} $$

Proposition — Formules de polarisation
Pour tous \(x, y \in E\) : $$ \textcolor{colorprop}{\langle x, y \rangle = \frac{1}{2} \big( \|x + y\|^2 - \|x\|^2 - \|y\|^2 \big) = \frac{1}{4} \big( \|x + y\|^2 - \|x - y\|^2 \big)}. $$

  • Première formule. On isole \(\langle x, y \rangle\) dans la première identité remarquable : \(2 \langle x, y \rangle = \|x + y\|^2 - \|x\|^2 - \|y\|^2\), puis on divise par \(2\).
  • Seconde formule. On applique la première identité remarquable avec \(-y\) à la place de \(y\) : \(\|x - y\|^2 = \|x\|^2 - 2 \langle x, y \rangle + \|y\|^2\). On soustrait à l'identité d'origine : \(\|x + y\|^2 - \|x - y\|^2 = 4 \langle x, y \rangle\), puis on divise par \(4\).

Identité du parallélogramme (corollaire d'une ligne). En additionnant l'identité remarquable pour \(\|x + y\|^2\) et pour \(\|x - y\|^2\) : $$ \|x + y\|^2 + \|x - y\|^2 = 2 \big( \|x\|^2 + \|y\|^2 \big). $$ Interprétation géométrique : dans tout espace préhilbertien réel, la somme des carrés des diagonales d'un parallélogramme vaut deux fois la somme des carrés des côtés.
Compétences à pratiquer
  • Utiliser l'identité du parallélogramme
II.3 Inégalité de Cauchy-Schwarz et cas d'égalité
Nous établissons maintenant l'inégalité centrale du chapitre : \(|\langle x, y \rangle| \le \|x\| \|y\|\). La technique de démonstration --- standard à ce niveau --- est d'étudier la fonction \(\varphi(t) = \|x + t y\|^2\) comme polynôme réel en \(t\) de degré au plus \(2\), d'exploiter sa positivité sur \(\mathbb{R}\), et de lire la condition sur le discriminant. Le cas d'égalité caractérise la colinéarité.
Theorem — Inégalité de Cauchy-Schwarz
Pour tous \(x, y \in E\) : $$ \textcolor{colorprop}{|\langle x, y \rangle| \le \|x\| \cdot \|y\|}, $$ avec égalité si et seulement si \(x\) et \(y\) sont colinéaires.
Convention. \(0_E\) est considéré comme colinéaire à tout vecteur de \(E\) ; ceci rend le cas d'égalité correct sans exception quand \(x = 0_E\) ou \(y = 0_E\).

On définit \(\varphi : \mathbb{R} \to \mathbb{R}\) par \(\varphi(t) = \|x + t y\|^2\). En développant par l'identité remarquable : $$ \varphi(t) = \|x\|^2 + 2 t \langle x, y \rangle + t^2 \|y\|^2. $$ C'est un polynôme en \(t\) de degré au plus \(2\). Par positivité de \(\|\cdot\|^2\), \(\varphi(t) \ge 0\) pour tout \(t \in \mathbb{R}\). On distingue deux cas.
  • Cas 1 : \(\|y\|^2 = 0\). Alors \(y = 0_E\) par séparation. On a \(\langle x, y \rangle = 0\) et \(\|y\| = 0\), donc les deux membres de Cauchy-Schwarz sont nuls --- l'égalité a lieu. Par la convention, \(x\) et \(y = 0_E\) sont colinéaires.
  • Cas 2 : \(\|y\|^2 \ne 0\). Alors \(\varphi\) est un polynôme de degré exactement \(2\) en \(t\), de coefficient dominant \(\|y\|^2 > 0\), et \(\varphi(t) \ge 0\) pour tout \(t \in \mathbb{R}\). Son discriminant vérifie $$ \Delta = 4 \langle x, y \rangle^2 - 4 \|x\|^2 \|y\|^2 \le 0, $$ ce qui donne \(\langle x, y \rangle^2 \le \|x\|^2 \|y\|^2\), donc \(|\langle x, y \rangle| \le \|x\| \|y\|\).
Cas d'égalité (cas 2), sens direct. L'égalité de Cauchy-Schwarz \(|\langle x, y \rangle| = \|x\| \|y\|\) équivaut à \(\langle x, y \rangle^2 = \|x\|^2 \|y\|^2\), i.e. \(\Delta = 0\). Et \(\Delta = 0\) si et seulement si \(\varphi\) a une racine double réelle \(t_0\), i.e. \(\varphi(t_0) = \|x + t_0 y\|^2 = 0\), i.e. \(x + t_0 y = 0_E\) par séparation (Proposition « Propriétés de base de la norme », (ii)), i.e. \(x = -t_0 y\), i.e. \(x\) et \(y\) sont colinéaires.
Cas d'égalité (cas 2), réciproque. Réciproquement, si \(x, y\) sont colinéaires avec \(y \ne 0_E\), alors \(x = \lambda y\) pour un \(\lambda \in \mathbb{R}\). En calculant \(\varphi(-\lambda) = \|x - \lambda y\|^2 = 0\), on exhibe une racine réelle de \(\varphi\), donc \(\Delta \ge 0\) ; combinée avec l'inégalité toujours vraie \(\Delta \le 0\), on obtient \(\Delta = 0\), soit \(|\langle x, y \rangle|^2 = \|x\|^2 \|y\|^2\), soit l'égalité de Cauchy-Schwarz.

Méthode — Appliquer Cauchy-Schwarz pour obtenir une inégalité
Pour obtenir une inégalité entre des sommes ou des intégrales par Cauchy-Schwarz :
  • Étape 1. Identifier l'espace préhilbertien candidat et son produit scalaire (typiquement \(\mathbb{R}^n\) canonique, ou \(C^0([a \,;\, b], \mathbb{R})\) intégral).
  • Étape 2. Choisir deux vecteurs \(x, y\) dans cet espace dont le produit scalaire \(\langle x, y \rangle\) vaut l'expression à majorer, et dont les normes \(\|x\|, \|y\|\) sont calculables.
  • Étape 3. Écrire \(|\langle x, y \rangle| \le \|x\| \cdot \|y\|\) et passer au carré ou simplifier selon le besoin.
Les choix les plus utiles : \(y = (1 \,;\, \dots \,;\, 1)\) pour « Cauchy-Schwarz avec tous des un », ou \(y\) une fonction constante pour une inégalité intégrale.
Exemple — Somme des valeurs majorée par la somme des carrés
Pour tous \(x_1, \dots, x_n \in \mathbb{R}\), \(\big( \sum_{k = 1}^n x_k \big)^2 \le n \sum_{k = 1}^n x_k^2\), avec égalité si et seulement si \(x_1 = \dots = x_n\).

On applique Cauchy-Schwarz sur \(\mathbb{R}^n\) canonique à \(X = (x_1 \,;\, \dots \,;\, x_n)\) et \(Y = (1 \,;\, \dots \,;\, 1)\) : $$ \langle X, Y \rangle = \sum_{k = 1}^n x_k, \qquad \|X\|^2 = \sum_{k = 1}^n x_k^2, \qquad \|Y\|^2 = n. $$ Cauchy-Schwarz : \(|\langle X, Y \rangle| \le \|X\| \|Y\|\), puis on élève au carré : \(\big( \sum x_k \big)^2 \le n \sum x_k^2\). Égalité si et seulement si \(X\) et \(Y\) sont colinéaires, soit \(X = \lambda Y = (\lambda \,;\, \dots \,;\, \lambda)\) pour un \(\lambda \in \mathbb{R}\), soit \(x_1 = \dots = x_n\).

Compétences à pratiquer
  • Appliquer des inégalités de Cauchy-Schwarz classiques
II.4 Inégalité triangulaire et cas d'égalité
Cauchy-Schwarz permet maintenant de prouver l'inégalité triangulaire, le dernier axiome de norme qui manque. Nous énonçons les deux bornes (l'usuelle et son contraire, parfois appelée inégalité triangulaire inverse), et décrivons les deux cas d'égalité : colinéaires de même sens pour la borne supérieure, de sens contraire pour la borne inférieure.
Theorem — Inégalité triangulaire
Pour tous \(x, y \in E\) : $$ \textcolor{colorprop}{\big| \|x\| - \|y\| \big| \le \|x + y\| \le \|x\| + \|y\|}. $$ Cas d'égalité.
  • Égalité de droite \(\|x + y\| = \|x\| + \|y\|\) a lieu si et seulement si \(x\) et \(y\) sont colinéaires de même sens, i.e. l'un d'eux est un multiple scalaire positif (au sens large) de l'autre.
  • Égalité de gauche \(\|x + y\| = \big| \|x\| - \|y\| \big|\) a lieu si et seulement si \(x\) et \(y\) sont colinéaires de sens contraire, i.e. l'un d'eux est un multiple scalaire négatif (au sens large) de l'autre.
Convention : \(0_E\) est colinéaire de même sens et de sens contraire à tout vecteur.

  • Inégalité de droite. On élève au carré et on applique Cauchy-Schwarz : $$ \begin{aligned} \|x + y\|^2 &= \|x\|^2 + 2 \langle x, y \rangle + \|y\|^2 && \text{(identité remarquable)} \\ &\le \|x\|^2 + 2 \|x\| \|y\| + \|y\|^2 && \text{(\(\langle x, y \rangle \le |\langle x, y \rangle| \le \|x\| \|y\|\))} \\ &= (\|x\| + \|y\|)^2. \end{aligned} $$ En prenant la racine carrée positive : \(\|x + y\| \le \|x\| + \|y\|\).
  • Cas d'égalité de droite. \(\|x + y\| = \|x\| + \|y\|\) ssi égalité à l'étape Cauchy-Schwarz, soit \(\langle x, y \rangle = \|x\| \|y\|\). L'égalité Cauchy-Schwarz donne \(x, y\) colinéaires : disons \(y = \lambda x\). Alors \(\langle x, y \rangle = \lambda \|x\|^2\) et \(\|x\| \|y\| = |\lambda| \|x\|^2\). L'égalité force \(\lambda = |\lambda|\), soit \(\lambda \ge 0\) (ou \(x = 0_E\)). Donc \(x, y\) sont colinéaires de même sens.
  • Inégalité de gauche. On applique l'inégalité de droite à \(x + y\) et \(-y\) : \(\|x\| = \|(x + y) + (-y)\| \le \|x + y\| + \|y\|\), donc \(\|x\| - \|y\| \le \|x + y\|\). De même, en échangeant les rôles, \(\|y\| - \|x\| \le \|x + y\|\). Ensemble : \(\big| \|x\| - \|y\| \big| \le \|x + y\|\).
  • Cas d'égalité de gauche. On suppose sans perte de généralité \(\|x\| \ge \|y\|\) (l'autre cas est symétrique). L'égalité dans l'inégalité de gauche s'écrit \(\|x\| - \|y\| = \|x + y\|\), soit \(\|x\| = \|x + y\| + \|y\|\). C'est exactement l'égalité dans l'inégalité triangulaire appliquée à la décomposition \(x = (x + y) + (-y)\). Par le cas d'égalité de droite (déjà démontré ci-dessus), \(x + y\) et \(-y\) sont colinéaires de même sens : \(x + y = \mu (-y)\) pour un \(\mu \ge 0\), donc \(x = -(1 + \mu) y\) avec \(1 + \mu \ge 0\). Donc \(x\) est un multiple scalaire négatif (au sens large) de \(y\), soit \(x\) et \(y\) colinéaires de sens contraire.

Corollaire --- la norme associée est une norme ; la distance est une distance. En combinant les propriétés de base de la norme établies plus haut (positivité, séparation, homogénéité) avec l'inégalité triangulaire qu'on vient de prouver, l'application \(\|\cdot\| : E \to \mathbb{R}_+\) vérifie les quatre axiomes de norme au sens de la théorie des espaces vectoriels normés. L'application \(d(x, y) = \|x - y\|\) hérite des axiomes de distance correspondants. Désormais nous appelons \(\|\cdot\|\) « la norme » et \(d\) « la distance » sans réserve supplémentaire.
Compétences à pratiquer
  • Majorer des normes par l'inégalité triangulaire
III Orthogonalité
III.1 Vecteurs et parties orthogonaux
Notre théorie géométrique a la tête en bas. Au lycée, l'orthogonalité était première --- définie par les angles droits entre bâtons --- et le produit scalaire était un calcul dérivé. Ici on inverse : le produit scalaire est premier, et l'orthogonalité est son lieu d'annulation, \(x \perp y\) si et seulement si \(\langle x, y \rangle = 0\). En particulier, chaque produit scalaire apporte sa propre notion d'orthogonalité, et la base canonique de \(\mathbb{R}^2\) peut être orthonormée pour un produit scalaire et pas pour un autre.
Définition — Vecteurs orthogonaux\(\virgule\) parties orthogonales
Soit \((E, \langle \cdot, \cdot \rangle)\) un espace préhilbertien réel, soient \(x, y \in E\), et soient \(X, Y\) des parties de \(E\).
  • \(x\) et \(y\) sont orthogonaux, on note \(x \perp y\), si \(\langle x, y \rangle = 0\).
  • \(X\) et \(Y\) sont orthogonales, on note \(X \perp Y\), si pour tous \(x \in X\) et \(y \in Y\), \(\langle x, y \rangle = 0\).
Exemple — Vecteurs orthogonaux dans \(\mathbb{R}^3\) canonique
Sur \(\mathbb{R}^3\) muni du produit scalaire canonique, \((1 \,;\, 2 \,;\, 3)\) et \((2 \,;\, -1 \,;\, 0)\) sont orthogonaux car \(\langle (1 \,;\, 2 \,;\, 3), (2 \,;\, -1 \,;\, 0) \rangle = 1 \cdot 2 + 2 \cdot (-1) + 3 \cdot 0 = 0\). En revanche, \((1 \,;\, 2 \,;\, 3)\) et \((1 \,;\, 1 \,;\, 1)\) ne sont pas orthogonaux car \(\langle (1 \,;\, 2 \,;\, 3), (1 \,;\, 1 \,;\, 1) \rangle = 6 \ne 0\).
Exemple — Parties orthogonales en espace matriciel
Sur \(\mathcal{M}_n(\mathbb{R})\) muni du produit scalaire de Frobenius, soient \(X\) l'ensemble des matrices diagonales de trace nulle et \(Y\) l'ensemble des matrices strictement triangulaires supérieures. Alors \(X \perp Y\) : pour toute \(D \in X\) diagonale et toute \(U \in Y\) strictement triangulaire supérieure, \(D^\top U = D U\) est strictement triangulaire supérieure (sa diagonale est nulle), donc \(\langle D, U \rangle = \operatorname{tr}(D U) = 0\). Les parties \(X\) et \(Y\) dans leur ensemble sont orthogonales, sans qu'aucune ne soit réduite à \(\{0_E\}\).
Remarque clé. Parmi tous les vecteurs de \(E\), seul le vecteur nul \(0_E\) est orthogonal à lui-même, et seul le vecteur nul est orthogonal à tout vecteur de \(E\). En effet, \(x \perp x\) signifie \(\langle x, x \rangle = 0\), qui force \(x = 0_E\) par l'axiome de séparation. Et si \(x\) est orthogonal à tout \(y \in E\), on prend \(y = x\) pour obtenir \(\langle x, x \rangle = 0\), donc \(x = 0_E\). Cette double propriété de \(0_E\) est utilisée constamment.
Compétences à pratiquer
  • Vérifier l'orthogonalité
III.2 Familles orthogonales et orthonormales\(\virgule\) Pythagore
On étend l'orthogonalité aux familles indexées et on énonce la conséquence la plus utile : le théorème de Pythagore dans sa forme généralisée \(n\)-aire, plus le fait que toute famille orthogonale de vecteurs non nuls est automatiquement libre. Les deux feront tourner Gram-Schmidt et la théorie de la projection orthogonale développée plus loin dans ce chapitre.
Définition — Familles orthogonales et orthonormales
Soit \((x_i)_{i \in I}\) une famille de vecteurs de \(E\).
  • \((x_i)_{i \in I}\) est orthogonale si pour tous \(i, j \in I\) avec \(i \ne j\), \(\langle x_i, x_j \rangle = 0\).
  • \((x_i)_{i \in I}\) est orthonormée (ou orthonormale) si elle est orthogonale et chaque \(x_i\) a une norme unité ; de façon équivalente, pour tous \(i, j \in I\), \(\langle x_i, x_j \rangle = \delta_{i, j}\).
Exemple — La base canonique de \(\mathbb{R}^n\) est orthonormée
Pour le produit scalaire canonique sur \(\mathbb{R}^n\), la base canonique \((E_1, \dots, E_n)\) vérifie \(E_i^\top E_j = \delta_{i, j}\) : les \(E_i\) sont deux à deux orthogonaux et chacun a une norme unité.
Exemple — Un produit scalaire non canonique brise l'orthonormalité
Pour le produit scalaire non canonique \(\varphi(X, Y) = X^\top \begin{pmatrix} 2 & 1 \\ 1 & 2 \end{pmatrix} Y\) introduit plus haut dans ce chapitre, la base canonique de \(\mathbb{R}^2\) n'est pas orthonormée : \(\varphi(E_1, E_1) = 2 \ne 1\), et \(\varphi(E_1, E_2) = 1 \ne 0\). Le couple \(\left( \frac{(1 \,;\, 0)}{\sqrt{2}}, \frac{(1 \,;\, -2)}{\sqrt{6}} \right)\) est orthonormé pour \(\varphi\), comme le montre une vérification directe \(2 \times 2\).
Exemple — Famille des sinus sur les fonctions continues
Pour le produit scalaire intégral renormalisé \(\langle f, g \rangle = \frac{1}{\pi} \int_0^{2\pi} f(t) g(t)\, \mathrm{d}t\) sur \(C^0([0 \,;\, 2\pi], \mathbb{R})\), la famille \(s_n : t \mapsto \sin(n t)\) pour \(n \in \mathbb{N}^*\) est orthonormée. Par les intégrales trigonométriques usuelles, \(\|s_n\|^2 = \frac{1}{\pi} \int_0^{2\pi} \sin^2(nt)\, \mathrm{d}t = 1\), et pour \(m \ne n\), \(\langle s_m, s_n \rangle = \frac{1}{2\pi} \int_0^{2\pi} \big[ \cos((m-n)t) - \cos((m+n)t) \big]\, \mathrm{d}t = 0\).
Theorem — Pythagore
Soient \(x, y \in E\). Alors \(x \perp y\) si et seulement si \(\|x + y\|^2 = \|x\|^2 + \|y\|^2\).
Plus généralement, pour une famille orthogonale \((x_1, \dots, x_n)\) de \(E\) : $$ \textcolor{colorprop}{\Big\| \sum_{i = 1}^n x_i \Big\|^2 = \sum_{i = 1}^n \|x_i\|^2}. $$

Pour la forme binaire : par l'identité remarquable, \(\|x + y\|^2 = \|x\|^2 + 2 \langle x, y \rangle + \|y\|^2\). Le terme croisé \(2 \langle x, y \rangle\) s'annule si et seulement si \(\langle x, y \rangle = 0\), soit \(x \perp y\).
Pour la forme \(n\)-aire : on développe par bilinéarité : $$ \begin{aligned} \Big\| \sum_{i = 1}^n x_i \Big\|^2 &= \Big\langle \sum_{i = 1}^n x_i, \sum_{j = 1}^n x_j \Big\rangle && \text{(définition de \(\|\cdot\|^2\))} \\ &= \sum_{i = 1}^n \sum_{j = 1}^n \langle x_i, x_j \rangle && \text{(bilinéarité)} \\ &= \sum_{i = 1}^n \|x_i\|^2 + 2 \sum_{1 \le i < j \le n} \langle x_i, x_j \rangle && \text{(termes diagonaux + croisés, \(\langle x_j, x_i \rangle = \langle x_i, x_j \rangle\))} \\ &= \sum_{i = 1}^n \|x_i\|^2 && \text{(l'orthogonalité annule les termes croisés).} \end{aligned} $$

Proposition — Toute famille orthogonale de vecteurs non nuls est libre
Soit \((x_1, \dots, x_n)\) une famille orthogonale de vecteurs non nuls de \(E\). Alors \((x_1, \dots, x_n)\) est libre (linéairement indépendante). En particulier, toute famille orthonormée est libre.

Supposons \(\sum_{i = 1}^n \lambda_i x_i = 0_E\) pour certains \(\lambda_1, \dots, \lambda_n \in \mathbb{R}\). Fixons \(j \in \{1, \dots, n\}\) et prenons le produit scalaire avec \(x_j\) : $$ 0 = \langle 0_E, x_j \rangle = \Big\langle \sum_{i = 1}^n \lambda_i x_i, x_j \Big\rangle = \sum_{i = 1}^n \lambda_i \langle x_i, x_j \rangle = \lambda_j \|x_j\|^2, $$ où la dernière égalité utilise l'orthogonalité \(\langle x_i, x_j \rangle = 0\) pour \(i \ne j\). Comme \(x_j \ne 0_E\), \(\|x_j\|^2 > 0\) par séparation, donc \(\lambda_j = 0\). Ceci vaut pour tout \(j\), donc la famille est libre.

Compétences à pratiquer
  • Utiliser Pythagore et vérifier des familles orthonormales
III.3 Orthogonal d'une partie
L'orthogonal d'une partie \(X\) rassemble tous les vecteurs perpendiculaires à tout élément de \(X\). Nous verrons que ce rassemblement est automatiquement un sous-espace, et qu'il est monotone (plus \(X\) est grand, plus \(X^\perp\) est petit). Ces propriétés structurelles sont utilisées sans cesse en exercices : \((F + G)^\perp = F^\perp \cap G^\perp\), calcul d'orthogonaux de sous-espaces explicites, caractérisation des hyperplans, etc.
Définition — Orthogonal d'une partie
Soit \(X\) une partie de \(E\). L'orthogonal de \(X\) est $$ \textcolor{colordef}{X^\perp = \{ t \in E \mid \forall x \in X, \langle t, x \rangle = 0 \}}. $$
Proposition — Propriétés de \(X^\perp\)
Soient \(X, Y\) des parties de \(E\).
  • (i) \(X^\perp\) est un sous-espace de \(E\), orthogonal à \(X\).
  • (ii) \(X \cap X^\perp \subset \{ 0_E \}\) (pour toute partie \(X\)). Lorsque \(X\) est un sous-espace contenant \(0_E\), cela devient \(X \cap X^\perp = \{ 0_E \}\).
  • (iii) \(X^\perp = \operatorname{Vect}(X)^\perp\), et \(X \subset X^{\perp\perp}\).
  • (iv) Monotonie : si \(X \subset Y\), alors \(Y^\perp \subset X^\perp\).

  • (i) Sous-espace. \(0_E \in X^\perp\) puisque \(\langle 0_E, x \rangle = 0\) pour tout \(x \in X\). Pour la clôture : pour \(t, t' \in X^\perp\) et \(\lambda \in \mathbb{R}\), \(\langle \lambda t + t', x \rangle = \lambda \langle t, x \rangle + \langle t', x \rangle = 0 + 0 = 0\) pour tout \(x \in X\), donc \(\lambda t + t' \in X^\perp\).
  • (ii) \(X \cap X^\perp \subset \{ 0_E \}\). Si \(x \in X \cap X^\perp\), alors \(x \in X\) et \(x \perp X\), donc en particulier \(x \perp x\), soit \(\langle x, x \rangle = 0\), soit \(x = 0_E\) par séparation. Lorsque \(X\) est un sous-espace contenant \(0_E\), l'inclusion devient égalité.
  • (iii) \(X^\perp = \operatorname{Vect}(X)^\perp\). Si \(t \in X^\perp\) et \(y \in \operatorname{Vect}(X)\), on écrit \(y = \sum \mu_i x_i\) avec \(x_i \in X\) ; alors \(\langle t, y \rangle = \sum \mu_i \langle t, x_i \rangle = 0\), donc \(t \in \operatorname{Vect}(X)^\perp\). Réciproquement, si \(t \in \operatorname{Vect}(X)^\perp\), alors pour tout \(x \in X \subset \operatorname{Vect}(X)\), \(\langle t, x \rangle = 0\) ; donc \(t \in X^\perp\). Pour \(X \subset X^{\perp\perp}\) : tout \(x \in X\) est orthogonal à tout \(t \in X^\perp\) par définition, donc \(x \in X^{\perp\perp}\).
  • (iv) Monotonie. Si \(t \in Y^\perp\) et \(x \in X \subset Y\), alors \(\langle t, x \rangle = 0\) puisque \(x \in Y\), donc \(t \in X^\perp\).

Une image de l'orthogonal dans \(\mathbb{R}^3\) : étant donné un vecteur non nul \(a\), son orthogonal \(\{a\}^\perp\) est le plan passant par l'origine perpendiculaire à \(a\).
Exemple — Hyperplan via un vecteur normal
Dans l'espace euclidien canonique \(\mathbb{R}^3\), le plan \(H\) d'équation \(3x - y + 2z = 0\) est l'orthogonal de \(\{(3 \,;\, -1 \,;\, 2)\}\) : en effet, pour \((x, y, z) \in \mathbb{R}^3\), \(\langle (3 \,;\, -1 \,;\, 2), (x \,;\, y \,;\, z) \rangle = 3x - y + 2z\), donc \(H = \{ (x \,;\, y \,;\, z) \mid \langle (3 \,;\, -1 \,;\, 2), (x \,;\, y \,;\, z) \rangle = 0 \} = \{(3 \,;\, -1 \,;\, 2)\}^\perp\).
Exemple — Matrices symétriques vs antisymétriques
On munit \(\mathcal{M}_n(\mathbb{R})\) de son produit scalaire canonique de Frobenius. Alors \(\mathcal{S}_n(\mathbb{R})^\perp = \mathcal{A}_n(\mathbb{R})\) (l'orthogonal des matrices symétriques est les antisymétriques).
Inclusion \(\mathcal{A}_n(\mathbb{R}) \subset \mathcal{S}_n(\mathbb{R})^\perp\). Pour \(S\) symétrique et \(A\) antisymétrique, \(\langle S, A \rangle = \operatorname{tr}(S^\top A) = \operatorname{tr}(S A) = \operatorname{tr}(A S) = -\operatorname{tr}(A^\top S) = -\langle A, S \rangle = -\langle S, A \rangle\), donc \(\langle S, A \rangle = 0\).
Inclusion \(\mathcal{S}_n(\mathbb{R})^\perp \subset \mathcal{A}_n(\mathbb{R})\). Soit \(M \in \mathcal{S}_n(\mathbb{R})^\perp\). On décompose \(M = S + A\) avec \(S = (M + M^\top)/2 \in \mathcal{S}_n(\mathbb{R})\) et \(A = (M - M^\top)/2 \in \mathcal{A}_n(\mathbb{R})\). Comme \(A \in \mathcal{A}_n(\mathbb{R}) \subset \mathcal{S}_n(\mathbb{R})^\perp\) (par la première inclusion), on a \(\langle A, S \rangle = 0\). Alors $$ 0 = \langle M, S \rangle = \langle S + A, S \rangle = \|S\|^2 + \langle A, S \rangle = \|S\|^2, $$ donc \(S = 0\) par séparation, soit \(M = A \in \mathcal{A}_n(\mathbb{R})\).
Compétences à pratiquer
  • Calculer \(X^\perp\) explicitement
III.4 Algorithme d'orthonormalisation de Gram-Schmidt
Étant donnée une famille libre quelconque \((e_1, \dots, e_n)\) de \(E\), peut-on toujours produire une famille orthonormée de même engendrement ? Oui. La procédure, due à Gram et Schmidt, est itérative : on construit \(u_1\) à partir de \(e_1\) seul par normalisation ; puis pour chaque \(k \ge 2\), on annule les composantes de \(e_k\) selon les \(u_1, \dots, u_{k-1}\) précédents pour obtenir un vecteur \(\hat u_k\) orthogonal à eux, et on normalise. On isole d'abord le lemme à un pas clé (« composante selon un vecteur »), puis on énonce et on démontre l'algorithme complet.
Proposition — Composante selon un vecteur
  • (i) Un vecteur unitaire. Soit \(u \in E\) unitaire. Pour tout \(x \in E\), le vecteur \(x - \langle x, u \rangle u\) est orthogonal à \(u\). Le vecteur \(\langle x, u \rangle u\) est appelé la composante de \(x\) selon \(u\).
  • (ii) Famille orthonormée. Soit \((u_1, \dots, u_n)\) une famille orthonormée de \(E\). Pour tout \(x \in E\), le vecteur \(x - \sum_{i = 1}^n \langle x, u_i \rangle u_i\) est orthogonal à chacun de \(u_1, \dots, u_n\).

  • (i). \(\langle x - \langle x, u \rangle u, u \rangle = \langle x, u \rangle - \langle x, u \rangle \langle u, u \rangle = \langle x, u \rangle - \langle x, u \rangle \cdot 1 = 0\), en utilisant \(\|u\|^2 = 1\).
  • (ii). On fixe \(j\) et on calcule \(\langle x - \sum_i \langle x, u_i \rangle u_i, u_j \rangle = \langle x, u_j \rangle - \sum_i \langle x, u_i \rangle \langle u_i, u_j \rangle = \langle x, u_j \rangle - \sum_i \langle x, u_i \rangle \delta_{i, j} = \langle x, u_j \rangle - \langle x, u_j \rangle = 0\).

Theorem — Orthonormalisation de Gram-Schmidt
Soit \((e_1, \dots, e_n)\) une famille libre de \(E\). Il existe une famille orthonormée \((u_1, \dots, u_n)\) de \(E\) telle que pour tout \(k \in \{1, \dots, n\}\), $$ \textcolor{colorprop}{\operatorname{Vect}(u_1, \dots, u_k) = \operatorname{Vect}(e_1, \dots, e_k)}. $$ Les \(u_k\) sont construits par récurrence. En posant \(\hat u_k = e_k - \sum_{i = 1}^{k - 1} \langle e_k, u_i \rangle u_i\) (avec la convention \(\hat u_1 = e_1\)), on a \(\hat u_k \ne 0_E\) et \(u_k = \pm \hat u_k / \|\hat u_k\|\) (au signe près).

Par récurrence sur \(k\).
Initialisation (\(k = 1\)). La famille \((e_1)\) est libre, donc \(e_1 \ne 0_E\), donc \(\|e_1\| \ne 0\). On pose \(u_1 = e_1 / \|e_1\|\), qui est unitaire. Alors \(\operatorname{Vect}(u_1) = \operatorname{Vect}(e_1)\) car \(u_1\) est un multiple scalaire non nul de \(e_1\).
Hérédité. Supposons qu'on a construit, pour un certain \(k \in \{2, \dots, n\}\), une famille orthonormée \((u_1, \dots, u_{k - 1})\) vérifiant \(\operatorname{Vect}(u_1, \dots, u_{k - 1}) = \operatorname{Vect}(e_1, \dots, e_{k - 1})\). On définit \(\hat u_k = e_k - \sum_{i = 1}^{k - 1} \langle e_k, u_i \rangle u_i\). Par la Proposition précédente, \(\hat u_k\) est orthogonal à chacun de \(u_1, \dots, u_{k - 1}\). On affirme \(\hat u_k \ne 0_E\) : sinon \(e_k = \sum_{i = 1}^{k - 1} \langle e_k, u_i \rangle u_i \in \operatorname{Vect}(u_1, \dots, u_{k - 1}) = \operatorname{Vect}(e_1, \dots, e_{k - 1})\), contredisant la liberté de \((e_1, \dots, e_n)\). On pose \(u_k = \hat u_k / \|\hat u_k\|\) (ou son opposé). Alors \((u_1, \dots, u_k)\) est orthonormée. Enfin, \(u_k \in \operatorname{Vect}(u_1, \dots, u_{k - 1}, e_k) = \operatorname{Vect}(e_1, \dots, e_k)\) car \(u_k\) est combinaison linéaire des \(u_i\) et de \(e_k\). Réciproquement \(e_k = \hat u_k + \sum_{i = 1}^{k - 1} \langle e_k, u_i \rangle u_i = \pm \|\hat u_k\| u_k + \sum_{i = 1}^{k - 1} \langle e_k, u_i \rangle u_i \in \operatorname{Vect}(u_1, \dots, u_k)\) (le \(\pm\) suit le choix de signe dans \(u_k = \pm \hat u_k / \|\hat u_k\|\)). Donc les deux engendrements sont égaux.
Conclusion. Par récurrence, \((u_1, \dots, u_n)\) existe avec les propriétés requises.

La figure emblématique du cas \(n = 2\) visualise l'algorithme : \(e_1\) est normalisé en \(u_1\) (même direction, longueur unité) ; \(e_2\) a sa composante \(\langle e_2, u_1 \rangle u_1\) retranchée pour produire \(\hat u_2 \perp u_1\), puis \(\hat u_2\) est normalisé en \(u_2\).
Méthode — Orthonormaliser une famille libre
Étant donnée une famille libre \((e_1, \dots, e_n)\), on construit \((u_1, \dots, u_n)\) orthonormée en itérant :
  • Étape 1. \(u_1 = e_1 / \|e_1\|\).
  • Étape k (pour \(k = 2, \dots, n\)). Calculer \(\hat u_k = e_k - \sum_{i = 1}^{k - 1} \langle e_k, u_i \rangle u_i\), puis \(u_k = \hat u_k / \|\hat u_k\|\).
Vérification. \(\hat u_k \ne 0_E\) est garanti par la liberté de \((e_1, \dots, e_n)\). Si à une étape \(\hat u_k = 0_E\), la famille d'origine n'était pas libre --- revérifier l'entrée.
Exemple — Orthonormaliser les monômes de degré au plus 2
Orthonormaliser \((1, X, X^2)\) sur \(\mathbb{R}[X]\) muni du produit scalaire intégral \(\langle P, Q \rangle = \int_0^1 P(t) Q(t)\, \mathrm{d}t\).

  • Étape 1. \(\|1\|^2 = \int_0^1 1\, \mathrm{d}t = 1\), donc \(u_1 = 1\).
  • Étape 2. \(\langle X, u_1 \rangle = \int_0^1 t\, \mathrm{d}t = \tfrac{1}{2}\), donc \(\hat u_2 = X - \tfrac{1}{2}\). Puis \(\|\hat u_2\|^2 = \int_0^1 (t - \tfrac{1}{2})^2\, \mathrm{d}t = \tfrac{1}{12}\), donc \(u_2 = \sqrt{12} (X - \tfrac{1}{2}) = \sqrt{3} (2 X - 1)\).
  • Étape 3. \(\langle X^2, u_1 \rangle = \int_0^1 t^2\, \mathrm{d}t = \tfrac{1}{3}\), \(\langle X^2, u_2 \rangle = \sqrt{3} \int_0^1 t^2 (2 t - 1)\, \mathrm{d}t = \sqrt{3} (\tfrac{1}{2} - \tfrac{1}{3}) = \tfrac{\sqrt{3}}{6}\). Donc \(\hat u_3 = X^2 - \tfrac{1}{3} - \tfrac{\sqrt{3}}{6} \cdot \sqrt{3}(2 X - 1) = X^2 - \tfrac{1}{3} - \tfrac{1}{2}(2 X - 1) = X^2 - X + \tfrac{1}{6}\). Puis \(\|\hat u_3\|^2 = \int_0^1 (t^2 - t + \tfrac{1}{6})^2\, \mathrm{d}t = \tfrac{1}{180}\), donc \(u_3 = \sqrt{180}(X^2 - X + \tfrac{1}{6}) = \sqrt{5}(6 X^2 - 6 X + 1)\).
La famille orthonormée \((1, \sqrt{3}(2X - 1), \sqrt{5}(6X^2 - 6X + 1))\) est (à convention de signe près) la famille des polynômes de Legendre décalés.

Compétences à pratiquer
  • Orthonormaliser une famille libre
IV Bases orthonormées en dimension finie
IV.1 Existence d'une base orthonormée\(\virgule\) base orthonormée incomplète
En dimension finie, deux théorèmes structurels découlent directement de Gram-Schmidt : tout espace euclidien possède une base orthonormée (BON), et toute famille orthonormée peut être complétée en BON. Les deux suivent par application de Gram-Schmidt à une base d'entrée judicieuse.
Theorem — Existence d'une base orthonormée
Tout espace euclidien \(E\) (espace préhilbertien réel de dimension finie) admet une base orthonormée.

\(E\) est de dimension finie \(n \ge 0\). Si \(n = 0\), la famille vide est orthonormée et est une base de \(\{0_E\}\). Si \(n \ge 1\), \(E\) a une base \((e_1, \dots, e_n)\) (par le chapitre prérequis Dimension finie). En appliquant Gram-Schmidt à \((e_1, \dots, e_n)\), on produit une famille orthonormée \((u_1, \dots, u_n)\) avec \(\operatorname{Vect}(u_1, \dots, u_n) = \operatorname{Vect}(e_1, \dots, e_n) = E\). Comme \((u_1, \dots, u_n)\) est orthonormée à \(n\) vecteurs de \(E\) engendrant \(E\), c'est une base orthonormée.

Theorem — Base orthonormée incomplète
Soit \(E\) un espace euclidien et \((u_1, \dots, u_p)\) une famille orthonormée de \(E\). Alors \((u_1, \dots, u_p)\) peut être complétée en une base orthonormée \((u_1, \dots, u_p, u_{p+1}, \dots, u_n)\) de \(E\).

La famille orthonormée \((u_1, \dots, u_p)\) est libre (Proposition « Toute famille orthogonale de vecteurs non nuls est libre » plus haut). Par le théorème de la base incomplète de Dimension finie, on la complète en une base \((u_1, \dots, u_p, v_{p+1}, \dots, v_n)\) de \(E\). On applique Gram-Schmidt à cette base complétée. Pour \(k \le p\) : \(u_k\) est déjà sous la forme voulue, et Gram-Schmidt à l'étape \(k\) calcule \(\hat u_k = u_k - \sum_{i = 1}^{k-1} \langle u_k, u_i \rangle u_i = u_k\) puisque les \(u_i\) sont orthonormés et \(\langle u_k, u_i \rangle = \delta_{k, i} = 0\) pour \(i < k\). Donc Gram-Schmidt ne modifie pas \(u_1, \dots, u_p\). Pour \(k = p + 1, \dots, n\), Gram-Schmidt produit les nouveaux \(u_k\) orthonormés à partir des \(v_k\). La famille résultante est une base orthonormée prolongeant \((u_1, \dots, u_p)\).

Compétences à pratiquer
  • Construire une BON d'un sous-espace concret
IV.2 Coordonnées\(\virgule\) produit scalaire et norme dans une base orthonormée
Une fois qu'on a une BON \((e_1, \dots, e_n)\) d'un espace euclidien \(E\), scalaires et vecteurs sont liés par une formule simple : la \(i\)-ème coordonnée de \(x\) est \(\langle x, e_i \rangle\). Par conséquent, en coordonnées BON, tout produit scalaire euclidien se calcule comme le produit scalaire canonique des coordonnées. C'est l'effondrement structurel qui justifie le slogan « le produit scalaire canonique sur \(\mathbb{R}^n\) est l'archétype de tout produit scalaire euclidien ».
Theorem — Coordonnées dans une base orthonormée
Soit \(E\) un espace euclidien, \((e_1, \dots, e_n)\) une base orthonormée de \(E\), et \(x \in E\). Alors $$ \textcolor{colorprop}{x = \sum_{i = 1}^n \langle x, e_i \rangle\, e_i}. $$ Le scalaire \(\langle x, e_i \rangle\) est la \(i\)-ème coordonnée de \(x\) dans la BON.

Le vecteur \(x - \sum_{i = 1}^n \langle x, e_i \rangle e_i\) est orthogonal à chaque \(e_j\) par la Proposition « Composante selon un vecteur » (ii) plus haut. Comme \((e_1, \dots, e_n)\) est une base de \(E\), tout vecteur de \(E\) est combinaison linéaire des \(e_j\), donc \(x - \sum \langle x, e_i \rangle e_i\) est orthogonal à tout vecteur de \(E\). Par la remarque clé sur les vecteurs orthogonaux plus haut, seul \(0_E\) a cette propriété : \(x - \sum \langle x, e_i \rangle e_i = 0_E\), donc \(x = \sum \langle x, e_i \rangle e_i\).

Theorem — Produit scalaire et norme dans une BON
Soit \(E\) un espace euclidien, \((e_1, \dots, e_n)\) une base orthonormée de \(E\), et \(x, y \in E\) de vecteurs de coordonnées \(X = (x_1 \,;\, \dots \,;\, x_n)^\top\) et \(Y = (y_1 \,;\, \dots \,;\, y_n)^\top\) dans la BON. Alors $$ \textcolor{colorprop}{\langle x, y \rangle = \sum_{i = 1}^n x_i y_i = X^\top Y, \qquad \|x\|^2 = \sum_{i = 1}^n x_i^2 = X^\top X}. $$

Par le Théorème précédent, \(x = \sum_i x_i e_i\) et \(y = \sum_j y_j e_j\). Par bilinéarité : $$ \begin{aligned} \langle x, y \rangle &= \Big\langle \sum_i x_i e_i, \sum_j y_j e_j \Big\rangle \\ &= \sum_{i, j} x_i y_j \langle e_i, e_j \rangle && \text{(bilinéarité)} \\ &= \sum_{i, j} x_i y_j \delta_{i, j} && \text{(orthonormalité)} \\ &= \sum_i x_i y_i = X^\top Y. \end{aligned} $$ On prend \(y = x\) pour \(\|x\|^2 = \sum_i x_i^2 = X^\top X\).

Attention. La formule \(\langle x, y \rangle = \sum x_i y_i\) ne vaut que dans une base orthonormée. Si la base n'est pas orthonormée, les coordonnées de \(x\) n'ont rien à voir avec \(\langle x, e_i \rangle\), et le produit scalaire ne se réduit pas au produit canonique des coordonnées.
Retenir. En coordonnées BON, tout produit scalaire euclidien se calcule comme le produit scalaire canonique de \(\mathbb{R}^n\). La théorie euclidienne abstraite est donc, du point de vue calculatoire, \(\mathbb{R}^n\) déguisé --- une fois qu'on a fixé une BON.
Compétences à pratiquer
  • Lire coordonnées\(\virgule\) produit scalaire et norme dans une BON
V Supplémentaire orthogonal et projection orthogonale
V.1 Supplémentaire orthogonal d'un sous-espace de dimension finie
L'hypothèse porteuse tout au long de cette section est la dimension finie de \(F\), pas celle de \(E\). Dans un espace préhilbertien de dimension infinie, un sous-espace \(F\) de dimension infinie peut ne pas vérifier \(E = F \oplus F^\perp\) (contre-exemple dans \(C^0([0 \,;\, 1], \mathbb{R})\) : prendre \(F = \{ f \mid f(0) = 0 \}\), alors \(F^\perp = \{0\}\) tandis que \(F \ne E\)). Mais dès que \(F\) est de dimension finie, le supplémentaire orthogonal existe, est unique, et est le cœur algébrique de la projection orthogonale.
Une image : \(F\) comme droite dans \(\mathbb{R}^3\), \(F^\perp\) comme plan orthogonal.
Theorem — Supplémentaire orthogonal d'un sous-espace de dimension finie
Soit \(E\) un espace préhilbertien réel (éventuellement de dimension infinie), et soit \(F\) un sous-espace de \(E\) de dimension finie. Alors :
  • (i) \textcolor{colorprop}{\(E = F \oplus F^\perp\)}.
  • (ii) \textcolor{colorprop}{\(F^\perp\) est l'unique sous-espace \(G\) de \(E\) tel que \(E = F \oplus G\) et \(G \perp F\)}. On appelle \(F^\perp\) le supplémentaire orthogonal de \(F\). (Remarque : \(F\) peut avoir de nombreux supplémentaires algébriques ; parmi eux, exactement un est orthogonal à \(F\).)
  • (iii) Si \(E\) est de dimension finie : \(\dim F^\perp = \dim E - \dim F\).
  • (iv) \(F^{\perp\perp} = F\).

  • (i) \(E = F \oplus F^\perp\). On a déjà \(F \cap F^\perp = \{0_E\}\) par la Proposition « Orthogonal d'une partie » (ii) plus haut. Pour \(E = F + F^\perp\) : \(F\) est de dimension finie, donc par le Théorème « Existence d'une base orthonormée » plus haut, il a une base orthonormée \((f_1, \dots, f_p)\). Pour tout \(x \in E\), posons \(f = \sum_{i = 1}^p \langle x, f_i \rangle f_i \in F\). Par la Proposition « Composante selon un vecteur » (ii) plus haut, \(x - f\) est orthogonal à chaque \(f_i\), donc à \(\operatorname{Vect}(f_1, \dots, f_p) = F\), soit \(x - f \in F^\perp\). Donc \(x = f + (x - f) \in F + F^\perp\).
  • (ii) Unicité du supplémentaire orthogonal. Soit \(G\) un sous-espace avec \(E = F \oplus G\) et \(G \perp F\). Par la définition de \(G \perp F\), \(G \subset F^\perp\). Réciproquement, pour \(x \in F^\perp\), on décompose \(x = f + g \in F + G\) (puisque \(E = F + G\)). Alors \(\langle f, f \rangle = \langle x, f \rangle - \langle g, f \rangle = 0 - 0 = 0\) (le premier s'annule car \(x \in F^\perp\) et \(f \in F\) ; le second car \(g \in G\) et \(G \perp F\)). Donc \(f = 0_E\) par séparation, et \(x = g \in G\). Ainsi \(F^\perp \subset G\), d'où \(G = F^\perp\).
  • (iii) Formule de dimension. Si \(E\) est de dimension finie, \(\dim(F \oplus F^\perp) = \dim F + \dim F^\perp = \dim E\), donc \(\dim F^\perp = \dim E - \dim F\).
  • (iv) \(F^{\perp\perp} = F\). On a déjà \(F \subset F^{\perp\perp}\) par la Proposition « Orthogonal d'une partie » (iii) plus haut. Réciproquement, pour \(x \in F^{\perp\perp}\), on décompose \(x = f + f'\) avec \(f \in F\) et \(f' \in F^\perp\). Alors \(\langle f', f' \rangle = \langle x, f' \rangle - \langle f, f' \rangle = 0 - 0 = 0\) (le premier s'annule car \(x \in F^{\perp\perp}\) et \(f' \in F^\perp\) ; le second car \(f \in F \subset F^{\perp\perp}\) et \(f' \in F^\perp\), par \(F \perp F^\perp\)). Donc \(f' = 0_E\) par séparation, soit \(x = f \in F\).

Attention (la dimension finie de \(F\) est essentielle). Le contre-exemple le plus simple en dimension infinie : dans \(E = C^0([0 \,;\, 1], \mathbb{R})\) muni du produit scalaire intégral, on prend \(F = \{ f \in E \mid f(0) = 0 \}\). On peut montrer \(F^\perp = \{0\}\) (toute \(g\) continue orthogonale à toute \(f\) s'annulant en \(0\) est elle-même nulle sur \((0 \,;\, 1]\), donc sur \([0 \,;\, 1]\) par continuité), donc \(F + F^\perp = F \subsetneq E\). C'est pourquoi cette section demande systématiquement la dimension de \(F\), et pas celle de \(E\), d'être finie.
Compétences à pratiquer
  • Calculer \(F^\perp\) et vérifier \(E \equal F \oplus F^\perp\)
V.2 Projection orthogonale sur un sous-espace de dimension finie
Une fois \(E = F \oplus F^\perp\) pour \(F\) de dimension finie, on peut projeter tout \(x \in E\) sur \(F\) parallèlement à \(F^\perp\). L'image \(p(x) \in F\) est l'unique vecteur de \(F\) tel que \(x - p(x) \in F^\perp\), soit \(x - p(x)\) orthogonal à tout \(F\).
L'image : \(x\) se décompose en \(f \in F\) (la projection) et \(f' \in F^\perp\) (le résidu).
Définition — Projection orthogonale
Soit \(F\) un sous-espace de \(E\) de dimension finie, de sorte que \(E = F \oplus F^\perp\). La projection sur \(F\) parallèlement à \(F^\perp\) est appelée la projection orthogonale sur \(F\), notée \(p_F\) (ou simplement \(p\) lorsque \(F\) est clair).
Theorem — Expression de la projection orthogonale dans une BON de \(F\)
Soit \(F\) un sous-espace de \(E\) de dimension finie, \((f_1, \dots, f_p)\) une base orthonormée de \(F\), et \(x \in E\). Alors $$ \textcolor{colorprop}{p_F(x) = \sum_{i = 1}^p \langle x, f_i \rangle\, f_i}. $$

Posons \(f = \sum_{i = 1}^p \langle x, f_i \rangle f_i\). Alors \(f \in F = \operatorname{Vect}(f_1, \dots, f_p)\). Par la Proposition « Composante selon un vecteur » (ii) plus haut, \(x - f\) est orthogonal à chaque \(f_i\), donc à \(F\), soit \(x - f \in F^\perp\). La décomposition \(x = f + (x - f) \in F + F^\perp\) est exactement la décomposition unique \(F \oplus F^\perp\) de \(x\), de composante sur \(F\) égale à \(f\). Donc \(p_F(x) = f\).

Méthode — Calculer \(p_F(x)\) quand la base de \(F\) n'est pas orthonormée
Deux stratégies. La stratégie B est en général plus rapide.
  • Stratégie A (route Gram-Schmidt). Orthonormaliser la base \((f_1, \dots, f_p)\) de \(F\) par Gram-Schmidt en une BON \((u_1, \dots, u_p)\) de \(F\), puis appliquer \(p_F(x) = \sum \langle x, u_i \rangle u_i\). Inconvénient : les produits scalaires intégraux ou matriciels conduisent à des normalisations \(1 / \sqrt{\text{truc}}\) qui se propagent.
  • Stratégie B (système d'orthogonalité --- recommandée). On écrit \(p_F(x) = \sum_{i = 1}^p \lambda_i f_i\) d'inconnues \((\lambda_1, \dots, \lambda_p)\). On utilise la caractérisation « \(p_F(x) \in F\) et \(x - p_F(x) \in F^\perp\) » : la seconde donne \(\langle x - p_F(x), f_j \rangle = 0\) pour \(j = 1, \dots, p\). Ceci donne le système linéaire \(p \times p\) $$ \sum_{i = 1}^p \lambda_i \langle f_i, f_j \rangle = \langle x, f_j \rangle, \qquad j = 1, \dots, p. $$ On le résout. Plus propre que la stratégie A en pratique.
Exemple — Projeter l'identité sur l'engendrement de cosinus et sinus
Calculer la projection orthogonale de \(\operatorname{Id} : t \mapsto t\) sur \(F = \operatorname{Vect}(\cos, \sin)\) dans \(C^0([0 \,;\, 2\pi], \mathbb{R})\) avec le produit scalaire intégral \(\langle f, g \rangle = \int_0^{2\pi} f(t) g(t)\, \mathrm{d}t\).

On utilise la stratégie B. On pose \(p(\operatorname{Id}) = \lambda \cos + \mu \sin\) et on impose \(\langle \operatorname{Id} - p(\operatorname{Id}), \cos \rangle = 0\) et \(\langle \operatorname{Id} - p(\operatorname{Id}), \sin \rangle = 0\). Intégrales utiles : \(\|\cos\|^2 = \|\sin\|^2 = \pi\), \(\langle \cos, \sin \rangle = 0\) (donc la famille \((\cos, \sin)\) est déjà orthogonale, mais pas unitaire) ; \(\langle \operatorname{Id}, \cos \rangle = \int_0^{2\pi} t \cos t\, \mathrm{d}t = 0\) (intégration par parties) et \(\langle \operatorname{Id}, \sin \rangle = \int_0^{2\pi} t \sin t\, \mathrm{d}t = -2\pi\).
Le système \(\lambda \|\cos\|^2 + \mu \langle \sin, \cos \rangle = \langle \operatorname{Id}, \cos \rangle\) et son compagnon symétrique deviennent \(\lambda \pi = 0\) et \(\mu \pi = -2 \pi\). D'où \(\lambda = 0\) et \(\mu = -2\), donc \(p(\operatorname{Id}) = -2 \sin\).

Compétences à pratiquer
  • Projeter sur un sous-espace concret
V.3 Cas particulier : projection sur un hyperplan
Pour un hyperplan \(H\) d'un espace euclidien de dimension finie, \(H^\perp\) est de dimension \(1\). Donc un seul vecteur non nul --- le vecteur normal --- caractérise \(H^\perp\), et les formules de projection deviennent particulièrement propres.
Theorem — Vecteur normal\(\virgule\) projection et réflexion sur un hyperplan
Soit \(E\) un espace euclidien de dimension \(n \ge 1\), et \(H\) un hyperplan de \(E\) (sous-espace de dimension \(n - 1\)).
  • (i) \(H^\perp\) est une droite de \(E\). Tout \(a \in H^\perp\) non nul est appelé vecteur normal à \(H\). (Deux vecteurs normaux diffèrent d'un scalaire non nul.)
  • (ii) Pour tout \(x \in E\) et tout vecteur normal \(a\) à \(H\) : $$ \textcolor{colorprop}{p_H(x) = x - \frac{\langle x, a \rangle}{\|a\|^2}\, a}, $$ qui se simplifie en \(p_H(x) = x - \langle x, a \rangle a\) lorsque \(a\) est unitaire.
  • (iii) La réflexion de \(E\) par rapport à \(H\) est \(s_H(x) = 2 p_H(x) - x\), soit $$ \textcolor{colorprop}{s_H(x) = x - 2\, \frac{\langle x, a \rangle}{\|a\|^2}\, a}. $$
Moyen mnémotechnique. « Pour projeter sur un gros \(H\), projeter sur le petit \(H^\perp\) et soustraire. » Concrètement, \(p_H(x) = x - p_{H^\perp}(x) = x - \frac{\langle x, a \rangle}{\|a\|^2} a\).

  • (i). \(H\) est de dim \(n - 1\) dans \(E\) de dim \(n\). Par la formule de dimension du théorème sur le supplémentaire orthogonal plus haut (item (iii)), \(\dim H^\perp = n - (n - 1) = 1\). Tout élément non nul de \(H^\perp\) l'engendre.
  • (ii). Le vecteur \(a / \|a\|\) est une base unitaire de \(H^\perp\). Par la formule de projection sur \(H^\perp\) (Théorème de projection orthogonale plus haut appliqué au sous-espace \(H^\perp\) de dim \(1\)), \(p_{H^\perp}(x) = \langle x, a / \|a\| \rangle \cdot (a / \|a\|) = \frac{\langle x, a \rangle}{\|a\|^2} a\). Par la décomposition \(x = p_H(x) + p_{H^\perp}(x)\) (puisque \(E = H \oplus H^\perp\) et les projections sont complémentaires), \(p_H(x) = x - p_{H^\perp}(x) = x - \frac{\langle x, a \rangle}{\|a\|^2} a\).
  • (iii). La réflexion par rapport à \(H\) est par définition \(s_H(x) = 2 p_H(x) - x\). En substituant (ii) on obtient \(s_H(x) = 2 x - 2 \frac{\langle x, a \rangle}{\|a\|^2} a - x = x - 2 \frac{\langle x, a \rangle}{\|a\|^2} a\).

Pointeur vers la suite. Les réflexions par rapport aux hyperplans sont les briques élémentaires de la théorie des isométries, où elles engendrent le groupe orthogonal \(\mathcal{O}(E)\) (théorème de Cartan-Dieudonné, MP). L'équation \(a_1 x_1 + \dots + a_n x_n = 0\) d'un hyperplan en coordonnées BON est exactement \(\langle x, a \rangle = 0\), le vecteur des coefficients \((a_1, \dots, a_n)\) étant le vecteur normal --- un motif récurrent dans Espaces affines.
Compétences à pratiquer
  • Utiliser la formule du vecteur normal
V.4 Distance à un sous-espace de dimension finie
La projection orthogonale \(p_F(x)\) réalise le minimum unique de \(\|x - f\|\) sur \(f \in F\). Pythagore l'explique : tout \(f \in F\) décompose \(x - f\) en le \(F^\perp\)-résidu \(x - p_F(x)\) et la \(F\)-correction \(p_F(x) - f\), deux morceaux orthogonaux. La \(F\)-correction augmente la distance.
L'image : \(d(x, F) = \|x - p_F(x)\|\) est la longueur de la perpendiculaire abaissée de \(x\) à \(F\).
Définition — Distance à une partie
Soit \(A\) une partie non vide de \(E\) et \(x \in E\). La distance de \(x\) à \(A\) est $$ d(x, A) = \inf_{a \in A} \|x - a\|. $$ En général, c'est seulement un infimum (pas nécessairement un minimum). Pour \(A\) un sous-espace de dimension finie, le théorème suivant montre que c'est un véritable minimum.
Theorem — Distance à un sous-espace de dimension finie
Soit \(F\) un sous-espace de \(E\) de dimension finie, \(x \in E\), et \(p_F\) la projection orthogonale sur \(F\). Alors \(d(x, F)\) est un minimum, atteint de façon unique en \(p_F(x)\) : $$ \textcolor{colorprop}{d(x, F) = \|x - p_F(x)\|, \qquad d(x, F)^2 = \|x\|^2 - \|p_F(x)\|^2}. $$

Pour tout \(f \in F\), on décompose \(x - f = (x - p_F(x)) + (p_F(x) - f)\). Le premier terme est dans \(F^\perp\) (puisque \(x - p_F(x) \in F^\perp\) par définition de la projection orthogonale), le second est dans \(F\) (puisque \(p_F(x), f \in F\)). Par Pythagore, $$ \|x - f\|^2 = \|x - p_F(x)\|^2 + \|p_F(x) - f\|^2 \ge \|x - p_F(x)\|^2, $$ avec égalité si et seulement si \(\|p_F(x) - f\|^2 = 0\), soit \(f = p_F(x)\) par séparation. En prenant les racines carrées, \(\|x - f\| \ge \|x - p_F(x)\|\) avec égalité ssi \(f = p_F(x)\). Donc \(d(x, F) = \inf_{f \in F} \|x - f\| = \|x - p_F(x)\|\) est un minimum, atteint uniquement en \(p_F(x)\).
Pour la formule alternative : on applique Pythagore à \(x = p_F(x) + (x - p_F(x))\) avec la décomposition orthogonale \(p_F(x) \in F\) et \(x - p_F(x) \in F^\perp\) : $$ \|x\|^2 = \|p_F(x)\|^2 + \|x - p_F(x)\|^2 = \|p_F(x)\|^2 + d(x, F)^2, $$ donc \(d(x, F)^2 = \|x\|^2 - \|p_F(x)\|^2\).

Méthode — Calculer \(d(x\virgule F)\)
Deux étapes.
  • Étape 1. Calculer \(p_F(x)\) par la stratégie A ou B de la sous-section sur la projection orthogonale plus haut.
  • Étape 2. Calculer \(d(x, F) = \|x - p_F(x)\|\), ou de façon équivalente \(d(x, F)^2 = \|x\|^2 - \|p_F(x)\|^2\) (souvent la formule la plus propre quand \(\|x\|\) et \(\|p_F(x)\|\) sont plus simples à calculer que \(\|x - p_F(x)\|\)).
Exemple — Problème de minimisation comme distance au carré
Calculer \(I = \displaystyle \inf_{a, b \in \mathbb{R}} \int_0^{2\pi} (t - a \cos t - b \sin t)^2\, \mathrm{d}t\).

On reformule comme une distance au carré dans \(C^0([0 \,;\, 2\pi], \mathbb{R})\) avec le produit scalaire intégral : \(I = \inf_{f \in F} \|\operatorname{Id} - f\|^2 = d(\operatorname{Id}, F)^2\) où \(F = \operatorname{Vect}(\cos, \sin)\). On a déjà calculé \(p(\operatorname{Id}) = -2 \sin\) dans la sous-section sur la projection orthogonale plus haut. Donc $$ I = \|\operatorname{Id}\|^2 - \|p(\operatorname{Id})\|^2 = \int_0^{2\pi} t^2\, \mathrm{d}t - 4 \|\sin\|^2 = \frac{8 \pi^3}{3} - 4 \pi. $$ L'infimum est atteint en \((a \,;\, b) = (0 \,;\, -2)\).

Pointeur vers la suite. Le motif « minimisation comme distance au carré » est le cœur algébrique des moindres carrés --- la méthode de travail de la statistique, du traitement du signal et de l'analyse numérique, traitée en MP et MP* et présente dans toute formation d'ingénieur. La leçon : de nombreux problèmes « trouver \(a, b\) minimisant telle intégrale ou telle somme » se réduisent, après réécriture soigneuse, à une projection sur un sous-espace de dimension finie d'un espace préhilbertien.
Compétences à pratiquer
  • Calculer \(d(x\virgule F)\) via la projection
Aller à la section