CommeUnJeu · L1 PCSI
Espérance, variance, covariance
Après avoir défini les variables aléatoires et leurs lois dans le chapitre Variables aléatoires sur un univers fini, nous extrayons de la loi deux résumés scalaires qui en capturent l'essentiel : l'espérance \(E(X)\), indicateur de position (la moyenne pondérée des valeurs de \(X\)), et la variance \(V(X)\), indicateur de dispersion (l'écart quadratique moyen à l'espérance). Ces deux nombres sont les piliers du calcul probabiliste : la plupart des questions concrètes sur \(X\) se résolvent en calculant \(E(X)\) et \(V(X)\), puis en injectant dans une formule ou une inégalité nommée.
Le plan a trois parties. La première définit l'espérance, la calcule pour les lois usuelles (uniforme, Bernoulli, binomiale) et démontre ses trois piliers : la linéarité (la propriété la plus utilisée du chapitre --- elle ne requiert aucune indépendance), la formule de transfert (le moyen de calculer \(E(f(X))\) sans calculer la loi de \(f(X)\)) et la formule du produit \(E(X Y) = E(X) E(Y)\) pour des variables indépendantes. La deuxième partie définit la variance, la covariance et la variance d'une somme, culminant dans l'identité de Bienaymé : pour des variables deux à deux décorrélées, la variance de la somme est la somme des variances --- la formule qui fait de \(V(\mathcal B(n, p)) = n p(1-p)\) une conséquence en une ligne. La troisième partie démontre les trois inégalités de concentration du programme : Markov, Bienaymé-Tchebychev (la borne sur l'écart à la moyenne) et la loi faible des grands nombres, qui justifie l'interprétation fréquentiste de la probabilité.
Trois réflexes que le lecteur doit emporter : (i) la linéarité de l'espérance ne requiert aucune indépendance --- \(E(X + Y) = E(X) + E(Y)\) vaut en toute généralité ; calculer la loi de \(X + Y\) pour en déduire son espérance est une erreur de débutant. (ii) Pour des \((X_i)_i\) deux à deux décorrélées --- notamment si elles sont deux à deux indépendantes (et a fortiori mutuellement indépendantes) --- \(V(\sum_i X_i) = \sum_i V(X_i)\) ; c'est l'identité de Bienaymé et la variance de la binomiale en est la première application. (iii) Décorrélation n'implique pas indépendance : un contre-exemple net (\(X\) uniforme sur \(\{-1, 0, +1\}\), \(Y = X^2\)) fait partie du vocabulaire actif. Le chapitre clôt le bloc probabilité de ce cours.
Le plan a trois parties. La première définit l'espérance, la calcule pour les lois usuelles (uniforme, Bernoulli, binomiale) et démontre ses trois piliers : la linéarité (la propriété la plus utilisée du chapitre --- elle ne requiert aucune indépendance), la formule de transfert (le moyen de calculer \(E(f(X))\) sans calculer la loi de \(f(X)\)) et la formule du produit \(E(X Y) = E(X) E(Y)\) pour des variables indépendantes. La deuxième partie définit la variance, la covariance et la variance d'une somme, culminant dans l'identité de Bienaymé : pour des variables deux à deux décorrélées, la variance de la somme est la somme des variances --- la formule qui fait de \(V(\mathcal B(n, p)) = n p(1-p)\) une conséquence en une ligne. La troisième partie démontre les trois inégalités de concentration du programme : Markov, Bienaymé-Tchebychev (la borne sur l'écart à la moyenne) et la loi faible des grands nombres, qui justifie l'interprétation fréquentiste de la probabilité.
Trois réflexes que le lecteur doit emporter : (i) la linéarité de l'espérance ne requiert aucune indépendance --- \(E(X + Y) = E(X) + E(Y)\) vaut en toute généralité ; calculer la loi de \(X + Y\) pour en déduire son espérance est une erreur de débutant. (ii) Pour des \((X_i)_i\) deux à deux décorrélées --- notamment si elles sont deux à deux indépendantes (et a fortiori mutuellement indépendantes) --- \(V(\sum_i X_i) = \sum_i V(X_i)\) ; c'est l'identité de Bienaymé et la variance de la binomiale en est la première application. (iii) Décorrélation n'implique pas indépendance : un contre-exemple net (\(X\) uniforme sur \(\{-1, 0, +1\}\), \(Y = X^2\)) fait partie du vocabulaire actif. Le chapitre clôt le bloc probabilité de ce cours.
I
Espérance
L'espérance d'une variable aléatoire résume sa loi en un seul nombre, la moyenne pondérée de ses valeurs. Après la définition et les espérances en forme close des lois usuelles (constante, uniforme, Bernoulli, binomiale), nous démontrons les trois piliers : les propriétés de l'espérance dont la linéarité, la formule de transfert pour calculer \(E(f(X))\) et la formule du produit pour des variables indépendantes. La convention \((\Omega, P)\) est un espace probabilisé fini avec \(\Omega\) non vide (héritée des deux chapitres précédents).
I.1
Définition de l'espérance
L'espérance de \(X\) est la moyenne de ses valeurs, chacune pondérée par sa probabilité d'occurrence. Plus une valeur est probable, plus elle tire l'espérance vers elle. La définition autorise des variables aléatoires réelles ou complexes pour la généralité maximale (le programme permet les deux) ; la variance et la covariance plus loin dans le chapitre exigeront des valeurs réelles.
Définition — Espérance
Soit \(X\) une variable aléatoire réelle ou complexe sur un espace probabilisé fini \((\Omega, P)\). L'espérance de \(X\) est le nombre $$ E(X) \ = \ \sum_{x \in X(\Omega)} x \cdot P(X = x). $$ On dit que \(X\) est centrée si \(E(X) = 0\). Exemple — Dé équilibré
On lance un dé équilibré à six faces. Soit \(X\) la valeur indiquée. Alors \(X(\Omega) = \llbracket 1, 6 \rrbracket\) avec \(P(X = k) = 1/6\) pour tout \(k\). Par définition, $$ E(X) \ = \ \sum_{k = 1}^6 k \cdot \frac{1}{6} \ = \ \frac{1 + 2 + 3 + 4 + 5 + 6}{6} \ = \ \frac{21}{6} \ = \ \frac{7}{2}. $$ L'espérance \(7/2 = 3{,}5\) est la « valeur moyenne » que produirait un dé équitable sur un grand nombre de lancers --- pas une valeur que le dé peut réellement afficher, mais le centre de la distribution. Exemple — Indicatrice d'un événement
Soit \(A \in \mathcal P(\Omega)\) un événement et \(X = \indicatrice_A\) son indicatrice (la variable qui vaut \(1\) sur \(A\) et \(0\) sur \(\overline A\)). Alors \(X(\Omega) = \{0, 1\}\) avec \(P(X = 1) = P(A)\) et \(P(X = 0) = P(\overline A) = 1 - P(A)\). Par définition, $$ E(\indicatrice_A) \ = \ 1 \cdot P(A) + 0 \cdot (1 - P(A)) \ = \ P(A). $$ Cette identité --- \(E(\indicatrice_A) = P(A)\) --- est fondamentale : tous les arguments de linéarité de l'espérance dans ce chapitre et au-delà reposent au final sur elle. Méthode — Calculer \(E(X)\) à partir de la loi
Pour calculer \(E(X)\) par la définition : - Lister \(X(\Omega)\), l'ensemble des valeurs que \(X\) peut prendre.
- Calculer la loi \((P(X = x))_{x \in X(\Omega)}\) (référence : chapitre Variables aléatoires sur un univers fini).
- Sommer \(x \cdot P(X = x)\) sur \(X(\Omega)\).
Compétences à pratiquer
- Calculer \(E(X)\) à partir de la loi
I.2
Espérance des lois usuelles
Les quatre cas usuels du programme (constante, uniforme, Bernoulli, binomiale) admettent des espérances en forme close. On énonce les quatre formules dans un seul Théorème et on démontre chacune. La binomiale est la plus subtile : on présente la preuve directe via la « formule du capitaine » \(k \binom{n}{k} = n \binom{n - 1}{k - 1}\) ; dans la section sur la linéarité on retrouvera le même résultat en une ligne via la linéarité appliquée à la décomposition \(X = X_1 + \cdots + X_n\) en Bernoullis i.i.d.
Theorem — Espérance des lois usuelles
Soit \(X\) une variable aléatoire sur un espace probabilisé fini. - Constante. Si \(X = m\) est constante de valeur \(m\), alors \(E(X) = m\).
- Uniforme. Soit \(F = \{x_1, \ldots, x_n\} \subset \mathbb C\). Si \(X \sim \mathcal U(F)\), alors \(E(X) = \dfrac{1}{n} \sum_{k = 1}^n x_k\) (la moyenne arithmétique des valeurs).
- Bernoulli. Soit \(p \in [0, 1]\). Si \(X \sim \mathcal B(p)\), alors \(E(X) = p\). En particulier \(E(\indicatrice_A) = P(A)\) pour tout événement \(A\).
- Binomiale. Soient \(n \in \mathbb N^*\) et \(p \in [0, 1]\). Si \(X \sim \mathcal B(n, p)\), alors \(E(X) = n p\).
- Constante. \(X(\Omega) = \{m\}\) et \(P(X = m) = 1\), donc \(E(X) = m \cdot 1 = m\).
- Uniforme. \(P(X = x_k) = 1/n\) pour tout \(k\), donc par définition, $$ E(X) \ = \ \sum_{k = 1}^n x_k \cdot \frac{1}{n} \ = \ \frac{1}{n} \sum_{k = 1}^n x_k. $$
- Bernoulli. \(X(\Omega) = \{0, 1\}\) avec \(P(X = 1) = p\) et \(P(X = 0) = 1 - p\), donc \(E(X) = 1 \cdot p + 0 \cdot (1 - p) = p\). Le cas indicatrice \(X = \indicatrice_A\) est une Bernoulli de paramètre \(P(A)\) (chapitre Variables aléatoires sur un univers fini), donc \(E(\indicatrice_A) = P(A)\).
- Binomiale. \(P(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}\) pour \(k \in \llbracket 0, n \rrbracket\). Par définition, $$ \begin{aligned} E(X) \ &= \ \sum_{k = 0}^n k \cdot \binom{n}{k} p^k (1 - p)^{n - k} && \text{(définition)} \\ &= \ \sum_{k = 1}^n k \cdot \binom{n}{k} p^k (1 - p)^{n - k} && \text{(le terme } k = 0 \text{ s'annule)} \\ &= \ \sum_{k = 1}^n n \binom{n - 1}{k - 1} p^k (1 - p)^{n - k} && \text{(formule du capitaine)} \\ &= \ n p \sum_{k = 1}^n \binom{n - 1}{k - 1} p^{k - 1} (1 - p)^{n - k} && \text{(factoriser } n p \text{)} \\ &= \ n p \sum_{i = 0}^{n - 1} \binom{n - 1}{i} p^i (1 - p)^{(n - 1) - i} && \text{(réindexer } i = k - 1 \text{)} \\ &= \ n p \cdot (p + (1 - p))^{n - 1} && \text{(formule du binôme)} \\ &= \ n p. \end{aligned} $$
Méthode — Espérances usuelles à connaître par cœur
Espérances usuelles à connaître par cœur : - \(X \sim \mathcal U(\llbracket 1, n \rrbracket)\) : \(E(X) = (n + 1)/2\) ;
- \(X \sim \mathcal B(p)\) : \(E(X) = p\) ;
- \(X \sim \mathcal B(n, p)\) : \(E(X) = n p\).
Exemple — QCM avec réponses au hasard
Un QCM comporte \(n = 10\) questions, chacune à \(4\) choix dont exactement un est correct. Un étudiant répond à toutes les questions uniformément au hasard et indépendamment. Soit \(X\) le nombre de bonnes réponses. Alors \(X \sim \mathcal B(10, 1/4)\), donc \(E(X) = 10 \cdot 1/4 = 5/2\). L'étudiant doit s'attendre à environ \(2{,}5\) bonnes réponses sur \(10\). Compétences à pratiquer
- Reconnaître et appliquer l'espérance d'une loi usuelle
I.3
Propriétés de l'espérance
Le bloc algébrique de l'espérance. La linéarité de l'espérance est la propriété la plus utilisée du chapitre --- elle ne requiert aucune indépendance, seulement l'existence de \(E(X)\) et \(E(Y)\) sur un même espace probabilisé. Les trois autres propriétés (formule alternative, inégalité triangulaire, positivité / croissance) découlent du même schéma : une manipulation de somme sur les valeurs plus l'identité fondatrice du chapitre \(E(\indicatrice_A) = P(A)\).
Theorem — Propriétés de l'espérance
Soient \(X, Y\) des variables aléatoires sur un espace probabilisé fini \((\Omega, P)\). - Formule alternative (pour \(X\) réelle ou complexe) : $$ E(X) \ = \ \sum_{\omega \in \Omega} P(\{\omega\}) \cdot X(\omega). $$
- Linéarité (pour \(X, Y\) réelles ou complexes) : pour tous \(\lambda, \mu \in \mathbb C\), $$ E(\lambda X + \mu Y) \ = \ \lambda E(X) + \mu E(Y). $$
- Inégalité triangulaire (pour \(X\) réelle ou complexe) : $$ |E(X)| \ \le \ E(|X|). $$
- Positivité (\(X\) réelle uniquement) : \(X \ge 0 \Rightarrow E(X) \ge 0\).
- Croissance (\(X, Y\) réelles uniquement) : \(X \le Y \Rightarrow E(X) \le E(Y)\).
- (i) Formule alternative. Les événements \(\{X = x\}\) pour \(x \in X(\Omega)\) forment un système complet d'événements, donc \(\Omega = \bigsqcup_{x \in X(\Omega)} \{X = x\}\). Par conséquent, $$ \begin{aligned} \sum_{\omega \in \Omega} P(\{\omega\}) X(\omega) \ &= \ \sum_{x \in X(\Omega)} \sum_{\omega \in \{X = x\}} P(\{\omega\}) X(\omega) && \text{(partition)} \\ &= \ \sum_{x \in X(\Omega)} \sum_{\omega \in \{X = x\}} P(\{\omega\}) \cdot x && \text{(}X(\omega) = x \text{ sur } \{X = x\}\text{)} \\ &= \ \sum_{x \in X(\Omega)} x \cdot P(X = x) \ = \ E(X) && \text{(} P(X = x) = \sum_{\omega \in \{X = x\}} P(\{\omega\}) \text{)}. \end{aligned} $$
- (ii) Linéarité. Par la formule alternative appliquée à \(\lambda X + \mu Y\), $$ \begin{aligned} E(\lambda X + \mu Y) \ &= \ \sum_{\omega \in \Omega} P(\{\omega\}) (\lambda X(\omega) + \mu Y(\omega)) && \text{(formule alt.)} \\ &= \ \lambda \sum_{\omega \in \Omega} P(\{\omega\}) X(\omega) + \mu \sum_{\omega \in \Omega} P(\{\omega\}) Y(\omega) && \text{(linéarité des sommes)} \\ &= \ \lambda E(X) + \mu E(Y). \end{aligned} $$
- (iii) Inégalité triangulaire. Par la formule alternative et l'inégalité triangulaire sur \(\mathbb C\), $$ |E(X)| \ = \ \Bigl| \sum_{\omega \in \Omega} P(\{\omega\}) X(\omega) \Bigr| \ \le \ \sum_{\omega \in \Omega} P(\{\omega\}) |X(\omega)| \ = \ E(|X|). $$
- (iv) Positivité. Si \(X \ge 0\), alors \(X(\omega) \ge 0\) pour tout \(\omega\) et \(P(\{\omega\}) \ge 0\), donc la formule alternative exprime \(E(X)\) comme une somme de termes positifs. Donc \(E(X) \ge 0\).
- (v) Croissance. Si \(X \le Y\), on applique (iv) à \(Y - X \ge 0\) : \(E(Y - X) \ge 0\). Par linéarité (ii), \(E(Y - X) = E(Y) - E(X)\), donc \(E(X) \le E(Y)\).
Méthode — Linéarité d'abord
Pour calculer \(E(X + Y)\), \(E(\lambda X)\), \(E(X_1 + \cdots + X_n)\), ne jamais calculer la loi de la somme. Utiliser directement la linéarité : \(E(X + Y) = E(X) + E(Y)\), etc. Les applications les plus courantes : - Retrouver \(E(\mathcal B(n, p)) = n p\) en une ligne : écrire \(X = X_1 + \cdots + X_n\) où \(X_i \sim \mathcal B(p)\) sont i.i.d. (chapitre Variables aléatoires sur un univers fini, « binomiale \(=\) somme de \(n\) Bernoullis indépendantes »). Alors \(E(X) = \sum_i E(X_i) = n \cdot p\).
- Calculer \(E\) d'un comptage : si \(X = \indicatrice_{A_1} + \cdots + \indicatrice_{A_n}\) compte le nombre de \(A_i\) qui se produisent, alors \(E(X) = P(A_1) + \cdots + P(A_n)\). L'indépendance des \(A_i\) n'est pas nécessaire.
Exemple — Somme de deux dés
On lance deux dés équilibrés ; soient \(X_1\) et \(X_2\) les valeurs. Alors \(S = X_1 + X_2\) a pour espérance, par linéarité, $$ E(S) \ = \ E(X_1) + E(X_2) \ = \ \frac{7}{2} + \frac{7}{2} \ = \ 7. $$ L'indépendance n'est pas utilisée --- la formule vaut pour toute loi conjointe sur \((X_1, X_2)\). Calculer la loi de \(S\) sur \(\llbracket 2, 12 \rrbracket\) et sommer \(s P(S = s)\) donnerait aussi \(7\), mais avec beaucoup plus de travail. Compétences à pratiquer
- Calculer une espérance par linéarité
I.4
Formule de transfert
Pour calculer \(E(f(X))\) pour une fonction \(f\), la route « force brute » consiste à calculer la loi de \(f(X)\) sur \(f(X)(\Omega)\) et à sommer. La formule de transfert contourne cette étape entièrement : \(E(f(X))\) peut s'exprimer directement comme une somme sur \(X(\Omega)\), pondérée par la loi de \(X\) et par \(f(x)\). La formule se généralise aux couples et aux \(n\)-uplets --- l'extension exigée par le programme et qui débloque de nombreux calculs.
Theorem — Formule de transfert
Soient \(X\) une variable aléatoire sur \((\Omega, P)\) et \(f : X(\Omega) \to \mathbb C\) une fonction. - Une variable. L'espérance de \(f(X)\) ne dépend que de \(f\) et de la loi de \(X\) : $$ E(f(X)) \ = \ \sum_{x \in X(\Omega)} f(x) \cdot P(X = x). $$
- Couples. Pour \(f : (X, Y)(\Omega) \to \mathbb C\), $$ E(f(X, Y)) \ = \ \sum_{(x, y) \in (X, Y)(\Omega)} f(x, y) \cdot P(X = x, Y = y). $$
- \(n\)-uplets. Formule analogue sur \((X_1, \ldots, X_n)(\Omega)\) pondérée par la loi conjointe \(P(X_1 = x_1, \ldots, X_n = x_n)\).
On démontre (i) ; (ii) et (iii) suivent par le même argument appliqué à la loi conjointe de \((X, Y)\) ou de \((X_1, \ldots, X_n)\).
Les événements \(\{X = x\}\) pour \(x \in X(\Omega)\) partitionnent \(\Omega\). Par la formule alternative appliquée à \(f(X)\), $$ \begin{aligned} E(f(X)) \ &= \ \sum_{\omega \in \Omega} P(\{\omega\}) f(X(\omega)) && \text{(formule alt.)} \\ &= \ \sum_{x \in X(\Omega)} \sum_{\omega \in \{X = x\}} P(\{\omega\}) f(x) && \text{(partition ; } X(\omega) = x \text{)} \\ &= \ \sum_{x \in X(\Omega)} f(x) \cdot \sum_{\omega \in \{X = x\}} P(\{\omega\}) && \text{(factoriser } f(x) \text{)} \\ &= \ \sum_{x \in X(\Omega)} f(x) \cdot P(X = x). \end{aligned} $$
Les événements \(\{X = x\}\) pour \(x \in X(\Omega)\) partitionnent \(\Omega\). Par la formule alternative appliquée à \(f(X)\), $$ \begin{aligned} E(f(X)) \ &= \ \sum_{\omega \in \Omega} P(\{\omega\}) f(X(\omega)) && \text{(formule alt.)} \\ &= \ \sum_{x \in X(\Omega)} \sum_{\omega \in \{X = x\}} P(\{\omega\}) f(x) && \text{(partition ; } X(\omega) = x \text{)} \\ &= \ \sum_{x \in X(\Omega)} f(x) \cdot \sum_{\omega \in \{X = x\}} P(\{\omega\}) && \text{(factoriser } f(x) \text{)} \\ &= \ \sum_{x \in X(\Omega)} f(x) \cdot P(X = x). \end{aligned} $$
Méthode — Transfert et non la loi
Pour calculer \(E(X^2)\), \(E(X(X - 1))\), \(E(\cos(\pi X))\), \(E(X Y)\), etc., utiliser directement la formule de transfert --- ne jamais calculer la loi de la fonction. Le coût est une somme sur \(X(\Omega)\) (ou \((X, Y)(\Omega)\)) ; la « force brute » via la loi de \(f(X)\) n'est essentiellement jamais plus simple. Exemple — Moment d'ordre 2 d'une loi uniforme
Soit \(X \sim \mathcal U(\llbracket 1, n \rrbracket)\). Par transfert avec \(f(k) = k^2\) et la somme classique \(\sum_{k=1}^n k^2 = n(n+1)(2n+1)/6\) du chapitre Sommes, produits et coefficients binomiaux, $$ E(X^2) \ = \ \sum_{k = 1}^n k^2 \cdot \frac{1}{n} \ = \ \frac{1}{n} \cdot \frac{n(n + 1)(2n + 1)}{6} \ = \ \frac{(n + 1)(2n + 1)}{6}. $$ Pour \(n = 6\) (dé équilibré), \(E(X^2) = 7 \cdot 13 / 6 = 91/6\). On l'utilisera dans la section sur la variance pour calculer la variance d'un lancer de dé. Compétences à pratiquer
- Appliquer la formule de transfert
I.5
Espérance d'un produit de variables indépendantes
Un analogue multiplicatif de la linéarité, mais conditionné à l'indépendance : \(E(X Y) = E(X) E(Y)\) vaut quand \(X\) et \(Y\) sont indépendantes, et est en général faux sinon. La formule est le pont vers la formule de la variance d'une somme (les termes croisés \(E((X - E(X))(Y - E(Y)))\) s'annulent sous l'indépendance). Réciproquement, \(E(X Y) = E(X) E(Y)\) n'implique pas l'indépendance --- un contre-exemple net ancre la distinction « décorrélées \(\ne\) indépendantes ».
Theorem — Espérance d'un produit de variables indépendantes
Soient \(X\) et \(Y\) des variables aléatoires sur \((\Omega, P)\). Si \(X\) et \(Y\) sont indépendantes, alors $$ E(X Y) \ = \ E(X) \cdot E(Y). $$ Le résultat s'étend naturellement à un nombre fini de variables mutuellement indépendantes : si \(X_1, \ldots, X_n\) sont mutuellement indépendantes, alors \(E(X_1 X_2 \cdots X_n) = E(X_1) E(X_2) \cdots E(X_n)\).
Par la formule de transfert pour un couple, appliquée à \(f(x, y) = x y\), sur le produit complet \(X(\Omega) \times Y(\Omega)\) (les cellules de probabilité nulle ne contribuent à rien), $$ \begin{aligned} E(X Y) \ &= \ \sum_{x \in X(\Omega)} \sum_{y \in Y(\Omega)} x y \cdot P(X = x, Y = y) && \text{(transfert pour couples)} \\
&= \ \sum_{x \in X(\Omega)} \sum_{y \in Y(\Omega)} x y \cdot P(X = x) P(Y = y) && \text{(indépendance : la conjointe se factorise)} \\
&= \ \Bigl( \sum_{x \in X(\Omega)} x P(X = x) \Bigr) \cdot \Bigl( \sum_{y \in Y(\Omega)} y P(Y = y) \Bigr) && \text{(séparer la double somme)} \\
&= \ E(X) \cdot E(Y) && \text{(définitions)}. \end{aligned} $$ Le cas à \(n\) variables se déduit par récurrence sur \(n\), en utilisant que \(X_1 \cdots X_{n - 1}\) et \(X_n\) sont indépendantes (par le lemme des coalitions du chapitre 42 : toute fonction de \(X_1, \ldots, X_{n - 1}\) est indépendante de \(X_n\)).
L'égalité du produit des espérances n'implique pas l'indépendance
La réciproque du théorème est fausse. Contre-exemple. On prend \(X \sim \mathcal U(\{-1, 0, +1\})\) et \(Y = X^2\). Alors \(E(X) = (-1 + 0 + 1)/3 = 0\) et \(E(X Y) = E(X^3) = ((-1)^3 + 0^3 + 1^3)/3 = 0\), donc \(E(X Y) = 0 = 0 \cdot E(X^2) = E(X) E(Y)\). Mais \(X\) et \(Y\) ne sont pas indépendantes : \(P(X = 0, Y = 1) = 0\) puisque \(\{X = 0\} \cap \{Y = 1\} = \{X = 0\} \cap \{X^2 = 1\} = \emptyset\), alors que \(P(X = 0) \cdot P(Y = 1) = (1/3) \cdot (2/3) = 2/9 \ne 0\). Donc « \(E(X Y) = E(X) E(Y)\) » est strictement plus faible que « \(X \perp Y\) ». On rencontrera de nouveau ce contre-exemple dans la section sur la covariance sous le nom « décorrélées \(\ne\) indépendantes ».
Exemple — Deux dés indépendants
On lance deux dés équilibrés indépendants ; soient \(X_1, X_2 \sim \mathcal U(\llbracket 1, 6 \rrbracket)\). Alors par la formule du produit, $$ E(X_1 X_2) \ = \ E(X_1) \cdot E(X_2) \ = \ \frac{7}{2} \cdot \frac{7}{2} \ = \ \frac{49}{4} \ = \ 12{,}25. $$ Calculer la loi de \(X_1 X_2\) sur son support à \(18\) éléments et sommer \(k P(X_1 X_2 = k)\) donnerait aussi \(49/4\), mais avec beaucoup plus de travail. Compétences à pratiquer
- Calculer \(E(X Y)\) sous hypothèse d'indépendance
II
Variance\(\virgule\) écart type\(\virgule\) covariance
La variance est l'indicateur quadratique naturel de dispersion : l'écart quadratique moyen à l'espérance. L'écart-type \(\sigma(X) = \sqrt{V(X)}\) est son compagnon homogène, exprimé dans les unités de \(X\). La covariance généralise la variance à deux variables : \(\mathrm{Cov}(X, X) = V(X)\). Les deux théorèmes nommés de la section --- Propriétés de la variance (avec la formule pratique \(V(X) = E(X^2) - E(X)^2\)) et Variance d'une somme (avec l'identité de Bienaymé pour les familles décorrélées) --- sont les piliers. La variance de Bernoulli est directe ; la variance de la binomiale est énoncée ici mais démontrée dans la section sur la variance d'une somme comme application phare de Bienaymé.
II.1
Variance et écart type
La variance est la moyenne de l'écart quadratique à l'espérance : \(V(X) = E((X - E(X))^2)\). L'écart quadratique est positif, donc \(V(X) \ge 0\), et la formule pratique \(V(X) = E(X^2) - E(X)^2\) permet le calcul sans l'étape de centrage.
Définition — Variance et écart type
Soit \(X\) une variable aléatoire réelle sur un espace probabilisé fini. - La variance de \(X\) est le réel positif \(V(X) = E((X - E(X))^2)\).
- L'écart type de \(X\) est \(\sigma(X) = \sqrt{V(X)}\).
- \(X\) est centrée si \(E(X) = 0\) ; \(X\) est réduite si \(V(X) = 1\).
Theorem — Propriétés de la variance
Soit \(X\) une variable aléatoire réelle. - Formule pratique : \(V(X) = E(X^2) - E(X)^2\).
- Transformation affine : pour \(a, b \in \mathbb R\), \(V(aX + b) = a^2 V(X)\). En particulier, si \(\sigma(X) > 0\), la variable \((X - E(X)) / \sigma(X)\) est centrée réduite.
- Nullité : \(V(X) = 0\) si et seulement si \(X\) est presque sûrement constante (i.e. \(P(X = E(X)) = 1\)).
- (i) Formule pratique. Soit \(m = E(X)\). Par définition, $$ \begin{aligned} V(X) \ &= \ E((X - m)^2) && \text{(définition)} \\ &= \ E(X^2 - 2 m X + m^2) && \text{(développer le carré)} \\ &= \ E(X^2) - 2 m E(X) + m^2 && \text{(linéarité ; } m \text{ constante)} \\ &= \ E(X^2) - 2 m \cdot m + m^2 \ = \ E(X^2) - m^2 \ = \ E(X^2) - E(X)^2. \end{aligned} $$
- (ii) Transformation affine. \(E(aX + b) = a E(X) + b\) par linéarité. Donc $$ \begin{aligned} V(aX + b) \ &= \ E((aX + b - a E(X) - b)^2) && \text{(définition)} \\ &= \ E((a(X - E(X)))^2) && \text{(simplifier)} \\ &= \ E(a^2 (X - E(X))^2) && \text{(développer)} \\ &= \ a^2 \cdot E((X - E(X))^2) \ = \ a^2 V(X) && \text{(linéarité)}. \end{aligned} $$ Pour l'énoncé centré-réduit, avec \(a = 1/\sigma(X)\) et \(b = -E(X)/\sigma(X)\), on a \(E((X - E(X))/\sigma(X)) = 0\) et \(V((X - E(X))/\sigma(X)) = V(X)/\sigma(X)^2 = 1\).
- (iii) Nullité. Par transfert, \(V(X) = \sum_{x \in X(\Omega)} P(X = x) (x - E(X))^2\). Tous les termes sommés sont positifs, donc la somme s'annule si et seulement si chaque terme s'annule, c'est-à-dire pour tout \(x \in X(\Omega)\), soit \(P(X = x) = 0\), soit \(x = E(X)\). De manière équivalente, \(P(X = x) = 0\) pour tout \(x \ne E(X)\) dans \(X(\Omega)\), donc \(P(X = E(X)) = \sum_x P(X = x) - \sum_{x \ne E(X)} P(X = x) = 1\).
Presque sûrement constante sur un univers fini --- lecture opérationnelle
Sur un espace probabilisé fini, \(V(X) = 0\) signifie \(X(\omega) = E(X)\) pour tout \(\omega \in \Omega\) avec \(P(\{\omega\}) > 0\). Si toutes les issues élémentaires ont probabilité strictement positive --- le cadre typique ici --- alors \(X\) est véritablement constante sur tout \(\Omega\). La distinction presque-sûr / sûr ne devient substantielle que sur des univers infinis (matériel de deuxième année MP).
Méthode — Variance par la formule pratique
Pour calculer \(V(X)\), ne jamais passer par \(E((X - E(X))^2)\) par définition. Utiliser la formule pratique en deux étapes : - Calculer \(E(X)\) (définition ou linéarité).
- Calculer \(E(X^2)\) via la formule de transfert.
- Alors \(V(X) = E(X^2) - E(X)^2\).
Exemple — Variance d'un dé équilibré
Soit \(X \sim \mathcal U(\llbracket 1, 6 \rrbracket)\). D'après la définition de l'espérance et la formule de transfert, \(E(X) = 7/2\) et \(E(X^2) = 91/6\). Donc $$ V(X) \ = \ E(X^2) - E(X)^2 \ = \ \frac{91}{6} - \frac{49}{4} \ = \ \frac{182}{12} - \frac{147}{12} \ = \ \frac{35}{12}. $$ L'écart type est \(\sigma(X) = \sqrt{35/12} \approx 1{,}71\), comparable à l'« étendue » \(|6 - 1| = 5\) des valeurs divisée par une petite constante. Compétences à pratiquer
- Calculer une variance par la formule pratique
II.2
Variance d'une variable de Bernoulli
La variance de Bernoulli découle directement de la formule pratique : un calcul d'une ligne. La variance de la binomiale \(\mathcal B(n, p)\) apparaîtra dans la section sur la variance d'une somme comme application phare de l'identité de Bienaymé ; elle est annoncée ici pour que le lecteur puisse utiliser la formule entre-temps.
Theorem — Variance d'une variable de Bernoulli
Soit \(p \in [0, 1]\). Si \(X \sim \mathcal B(p)\), alors \(V(X) = p(1 - p)\).
Pour \(X \sim \mathcal B(p)\), \(X(\Omega) = \{0, 1\}\) et \(X^2 = X\) sur \(\{0, 1\}\) (car \(0^2 = 0\) et \(1^2 = 1\)). Donc \(E(X^2) = E(X) = p\). Par la formule pratique, $$ V(X) \ = \ E(X^2) - E(X)^2 \ = \ p - p^2 \ = \ p(1 - p). $$
Annonce de la variance de la binomiale
Pour la loi binomiale, nous démontrerons plus bas (en application phare de l'identité de Bienaymé) que pour \(X \sim \mathcal B(n, p)\), $$ V(X) \ = \ n p (1 - p). $$ Le lecteur peut utiliser cette formule entre-temps ; sa preuve est véritablement plus courte après la mise en place de la machinerie de la variance d'une somme.
Exemple — Variance d'une binomiale
Pour \(X \sim \mathcal B(10, 1/4)\) (l'exemple du QCM de la sous-section sur les lois usuelles), la variance est \(V(X) = 10 \cdot (1/4) \cdot (3/4) = 30/16 = 15/8 = 1{,}875\) et l'écart type est \(\sigma(X) = \sqrt{15/8} \approx 1{,}37\). La note de l'étudiant est concentrée autour de son espérance \(5/2 = 2{,}5\) à un ou deux écarts types près. Compétences à pratiquer
- Calculer la variance des lois de Bernoulli et binomiale
II.3
Covariance
La covariance généralise la variance à deux variables. Deux variables de covariance nulle sont dites décorrélées. L'indépendance entraîne la décorrélation, mais la réciproque est fausse --- le même contre-exemple \(X \sim \mathcal U(\{-1, 0, +1\})\) et \(Y = X^2\) de la sous-section sur la formule du produit illustre l'écart. La covariance alimente la formule de la variance d'une somme démontrée plus bas.
Définition — Covariance\(\virgule\) décorrélées
Soient \(X, Y\) des variables aléatoires réelles. La covariance de \(X\) et \(Y\) est le réel $$ \mathrm{Cov}(X, Y) \ = \ E\bigl((X - E(X))(Y - E(Y))\bigr). $$ \(X\) et \(Y\) sont décorrélées si \(\mathrm{Cov}(X, Y) = 0\). Par construction, \(\mathrm{Cov}(X, X) = V(X)\) et \(\mathrm{Cov}(Y, X) = \mathrm{Cov}(X, Y)\). Proposition — Formule de König-Huygens pour la covariance
Pour \(X, Y\) variables aléatoires réelles, $$ \mathrm{Cov}(X, Y) \ = \ E(X Y) - E(X) E(Y). $$
On développe le produit dans la définition : $$ \begin{aligned} \mathrm{Cov}(X, Y) \ &= \ E\bigl((X - E(X))(Y - E(Y))\bigr) && \text{(définition)} \\
&= \ E\bigl(X Y - X E(Y) - E(X) Y + E(X) E(Y)\bigr) && \text{(développer)} \\
&= \ E(X Y) - E(Y) E(X) - E(X) E(Y) + E(X) E(Y) && \text{(linéarité ; constantes sortent)} \\
&= \ E(X Y) - E(X) E(Y). \end{aligned} $$
Proposition — Indépendantes implique décorrélées
Si \(X\) et \(Y\) sont des variables aléatoires réelles indépendantes, alors \(\mathrm{Cov}(X, Y) = 0\).
Par la formule de König-Huygens et la formule du produit pour des variables indépendantes, \(\mathrm{Cov}(X, Y) = E(X Y) - E(X) E(Y) = E(X) E(Y) - E(X) E(Y) = 0\).
Décorrélation n'implique pas indépendance
La réciproque de la Proposition précédente est fausse. Contre-exemple. On prend \(X \sim \mathcal U(\{-1, 0, +1\})\) et \(Y = X^2\). Comme calculé dans le contre-exemple de la formule du produit ci-dessus, \(E(X Y) = 0 = E(X) E(Y)\), donc par König-Huygens \(\mathrm{Cov}(X, Y) = 0\) : \(X\) et \(Y\) sont décorrélées. Mais \(P(X = 0, Y = 1) = 0 \ne (1/3)(2/3) = P(X = 0) P(Y = 1)\), donc \(X\) et \(Y\) ne sont pas indépendantes. La décorrélation est strictement plus faible que l'indépendance.
Exemple — Deux dés indépendants ; un dé et son complément
(a) Dés indépendants. Si \(X_1, X_2 \sim \mathcal U(\llbracket 1, 6 \rrbracket)\) sont indépendants, alors \(\mathrm{Cov}(X_1, X_2) = 0\) par la Proposition précédente.(b) Un dé et son complément. On lance un dé équilibré ; soit \(X\) la valeur et \(Y = 7 - X\). Alors \(X + Y = 7\) identiquement, donc par linéarité \(E(X) = E(Y) = 7/2\). Par König-Huygens et transfert, $$ \begin{aligned} \mathrm{Cov}(X, Y) \ &= \ E(X(7 - X)) - E(X) E(7 - X) && \text{(König-Huygens avec } Y = 7 - X) \\ &= \ 7 E(X) - E(X^2) - E(X)(7 - E(X)) && \text{(linéarité)} \\ &= \ 7 E(X) - E(X^2) - 7 E(X) + E(X)^2 && \text{(distribuer)} \\ &= \ E(X)^2 - E(X^2) \ = \ -V(X) \ = \ -\frac{35}{12}. \end{aligned} $$ La covariance est strictement négative : quand \(X\) est grand, \(Y = 7 - X\) est petit. On reprendra cet exemple dans la section sur la variance d'une somme pour montrer que \(V(X + Y) = 0\) via la formule complète \(V + 2 \mathrm{Cov} + V\).
Compétences à pratiquer
- Calculer une covariance et réfuter l'indépendance
II.4
Variance d'une somme\(\virgule\) identité de Bienaymé\(\virgule\) application à la binomiale
La formule phare de la section. La version à deux variables \(V(X + Y) = V(X) + 2 \mathrm{Cov}(X, Y) + V(Y)\) se généralise à \(n\) variables, et le cas particulier où les \(X_i\) sont deux à deux décorrélées se réduit à l'identité de Bienaymé \(V(\sum_i X_i) = \sum_i V(X_i)\). La première application de Bienaymé est la variance de la binomiale \(V(\mathcal B(n, p)) = n p (1 - p)\), dont la preuve avait été reportée depuis la sous-section sur les propriétés de la variance.
Theorem — Variance d'une somme et identité de Bienaymé
Soient \(X, Y, X_1, \ldots, X_n\) des variables aléatoires réelles sur un espace probabilisé fini. - Deux variables. \(V(X + Y) = V(X) + 2 \mathrm{Cov}(X, Y) + V(Y)\).
- \(n\) variables. \(\displaystyle V\bigl(\sum_{i = 1}^n X_i\bigr) = \sum_{i = 1}^n V(X_i) + 2 \sum_{1 \le i < j \le n} \mathrm{Cov}(X_i, X_j)\).
- Identité de Bienaymé. Si \(X_1, \ldots, X_n\) sont deux à deux décorrélées --- notamment si elles sont deux à deux indépendantes (et a fortiori si elles sont mutuellement indépendantes) --- alors \(\displaystyle V\bigl(\sum_{i = 1}^n X_i\bigr) = \sum_{i = 1}^n V(X_i)\).
On démontre (i) ; (ii) est le développement analogue avec \(\binom{n}{2}\) termes croisés ; (iii) est le cas particulier de (ii) où chaque \(\mathrm{Cov}(X_i, X_j) = 0\).
Pour (i), soient \(m = E(X)\) et \(\mu = E(Y)\), donc \(E(X + Y) = m + \mu\). Par définition, $$ \begin{aligned} V(X + Y) \ &= \ E((X + Y - m - \mu)^2) && \text{(définition)} \\ &= \ E\bigl(((X - m) + (Y - \mu))^2\bigr) && \text{(regrouper)} \\ &= \ E\bigl((X - m)^2 + 2 (X - m)(Y - \mu) + (Y - \mu)^2\bigr) && \text{(développer le carré)} \\ &= \ E((X - m)^2) + 2 E((X - m)(Y - \mu)) + E((Y - \mu)^2) && \text{(linéarité)} \\ &= \ V(X) + 2 \mathrm{Cov}(X, Y) + V(Y) && \text{(définitions)}. \end{aligned} $$
Pour (i), soient \(m = E(X)\) et \(\mu = E(Y)\), donc \(E(X + Y) = m + \mu\). Par définition, $$ \begin{aligned} V(X + Y) \ &= \ E((X + Y - m - \mu)^2) && \text{(définition)} \\ &= \ E\bigl(((X - m) + (Y - \mu))^2\bigr) && \text{(regrouper)} \\ &= \ E\bigl((X - m)^2 + 2 (X - m)(Y - \mu) + (Y - \mu)^2\bigr) && \text{(développer le carré)} \\ &= \ E((X - m)^2) + 2 E((X - m)(Y - \mu)) + E((Y - \mu)^2) && \text{(linéarité)} \\ &= \ V(X) + 2 \mathrm{Cov}(X, Y) + V(Y) && \text{(définitions)}. \end{aligned} $$
Méthode — Identité de Bienaymé en action
Lorsque les \(X_i\) sont deux à deux décorrélées --- notamment quand elles sont deux à deux indépendantes (et a fortiori mutuellement indépendantes) --- la variance de la somme est la somme des variances. Les applications les plus courantes : - \(X = X_1 + \cdots + X_n\) avec \(X_i\) i.i.d. \(\mathcal B(p)\) mutuellement indépendantes donne \(V(X) = n p (1 - p)\) en une ligne --- c'est la variance binomiale ci-dessous.
- Somme de \(n\) variables i.i.d. de variance commune \(\sigma^2\) : \(V(\sum_i X_i) = n \sigma^2\), donc \(V(\bar X_n) = V(\frac{1}{n} \sum_i X_i) = \sigma^2 / n\). Fondation de la loi faible des grands nombres démontrée plus bas.
Theorem — Variance de la binomiale
Soient \(n \in \mathbb N^*\) et \(p \in [0, 1]\). Si \(X \sim \mathcal B(n, p)\), alors \(V(X) = n p (1 - p)\).
Par le théorème « binomiale \(=\) somme de \(n\) Bernoullis indépendantes » du chapitre 42, \(X\) a la même loi que \(X_1 + \cdots + X_n\) où les \(X_i\) sont i.i.d. \(\mathcal B(p)\) mutuellement indépendantes. L'indépendance mutuelle implique l'indépendance deux à deux qui implique la décorrélation deux à deux. Par l'identité de Bienaymé, $$ V(X) \ = \ V(X_1 + \cdots + X_n) \ = \ V(X_1) + \cdots + V(X_n) \ = \ n \cdot p(1 - p), $$ où l'on a utilisé \(V(X_i) = p(1 - p)\) du calcul de la variance de Bernoulli ci-dessus. Ferme la boucle de preuve ouverte dans la sous-section sur les propriétés de la variance.
Exemple — Somme de deux dés non-indépendants --- le terme de covariance compte
On poursuit l'exemple sur la covariance avec le dé : on lance un dé, on pose \(X\) la valeur et \(Y = 7 - X\). Alors \(X + Y = 7\) identiquement, donc \(V(X + Y) = 0\). Par la formule complète, $$ \begin{aligned} V(X + Y) \ &= \ V(X) + 2 \mathrm{Cov}(X, Y) + V(Y) && \text{(théorème (i))} \\
&= \ \frac{35}{12} + 2 \cdot \Bigl(-\frac{35}{12}\Bigr) + \frac{35}{12} && \text{(valeurs ci-dessus)} \\
&= \ 0 \ \checkmark. \end{aligned} $$ Lorsque les \(X_i\) ne sont pas deux à deux décorrélées, on doit garder les termes \(\mathrm{Cov}\) --- l'identité de Bienaymé ne s'applique pas. Compétences à pratiquer
- Appliquer l'identité de Bienaymé
III
Inégalités probabilistes
Les trois inégalités de concentration du programme. Markov borne la queue droite d'une variable positive par son espérance. Appliquée à \((X - E(X))^2\), Markov donne l'inégalité de Bienaymé-Tchebychev, qui borne l'écart à la moyenne par la variance. Appliquée à la moyenne empirique \(S_n / n\) de \(n\) variables i.i.d., Bienaymé-Tchebychev donne la loi faible des grands nombres : la moyenne empirique se concentre autour de la vraie moyenne quand \(n \to \infty\), ce qui justifie l'interprétation fréquentiste de la probabilité.
III.1
Inégalité de Markov
L'inégalité de concentration la plus simple : pour une variable aléatoire positive, la probabilité que \(X\) dépasse un seuil \(a\) est bornée par le rapport \(E(X)/a\). La forme \(|X|\) générale est un corollaire immédiat, et appliquer Markov à \(f(X)\) pour une \(f\) bien choisie produit des raffinements.
Theorem — Inégalité de Markov
- Forme standard (variable positive). Soit \(X\) une variable aléatoire réelle positive et \(a > 0\). Alors $$ P(X \ge a) \ \le \ \frac{E(X)}{a}. $$
- Forme valeur absolue (toute \(X\) réelle ou complexe). Pour \(a > 0\), $$ P(|X| \ge a) \ \le \ \frac{E(|X|)}{a}. $$
(i) Forme standard. Comme \(X \ge 0\) et \(a > 0\), $$ a \indicatrice_{\{X \ge a\}} \ \le \ X \indicatrice_{\{X \ge a\}} \ \le \ X \qquad (\text{ponctuellement sur } \Omega). $$ La première inégalité est vraie car \(\indicatrice_{\{X \ge a\}}\) vaut \(0\) là où \(X < a\) (les deux côtés sont \(0\)) et \(a \le X\) là où \(X \ge a\) ; la seconde car \(\indicatrice \in \{0, 1\}\) et \(X \ge 0\). On prend les espérances par positivité / linéarité : $$ a P(X \ge a) \ = \ E(a \indicatrice_{\{X \ge a\}}) \ \le \ E(X), \qquad \text{donc} \quad P(X \ge a) \le E(X)/a. $$ (ii) Forme valeur absolue. On applique (i) à la variable positive \(|X|\).
Méthode — Markov via une fonction monotone
Pour borner \(P(X \ge a)\) pour \(a \in \mathbb R\), on choisit une fonction \(f : \mathbb R \to \mathbb R_+\) ayant trois propriétés : - croissante ;
- à valeurs positives (donc \(f(X) \ge 0\)) ;
- telle que \(f(a) > 0\).
Exemple — Markov sur une binomiale
Soit \(X \sim \mathcal B(100, 1/2)\), donc \(E(X) = 50\) et \(X \ge 0\). Par Markov, $$ P(X \ge 80) \ \le \ \frac{E(X)}{80} \ = \ \frac{50}{80} \ = \ \frac{5}{8}. $$ Cette borne est très lâche --- la queue binomiale exacte \(P(X \ge 80)\) est bien plus petite (de l'ordre de \(10^{-9}\)). Sa lâcheté motive le raffinement via Bienaymé-Tchebychev dans la sous-section suivante, qui exploite la variance au lieu de la seule espérance. Compétences à pratiquer
- Appliquer Markov directement et via \(f(X)\)
III.2
Inégalité de Bienaymé-Tchebychev
Markov appliquée à l'écart quadratique \((X - E(X))^2\) donne la borne canonique sur l'écart à la moyenne : \(P(|X - E(X)| \ge a) \le V(X)/a^2\). Plus fine que Markov lorsque \(V\) est petit. La structure quadratique remplace le rapport linéaire de Markov par un rapport quadratique.
Theorem — Inégalité de Bienaymé-Tchebychev
Soit \(X\) une variable aléatoire réelle sur un espace probabilisé fini et \(a > 0\). Alors $$ P(|X - E(X)| \ge a) \ \le \ \frac{V(X)}{a^2}. $$
L'élévation au carré est croissante sur \(\mathbb R_+\), donc les événements \(\{|X - E(X)| \ge a\}\) et \(\{(X - E(X))^2 \ge a^2\}\) coïncident. On applique Markov (forme standard) à la variable positive \((X - E(X))^2\) : $$ P(|X - E(X)| \ge a) \ = \ P((X - E(X))^2 \ge a^2) \ \le \ \frac{E((X - E(X))^2)}{a^2} \ = \ \frac{V(X)}{a^2}. $$
Méthode — Borner l'écart à la moyenne
Lorsqu'on borne \(P(|X - \mu| \ge a)\) avec \(\mu = E(X)\), on prend Bienaymé-Tchebychev en premier. On calcule \(V(X)\) (par la formule pratique ou Bienaymé) et on divise par \(a^2\). Exemple — Bienaymé-Tchebychev sur une binomiale
On poursuit l'exemple précédent : \(X \sim \mathcal B(100, 1/2)\) a \(E(X) = 50\) et \(V(X) = 100 \cdot 1/2 \cdot 1/2 = 25\). L'événement \(\{X \ge 80\}\) est contenu dans \(\{|X - 50| \ge 30\}\), donc par Bienaymé-Tchebychev, $$ P(X \ge 80) \ \le \ P(|X - 50| \ge 30) \ \le \ \frac{V(X)}{30^2} \ = \ \frac{25}{900} \ \approx \ 0{,}028. $$ Un facteur \(\approx 22\) plus serré que le \(5/8 = 0{,}625\) de Markov, obtenu en exploitant \(V(X)\) et non la seule \(E(X)\). Compétences à pratiquer
- Majorer les écarts à la moyenne
III.3
Loi faible des grands nombres et interprétation fréquentiste
Bienaymé-Tchebychev appliquée à la moyenne empirique \(S_n / n\) de \(n\) variables i.i.d. donne la loi faible des grands nombres : pour tout \(\varepsilon > 0\), \(P(|S_n/n - m| \ge \varepsilon) \to 0\) quand \(n \to \infty\). C'est la forme rigoureuse de l'intuition « les fréquences convergent vers les probabilités » --- l'interprétation fréquentiste de la probabilité que le programme mandate explicitement.
Theorem — Loi faible des grands nombres
Pour tout \(n \ge 1\), soient \(X_1, \ldots, X_n\) des variables aléatoires réelles sur un espace probabilisé fini, mutuellement indépendantes et identiquement distribuées (i.i.d.), d'espérance commune \(m = E(X_1)\) et d'écart type commun \(\sigma = \sigma(X_1)\). On pose \(S_n = X_1 + \cdots + X_n\). Alors, pour tout \(\varepsilon > 0\), $$ P\Bigl(\bigl|\tfrac{S_n}{n} - m\bigr| \ge \varepsilon\Bigr) \ \le \ \frac{\sigma^2}{n \varepsilon^2}. $$ En particulier, lorsque cette construction est répétée pour des \(n\) arbitrairement grands (chaque \(n\) sur son propre espace probabilisé fini), le membre de droite tend vers \(0\) quand \(n \to +\infty\), donc la moyenne empirique \(S_n/n\) se concentre autour de la vraie moyenne \(m\).
On calcule espérance et variance de \(S_n/n\). Par linéarité, $$ E\Bigl(\frac{S_n}{n}\Bigr) \ = \ \frac{E(X_1) + \cdots + E(X_n)}{n} \ = \ \frac{n m}{n} \ = \ m. $$ Pour la variance, les \(X_i\) sont mutuellement indépendantes donc deux à deux décorrélées, et Bienaymé s'applique : $$ \begin{aligned} V\Bigl(\frac{S_n}{n}\Bigr) \ &= \ \frac{V(S_n)}{n^2} && \text{(facteur \(1/n\))} \\
&= \ \frac{V(X_1) + \cdots + V(X_n)}{n^2} && \text{(identité de Bienaymé)} \\
&= \ \frac{n \sigma^2}{n^2} \ = \ \frac{\sigma^2}{n} && \text{(variances égales ; arithmétique)}. \end{aligned} $$ On applique Bienaymé-Tchebychev à \(S_n/n\) au seuil \(\varepsilon\) : $$ P\Bigl(\bigl|\tfrac{S_n}{n} - m\bigr| \ge \varepsilon\Bigr) \ \le \ \frac{V(S_n/n)}{\varepsilon^2} \ = \ \frac{\sigma^2}{n \varepsilon^2}. $$
Méthode — Interprétation fréquentiste de la probabilité
La fréquence empirique d'un événement \(A\) sur \(n\) épreuves indépendantes d'une expérience converge (en probabilité) vers \(P(A)\). C'est ce qui fait de la probabilité « une affaire de monde » --- sans cette convergence, le nombre formel \(P(A)\) n'aurait aucun sens opérationnel. Concrètement, avec \(X_i = \indicatrice_{A_i}\) pour \(A_i\) = « \(A\) s'est produit au \(i\)-ème essai » : \(S_n/n\) = fréquence empirique, \(m = E(X_1) = P(A)\), et la loi faible dit que \(S_n/n \to P(A)\) en probabilité. Exemple — Moyenne empirique de 1000 lancers de dé
On lance un dé équilibré \(n = 1000\) fois indépendamment ; soient \(X_i\) la valeur du \(i\)-ème lancer et \(\bar X_n = S_n/n\) la moyenne empirique. D'après l'espérance et la variance d'un lancer uniforme, \(m = 7/2\) et \(\sigma^2 = 35/12\). Par la loi faible à \(\varepsilon = 0{,}1\), $$ P\Bigl(\bigl|\bar X_n - \tfrac{7}{2}\bigr| \ge 0{,}1\Bigr) \ \le \ \frac{\sigma^2}{n \varepsilon^2} \ = \ \frac{35/12}{1000 \cdot 0{,}01} \ = \ \frac{35}{120} \ \approx \ 0{,}29. $$ Une borne, pas une estimation fine (la vraie probabilité est bien plus petite), mais suffisante pour confirmer que la moyenne empirique est à \(0{,}1\) près de \(3{,}5\) au moins \(71\%\) du temps --- déjà une garantie utile. Compétences à pratiquer
- Appliquer la loi faible des grands nombres
Aller à la section