CommeUnJeu · L1 MPSI

Variables aléatoires sur un univers fini

⌚ ~99 min ▢ 12 blocs ✓ 41 exercices ➣ Prérequis : Probabilités sur un univers fini

Une variable aléatoire est la version rigoureuse d'une expression comme « le nombre de piles dans $10$ lancers de pièce », « la couleur de la carte tirée du jeu », « la somme de deux dés ». C'est une mesure attachée à l'issue d'une expérience aléatoire, et elle est encodée comme une fonction $X : \Omega \to E$ de l'univers des issues vers un ensemble cible. Une fois $X$ posée, les événements qui nous intéressent prennent la forme standard $\{X = x\}$ ou $\{X \in A\}$, et toutes leurs probabilités sont réunies dans un seul objet : la loi de $X$. Le chapitre est la théorie de cet objet --- comment le calculer, comment comparer deux variables aléatoires (égalité en loi), comment le transporter à travers une fonction $f$, comment gérer deux variables à la fois (lois conjointe et marginales), et comment reconnaître les lois usuelles qui reviennent sans cesse.
Le plan a quatre parties. La première met en place le langage : ce qu'est une variable aléatoire, ce qu'est sa loi, ce que signifie l'égalité en loi, comment la loi se transporte par une fonction $f$, comment conditionner par un événement $A$. La deuxième partie introduit les trois lois nommées --- uniforme, Bernoulli et binomiale --- la binomiale recevant deux théorèmes nommés : la dérivation constructive $\mathcal B(n, p) =$ « somme de $n$ Bernoullis $\mathcal B(p)$ indépendantes », et la stabilité de la binomiale par somme indépendante. La troisième partie traite des couples $(X, Y)$ : loi conjointe, lois marginales, loi conditionnelle de $X$ sachant $Y = y$, puis indépendance de deux variables (trois caractérisations équivalentes), indépendance mutuelle de $n$ variables, et le lemme des coalitions. La quatrième partie est un bloc d'enrichissement sur deux modèles finis de dénombrement (hypergéométrique et géométrique tronquée) qui ne sont pas des lois usuelles nommées par le programme mais des applications directes du chapitre dénombrement.
Trois réflexes que le lecteur doit emporter : (i) avant tout calcul concernant $X$, écrire sa loi $P_X$ sur $X(\Omega)$, idéalement sous forme de tableau ou de formule --- c'est la « carte d'identité » de la variable ; (ii) reconnaître une loi nommée du programme (uniforme, Bernoulli, binomiale) lorsqu'elle apparaît sous un déguisement, et appliquer sa formule sans la redériver ; (iii) sur un couple $(X, Y)$, la loi conjointe est la donnée complète, et l'indépendance est exactement le cas où la loi conjointe se factorise en produit des deux marginales --- une seule cellule en désaccord suffit à la réfuter. Le chapitre hérite du chapitre Probabilités sur un univers fini la convention globale que $\Omega$ est fini non vide ; l'espérance, la variance et les moments des lois usuelles sont reportés au chapitre suivant, Espérance, variance, covariance.

I Variables aléatoires et lois

Nous reprenons le vocabulaire des variables aléatoires entrevu dans le chapitre Probabilités sur un univers fini (la notation $\{X \in A\} = X^{-1}(A)$ et la partition de $\Omega$ associée à $X$) pour en faire une théorie complète : la loi de $X$, l'égalité en loi, la loi de $f(X)$ et le conditionnement par un événement. La section ouvre le chapitre et règle sa principale dette pédagogique : à partir de maintenant, toute question de probabilité concernant $X$ seul est une somme finie sur $X(\Omega)$ pondérée par la loi $P_X$.

I.1 Définition d'une variable aléatoire

Une variable aléatoire est, intuitivement, une mesure attachée à l'issue d'une expérience aléatoire. Pour formaliser, on encode cette mesure comme une fonction $X : \Omega \to E$ de l'univers vers un ensemble cible, et on organise les événements d'intérêt sous les noms $\{X = x\}$ et $\{X \in A\}$. Dans tout le chapitre, $\Omega$ est fini et non vide (convention héritée du chapitre précédent) ; par conséquent, l'image $X(\Omega)$ est aussi un ensemble fini --- il n'y a qu'un nombre fini de valeurs possibles pour la mesure.

Définition — Variable aléatoire

Soit $(\Omega, P)$ un espace probabilisé fini et $E$ un ensemble non vide. Une variable aléatoire sur $\Omega$ à valeurs dans $E$ est une application $X : \Omega \to E$. Pour $A \subseteq E$, l'événement $\{X \in A\}$ est l'ensemble $$ \{X \in A\} \ = \ X^{-1}(A) \ = \ \{\omega \in \Omega \mid X(\omega) \in A\} \ \subseteq \ \Omega. $$ Pour $x \in E$, on note $\{X = x\}$ l'événement $\{X \in \{x\}\} = X^{-1}(\{x\})$. Lorsque $E \subseteq \mathbb R$, on dit que $X$ est une variable aléatoire réelle, et on utilise en outre la notation $\{X \le x\} = X^{-1}(\,]-\infty, x])$.

Définition — Image d'une variable aléatoire

L'image d'une variable aléatoire $X : \Omega \to E$ est l'ensemble $$ X(\Omega) \ = \ \{X(\omega) \mid \omega \in \Omega\} \ \subseteq \ E. $$ Comme $\Omega$ est fini, $X(\Omega)$ est aussi un ensemble fini : c'est l'ensemble des valeurs possibles de $X$.

Le support probabiliste de $X$ est l'ensemble plus petit $\operatorname{Supp}(X) = \{x \in X(\Omega) : P(X = x) > 0\}$. Il est inclus dans l'image $X(\Omega)$, avec inclusion possiblement stricte lorsque certaines issues $\omega \in \Omega$ sont de probabilité nulle. Dans la plupart des exemples élémentaires les deux coïncident ; dans la suite, les formules sont écrites sur $X(\Omega)$, les valeurs de probabilité nulle ne posant pas de difficulté.

Proposition — Système complet associé à $X$

Soit $X : \Omega \to E$ une variable aléatoire. La famille $\bigl(\{X = x\}\bigr)_{x \in X(\Omega)}$ est une partition de $\Omega$ en événements non vides : $$ \Omega \ = \ \bigsqcup_{x \in X(\Omega)} \{X = x\}. $$ Cette partition est appelée le système complet d'événements associé à $X$.

Preuve

C'est une reformulation du fait de partition par les fibres démontré dans le chapitre précédent Probabilités sur un univers fini : tout $\omega \in \Omega$ a une unique image $X(\omega) \in X(\Omega)$, donc appartient à exactement un $\{X = x\}$. Chaque $\{X = x\}$ pour $x \in X(\Omega)$ est non vide par définition de l'image.

Exemple — Somme de deux dés

Deux dés équilibrés sont lancés. On prend $\Omega = \llbracket 1, 6 \rrbracket^2$ et l'on définit $X_1, X_2 : \Omega \to \llbracket 1, 6 \rrbracket$ par $X_1(\omega_1, \omega_2) = \omega_1$ (valeur du premier dé) et $X_2(\omega_1, \omega_2) = \omega_2$ (valeur du second). Leur somme $S = X_1 + X_2$ est une variable aléatoire réelle d'image $S(\Omega) = \llbracket 2, 12 \rrbracket$. L'événement $\{S = 7\}$ est l'ensemble $\{(1\,;\,6), (2\,;\,5), (3\,;\,4), (4\,;\,3), (5\,;\,2), (6\,;\,1)\}$, de cardinal $6$.

Exemple — Indicatrice d'un événement

Soit $A \subseteq \Omega$ un événement. L'indicatrice $\indicatrice_A : \Omega \to \{0, 1\}$ de $A$ est la variable aléatoire définie par $\indicatrice_A(\omega) = 1$ si $\omega \in A$ et $\indicatrice_A(\omega) = 0$ sinon. Son image est $\indicatrice_A(\Omega) = \{0, 1\}$ (en supposant $A \ne \emptyset$ et $A \ne \Omega$), et les événements $\{\indicatrice_A = 1\} = A$ et $\{\indicatrice_A = 0\} = \overline A$ retrouvent l'événement et son complémentaire. L'indicatrice est le pont entre le langage des événements du chapitre précédent et celui des variables aléatoires du chapitre courant --- une brique récurrente, en particulier pour la loi de Bernoulli (introduite plus bas).

Compétences à pratiquer

Trouver la loi d'une variable aléatoire

I.2 Loi d'une variable aléatoire$\virgule$ égalité en loi

La loi de $X$ est la « carte d'identité » de la variable aléatoire : c'est la probabilité $P_X$ sur $E$, concentrée sur $X(\Omega)$, qui enregistre pour chaque valeur $x \in X(\Omega)$ la probabilité que $X$ vaille $x$. Le théorème central de la section affirme que $P_X$ est bien une probabilité et qu'elle est entièrement déterminée par la famille $\bigl(P(X = x)\bigr)_{x \in X(\Omega)}$ --- spécifier la loi revient à spécifier cette famille. Deux variables aléatoires, possiblement définies sur des univers différents, sont dites de même loi (notation $X \sim Y$) lorsque leurs lois coïncident en tant que mesures de probabilité. C'est une notion strictement plus faible que l'égalité ponctuelle, mais c'est la bonne notion pour presque tout résultat ne dépendant de $X$ qu'à travers sa distribution.

Définition — Loi d'une variable aléatoire

Soit $X : \Omega \to E$ une variable aléatoire sur l'espace probabilisé fini $(\Omega, P)$. La loi (ou distribution) de $X$ est la probabilité $P_X$ sur $E$ définie pour toute partie $B \subseteq E$ par $$ P_X(B) \ = \ P(X \in B) \ = \ P\bigl(X^{-1}(B)\bigr). $$ Comme $\Omega$ est fini, $P_X$ est concentrée sur l'ensemble fini $X(\Omega)$ : pour toute partie $B \subseteq E$, $P_X(B) = \sum_{x \in B \cap X(\Omega)} P(X = x)$, et en particulier $P_X(\{x\}) = P(X = x)$ pour tout $x \in X(\Omega)$.

Theorem — Loi d'une variable aléatoire

Soit $X : \Omega \to E$ une variable aléatoire sur l'espace probabilisé fini $(\Omega, P)$.

[(i)] $P_X$ est une probabilité sur $E$, concentrée sur l'ensemble fini $X(\Omega)$.
[(ii)] La loi $P_X$ est entièrement déterminée par la famille $\bigl(P(X = x)\bigr)_{x \in X(\Omega)}$, qui est une distribution sur $X(\Omega)$ --- une famille d'éléments de $[0, 1]$ de somme $1$. Explicitement, pour toute partie $B \subseteq E$, $$ P_X(B) \ = \ \sum_{x \in B \cap X(\Omega)} P(X = x). $$

Preuve

(i) On a $P_X(E) = P(X \in E) = P(\Omega) = 1$. Pour deux parties disjointes $B_1, B_2 \subseteq E$, les événements $X^{-1}(B_1)$ et $X^{-1}(B_2)$ sont aussi disjoints, donc par additivité de $P$, $$ P_X(B_1 \sqcup B_2) \ = \ P(X^{-1}(B_1 \sqcup B_2)) \ = \ P(X^{-1}(B_1) \sqcup X^{-1}(B_2)) \ = \ P_X(B_1) + P_X(B_2). $$ Donc $P_X$ est une probabilité sur $E$. La concentration sur $X(\Omega)$ vient de $P_X(E \setminus X(\Omega)) = P(X \notin X(\Omega)) = P(\emptyset) = 0$.
(ii) La famille $\bigl(P(X = x)\bigr)_{x \in X(\Omega)}$ est à valeurs dans $[0, 1]$ et, par (i) et la partition de $\Omega$ associée à $X$ (Proposition ci-dessus), vérifie $$ \sum_{x \in X(\Omega)} P(X = x) \ = \ \sum_{x \in X(\Omega)} P(\{X = x\}) \ = \ P(\Omega) \ = \ 1. $$ C'est donc une distribution sur l'ensemble fini $X(\Omega)$. Par le théorème de caractérisation des probabilités finies (chap. Probabilités sur un univers fini, théorème énonçant qu'une probabilité est déterminée par ses valeurs sur les singletons), cette distribution détermine une unique probabilité sur $X(\Omega)$, donnée pour $B \subseteq X(\Omega)$ par $\sum_{x \in B} P(X = x)$. Cette probabilité coïncide avec $P_X$ sur tout singleton $\{x\}$, donc sur toute partie $B$.

Définition — Égalité en loi

Soient $X : \Omega \to E$ et $Y : \Omega' \to E$ deux variables aléatoires à valeurs dans le même ensemble cible $E$, définies sur des espaces probabilisés possiblement différents $(\Omega, P)$ et $(\Omega', P')$. On dit que $X$ et $Y$ sont de même loi, et on note $X \sim Y$, si leurs lois coïncident en tant que probabilités sur $E$ : $$ \forall x \in E, \quad P(X = x) \ = \ P'(Y = x). $$

Méthode — Trouver la loi d'une variable aléatoire en trois temps

Pour trouver la loi d'une variable aléatoire $X : \Omega \to E$ :

Lister les valeurs. Énumérer $X(\Omega) = \{x_1, x_2, \ldots, x_n\}$ --- l'image effective de $X$.
Calculer chaque $P(X = x_i)$. Pour chaque $x_i \in X(\Omega)$, identifier l'événement $\{X = x_i\}$ comme partie de $\Omega$ et calculer sa probabilité (par dénombrement si $\Omega$ est uniforme, par application directe du modèle sinon).
Vérifier le total. S'assurer que $\sum_{i=1}^n P(X = x_i) = 1$. C'est un contrôle automatique des calculs de l'étape 2.

La sortie est le tableau de la loi $\bigl(x_i, P(X = x_i)\bigr)_{i=1, \ldots, n}$ --- tout ce qui ne concerne que $X$ se relit sur ce tableau.

Exemple — Loi d'un dé équilibré

On prend $\Omega = \llbracket 1, 6 \rrbracket$ uniforme (dé équilibré), et soit $X : \Omega \to \llbracket 1, 6 \rrbracket$ la valeur du dé : $X(\omega) = \omega$. En suivant la méthode en trois temps :

$X(\Omega) = \llbracket 1, 6 \rrbracket$ ;
pour tout $k \in \llbracket 1, 6 \rrbracket$, $\{X = k\} = \{k\}$, donc $P(X = k) = 1/6$ ;
$\sum_{k=1}^6 1/6 = 1$. $\checkmark$

La loi de $X$ est la famille constante $(1/6, 1/6, \ldots, 1/6)$ sur $\llbracket 1, 6 \rrbracket$ --- c'est la loi uniforme sur $\llbracket 1, 6 \rrbracket$, introduite formellement dans la section sur la loi uniforme ci-dessous.

Exemple — Égalité en loi sur des univers différents

On considère deux modèles pour « une expérience équilibrée à deux issues » :

Modèle 1 (pièce) : $\Omega = \{P, F\}$ uniforme, $X = \indicatrice_{\{P\}}$ (donc $X = 1$ si pile, $X = 0$ si face).
Modèle 2 (dé) : $\Omega' = \llbracket 1, 6 \rrbracket$ uniforme, $Y = \indicatrice_{\{1, 2, 3\}}$ (donc $Y = 1$ si le dé donne $1$, $2$ ou $3$ ; $Y = 0$ sinon).

$X$ et $Y$ prennent toutes deux leurs valeurs dans $\{0, 1\}$. Leurs lois valent $$ P(X = 0) = P(X = 1) = 1/2, \qquad P(Y = 0) = P(Y = 1) = 1/2. $$ Donc $X \sim Y$. Les deux variables sont définies sur des univers différents et n'ont aucun lien ponctuel, mais elles ont la même loi : lorsque seule la loi importe (par exemple pour calculer la probabilité d'un événement ne mettant en jeu que $X$), elles sont interchangeables.

Compétences à pratiquer

Reconnaître l'égalité en loi

I.3 Loi de $f(X)$

Lorsqu'on applique une fonction $f$ à une variable aléatoire $X$, la composée $f(X)$ est elle-même une variable aléatoire, et sa loi s'obtient à partir de celle de $X$ par image réciproque : chaque valeur $y$ de l'image de $f(X)$ rassemble tous les antécédents $x$ avec $f(x) = y$, et on somme les probabilités. Comme corollaire, si deux variables aléatoires ont même loi, leur appliquer la même $f$ produit deux nouvelles variables qui ont aussi même loi.

Proposition — Loi de $f(X)$

Soit $X : \Omega \to E$ une variable aléatoire et $f : E \to F$ une application. Alors $f(X) := f \circ X : \Omega \to F$ est une variable aléatoire, d'image $f(X)(\Omega) = f(X(\Omega))$, et pour tout $y \in F$, $$ P(f(X) = y) \ = \ \sum_{\substack{x \in X(\Omega) \\ f(x) = y}} P(X = x). $$

Preuve

Les événements $\{X = x\}$ pour $x \in X(\Omega)$ avec $f(x) = y$ sont deux à deux disjoints (sous-famille de la partition associée à $X$), et leur réunion est exactement $\{f(X) = y\}$ : $$ \{f(X) = y\} \ = \ \{\omega \in \Omega \mid f(X(\omega)) = y\} \ = \ \bigsqcup_{\substack{x \in X(\Omega) \\ f(x) = y}} \{X = x\}. $$ Appliquer l'additivité de $P$ pour conclure.

Proposition — L'égalité en loi se transporte par une fonction

Soient $X$ et $Y$ deux variables aléatoires à valeurs dans $E$ telles que $X \sim Y$, et soit $f : E \to F$ une application. Alors $f(X) \sim f(Y)$.

Preuve

Pour tout $y \in F$, l'événement $\{f(X) = y\}$ se réécrit $\{X \in f^{-1}(\{y\})\}$, donc $$ P(f(X) = y) \ = \ P_X\bigl(f^{-1}(\{y\})\bigr) \ = \ P_Y\bigl(f^{-1}(\{y\})\bigr) \ = \ P(f(Y) = y), $$ en utilisant $P_X = P_Y$ dans l'égalité du milieu. Donc $f(X)$ et $f(Y)$ ont même loi.

Méthode — Calculer la loi de $f(X)$

Pour trouver la loi de $f(X)$ à partir de celle de $X$ :

Image. Calculer $f(X)(\Omega) = f(X(\Omega)) = \{f(x) \mid x \in X(\Omega)\}$.
Regrouper par image. Pour chaque $y \in f(X)(\Omega)$, lister les antécédents $\{x \in X(\Omega) \mid f(x) = y\}$.
Sommer. Calculer $P(f(X) = y) = \sum_{f(x) = y} P(X = x)$.
Vérifier. S'assurer que $\sum_y P(f(X) = y) = 1$.

Exemple — Carré centré du dé

$X$ est la valeur d'un dé équilibré (donc $X \sim \mathcal U(\llbracket 1, 6 \rrbracket)$), et on pose $Y = (X - 3)^2$. Calculer la loi de $Y$.

Correction

Avec $f(k) = (k - 3)^2$, les valeurs de $f$ sur $\llbracket 1, 6 \rrbracket$ sont $f(1) = 4, f(2) = 1, f(3) = 0, f(4) = 1, f(5) = 4, f(6) = 9$. Donc $Y(\Omega) = \{0, 1, 4, 9\}$, et en regroupant les antécédents : $$ \begin{aligned} P(Y = 0) \ &= \ P(X = 3) \ = \ 1/6, \\ P(Y = 1) \ &= \ P(X = 2) + P(X = 4) \ = \ 2/6 \ = \ 1/3, \\ P(Y = 4) \ &= \ P(X = 1) + P(X = 5) \ = \ 2/6 \ = \ 1/3, \\ P(Y = 9) \ &= \ P(X = 6) \ = \ 1/6. \end{aligned} $$ Vérification : $1/6 + 1/3 + 1/3 + 1/6 = 1$. $\checkmark$

Compétences à pratiquer

Calculer la loi de $f(X)$

I.4 Loi conditionnelle de $X$ sachant un événement

Le conditionnement par un événement $A$ (avec $P(A) > 0$) a été introduit dans le chapitre précédent (Probabilités sur un univers fini, définition de la probabilité conditionnelle) comme une nouvelle probabilité $P_A$ sur $\Omega$. Appliqué à une variable aléatoire $X$, cela donne la loi conditionnelle de $X$ sachant $A$ : c'est simplement la loi de $X$ sous la nouvelle probabilité $P_A$. Toute la théorie des lois (définition, caractérisation, transport par $f$) se transporte verbatim à $P_A$. Le cas $A = \{Y = y\}$ est la loi conditionnelle de $X$ sachant $Y = y$, que l'on retrouvera dans la section sur les lois conjointes et marginales.

Définition — Loi conditionnelle de $X$ sachant un événement $A$

Soit $X : \Omega \to E$ une variable aléatoire et $A \subseteq \Omega$ un événement avec $P(A) > 0$. La loi conditionnelle de $X$ sachant $A$ est la famille $\bigl(P_A(X = x)\bigr)_{x \in X(\Omega)}$ définie par $$ P_A(X = x) \ = \ P(X = x \mid A) \ = \ \frac{P(\{X = x\} \cap A)}{P(A)}. $$

Proposition — La loi conditionnelle est une probabilité

Avec les notations ci-dessus, la famille $\bigl(P_A(X = x)\bigr)_{x \in X(\Omega)}$ est une distribution sur $X(\Omega)$, et la probabilité associée sur $X(\Omega)$ est exactement la loi de $X$ sous la probabilité conditionnelle $P_A$. En particulier, $$ \sum_{x \in X(\Omega)} P_A(X = x) \ = \ 1. $$

Preuve

$P_A$ est une probabilité sur $\Omega$ (chapitre Probabilités sur un univers fini, définition de la probabilité conditionnelle), donc $X$ admet une loi sous $P_A$, donnée par $(P_A(X = x))_{x \in X(\Omega)}$. Par le théorème sur la loi d'une variable aléatoire (démontré plus haut dans ce chapitre), c'est une distribution sur $X(\Omega)$, de somme $1$.

Méthode — Conditionner une variable aléatoire par un événement

Pour calculer $P_A(X = x)$ :

Identifier l'événement $\{X = x\} \cap A$ comme partie de $\Omega$.
Calculer sa probabilité $P(\{X = x\} \cap A)$ (souvent par dénombrement si $\Omega$ est uniforme).
Diviser par $P(A)$ : $P_A(X = x) = P(\{X = x\} \cap A) / P(A)$.
Contrôle : $\sum_x P_A(X = x) = 1$.

Une fois la loi conditionnelle obtenue, toute la théorie des lois se transporte sous $P_A$ --- égalité en loi, loi de $f(X)$, etc.

Exemple — Somme de deux dés sachant que le premier est pair

Deux dés équilibrés sont lancés, $\Omega = \llbracket 1, 6 \rrbracket^2$ uniforme ; soient $X_1, X_2$ les deux valeurs et $S = X_1 + X_2$. Soit $A = \{X_1 \text{ pair}\}$. Calculer la loi conditionnelle de $S$ sachant $A$.

Correction

$|\Omega| = 36$. L'événement $A$ correspond à $X_1 \in \{2, 4, 6\}$, donc $|A| = 3 \cdot 6 = 18$ et $P(A) = 18/36 = 1/2$. Sachant $A$, le premier dé est dans $\{2, 4, 6\}$ et le second dans $\llbracket 1, 6 \rrbracket$, ce qui donne $S \in \{3, 4, 5, 6, 7, 8, 9, 10, 11, 12\}$. En comptant le nombre de couples favorables pour chaque valeur de $S$ : $$ \begin{array}{c|cccccccccc} s & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10 & 11 & 12 \\ \hline |\{X_1 \text{ pair}, X_1 + X_2 = s\}| & 1 & 1 & 2 & 2 & 3 & 3 & 2 & 2 & 1 & 1 \\ \end{array} $$ (Pour $s = 3$, seul $(2\,;\,1)$ ; pour $s = 7$, $(2\,;\,5), (4\,;\,3), (6\,;\,1)$ ; etc.) Chaque cellule a probabilité $1/36$ sous $P$, donc $P(\{S = s\} \cap A) = (\text{compte})/36$, et en divisant par $P(A) = 1/2$ : $$ \begin{array}{c|cccccccccc} s & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10 & 11 & 12 \\ \hline P_A(S = s) & 1/18 & 1/18 & 1/9 & 1/9 & 1/6 & 1/6 & 1/9 & 1/9 & 1/18 & 1/18 \\ \end{array} $$ Vérification : $4 \cdot 1/18 + 4 \cdot 1/9 + 2 \cdot 1/6 = 2/9 + 4/9 + 3/9 = 9/9 = 1$. $\checkmark$ La loi conditionnelle est portée par $\llbracket 3, 12 \rrbracket$ (valeur $2$ inatteignable quand $X_1$ est pair) et est symétrique autour de $7{,}5$ mais avec des poids différents de la loi inconditionnelle de $S$.

Compétences à pratiquer

Conditionner par un événement

II Lois usuelles au programme

Trois lois nommées du programme : uniforme, Bernoulli et binomiale. Chacune reçoit une Définition et une Méthode (« quand l'utiliser ») ; la binomiale reçoit en plus deux théorèmes nommés --- une dérivation constructive comme somme de $n$ Bernoullis indépendantes (qui explique pourquoi $\binom{n}{k}$ apparaît dans la formule) et un théorème de stabilité $\mathcal B(n, p) + \mathcal B(m, p) = \mathcal B(n + m, p)$ pour des sommes indépendantes. Deux autres modèles finis de dénombrement (hypergéométrique, géométrique tronquée) ne sont pas nommés par le programme ; on les traite dans la section d'enrichissement en fin de chapitre comme applications du chapitre Dénombrement.

II.1 Loi uniforme

La loi uniforme est le cas où $X$ prend toutes les valeurs de son image avec la même probabilité. C'est le modèle naturel chaque fois que l'expérience n'a « aucune issue privilégiée » : un dé équilibré, une carte tirée au hasard dans un jeu battu, un élément choisi uniformément dans une liste finie.

Définition — Loi uniforme sur un ensemble fini

Soit $E$ un ensemble fini non vide. Une variable aléatoire $X$ suit la loi uniforme sur $E$, noté $X \sim \mathcal U(E)$, si $X(\Omega) = E$ et $$ \forall x \in E, \quad P(X = x) \ = \ \frac{1}{|E|}. $$ Le cas le plus courant en pratique est $E = \llbracket a, b \rrbracket$, pour lequel $P(X = k) = 1/(b - a + 1)$ pour tout $k \in \llbracket a, b \rrbracket$.

Méthode — Quand modéliser par une loi uniforme

Utiliser $\mathcal U(E)$ pour modéliser :

la valeur d'un dé équilibré ($E = \llbracket 1, 6 \rrbracket$) ;
le choix d'un élément dans un ensemble fini sans élément privilégié (carte aléatoire dans un jeu, ticket aléatoire dans un chapeau, entier uniforme dans $\llbracket 1, n \rrbracket$) ;
toute expérience « symétrique » où toutes les issues jouent le même rôle physique.

Sur un espace uniforme, tout calcul de probabilité se ramène à du dénombrement --- c'est le pont vers le chapitre Dénombrement.

Exemple — Dé équilibré

Un dé équilibré à six faces : $X = $ valeur du dé. Alors $X \sim \mathcal U(\llbracket 1, 6 \rrbracket)$ et $P(X = k) = 1/6$ pour tout $k \in \llbracket 1, 6 \rrbracket$.

Exemple — Loi de Rademacher

Une pièce équilibrée donne pile ou face. Codons pile par $+1$ et face par $-1$ : $X \in \{-1, +1\}$ avec $P(X = +1) = P(X = -1) = 1/2$. Alors $X \sim \mathcal U(\{-1, +1\})$. Cette loi uniforme particulière sur $\{-1, +1\}$ est souvent appelée loi de Rademacher (du nom de Hans Rademacher, mathématicien) ; c'est la variable aléatoire symétrique $\pm 1$ utilisée pour modéliser les marches aléatoires symétriques. Ce n'est pas une quatrième loi nommée du programme --- c'est un cas particulier de la loi uniforme.

Compétences à pratiquer

Reconnaître une loi usuelle

II.2 Loi de Bernoulli

La loi de Bernoulli est la brique élémentaire : une seule épreuve à deux issues possibles (« succès » codé $1$, « échec » codé $0$). C'est le modèle canonique de toute expérience binaire, et c'est la brique à partir de laquelle la loi binomiale est construite dans la sous-section suivante.

Définition — Loi de Bernoulli

Soit $p \in [0, 1]$. Une variable aléatoire $X$ à valeurs dans $\{0, 1\}$ suit la loi de Bernoulli de paramètre $p$, noté $X \sim \mathcal B(p)$, si $$ P(X = 1) \ = \ p, \qquad P(X = 0) \ = \ 1 - p. $$ La valeur $1$ s'interprète comme un succès, la valeur $0$ comme un échec, et $p$ comme la probabilité de succès.

Pour tout événement $A$ de $(\Omega, P)$, l'indicatrice $\indicatrice_A$ est une variable de Bernoulli de paramètre $P(A)$ : $$ \indicatrice_A \ \sim \ \mathcal B(P(A)). $$ C'est le pont entre le langage des événements du chapitre Probabilités sur un univers fini et celui des variables du chapitre courant --- et la source la plus simple de variables de Bernoulli.

Exemple — La carte est un cœur

Une carte est tirée uniformément au hasard dans un jeu de $52$. Soit $X = 1$ si la carte est un cœur, $X = 0$ sinon. Alors $X = \indicatrice_{\{\text{cœur}\}}$, donc $X \sim \mathcal B(13/52) = \mathcal B(1/4)$.

Compétences à pratiquer

Identifier et calculer avec une variable de Bernoulli

II.3 Loi binomiale

La loi binomiale $\mathcal B(n, p)$ compte le nombre de succès dans une suite de $n$ épreuves de Bernoulli indépendantes de même paramètre $p$. Le théorème constructif ci-dessous explique pourquoi la formule $P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}$ contient le coefficient binomial : il y a $\binom{n}{k}$ façons de positionner les $k$ succès parmi les $n$ épreuves, et chaque telle position a probabilité $p^k (1-p)^{n-k}$ par mutuelle indépendance. Le théorème de stabilité ($X + Y \sim \mathcal B(n + m, p)$ pour des $X, Y$ indépendantes de même $p$) suit par convolution + identité de Vandermonde, et réaffirme le lien avec Dénombrement.

Définition — Loi binomiale

Soient $n \in \mathbb N^*$ et $p \in [0, 1]$. Une variable aléatoire $X$ à valeurs dans $\llbracket 0, n \rrbracket$ suit la loi binomiale de paramètres $(n, p)$, noté $X \sim \mathcal B(n, p)$, si $$ \forall k \in \llbracket 0, n \rrbracket, \quad P(X = k) \ = \ \binom{n}{k} \, p^k \, (1 - p)^{n - k}. $$ L'entier $n$ est le nombre d'épreuves et $p$ la probabilité de succès à chaque épreuve. On adopte la convention usuelle $0^0 = 1$ pour les cas limites $p = 0$ et $p = 1$ : $\mathcal B(n, 0)$ est concentrée en $0$, et $\mathcal B(n, 1)$ est concentrée en $n$.

Theorem — Construction de la loi binomiale

Soient $n \in \mathbb N^*$, $p \in [0, 1]$ et $X_1, \ldots, X_n$ des variables de Bernoulli mutuellement indépendantes de même paramètre $p$ (la définition précise de l'indépendance mutuelle de variables aléatoires est donnée dans la sous-section sur l'indépendance mutuelle plus bas). Alors $$ S_n \ := \ X_1 + X_2 + \cdots + X_n \ \sim \ \mathcal B(n, p). $$ Autrement dit, $S_n$ est à valeurs dans $\llbracket 0, n \rrbracket$ et $P(S_n = k) = \binom{n}{k} p^k (1-p)^{n-k}$ pour tout $k \in \llbracket 0, n \rrbracket$.

Preuve

Note de lecture. La preuve utilise la caractérisation par les singletons de l'indépendance mutuelle, énoncée et démontrée dans la sous-section sur l'indépendance mutuelle plus bas. En première lecture, on peut simplement accepter la formule $P(B_I) = p^k (1-p)^{n-k}$ comme le sens de l'indépendance pour une configuration fixée de succès et d'échecs.
$S_n$ prend ses valeurs dans $\llbracket 0, n \rrbracket$ puisque chaque $X_i \in \{0, 1\}$ et il y a $n$ termes. Fixons $k \in \llbracket 0, n \rrbracket$. L'événement $\{S_n = k\}$ est la réunion disjointe, sur toutes les parties $I \subseteq \llbracket 1, n \rrbracket$ de cardinal $k$, des événements $$ B_I \ = \ \Bigl(\bigcap_{i \in I} \{X_i = 1\}\Bigr) \cap \Bigl(\bigcap_{i \notin I} \{X_i = 0\}\Bigr). $$ Par la caractérisation de l'indépendance mutuelle sur les singletons (Proposition de la sous-section sur l'indépendance mutuelle, anticipée ici) appliquée aux valeurs $x_i \in \{0, 1\}$ qui sélectionnent entre $\{X_i = 1\}$ et $\{X_i = 0\}$, et en utilisant les valeurs des lois de Bernoulli, $$ P(B_I) \ = \ \prod_{i \in I} P(X_i = 1) \cdot \prod_{i \notin I} P(X_i = 0) \ = \ p^k \, (1 - p)^{n - k}. $$ Il y a $\binom{n}{k}$ parties $I$ de cardinal $k$, donc par additivité, $$ P(S_n = k) \ = \ \sum_{|I| = k} P(B_I) \ = \ \binom{n}{k} \, p^k \, (1 - p)^{n - k}. $$ C'est la formule définissant $\mathcal B(n, p)$.

Theorem — Stabilité de la loi binomiale

Soient $n, m \in \mathbb N^*$ et $p \in [0, 1]$. Si $X \sim \mathcal B(n, p)$ et $Y \sim \mathcal B(m, p)$ sont indépendantes (définition dans la sous-section sur l'indépendance de deux variables ci-dessous), alors $$ X + Y \ \sim \ \mathcal B(n + m, p). $$

Preuve

$X + Y$ prend ses valeurs dans $\llbracket 0, n + m \rrbracket$. Fixons $k \in \llbracket 0, n + m \rrbracket$. Par la partition $\{X + Y = k\} = \bigsqcup_{j=0}^{k} \{X = j, Y = k - j\}$ et l'indépendance de $X$ et $Y$, $$ P(X + Y = k) \ = \ \sum_{j=0}^{k} P(X = j) P(Y = k - j), $$ où l'on adopte la convention $\binom{a}{b} = 0$ pour $b < 0$ ou $b > a$, de sorte que $P(X = j) = 0$ pour $j > n$ et $P(Y = k - j) = 0$ pour $k - j > m$. En insérant les formules binomiales, $$ \begin{aligned} P(X + Y = k) \ &= \ \sum_{j=0}^{k} \binom{n}{j} p^j (1 - p)^{n - j} \cdot \binom{m}{k - j} p^{k - j} (1 - p)^{m - k + j} && \text{(formules binomiales)} \\ &= \ p^k (1 - p)^{n + m - k} \sum_{j=0}^{k} \binom{n}{j} \binom{m}{k - j} && \text{(factoriser)} \\ &= \ p^k (1 - p)^{n + m - k} \binom{n + m}{k} && \text{(Vandermonde)}. \end{aligned} $$ C'est la formule définissant $\mathcal B(n + m, p)$.

Méthode — Reconnaître une loi binomiale

Une variable aléatoire $X$ suit $\mathcal B(n, p)$ lorsque l'expérience vérifie les trois conditions :

$n$ épreuves identiques et indépendantes. L'expérience consiste en $n$ épreuves mutuellement indépendantes, chacune suivant le même modèle.
Deux issues par épreuve. Chaque épreuve a deux issues possibles, succès (probabilité $p$) ou échec (probabilité $1 - p$), avec le même $p$ pour toutes les épreuves.
Compter les succès. $X$ est le nombre total de succès parmi les $n$ épreuves.

Lorsque les trois conditions sont satisfaites, écrire $X \sim \mathcal B(n, p)$ et appliquer directement la formule $P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}$ --- inutile de la redériver.

Exemple — QCM

Un QCM comporte $10$ questions, chacune à $4$ choix dont exactement un est correct. Un étudiant répond à toutes les questions uniformément au hasard et indépendamment. Soit $X = $ nombre de bonnes réponses. Identifier la loi de $X$ et calculer $P(X = 3)$.

Correction

Les trois conditions sont satisfaites : $n = 10$ épreuves (les questions), indépendantes et identiques, chacune à deux issues (correct avec probabilité $p = 1/4$, incorrect avec probabilité $3/4$), et $X = $ nombre de succès. Donc $X \sim \mathcal B(10, 1/4)$. On applique la formule : $$ P(X = 3) \ = \ \binom{10}{3} (1/4)^3 (3/4)^7 \ = \ 120 \cdot \frac{1}{64} \cdot \frac{2187}{16384} \ \approx \ 0{,}2503. $$

Compétences à pratiquer

Calculer avec la loi binomiale

III Couples et indépendance de variables aléatoires

On passe d'une variable à deux (puis à $n$). L'information complète sur un couple $(X, Y)$ est encodée dans la loi conjointe $P(X = x, Y = y)$, un tableau bidimensionnel ; les lois de $X$ et de $Y$ seules (les marginales) se lisent en sommant lignes ou colonnes. La loi conditionnelle de $X$ sachant $Y = y$ est le cas particulier $A = \{Y = y\}$ de la définition de la loi conditionnelle d'une variable. L'indépendance de $X$ et $Y$ est le cas où la loi conjointe se factorise en produit des marginales --- trois caractérisations équivalentes sont rassemblées en un théorème nommé. La section se ferme par l'indépendance mutuelle de $n$ variables et le lemme des coalitions.

III.1 Lois conjointe et marginales

La loi conjointe de $(X, Y)$ est un tableau indexé par $X(\Omega) \times Y(\Omega)$ qui liste toutes les probabilités conjointes $P(X = x, Y = y)$. Les lois marginales --- les lois de $X$ et de $Y$ prises séparément --- s'obtiennent en sommant lignes ou colonnes ; d'où le nom « marginale », car les sommes marginales s'écrivent dans la marge du tableau. La loi conditionnelle de $X$ sachant $Y = y$ est, formellement, la loi conditionnelle de $X$ sous l'événement $A = \{Y = y\}$ définie précédemment.

Définition — Couple$\virgule$ loi conjointe

Soient $X : \Omega \to E$ et $Y : \Omega \to F$ deux variables aléatoires sur le même espace probabilisé $(\Omega, P)$. Le couple $(X, Y) : \Omega \to E \times F$ est la variable aléatoire définie par $(X, Y)(\omega) = (X(\omega), Y(\omega))$. Sa loi conjointe est la famille $$ \bigl(P(X = x, Y = y)\bigr)_{(x, y) \in X(\Omega) \times Y(\Omega)}, \qquad P(X = x, Y = y) := P(\{X = x\} \cap \{Y = y\}). $$

Définition — Lois marginales

Les lois marginales du couple $(X, Y)$ sont les lois de $X$ et de $Y$ prises séparément --- $P_X$ sur $X(\Omega)$ et $P_Y$ sur $Y(\Omega)$.

Theorem — Lois marginales depuis la loi conjointe

Soit $(X, Y)$ un couple de loi conjointe $\bigl(P(X = x, Y = y)\bigr)$. Alors pour tout $x \in X(\Omega)$ et tout $y \in Y(\Omega)$, $$ P(X = x) \ = \ \sum_{y \in Y(\Omega)} P(X = x, Y = y), \qquad P(Y = y) \ = \ \sum_{x \in X(\Omega)} P(X = x, Y = y). $$

Preuve

Le système complet associé à $Y$ partitionne $\Omega = \bigsqcup_{y \in Y(\Omega)} \{Y = y\}$ (Proposition sur le système complet associé à une variable, plus haut). En intersectant avec l'événement $\{X = x\}$, $$ \{X = x\} \ = \ \bigsqcup_{y \in Y(\Omega)} \bigl(\{X = x\} \cap \{Y = y\}\bigr). $$ Appliquer l'additivité de $P$ pour obtenir $P(X = x) = \sum_y P(X = x, Y = y)$. La formule pour $P(Y = y)$ est symétrique.

Définition — Loi conditionnelle de $X$ sachant $Y \equal y$

Soit $(X, Y)$ un couple, et soit $y \in Y(\Omega)$ avec $P(Y = y) > 0$. La loi conditionnelle de $X$ sachant $Y = y$ est la famille $\bigl(P(X = x \mid Y = y)\bigr)_{x \in X(\Omega)}$ définie par $$ P(X = x \mid Y = y) \ = \ \frac{P(X = x, Y = y)}{P(Y = y)}. $$ C'est le cas particulier de la définition de la loi conditionnelle d'une variable avec l'événement $A = \{Y = y\}$. Par la Proposition « la loi conditionnelle est une distribution », c'est une distribution sur $X(\Omega)$.

Méthode — Lire les marginales et les conditionnelles dans un tableau de loi conjointe

On tabule la loi conjointe de $(X, Y)$ comme un tableau $|X(\Omega)| \times |Y(\Omega)|$ dont la case $(x, y)$ contient $P(X = x, Y = y)$. Alors :

la loi marginale de $X$ se lit dans la marge droite (sommes de lignes) ;
la loi marginale de $Y$ se lit dans la marge basse (sommes de colonnes) ;
la loi conditionnelle de $X$ sachant $Y = y$ se lit en prenant la colonne $y$ et en la renormalisant par sa somme $P(Y = y)$.

C'est la source des noms : les marginales s'écrivent littéralement dans la marge.

Exemple — Deux tirages sans remise

Une urne contient $3$ boules rouges, $2$ blanches et $1$ verte. Deux boules sont tirées successivement sans remise. Soit $X$ = couleur de la première (codée $R = 1, B = 2, V = 3$) et $Y$ = couleur de la seconde. La loi conjointe de $(X, Y)$ est le tableau (chaque case est $P(X = x, Y = y) = (\text{nombre de (premier, second)})/{6 \cdot 5}$, ré-exprimé comme fraction sur $30$) : $$ \begin{array}{c|ccc|c} X \backslash Y & 1 (R) & 2 (B) & 3 (V) & P(X = x) \\ \hline 1 (R) & 6/30 & 6/30 & 3/30 & 15/30 = 1/2 \\ 2 (B) & 6/30 & 2/30 & 2/30 & 10/30 = 1/3 \\ 3 (V) & 3/30 & 2/30 & 0/30 & 5/30 = 1/6 \\ \hline P(Y = y) & 15/30 & 10/30 & 5/30 & 1 \end{array} $$ Détail d'une case : $P(X = 1, Y = 1) = (3/6)(2/5) = 6/30$ (première rouge, puis une rouge parmi les $2$ restantes). La marginale de $X$ dans la colonne droite reproduit la proportion de chaque couleur dans l'urne ($1/2, 1/3, 1/6$). Par symétrie du modèle, la marginale de $Y$ en bas est la même --- un fait non évident pour un tirage « sans remise » : la couleur du second tirage a la même loi que la première. Les cases ne sont pas des produits (par exemple $P(X = 3, Y = 3) = 0 \ne (1/6)(1/6)$), donc $X$ et $Y$ ne sont pas indépendantes --- ce que la sous-section sur l'indépendance de deux variables formalisera.

Compétences à pratiquer

Calculer des lois conjointes et marginales

III.2 Indépendance de deux variables aléatoires

Deux variables aléatoires sont indépendantes lorsque « observer l'une ne donne aucune information sur l'autre » : c'est l'analogue, au niveau des variables, de l'indépendance d'événements du chapitre Probabilités sur un univers fini. Le théorème ci-dessous rassemble trois caractérisations équivalentes : par sous-événements de $X(\Omega) \times Y(\Omega)$ (la définition programme), par factorisation de la loi conjointe sur les singletons (le test pratique), et par invariance de la loi conditionnelle (la lecture « observer $Y$ ne change pas $X$ »). La stabilité de l'indépendance par fonctions suit immédiatement.

Définition — Indépendance de deux variables aléatoires

Soient $X : \Omega \to E$ et $Y : \Omega \to F$ deux variables aléatoires. On dit que $X$ et $Y$ sont indépendantes (notation $X \perp Y$) si pour toute partie $A \subseteq X(\Omega)$ et toute partie $B \subseteq Y(\Omega)$, $$ P(X \in A, \ Y \in B) \ = \ P(X \in A) \cdot P(Y \in B). $$

Theorem — Caractérisation de l'indépendance

Soient $X$ et $Y$ deux variables aléatoires sur $(\Omega, P)$. Les assertions suivantes sont équivalentes :

[(i)] $X \perp Y$ (indépendance par sous-événements de $X(\Omega), Y(\Omega)$) ;
[(ii)] pour tout $(x, y) \in X(\Omega) \times Y(\Omega)$, $P(X = x, Y = y) = P(X = x) \cdot P(Y = y)$ (factorisation de la loi conjointe sur les singletons) ;
[(iii)] pour tout $y \in Y(\Omega)$ avec $P(Y = y) > 0$ et tout $x \in X(\Omega)$, $P(X = x \mid Y = y) = P(X = x)$ (la loi conditionnelle de $X$ sachant $Y = y$ ne dépend pas de $y$).

Preuve

(i) $\Rightarrow$ (ii) : prendre $A = \{x\}$ et $B = \{y\}$ dans la définition.
(ii) $\Rightarrow$ (i) : pour toutes parties $A \subseteq X(\Omega), B \subseteq Y(\Omega)$, écrire $\{X \in A, Y \in B\} = \bigsqcup_{(x, y) \in A \times B} \{X = x, Y = y\}$ et appliquer l'additivité, en factorisant les $P(X = x) P(Y = y)$ donnés par (ii) : $$ \begin{aligned} P(X \in A, Y \in B) \ &= \ \sum_{(x, y) \in A \times B} P(X = x, Y = y) \\ &= \ \sum_{(x, y) \in A \times B} P(X = x) P(Y = y) \\ &= \ \Bigl(\sum_{x \in A} P(X = x)\Bigr) \Bigl(\sum_{y \in B} P(Y = y)\Bigr) \\ &= \ P(X \in A) P(Y \in B). \end{aligned} $$
(ii) $\Rightarrow$ (iii) : pour $y$ avec $P(Y = y) > 0$, diviser (ii) par $P(Y = y)$ pour obtenir $P(X = x \mid Y = y) = P(X = x)$.
(iii) $\Rightarrow$ (ii) : si $P(Y = y) > 0$, multiplier (iii) par $P(Y = y)$ pour retrouver $P(X = x, Y = y) = P(X = x) P(Y = y)$. Si $P(Y = y) = 0$, alors $\{X = x, Y = y\} \subseteq \{Y = y\}$ est de probabilité $0$, et le membre de droite $P(X = x) P(Y = y) = 0$ également ; (ii) est vraie trivialement. Donc (ii) vaut pour tout $(x, y)$.

Proposition — Stabilité de l'indépendance par fonctions

Soient $X \perp Y$ et $f : X(\Omega) \to F'$, $g : Y(\Omega) \to G'$ deux applications. Alors $f(X) \perp g(Y)$.

Preuve

Pour toute partie $C \subseteq f(X)(\Omega)$ et toute partie $D \subseteq g(Y)(\Omega)$, $\{f(X) \in C\} = \{X \in f^{-1}(C)\}$ et $\{g(Y) \in D\} = \{Y \in g^{-1}(D)\}$. Par indépendance de $X$ et $Y$ appliquée aux sous-événements $A = f^{-1}(C)$ et $B = g^{-1}(D)$, $$ \begin{aligned} P(f(X) \in C, \ g(Y) \in D) \ &= \ P(X \in f^{-1}(C), \ Y \in g^{-1}(D)) \\ &= \ P(X \in f^{-1}(C)) \cdot P(Y \in g^{-1}(D)) \\ &= \ P(f(X) \in C) \cdot P(g(Y) \in D). \end{aligned} $$

Méthode — Tester l'indépendance cellule par cellule

Pour tester $X \perp Y$ :

Calculer la loi conjointe $P(X = x, Y = y)$ pour tout $(x, y) \in X(\Omega) \times Y(\Omega)$.
Calculer les marginales $P(X = x)$ et $P(Y = y)$ (sommes de lignes / colonnes).
Comparer chaque case au produit des marginales correspondantes : $P(X = x, Y = y) \stackrel{?}{=} P(X = x) P(Y = y)$.

Une seule case en désaccord suffit à réfuter l'indépendance (la caractérisation (ii) est une affirmation « pour tout $(x, y)$ »). Toutes les cases en accord établissent l'indépendance.

Exemple — Indicatrices indépendantes si et seulement si événements indépendants

Soient $A$ et $B$ deux événements de $(\Omega, P)$. Alors les variables indicatrices $\indicatrice_A$ et $\indicatrice_B$ sont indépendantes (au sens des variables aléatoires) si et seulement si $A$ et $B$ sont indépendants (au sens des événements, du chapitre précédent).

Correction

Par la caractérisation (ii), $\indicatrice_A \perp \indicatrice_B$ si et seulement si pour tout $(a, b) \in \{0, 1\}^2$, $P(\indicatrice_A = a, \indicatrice_B = b) = P(\indicatrice_A = a) P(\indicatrice_B = b)$. Les quatre cases : $$ \begin{aligned} P(\indicatrice_A = 1, \indicatrice_B = 1) \ &= \ P(A \cap B), && P(\indicatrice_A = 1) P(\indicatrice_B = 1) \ = \ P(A) P(B); \\ P(\indicatrice_A = 1, \indicatrice_B = 0) \ &= \ P(A \cap \overline B), && P(\indicatrice_A = 1) P(\indicatrice_B = 0) \ = \ P(A) (1 - P(B)); \\ P(\indicatrice_A = 0, \indicatrice_B = 1) \ &= \ P(\overline A \cap B), && P(\indicatrice_A = 0) P(\indicatrice_B = 1) \ = \ (1 - P(A)) P(B); \\ P(\indicatrice_A = 0, \indicatrice_B = 0) \ &= \ P(\overline A \cap \overline B), && P(\indicatrice_A = 0) P(\indicatrice_B = 0) \ = \ (1 - P(A))(1 - P(B)). \end{aligned} $$ La première égalité $P(A \cap B) = P(A) P(B)$ est la définition de « $A$ et $B$ indépendants comme événements ». Les trois autres égalités en découlent (par la Proposition « Indépendance et complémentaires » du chapitre précédent Probabilités sur un univers fini). Réciproquement, si les quatre cases sont en accord, la première est exactement $A \perp B$. D'où l'équivalence.

Compétences à pratiquer

Vérifier ou réfuter l'indépendance de deux variables aléatoires

III.3 Indépendance mutuelle et lemme des coalitions

L'indépendance mutuelle de $n$ variables aléatoires est la généralisation naturelle du cas à deux variables --- la loi conjointe du $n$-uplet se factorise en produit des $n$ marginales --- mais elle est strictement plus forte que l'indépendance deux à deux (phénomène déjà rencontré pour les événements au chapitre précédent, Proposition sur la différence entre indépendance mutuelle et indépendance deux à deux ; la construction XOR au niveau des variables ci-dessous le concrétise). La section se ferme par le lemme des coalitions, un résultat explicitement au programme qui dit : toute fonction d'un bloc de variables est indépendante de toute fonction d'un autre bloc, dès lors que les deux blocs proviennent d'une famille mutuellement indépendante.

Définition — Indépendance deux à deux

Les variables aléatoires $X_1, \ldots, X_n$ sont deux à deux indépendantes si pour toute paire $i \ne j$ dans $\llbracket 1, n \rrbracket$, $X_i \perp X_j$.

Définition — Indépendance mutuelle

Les variables aléatoires $X_1, \ldots, X_n$ (où $X_i : \Omega \to E_i$) sont mutuellement indépendantes si pour toute famille de parties $A_1 \subseteq X_1(\Omega), \ldots, A_n \subseteq X_n(\Omega)$, $$ P(X_1 \in A_1, \ldots, X_n \in A_n) \ = \ \prod_{i=1}^n P(X_i \in A_i). $$

Proposition — Caractérisation par les singletons en cas fini

Sur un espace probabilisé fini, les variables aléatoires $X_1, \ldots, X_n$ sont mutuellement indépendantes si et seulement si pour tout $(x_1, \ldots, x_n) \in X_1(\Omega) \times \cdots \times X_n(\Omega)$, $$ P(X_1 = x_1, \ldots, X_n = x_n) \ = \ \prod_{i=1}^n P(X_i = x_i). $$

Preuve

($\Rightarrow$) Prendre $A_i = \{x_i\}$ dans la définition.
($\Leftarrow$) Pour des $A_i \subseteq X_i(\Omega)$ quelconques, écrire $\{X_i \in A_i\} = \bigsqcup_{x_i \in A_i} \{X_i = x_i\}$ et utiliser l'additivité pour développer la probabilité conjointe en somme sur $(x_1, \ldots, x_n) \in A_1 \times \cdots \times A_n$. Chaque sommant se factorise par l'hypothèse sur les singletons, puis les sommes se séparent en produit : $$ \begin{aligned} P(X_1 \in A_1, \ldots, X_n \in A_n) \ &= \ \sum_{(x_1, \ldots, x_n) \in A_1 \times \cdots \times A_n} P(X_1 = x_1, \ldots, X_n = x_n) \\ &= \ \sum_{(x_1, \ldots, x_n) \in A_1 \times \cdots \times A_n} \prod_{i=1}^n P(X_i = x_i) \\ &= \ \prod_{i=1}^n \sum_{x_i \in A_i} P(X_i = x_i) \\ &= \ \prod_{i=1}^n P(X_i \in A_i). \end{aligned} $$

Proposition — Mutuelle implique deux à deux ; réciproque fausse

Soient $X_1, \ldots, X_n$ mutuellement indépendantes. Alors elles sont deux à deux indépendantes. La réciproque est fausse : il existe des variables aléatoires deux à deux indépendantes mais pas mutuellement indépendantes.

Preuve

Sens direct. Fixons une paire $i \ne j$. Pour montrer $X_i \perp X_j$, prendre $A_k = X_k(\Omega)$ pour $k \notin \{i, j\}$ dans la définition de l'indépendance mutuelle : cela donne $\{X_k \in X_k(\Omega)\} = \Omega$ et $P(X_k \in X_k(\Omega)) = 1$, donc la probabilité conjointe se réduit à $P(X_i \in A_i, X_j \in A_j)$ à gauche et à $P(X_i \in A_i) P(X_j \in A_j)$ à droite --- ce qui est exactement $X_i \perp X_j$.
Contre-exemple. On prend $\Omega = \{0, 1\}^2$ uniforme (deux pièces équilibrées indépendantes). On définit $X_1, X_2 : \Omega \to \{0, 1\}$ par $X_1(\omega_1, \omega_2) = \omega_1$, $X_2(\omega_1, \omega_2) = \omega_2$, et $X_3 = X_1 \oplus X_2$ (XOR, soit $X_3 = X_1 + X_2 \mod 2$). Chaque $X_i \sim \mathcal B(1/2)$. Les paires $(X_1, X_2), (X_1, X_3), (X_2, X_3)$ sont chacune indépendantes (on vérifie $P(X_i = a, X_j = b) = 1/4 = (1/2)(1/2)$ pour tout $(a, b)$). Mais le triplet ne l'est pas : $P(X_1 = 0, X_2 = 0, X_3 = 0) = P(X_1 = 0, X_2 = 0) = 1/4 \ne (1/2)^3 = 1/8$ (car $X_3 = 0 \oplus 0 = 0$ est forcé quand $X_1 = X_2 = 0$).

Proposition — Sous-famille d'une famille mutuellement indépendante

Toute sous-famille d'une famille mutuellement indépendante de variables aléatoires est mutuellement indépendante.

Preuve

Soient $X_1, \ldots, X_n$ mutuellement indépendantes et considérons la sous-famille indexée par $J \subseteq \llbracket 1, n \rrbracket$ avec $J \ne \emptyset$. Pour montrer que $(X_j)_{j \in J}$ est mutuellement indépendante, fixer $A_j \subseteq X_j(\Omega)$ pour $j \in J$ et prendre $A_k = X_k(\Omega)$ pour $k \notin J$ dans la définition de l'indépendance mutuelle. Alors $P(X_k \in A_k) = 1$ pour $k \notin J$, donc la probabilité conjointe et le produit se réduisent aux indices dans $J$, laissant $P(\bigcap_{j \in J} \{X_j \in A_j\}) = \prod_{j \in J} P(X_j \in A_j)$.

Proposition — Stabilité de l'indépendance mutuelle par fonctions

Soient $X_1, \ldots, X_n$ des variables aléatoires mutuellement indépendantes (avec $X_i : \Omega \to E_i$), et soient $f_1 : E_1 \to F_1, \ldots, f_n : E_n \to F_n$ des applications. Alors $f_1(X_1), \ldots, f_n(X_n)$ sont mutuellement indépendantes.

Preuve

Pour toutes parties $C_1 \subseteq f_1(X_1)(\Omega), \ldots, C_n \subseteq f_n(X_n)(\Omega)$, on a $\{f_i(X_i) \in C_i\} = \{X_i \in f_i^{-1}(C_i)\}$. En appliquant la mutuelle indépendance de $X_1, \ldots, X_n$ aux pré-images $f_i^{-1}(C_i)$, $$ \begin{aligned} P\bigl(f_1(X_1) \in C_1, \ldots, f_n(X_n) \in C_n\bigr) \ &= \ P\bigl(X_1 \in f_1^{-1}(C_1), \ldots, X_n \in f_n^{-1}(C_n)\bigr) \\ &= \ \prod_{i=1}^n P\bigl(X_i \in f_i^{-1}(C_i)\bigr) \\ &= \ \prod_{i=1}^n P\bigl(f_i(X_i) \in C_i\bigr). \end{aligned} $$ Donc $f_1(X_1), \ldots, f_n(X_n)$ sont mutuellement indépendantes.

Proposition — Lemme des coalitions$\virgule$ cas à deux coalitions

Soient $X_1, \ldots, X_n$ mutuellement indépendantes (avec $X_i : \Omega \to E_i$) et $1 \le k < n$. Pour toutes applications $f : E_1 \times \cdots \times E_k \to F$ et $g : E_{k+1} \times \cdots \times E_n \to G$, les variables $$ U \ := \ f(X_1, \ldots, X_k) \qquad \text{et} \qquad V \ := \ g(X_{k+1}, \ldots, X_n) $$ sont indépendantes.

Preuve

Fixons $u \in U(\Omega)$ et $v \in V(\Omega)$. L'événement $\{U = u, V = v\}$ est la réunion disjointe, sur les $(x_1, \ldots, x_n)$ avec $f(x_1, \ldots, x_k) = u$ et $g(x_{k+1}, \ldots, x_n) = v$, des événements $\{X_1 = x_1, \ldots, X_n = x_n\}$. Par la caractérisation de l'indépendance mutuelle sur les singletons, $$ \begin{aligned} P(U = u, V = v) \ &= \ \sum_{\substack{f(x_1, \ldots, x_k) = u \\ g(x_{k+1}, \ldots, x_n) = v}} P(X_1 = x_1, \ldots, X_n = x_n) \\ &= \ \sum_{\substack{f(x_1, \ldots, x_k) = u \\ g(x_{k+1}, \ldots, x_n) = v}} \prod_{i=1}^n P(X_i = x_i) \\ &= \ \Bigl(\sum_{f(x_1, \ldots, x_k) = u} \prod_{i=1}^k P(X_i = x_i)\Bigr) \cdot \Bigl(\sum_{g(x_{k+1}, \ldots, x_n) = v} \prod_{i=k+1}^n P(X_i = x_i)\Bigr) \\ &= \ P(U = u) \cdot P(V = v), \end{aligned} $$ où la troisième ligne sépare la somme en deux groupes d'indices indépendants et la quatrième reconnaît chaque facteur comme la loi de $U$ (resp. $V$) par la proposition « loi de $f(X)$ » appliquée au $k$-uplet $(X_1, \ldots, X_k)$ (resp. au $(n-k)$-uplet). Par la caractérisation par les singletons de l'indépendance de deux variables aléatoires (Théorème sur les formes équivalentes de l'indépendance de deux variables, point (ii)), cela prouve $U \perp V$.

Ce chapitre inclut également l'extension du lemme des coalitions à une partition de $\llbracket 1, n \rrbracket$ en $m \ge 2$ blocs non vides : tout $m$-uplet de variables, chacune obtenue comme fonction d'un bloc, est mutuellement indépendant. La preuve est une itération du cas à deux coalitions ; on l'admet.

Méthode — Utiliser le lemme des coalitions pour découper une expérience

Chaque fois qu'une expérience se découpe naturellement en deux (ou plusieurs) blocs de variables mutuellement indépendantes --- par exemple les $k$ premières épreuves contre les $n - k$ suivantes, ou les lancers du dé A contre les lancers du dé B --- le lemme des coalitions permet de traiter chaque bloc comme une seule variable aléatoire indépendante des autres. Concrètement : toute fonction du bloc 1 est indépendante de toute fonction du bloc 2.

Exemple — Application à la preuve de la binomiale

Dans la preuve de la construction de $\mathcal B(n, p)$ (Théorème de construction de la binomiale plus haut), la somme partielle $S_k = X_1 + \cdots + X_k$ et la variable suivante $X_{k+1}$ sont indépendantes. En effet, $S_k$ est une fonction du bloc $(X_1, \ldots, X_k)$ et $X_{k+1}$ est l'unique élément du bloc $\{X_{k+1}\}$ ; les deux blocs proviennent d'une famille mutuellement indépendante $X_1, \ldots, X_{k+1}$, donc le lemme des coalitions donne $S_k \perp X_{k+1}$. C'est exactement ce dont on a besoin pour calculer $P(S_n = k)$ par récurrence ou par l'argument combinatoire direct.

Compétences à pratiquer

Vérifier l'indépendance mutuelle et appliquer le lemme des coalitions

IV Modèles finis de dénombrement complémentaires

Cette section est un bloc d'enrichissement. Les deux modèles ci-dessous --- hypergéométrique (tirage sans remise) et géométrique tronqué (premier succès en nombre limité d'essais) --- ne sont pas des lois usuelles nommées du programme, mais ce sont des applications directes du chapitre Dénombrement et ils apparaissent naturellement dans des problèmes concrets (tirages d'urne, essais de mot de passe, lotos, détection de défauts). On les présente comme des modèles plutôt que comme des « lois usuelles » pour garder la frontière claire : les lois nommées par le programme sont seulement les trois de la section sur les lois usuelles (uniforme, Bernoulli, binomiale) ; ces deux-ci se déduisent d'un argument de dénombrement et de la définition de l'indépendance.

IV.1 Modèle hypergéométrique

Le modèle hypergéométrique est la loi du « nombre de succès lors d'un tirage de $n$ boules sans remise dans une urne de $N$ boules, dont $K$ sont des succès ». C'est la « cousine sans remise » de la binomiale : la binomiale modélise le tirage avec remise ($n$ épreuves indépendantes de la même Bernoulli), l'hypergéométrique modélise le tirage sans remise (les épreuves ne sont plus indépendantes --- enlever une boule-succès change la proportion pour le tirage suivant).

Définition — Modèle hypergéométrique

Soient $N \ge 1$, $K \in \llbracket 0, N \rrbracket$, $n \in \llbracket 1, N \rrbracket$. Une variable aléatoire $X$ à valeurs dans $\llbracket 0, n \rrbracket$ suit le modèle hypergéométrique de paramètres $(N, K, n)$, noté $X \sim \mathcal H(N, K, n)$, si pour tout $k \in \llbracket 0, n \rrbracket$, $$ P(X = k) \ = \ \frac{\dbinom{K}{k} \dbinom{N - K}{n - k}}{\dbinom{N}{n}}, $$ avec la convention $\binom{a}{b} = 0$ pour $b < 0$ ou $b > a$ (de sorte que la formule donne automatiquement $P(X = k) = 0$ hors du support $\max(0, n - (N - K)) \le k \le \min(n, K)$).

Méthode — Reconnaître le modèle hypergéométrique

Utiliser $\mathcal H(N, K, n)$ pour modéliser :

une urne (ou population) finie de $N$ éléments, dont $K$ « succès marqués » et $N - K$ « non-succès » ;
un tirage de $n$ éléments sans remise (équivalent : tirage simultané de $n$ éléments) ;
$X = $ le nombre d'éléments marqués dans l'échantillon tiré.

La formule se redérive en une ligne par dénombrement (cas favorables sur cas possibles) : $\binom{K}{k}$ façons de choisir les $k$ marqués parmi les $K$ disponibles, $\binom{N-K}{n-k}$ façons de choisir les $n - k$ non-marqués parmi les $N - K$ disponibles, le tout divisé par les $\binom{N}{n}$ façons de choisir $n$ éléments quelconques parmi $N$.

Exemple — Trois boules tirées d'une urne

Une urne contient $N = 10$ boules dont $K = 4$ rouges. On tire $n = 3$ boules simultanément (sans remise). Soit $X = $ nombre de boules rouges tirées. Alors $X \sim \mathcal H(10, 4, 3)$, et $$ P(X = 2) \ = \ \frac{\binom{4}{2} \binom{6}{1}}{\binom{10}{3}} \ = \ \frac{6 \cdot 6}{120} \ = \ \frac{36}{120} \ = \ \frac{3}{10}. $$

Exemple — Contraste avec la binomiale --- avec ou sans remise

Même urne ($10$ boules, $4$ rouges), mais maintenant on tire $n = 3$ boules avec remise. Alors chaque tirage est une Bernoulli indépendante de paramètre $4/10 = 2/5$, donc le nombre de rouges $X' \sim \mathcal B(3, 2/5)$, et $$ P(X' = 2) \ = \ \binom{3}{2}(2/5)^2(3/5) \ = \ 3 \cdot \frac{4}{25} \cdot \frac{3}{5} \ = \ \frac{36}{125} \ \approx \ 0{,}288. $$ À comparer avec $P(X = 2) = 3/10 = 0{,}300$ pour le modèle hypergéométrique sans remise : la différence est petite mais réelle. Les deux modèles convergent quand $n \ll N$ (tirer peu de boules dans une grande urne se comporte comme un tirage avec remise), mais ils divergent quand $n$ est comparable à $N$.

Compétences à pratiquer

Tirer sans remise (modèle hypergéométrique)

IV.2 Modèle géométrique tronqué

Le modèle géométrique tronqué est la loi du temps du premier succès dans une suite d'épreuves de Bernoulli, plafonné à $T$ : si aucun succès ne se produit avant l'épreuve $T$, la valeur est fixée à $T$. La dernière valeur $T$ regroupe deux situations distinctes --- premier succès à l'épreuve $T$, et aucun succès dans les $T$ premières épreuves. Le plafond est nécessaire pour garder l'univers fini : sans plafond, il faudrait modéliser une suite infinie d'épreuves, ce qui sort du programme.

Définition — Modèle géométrique tronqué

Soient $T \ge 1$ et $p \in [0, 1]$. Une variable aléatoire $X$ à valeurs dans $\llbracket 1, T \rrbracket$ suit le modèle géométrique tronqué de paramètres $(T, p)$ si $$ \forall k \in \llbracket 1, T - 1 \rrbracket, \ P(X = k) \ = \ p \, (1 - p)^{k - 1}, \qquad P(X = T) \ = \ (1 - p)^{T - 1}. $$ Interprétation : $X = k$ avec $k < T$ signifie « $k - 1$ échecs puis un succès à l'épreuve $k$ » (probabilité $(1-p)^{k-1} p$ par indépendance). Le cas $X = T$ rassemble toutes les issues où les $T - 1$ premières épreuves ont été des échecs (probabilité $(1-p)^{T-1}$) ; le résultat de la $T$-ième épreuve n'intervient pas dans $X$ avec cette convention. On utilise la convention usuelle $0^0 = 1$, de sorte que la formule couvre aussi le cas limite $T = 1$ avec $p = 1$.

Méthode — Reconnaître le modèle géométrique tronqué

Utiliser le modèle géométrique tronqué $(T, p)$ quand :

l'expérience est une suite de $T$ épreuves de Bernoulli de même paramètre $p$, mutuellement indépendantes ;
la variable d'intérêt est $X = $ numéro de l'épreuve donnant le premier succès, conventionnellement fixée à $T$ si aucun succès ne se produit dans les $T - 1$ premières épreuves.

La formule se redérive directement : $\{X = k\}$ pour $k < T$ signifie $k - 1$ échecs suivis d'un succès, de probabilité jointe $(1-p)^{k-1} p$ par mutuelle indépendance. $\{X = T\}$ signifie que les $T - 1$ premières épreuves sont toutes des échecs, de probabilité $(1-p)^{T-1}$.

La loi géométrique non tronquée (sur $\mathbb N^*$, sans plafond $T$) est hors programme : elle requiert un univers $\Omega$ infini, ce qui est exclu par le programme (2021, p. 31). Seule la version tronquée --- avec un plafond fini $T$ --- est dans le périmètre du chapitre.

Exemple — Lancers de pièce plafonnés à $T \equal 4$

Une pièce équilibrée est lancée, le jeu s'arrêtant au premier pile ou après $T = 4$ lancers. Soit $X = $ numéro du lancer donnant le premier pile (ou $X = 4$ si pas de pile dans les $3$ premiers lancers). Alors $X$ suit le modèle géométrique tronqué avec $T = 4$ et $p = 1/2$. La loi : $$ \begin{aligned} P(X = 1) \ &= \ 1/2, \\ P(X = 2) \ &= \ (1/2) \cdot (1/2) \ = \ 1/4, \\ P(X = 3) \ &= \ (1/2)^2 \cdot (1/2) \ = \ 1/8, \\ P(X = 4) \ &= \ (1/2)^3 \ = \ 1/8. \end{aligned} $$ Vérification : $1/2 + 1/4 + 1/8 + 1/8 = 4/8 + 2/8 + 1/8 + 1/8 = 8/8 = 1$. $\checkmark$

Compétences à pratiquer

Modéliser le premier succès en nombre limité d'essais (modèle géométrique tronqué)