\( \definecolor{colordef}{RGB}{249,49,84} \definecolor{colorprop}{RGB}{18,102,241} \)
CommeUnJeu · L1 PCSI

Probabilités sur un univers fini

⌚ ~115 min ▢ 14 blocs ✓ 44 exercices Prérequis : Dénombrement, Ensembles
La théorie des probabilités est la mathématique de l'incertitude : comment décrire une expérience dont le résultat n'est pas prévisible à l'avance, comment manipuler les « événements » qui lui sont associés, et comment calculer la chance qu'un événement donné se produise. Les exemples intuitifs sont partout --- un lancer de pièce, un jet de dé, une carte tirée d'un jeu battu, un ticket pris dans un chapeau. Le chapitre prend cette intuition et la transforme en une petite théorie algébrique serrée, construite sur la théorie des ensembles et le dénombrement : un événement est une partie de l'univers des issues, et une probabilité est une manière de mesurer de telles parties en respectant réunions et complémentaires.
Le plan a trois parties. La première met en place le langage de modélisation : qu'est-ce que l'univers \(\Omega\) des issues, qu'est-ce qu'un événement, qu'est-ce qu'un système complet d'événements, qu'est-ce qu'une probabilité. Le théorème central de cette partie est la caractérisation d'une probabilité par sa distribution sur les événements élémentaires --- il affirme que pour spécifier une probabilité sur un univers fini, il suffit de spécifier la probabilité de chaque issue individuelle. La probabilité uniforme \(P(A) = |A|/|\Omega|\) apparaît comme cas particulier, et c'est ici que le chapitre Dénombrement se branche : tout calcul de probabilité uniforme est, en fin de compte, un calcul de dénombrement. La deuxième partie introduit la probabilité conditionnelle \(P_B(A) = P(A \cap B)/P(B)\), l'outil de prédilection du raisonnement « étape par étape », avec trois théorèmes nommés --- probabilités composées, probabilités totales, formule de Bayes --- qui organisent tout le calcul. La troisième partie introduit l'indépendance, l'hypothèse de modélisation qui permet de multiplier les probabilités, avec l'avertissement essentiel que l'indépendance deux à deux n'est pas la même chose que l'indépendance mutuelle.
Trois réflexes que le lecteur doit emporter : (i) avant tout calcul, écrire explicitement \(\Omega\) et \(P\) --- la même expérience physique peut se modéliser sur différents univers, et le bon est en général celui qui rend \(P\) uniforme ; (ii) traduire toute description d'événement en opérations ensemblistes --- « ou » devient \(\cup\), « et » devient \(\cap\), « contraire » devient complémentaire, « implique » devient \(\subseteq\) ; (iii) reconnaître un système complet d'événements quand il se présente, et appliquer la formule des probabilités totales chaque fois que l'expérience se décompose en « cas selon que \dots ». Le chapitre se restreint strictement aux univers finis : les univers infinis (une suite indéfinie de lancers, un point pris dans un disque) sont du domaine de la deuxième année et sortent du programme. La construction des variables aléatoires (leurs lois, la loi binomiale, l'espérance, la variance) est le contenu du chapitre suivant, Variables aléatoires ; ici nous introduisons seulement la notation \(X : \Omega \to E\) et les événements de la forme \(\{X \in A\}\).
I Mise en place du cadre probabiliste
On commence par traduire le vocabulaire des expériences aléatoires dans le langage des ensembles : une issue est un point d'un univers, un événement est une partie, l'événement « contraire » est un complémentaire, la conjonction « \(A\) et \(B\) » est une intersection, et ainsi de suite. Une fois ce pont posé, définir une probabilité devient un court axiome d'additivité sur les parties, et le reste du chapitre est l'exploitation systématique de cette additivité conjuguée aux identités ensemblistes. Le pilier de la section est le théorème de caractérisation : une probabilité sur un univers fini est entièrement déterminée par ses valeurs sur les événements élémentaires. La probabilité uniforme est le cas particulier où toutes ces valeurs sont égales, et c'est le pont vers Dénombrement.
I.1 Expérience aléatoire\(\virgule\) univers\(\virgule\) événements
Une expérience aléatoire est, intuitivement, une expérience dont le résultat n'est pas prévisible à l'avance : un jet de dé, un lancer de pièce, une carte tirée d'un jeu. Pour formaliser, on liste les issues possibles et on appelle l'ensemble obtenu l'univers de l'expérience. Un événement est alors une partie quelconque de l'univers --- une propriété de l'issue que l'on peut vérifier une fois l'expérience effectuée. Dans tout le chapitre, \(\Omega\) désigne un univers fini non vide ; cette hypothèse est implicite sauf mention contraire.
Définition — Expérience aléatoire\(\virgule\) univers\(\virgule\) événement
Une expérience aléatoire est une expérience dont le résultat ne peut pas être prévu à l'avance. L'ensemble de toutes les issues possibles est appelé l'univers de l'expérience, noté \(\Omega\) ; dans ce chapitre \(\Omega\) est toujours un ensemble fini non vide. Chaque élément \(\omega \in \Omega\) est une issue. Un événement est une partie quelconque \(A \subseteq \Omega\) ; on dit que l'événement \(A\) est réalisé lorsque l'issue \(\omega\) de l'expérience appartient à \(A\).
Un singleton \(\{\omega\}\) est appelé un événement élémentaire. L'univers entier \(\Omega\) est l'événement certain (toujours réalisé), et l'ensemble vide \(\emptyset\) est l'événement impossible (jamais réalisé). Deux événements \(A\) et \(B\) sont dits incompatibles lorsqu'ils ne peuvent être réalisés simultanément, c'est-à-dire lorsque \(A \cap B = \emptyset\).
Méthode — Tableau de traduction : vocabulaire probabiliste \(\leftrightarrow\) opérations ensemblistes
Toute description d'événement en français peut se traduire mécaniquement en expression ensembliste sur \(\Omega\). Mémorisez le tableau suivant : $$ \renewcommand{\arraystretch}{1.3} \begin{array}{|l|c|l|} \hline \text{En français} & \text{Opération ensembliste} & \text{Exemple} \\ \hline \text{« \(A\) ou \(B\) »} & A \cup B & \text{au moins l'un de \(A\), \(B\) est réalisé} \\ \text{« \(A\) et \(B\) »} & A \cap B & A \text{ et \(B\) sont tous deux réalisés} \\ \text{« non \(A\) », « contraire de \(A\) »} & \overline{A} = \Omega \setminus A & A \text{ n'est pas réalisé} \\ \text{« \(A\) implique \(B\) »} & A \subseteq B & A \text{ réalisé \(\Rightarrow\) \(B\) réalisé} \\ \text{« \(A\) et \(B\) incompatibles »} & A \cap B = \emptyset & A \text{ et \(B\) ne peuvent pas être tous deux réalisés} \\ \hline \end{array} $$ Le tableau se lit dans les deux sens : toute identité ensembliste (De Morgan, distributivité, \dots) devient une identité entre événements, et tout raisonnement sur les événements se mène au niveau des ensembles. Le chapitre Ensembles fournit l'ossature algébrique.
Exemple
On considère le lancer d'un dé équilibré à six faces. L'univers naturel est \(\Omega = \{1, 2, 3, 4, 5, 6\}\). Soit \(A\) = « obtenir un résultat pair » et \(B\) = « obtenir un résultat \(\le 3\) ». Traduction ensembliste : $$ A = \{2, 4, 6\}, \qquad B = \{1, 2, 3\}. $$ Les événements composés se lisent dans le tableau :
  • « \(A\) ou \(B\) » \(= A \cup B = \{1, 2, 3, 4, 6\}\).
  • « \(A\) et \(B\) » \(= A \cap B = \{2\}\).
  • « contraire de \(A\) » \(= \overline{A} = \{1, 3, 5\}\) (« obtenir un résultat impair »).
Exemple
On considère deux tirages successifs avec remise dans une urne contenant une boule noire \(K\) et une boule blanche \(W\). L'univers est \(\Omega = \{KK, KW, WK, WW\}\). L'événement « la première boule est blanche » est \(\{WK, WW\}\) ; l'événement « les deux boules sont de la même couleur » est \(\{KK, WW\}\) ; leur intersection (« première blanche et les deux de la même couleur ») est \(\{WW\}\).
Compétences à pratiquer
  • Construire des événements à partir d'opérations ensemblistes
I.2 Système complet d'événements
Un système complet d'événements est une manière de partitionner \(\Omega\) en une liste d'événements deux à deux disjoints qui, ensemble, recouvrent l'univers. C'est le réflexe du « cas par cas » : chaque fois qu'une expérience peut s'analyser en disant « soit la première boule est blanche, soit la première boule est noire », on utilise implicitement le système complet \(\{W_1, \overline{W_1}\}\). La formule des probabilités totales transformera ce réflexe en outil quantitatif.
Définition — Système complet d'événements
Soit \(n \ge 1\). Une famille finie \((A_1, \ldots, A_n)\) d'événements de \(\Omega\) est appelée système complet d'événements (ou partition de \(\Omega\)) lorsque :
  • chaque événement est non vide : \(A_i \ne \emptyset\) pour tout \(i\) ;
  • les événements sont deux à deux incompatibles : \(A_i \cap A_j = \emptyset\) pour tout \(i \ne j\) ;
  • leur réunion est \(\Omega\) : \(\displaystyle\bigcup_{i=1}^n A_i = \Omega\).
De manière équivalente, \(\Omega = \bigsqcup_{i=1}^n A_i\) est une réunion disjointe en parties non vides.
Dans les formules conditionnelles à venir (probabilités totales, Bayes), on demandera de plus que chaque \(A_i\) soit de probabilité strictement positive --- l'indexation de la somme conditionnelle est alors restreinte aux indices tels que \(P(A_i) > 0\) (voir la Remarque sur les probabilités totales), mais le système complet, lui, reste inchangé.
Exemple
Le système complet le plus simple : pour tout événement \(A\) tel que \(A \ne \emptyset\) et \(A \ne \Omega\), le couple \(\{A, \overline{A}\}\) est un système complet. Les deux événements sont disjoints par construction et leur réunion vaut \(\Omega\) ; les conditions \(A \ne \emptyset, \Omega\) garantissent qu'aucun des deux morceaux n'est vide.
Un peu plus riche : étant donnés deux événements \(A\) et \(B\), considérons les trois événements $$ A \cap B, \qquad A \cap \overline{B}, \qquad \overline{A}. $$ Ils sont deux à deux disjoints, et tout \(\omega \in \Omega\) appartient à exactement l'un d'eux (à \(A \cap B\) ou \(A \cap \overline{B}\) si \(\omega \in A\), selon que \(\omega \in B\) ; à \(\overline{A}\) sinon). Après avoir retiré ceux qui se trouvent être vides, les événements non vides parmi eux forment un système complet de \(\Omega\). Cette partition en trois morceaux est l'outil standard pour raisonner sur deux événements à la fois.
Exemple
Le système complet le plus « fin » de \(\Omega\) est la famille des événements élémentaires : \(\big(\{\omega\}\big)_{\omega \in \Omega}\). En effet, \(\{\omega\} \cap \{\omega'\} = \emptyset\) pour \(\omega \ne \omega'\), et \(\bigcup_{\omega \in \Omega} \{\omega\} = \Omega\). Tout autre système complet peut se voir comme un grossissement de celui-ci : une partition de \(\Omega\) en blocs plus gros, chaque bloc étant une réunion d'événements élémentaires.
Compétences à pratiquer
  • Identifier des systèmes complets d'événements
I.3 Variable aléatoire (notation seulement)
Souvent, un événement est naturellement décrit par une quantité associée à l'issue --- la valeur d'un dé, le nombre de « pile » en \(n\) lancers, la couleur d'une carte tirée. On capture cela par une fonction \(X : \Omega \to E\), appelée variable aléatoire, et on note \(\{X \in A\}\) l'événement « \(X\) prend sa valeur dans \(A\) ». Dans ce chapitre, on n'utilise que la notation : la théorie complète de \(X\) (sa loi, la loi binomiale, l'espérance, la variance) est le contenu du chapitre suivant, Variables aléatoires.
Définition — Variable aléatoire\(\virgule\) événements \(\{X \in A\}\)
Soient \(\Omega\) un univers fini et \(E\) un ensemble quelconque. Une variable aléatoire sur \(\Omega\) à valeurs dans \(E\) est une application quelconque \(X : \Omega \to E\). Lorsque \(E = \mathbb{R}\), on dit que \(X\) est une variable aléatoire réelle.
Pour toute partie \(A \subseteq E\), l'événement \(\{X \in A\}\) est défini par $$ \{X \in A\} \ = \ X^{-1}(A) \ = \ \{\omega \in \Omega \ \mid \ X(\omega) \in A\}. $$ En particulier, pour \(x \in E\), on note \(\{X = x\}\) l'événement \(\{\omega \in \Omega \mid X(\omega) = x\}\), et lorsque \(X\) est réelle, \(\{X \le x\}\) pour \(\{\omega \in \Omega \mid X(\omega) \le x\}\).
Exemple
On lance un dé équilibré deux fois ; l'univers est \(\Omega = \llbracket 1, 6 \rrbracket^2\) et une issue \(\omega = (a, b)\) donne les valeurs des deux lancers. On pose $$ X_1(\omega) = a, \qquad X_2(\omega) = b, \qquad S(\omega) = X_1(\omega) + X_2(\omega). $$ Alors \(X_1, X_2\) et \(S\) sont des variables aléatoires réelles sur \(\Omega\). L'événement \(\{S = 7\}\) est $$ \{S = 7\} \ = \ \{(1\,;\,6), (2\,;\,5), (3\,;\,4), (4\,;\,3), (5\,;\,2), (6\,;\,1)\}, $$ une partie de cardinal \(6\) dans \(\Omega\) de cardinal \(36\). L'événement \(\{X_1 \le 2\}\) est la bande \(\{1, 2\} \times \llbracket 1, 6 \rrbracket\), de cardinal \(12\).
Proposition — Les événements \(\{X \equal x\}\) partitionnent \(\Omega\)
Soit \(X : \Omega \to E\) une variable aléatoire. La famille \(\big(\{X = x\}\big)_{x \in X(\Omega)}\) est un système complet d'événements : $$ \Omega \ = \ \bigsqcup_{x \in X(\Omega)} \{X = x\}. $$

Tout \(\omega \in \Omega\) admet une unique image \(X(\omega) \in X(\Omega)\), donc \(\omega\) appartient à l'événement \(\{X = X(\omega)\}\) et à aucun autre \(\{X = x\}\) avec \(x \ne X(\omega)\). Les événements \(\{X = x\}\) sont donc deux à deux disjoints, et leur réunion recouvre \(\Omega\).

Définition — Système complet associé à une variable aléatoire
La partition \(\Omega = \bigsqcup_{x \in X(\Omega)} \{X = x\}\) est appelée le système complet associé à \(X\). C'est le système complet naturel à utiliser pour calculer la probabilité d'un événement en conditionnant par la valeur de \(X\) (voir la formule des probabilités totales).
Compétences à pratiquer
  • Traduire des événements de variable aléatoire
I.4 Probabilité sur un univers fini
Jusqu'ici nous n'avons parlé des événements que comme objets ensemblistes : des parties de \(\Omega\). Pour faire des probabilités, il faut attacher à chaque événement un réel de \([0, 1]\) mesurant sa « plausibilité ». L'axiome minimal : l'événement certain a probabilité \(1\), et pour deux événements incompatibles la probabilité de leur réunion est la somme des probabilités --- l'additivité. Toute autre propriété de la section « Propriétés des probabilités » se déduira de cette unique règle.
Définition — Probabilité sur un univers fini
Une probabilité sur un univers fini \(\Omega\) est une application \(P : \mathcal{P}(\Omega) \to [0, 1]\) telle que :
  • \(P(\Omega) = 1\) ;
  • \(P\) est additive : pour tous événements \(A, B \subseteq \Omega\) avec \(A \cap B = \emptyset\), $$ P(A \cup B) \ = \ P(A) + P(B). $$
Le couple \((\Omega, P)\) est appelé un espace probabilisé fini. Deux événements \(A\) et \(B\) sont dits équiprobables lorsque \(P(A) = P(B)\).
Exemple
  • Dé équilibré. \(\Omega = \llbracket 1, 6 \rrbracket\) avec \(P(\{k\}) = 1/6\) pour tout \(k\). L'additivité impose alors \(P(A) = |A|/6\) pour tout événement \(A\) --- c'est la probabilité uniforme que l'on étudiera dans la sous-section suivante.
  • Pièce truquée. \(\Omega = \{\mathrm{P}, \mathrm{F}\}\) avec \(P(\{\mathrm{P}\}) = p\) et \(P(\{\mathrm{F}\}) = 1 - p\), où \(p \in [0, 1]\) est la « probabilité d'obtenir pile ». Le cas \(p = 1/2\) redonne la pièce équilibrée ; le cas \(p = 0\) modélise une pièce qui donne toujours face.
Exemple
Deux lancers d'une pièce truquée --- un espace probabilisé fini non uniforme. Une pièce vérifiant \(P(\{\mathrm{P}\}) = p\) est lancée deux fois. L'univers naturel est \(\Omega = \{\mathrm{P}, \mathrm{F}\}^2\), de cardinal \(4\). En supposant l'indépendance des deux lancers (un choix de modélisation, sur lequel on reviendra dans la section sur l'indépendance), la distribution sur les quatre événements élémentaires est $$ P(\{\mathrm{PP}\}) = p^2, \quad P(\{\mathrm{PF}\}) = p(1-p), \quad P(\{\mathrm{FP}\}) = p(1-p), \quad P(\{\mathrm{FF}\}) = (1-p)^2. $$ Les probabilités somment bien à \(p^2 + 2p(1-p) + (1-p)^2 = (p + (1-p))^2 = 1\). La probabilité d'« exactement un pile » vaut alors $$ P(\{\mathrm{PF}, \mathrm{FP}\}) \ = \ P(\{\mathrm{PF}\}) + P(\{\mathrm{FP}\}) \ = \ 2p(1-p). $$ Pour \(p = 1/3\), on obtient \(2 \cdot (1/3) \cdot (2/3) = 4/9\). Remarquons que pour \(p \ne 1/2\), l'univers \(\Omega\) n'est pas uniforme : les quatre événements élémentaires ont des probabilités différentes. Ce sera un fil rouge : tout univers fini ne porte pas la probabilité uniforme.
Compétences à pratiquer
  • Vérifier les axiomes d'une probabilité
I.5 Distribution de probabilités et caractérisation
Sur un univers fini, les valeurs d'une probabilité sur les événements élémentaires sont les « briques » de toute la probabilité : les connaître, c'est en déduire la probabilité de tout événement par additivité. Le théorème de caractérisation de cette sous-section précise l'affirmation : toute famille de réels positifs sommant à \(1\), indexée par \(\Omega\), est la distribution d'une unique probabilité. En pratique, c'est ainsi qu'une probabilité se définit dans les problèmes concrets --- on donne la distribution sur les événements élémentaires, et le reste suit.
Définition — Distribution de probabilités
Soit \(E\) un ensemble fini non vide. Une distribution de probabilités sur \(E\) est une famille \((p_x)_{x \in E}\) de réels vérifiant $$ \forall x \in E, \ p_x \in [0, 1] \qquad \text{et} \qquad \sum_{x \in E} p_x = 1. $$
Theorem — Caractérisation d'une probabilité par sa distribution
Soit \(\Omega\) un univers fini non vide. Pour toute distribution \((p_\omega)_{\omega \in \Omega}\) sur \(\Omega\), il existe une unique probabilité \(P\) sur \(\Omega\) telle que $$ \forall \omega \in \Omega, \quad P(\{\omega\}) \ = \ p_\omega. $$ Cette probabilité est donnée sur tout événement \(A \subseteq \Omega\) par $$ \textcolor{colorprop}{P(A) \ = \ \sum_{\omega \in A} p_\omega.} $$ Réciproquement, pour toute probabilité \(P\) sur \(\Omega\), la famille \(\big(P(\{\omega\})\big)_{\omega \in \Omega}\) est une distribution sur \(\Omega\).

On démontre l'existence et l'unicité par analyse-synthèse.
  • Additivité finie (mini-lemme, utilisé dans l'Analyse ci-dessous). L'axiome à \(2\) événements s'étend à \(n \ge 0\) événements deux à deux incompatibles \(B_1, \ldots, B_n\) : $$ P\Bigl(\bigsqcup_{i=1}^n B_i\Bigr) \ = \ \sum_{i=1}^n P(B_i), $$ avec la convention que la réunion vide vaut \(\emptyset\) et la somme vide vaut \(0\). Démonstration par récurrence sur \(n\). Pour \(n = 0\) les deux membres sont nuls par convention (et \(P(\emptyset) = 0\) se déduit de l'axiome : en écrivant \(\Omega = \Omega \cup \emptyset\) disjoint, l'additivité donne \(P(\Omega) = P(\Omega) + P(\emptyset)\), donc \(P(\emptyset) = 0\)). Pour \(n = 1\) l'égalité est triviale. Pour \(n = 2\) c'est l'axiome. Supposant la formule au rang \(n\), étant donnés \(B_1, \ldots, B_{n+1}\) deux à deux incompatibles, l'événement \(\bigsqcup_{i=1}^n B_i\) est incompatible avec \(B_{n+1}\) (leur intersection est vide), donc par l'axiome à \(2\) événements \(P(\bigsqcup_{i=1}^{n+1} B_i) = P(\bigsqcup_{i=1}^n B_i) + P(B_{n+1})\), ce qui par hypothèse de récurrence vaut \(\sum_{i=1}^n P(B_i) + P(B_{n+1}) = \sum_{i=1}^{n+1} P(B_i)\).
  • Analyse (unicité). Supposons que \(P\) soit une probabilité sur \(\Omega\) vérifiant \(P(\{\omega\}) = p_\omega\) pour tout \(\omega\). Si \(A = \emptyset\), alors \(P(A) = 0 = \sum_{\omega \in \emptyset} p_\omega\) (somme vide). Si \(A \ne \emptyset\), les événements élémentaires \(\{\omega\}\) pour \(\omega \in A\) sont deux à deux disjoints, et \(A = \bigsqcup_{\omega \in A} \{\omega\}\), donc par additivité finie (le mini-lemme ci-dessus, avec \(n = |A|\)), $$ P(A) \ = \ \sum_{\omega \in A} P(\{\omega\}) \ = \ \sum_{\omega \in A} p_\omega. $$ Dans les deux cas \(P\) est forcée sur tout événement, ce qui prouve l'unicité.
  • Synthèse (existence). On pose \(P : \mathcal{P}(\Omega) \to \mathbb{R}\), \(P(A) = \sum_{\omega \in A} p_\omega\). Vérifions que \(P\) est une probabilité :
    • \(P\) prend ses valeurs dans \([0, 1]\) : chaque \(p_\omega \in [0, 1]\), donc \(P(A) = \sum_{\omega \in A} p_\omega \ge 0\), et \(P(A) \le \sum_{\omega \in \Omega} p_\omega = 1\).
    • \(P(\Omega) = \sum_{\omega \in \Omega} p_\omega = 1\) par définition d'une distribution.
    • Additivité : pour \(A \cap B = \emptyset\), les ensembles d'indices sont disjoints, donc $$ P(A \cup B) \ = \ \sum_{\omega \in A \cup B} p_\omega \ = \ \sum_{\omega \in A} p_\omega + \sum_{\omega \in B} p_\omega \ = \ P(A) + P(B). $$
    • Restriction aux événements élémentaires : \(P(\{\omega\}) = p_\omega\) par définition.
La réciproque (toute probabilité définit une distribution) est immédiate : \(P(\{\omega\}) \in [0, 1]\) puisque \(P\) est à valeurs dans \([0, 1]\), et \(\sum_\omega P(\{\omega\}) = P(\Omega) = 1\) par additivité finie (mini-lemme ci-dessus) sur la partition de \(\Omega\) en singletons.

Méthode — Définir une probabilité par sa distribution
Pour définir une probabilité \(P\) sur un univers fini \(\Omega\) dans un problème concret, on donne la distribution \(\big(P(\{\omega\})\big)_{\omega \in \Omega}\) sur les événements élémentaires. Une fois les valeurs \(p_\omega\) fixées (et vérifiées positives et de somme \(1\)), la probabilité d'un événement \(A\) se calcule par $$ P(A) \ = \ \sum_{\omega \in A} P(\{\omega\}). $$ C'est la recette de travail dès que l'univers est petit ou que la distribution a une formule explicite.
Exemple
Distribution uniforme sur un dé. Pour \(\Omega = \llbracket 1, 6 \rrbracket\) et \(p_k = 1/6\) pour tout \(k\), la probabilité d'« obtenir un résultat pair » est $$ P(\{2, 4, 6\}) \ = \ \frac{1}{6} + \frac{1}{6} + \frac{1}{6} \ = \ \frac{1}{2}. $$
Exemple
Distribution non uniforme : le dé pipé. Supposons un dé tel que la face \(1\) apparaît avec probabilité \(1/4\), et chacune des cinq autres faces avec probabilité \(3/20\). Vérification que la distribution est valide : $$ \frac{1}{4} + 5 \cdot \frac{3}{20} \ = \ \frac{5}{20} + \frac{15}{20} \ = \ 1. $$ La probabilité d'« obtenir un résultat pair » vaut alors $$ P(\{2, 4, 6\}) \ = \ \frac{3}{20} + \frac{3}{20} + \frac{3}{20} \ = \ \frac{9}{20}, $$ légèrement inférieur à \(1/2\) --- le biais vers \(1\) déplace de la masse de probabilité loin des faces paires.
Compétences à pratiquer
  • Définir une probabilité par sa distribution
I.6 Probabilité uniforme
Le cas le plus fréquent --- et celui où le pont avec Dénombrement est le plus direct --- est celui où tous les événements élémentaires sont équiprobables. Le théorème de caractérisation dit alors que la seule distribution possible est la distribution constante, \(p_\omega = 1/|\Omega|\), et que la probabilité résultante est la formule « cas favorables sur cas possibles » \(P(A) = |A|/|\Omega|\). Tout calcul de probabilité uniforme est un calcul de dénombrement.
Proposition — Existence et unicité de la probabilité uniforme
Soit \(\Omega\) un univers fini non vide. La distribution constante $$ p_\omega \ = \ \frac{1}{|\Omega|} \quad \text{pour tout } \omega \in \Omega $$ définit une unique probabilité \(P\) sur \(\Omega\), donnée sur tout événement \(A \subseteq \Omega\) par $$ \textcolor{colorprop}{P(A) \ = \ \frac{|A|}{|\Omega|}.} $$

La famille constante \(p_\omega = 1/|\Omega|\) est une distribution : chaque valeur appartient à \([0, 1]\), et la somme vaut \(\sum_{\omega \in \Omega} 1/|\Omega| = |\Omega| \cdot 1/|\Omega| = 1\). Par le théorème de caractérisation, il existe une unique probabilité \(P\) sur \(\Omega\) ayant cette distribution, et sa valeur sur un événement \(A\) est $$ P(A) \ = \ \sum_{\omega \in A} \frac{1}{|\Omega|} \ = \ \frac{|A|}{|\Omega|}. $$

Définition — Probabilité uniforme
La probabilité de la proposition précédente est appelée la probabilité uniforme sur \(\Omega\). Les événements élémentaires de \(\Omega\) sont alors équiprobables : \(P(\{\omega\}) = 1/|\Omega|\) pour tout \(\omega \in \Omega\). Plus généralement, deux événements de même cardinal ont la même probabilité, puisque \(P(A) = |A|/|\Omega|\) ne dépend que de \(|A|\).
Méthode — Uniforme \(\Rightarrow\) dénombrer
Sur un espace probabilisé uniforme, tout calcul de probabilité se ramène à un calcul de dénombrement : $$ P(A) \ = \ \frac{|\,\text{cas favorables}\,|}{|\,\text{cas possibles}\,|} \ = \ \frac{|A|}{|\Omega|}. $$ On invoque la boîte à outils de Dénombrement par leur nom : \(p\)-arrangements (\(\frac{n!}{(n-p)!}\)), combinaisons (\(\binom{n}{p}\)), \(n^p\) pour les sélections ordonnées avec répétition. L'art est de choisir l'univers \(\Omega\) de sorte que le dénombrement au numérateur et au dénominateur soit simple.
Exemple
Dé équilibré. Sur \(\Omega = \llbracket 1, 6 \rrbracket\) uniforme, la probabilité d'« obtenir un résultat pair » est $$ P(\{2, 4, 6\}) \ = \ \frac{|\{2, 4, 6\}|}{|\Omega|} \ = \ \frac{3}{6} \ = \ \frac{1}{2}. $$ Un comptage direct, aucun travail supplémentaire.
Exemple
Cinq cartes tirées simultanément dans un jeu de \(52\). On prend \(\Omega = \mathcal{P}_5(\text{jeu})\), l'ensemble des parties à \(5\) éléments du jeu, avec la probabilité uniforme. D'après Dénombrement, \(|\Omega| = \binom{52}{5}\). L'événement « les cinq cartes sont des trèfles » correspond au choix de \(5\) cartes parmi les \(13\) trèfles, de cardinal \(\binom{13}{5}\). Donc $$ P(\text{tous trèfles}) \ = \ \frac{\binom{13}{5}}{\binom{52}{5}} \ = \ \frac{1287}{2598960} \ \approx \ 4{,}95 \times 10^{-4}. $$ L'événement « exactement un trèfle » a cardinal \(\binom{13}{1} \binom{39}{4}\) (un trèfle parmi \(13\), quatre non-trèfles parmi \(39\)), donnant $$ P(\text{un seul trèfle}) \ = \ \frac{\binom{13}{1}\binom{39}{4}}{\binom{52}{5}}. $$ Les deux calculs sont du dénombrement pur --- la couche probabiliste n'ajoute aucune idée nouvelle.
Compétences à pratiquer
  • Calculer sur un espace uniforme (dénombrement et probabilité)
I.7 Propriétés des probabilités
Une probabilité étant en place, les identités algébriques standards --- valeur sur l'événement impossible, complémentaire, croissance, formule de \(P(A \cup B)\), sous-additivité --- découlent de l'additivité par de courts arguments ensemblistes. Aucune n'est conceptuellement nouvelle ; ce qu'elles apportent, c'est une boîte à outils fluide pour ne pas avoir à les redémontrer à chaque apparition. La formule générale du crible (inclusion-exclusion) pour \(n \ge 3\) événements est hors programme ; on mentionne le cas \(n = 3\) en remarque et on laisse l'énoncé général à un exercice guidé.
Theorem — Propriétés des probabilités
Soit \((\Omega, P)\) un espace probabilisé fini. Pour tous événements \(A, B, A_1, \ldots, A_n\) de \(\Omega\) :
  • [(i)] \(\textcolor{colorprop}{P(\emptyset) \ = \ 0.}\)
  • [(ii)] Complémentaire et différence. \(\textcolor{colorprop}{P(\overline{A}) \ = \ 1 - P(A)}\) \ et \ \(\textcolor{colorprop}{P(A \setminus B) \ = \ P(A) - P(A \cap B).}\)
  • [(iii)] Croissance. Si \(A \subseteq B\), alors \(\textcolor{colorprop}{P(A) \ \le \ P(B).}\)
  • [(iv)] Réunion de deux événements. \(\textcolor{colorprop}{P(A \cup B) \ = \ P(A) + P(B) - P(A \cap B).}\)
  • [(v)] Additivité finie. Si \(A_1, \ldots, A_n\) sont deux à deux incompatibles, \(\textcolor{colorprop}{P\bigl(\bigsqcup_{i=1}^n A_i\bigr) \ = \ \sum_{i=1}^n P(A_i).}\)
  • [(vi)] Sous-additivité. Pour tous \(A_1, \ldots, A_n\), \(\textcolor{colorprop}{P\bigl(\bigcup_{i=1}^n A_i\bigr) \ \le \ \sum_{i=1}^n P(A_i).}\)

  • [(i)] \(\Omega\) et \(\emptyset\) sont incompatibles, et \(\Omega \cup \emptyset = \Omega\). Par additivité, \(P(\Omega) = P(\Omega) + P(\emptyset)\), donc \(P(\emptyset) = 0\).
  • [(ii)] \(A\) et \(\overline{A}\) sont incompatibles et partitionnent \(\Omega\), donc par additivité \(P(A) + P(\overline{A}) = P(\Omega) = 1\), d'où \(P(\overline{A}) = 1 - P(A)\). Pour la différence, \(A = (A \cap B) \sqcup (A \setminus B)\) est une réunion disjointe, donc \(P(A) = P(A \cap B) + P(A \setminus B)\).
  • [(iii)] Si \(A \subseteq B\), alors \(B = A \sqcup (B \setminus A)\) est une réunion disjointe, donc \(P(B) = P(A) + P(B \setminus A) \ge P(A)\) puisque \(P(B \setminus A) \ge 0\).
  • [(iv)] On écrit \(A \cup B = A \sqcup (B \setminus A)\) comme réunion disjointe. Par additivité et (ii), $$ \begin{aligned} P(A \cup B) \ &= \ P(A) + P(B \setminus A) && \text{(additivité)}\\ &= \ P(A) + P(B) - P(A \cap B) && \text{(par (ii))}. \end{aligned} $$
  • [(v)] Par récurrence sur \(n\). Le cas \(n = 2\) est l'axiome d'additivité. Supposons la formule vraie au rang \(n\), et soient \(A_1, \ldots, A_{n+1}\) deux à deux incompatibles. Alors \(\bigsqcup_{i=1}^n A_i\) et \(A_{n+1}\) sont incompatibles (leur intersection est vide par hypothèse), donc par additivité $$ P\Bigl(\bigsqcup_{i=1}^{n+1} A_i\Bigr) \ = \ P\Bigl(\bigsqcup_{i=1}^n A_i\Bigr) + P(A_{n+1}) \ = \ \sum_{i=1}^n P(A_i) + P(A_{n+1}) \ = \ \sum_{i=1}^{n+1} P(A_i). $$
  • [(vi)] Par récurrence sur \(n\). Pour \(n = 1\) l'inégalité est une égalité. Pour \(n = 2\), d'après (iv), \(P(A_1 \cup A_2) = P(A_1) + P(A_2) - P(A_1 \cap A_2) \le P(A_1) + P(A_2)\) puisque \(P(A_1 \cap A_2) \ge 0\). Supposons l'inégalité vraie au rang \(n\). Alors par (iv) et l'hypothèse de récurrence, $$ \begin{aligned} P\Bigl(\bigcup_{i=1}^{n+1} A_i\Bigr) \ &\le \ P\Bigl(\bigcup_{i=1}^n A_i\Bigr) + P(A_{n+1}) && \text{(cas \(n = 2\))}\\ &\le \ \sum_{i=1}^n P(A_i) + P(A_{n+1}) && \text{(récurrence)}\\ &= \ \sum_{i=1}^{n+1} P(A_i). \end{aligned} $$

Crible à \(n = 3\). En appliquant la formule de réunion (iv) deux fois, on obtient l'analogue à trois événements : $$ \begin{aligned} P(A \cup B \cup C) \ = \ &P(A) + P(B) + P(C) \\ &- P(A \cap B) - P(B \cap C) - P(A \cap C) \\ &+ P(A \cap B \cap C). \end{aligned} $$ Il existe une formule générale à \(n\) événements --- la formule du crible (inclusion-exclusion) --- mais elle est hors programme à ce niveau : « La formule du crible est hors programme. » On ne l'énonce donc pas ici ; une démonstration guidée par les indicatrices est proposée en exercice optionnel pour les amateurs.
Méthode — Calculer \(P(A \cup B)\) et \(P(\overline{A})\)
Lorsqu'on demande \(P(A \cup B)\), \(P(\overline A)\), ou \(P(A \setminus B)\), ne pas redémontrer la formule à partir de l'additivité --- choisir le bon item du théorème des Propriétés selon la forme de la question :
  1. « Au moins l'un de \(A\), \(B\) » \(= A \cup B\). Item (iv) : \(P(A \cup B) = P(A) + P(B) - P(A \cap B)\). L'intersection \(P(A \cap B)\) doit être connue ou calculable ; sur un univers uniforme, les deux termes sont des comptages.
  2. « \(A\) ne se réalise pas » \(= \overline{A}\). Item (ii) : \(P(\overline A) = 1 - P(A)\). Particulièrement utile lorsque \(A\) est lui-même un événement « au moins un » : compter « aucun » (\(\overline A\)) est alors un seul complémentaire, tandis que compter « au moins un » directement nécessiterait l'inclusion-exclusion.
  3. « \(A\) mais pas \(B\) » \(= A \setminus B\). Item (ii) : \(P(A \setminus B) = P(A) - P(A \cap B)\).
  4. Borne sur une réunion de \(n\) événements. Item (vi) : \(P(\bigcup_{i=1}^n A_i) \le \sum_{i=1}^n P(A_i)\). Utile comme borne supérieure rapide lorsque les \(A_i\) ne sont pas deux à deux disjoints et que les probabilités jointes sont difficiles à calculer.
La « ruse du complémentaire » de l'item~2 est le mouvement le plus réutilisé du chapitre ; on le repère chaque fois que l'événement de départ se formule naturellement « au moins un », « au moins une fois », « non vide ».
Exemple
Sport, musique, les deux. Dans une classe de \(30\) élèves, \(20\) font du sport et \(15\) font de la musique ; parmi eux, \(10\) font les deux. Un élève est choisi uniformément au hasard. La probabilité qu'il fasse du sport ou de la musique est, par l'item (iv) des Propriétés : $$ P(\text{sport} \cup \text{musique}) \ = \ \frac{20}{30} + \frac{15}{30} - \frac{10}{30} \ = \ \frac{25}{30} \ = \ \frac{5}{6}. $$ Le complémentaire « ne fait ni l'un ni l'autre » a probabilité \(1 - 5/6 = 1/6\).
Compétences à pratiquer
  • Calculer des probabilités de réunions\(\virgule\) complémentaires\(\virgule\) différences
II Probabilité conditionnelle
Les probabilités calculées jusqu'ici sont inconditionnelles : \(P(A)\) mesure la chance que \(A\) se réalise en l'absence de toute information supplémentaire sur l'expérience. Dans les situations réelles, on dispose souvent d'une information partielle --- « on sait que \(B\) s'est produit » --- et la question pertinente devient la chance de \(A\) sachant \(B\). La probabilité conditionnelle \(P_B(A) = P(A \mid B) := P(A \cap B)/P(B)\) formalise cela. Le fait essentiel est que \(P_B\) est elle-même une probabilité sur \(\Omega\), de sorte que toute l'algèbre de la première section se transporte mot pour mot. Trois théorèmes nommés organisent le calcul : probabilités composées (chaîne multiplicative), probabilités totales (cas par cas), formule de Bayes (inversion).
II.1 Probabilité conditionnelle
Savoir que \(B\) s'est produit restreint l'univers des issues plausibles de \(\Omega\) à \(B\), et renormalise les probabilités pour que le nouveau « événement certain » soit \(B\) lui-même : \(P_B(B) = 1\). La définition \(P_B(A) = P(A \cap B)/P(B)\) est l'unique manière additive de faire cela ; le fait technique est que \(P_B\) est encore une probabilité, avec toutes les propriétés algébriques de la section « Propriétés des probabilités ».
Définition — Probabilité conditionnelle
Soit \((\Omega, P)\) un espace probabilisé fini et \(B \subseteq \Omega\) un événement vérifiant \(P(B) > 0\). Pour tout événement \(A \subseteq \Omega\), la probabilité de \(A\) conditionnelle à \(B\) (aussi appelée probabilité de \(A\) sachant \(B\)) est le réel $$ P_B(A) \ = \ P(A \mid B) \ := \ \frac{P(A \cap B)}{P(B)}. $$ Les notations \(P_B(A)\) et \(P(A \mid B)\) sont interchangeables.
Proposition — \(P_B\) est une probabilité
Avec les hypothèses de la définition précédente, l'application \(P_B : \mathcal{P}(\Omega) \to [0, 1]\), \(A \mapsto P_B(A)\), est une probabilité sur \(\Omega\) : elle vérifie \(P_B(\Omega) = 1\) et est additive sur les événements incompatibles. Bien que \(P_B\) soit formellement une probabilité sur \(\Omega\), elle est concentrée sur \(B\) : les événements disjoints de \(B\) ont probabilité conditionnelle nulle, et \(P_B(B) = 1\).

On vérifie les deux axiomes d'une probabilité.
  • \(P_B(\Omega) = 1\). Par définition, \(P_B(\Omega) = P(\Omega \cap B)/P(B) = P(B)/P(B) = 1\).
  • Additivité. Soient \(A_1, A_2 \subseteq \Omega\) avec \(A_1 \cap A_2 = \emptyset\). Alors \((A_1 \cap B) \cap (A_2 \cap B) = (A_1 \cap A_2) \cap B = \emptyset\), donc \(A_1 \cap B\) et \(A_2 \cap B\) sont incompatibles. Par additivité de \(P\), $$ \begin{aligned} P_B(A_1 \cup A_2) \ &= \ \frac{P((A_1 \cup A_2) \cap B)}{P(B)} && \text{(définition)} \\ &= \ \frac{P((A_1 \cap B) \cup (A_2 \cap B))}{P(B)} && \text{(distributivité de \(\cap\) sur \(\cup\))} \\ &= \ \frac{P(A_1 \cap B) + P(A_2 \cap B)}{P(B)} && \text{(additivité de \(P\))} \\ &= \ P_B(A_1) + P_B(A_2). \end{aligned} $$
Enfin \(P_B\) est à valeurs dans \([0, 1]\) : le numérateur \(P(A \cap B) \le P(B)\) par croissance (puisque \(A \cap B \subseteq B\)), donc \(P_B(A) \le 1\) ; de plus \(P(A \cap B) \ge 0\) et \(P(B) > 0\), donc \(P_B(A) \ge 0\).

Méthode — Travailler avec \(P_B\)
Une fois \(P(B) > 0\) acquis, la probabilité conditionnelle \(P_B\) est une vraie probabilité sur \(\Omega\) --- toute la boîte à outils de la section « Propriétés des probabilités » se transporte : \(P_B(\overline{A}) = 1 - P_B(A)\), \(P_B(A \cup A') = P_B(A) + P_B(A') - P_B(A \cap A')\), etc. Deux conséquences aux extrêmes méritent d'être notées : \(P_B(B) = 1\) et \(P_B(\overline{B}) = 0\). Sachant que \(B\) s'est produit, on « vit désormais dans \(B\) » : les événements disjoints de \(B\) ont probabilité conditionnelle nulle, et \(B\) lui-même a probabilité conditionnelle un.
Exemple
Une carte tirée d'un jeu équilibré. Une carte est tirée uniformément au hasard dans un jeu de \(52\). Soient \(A\) = « la carte est l'as de pique » et \(B\) = « la carte est un pique ». Sans conditionnement, \(P(A) = 1/52\) et \(P(B) = 13/52 = 1/4\). Conditionnée par \(B\) : $$ P_B(A) \ = \ \frac{P(A \cap B)}{P(B)} \ = \ \frac{1/52}{13/52} \ = \ \frac{1}{13}. $$ L'interprétation est exactement celle attendue par l'intuition : sachant que la carte est un pique, les \(13\) piques sont équiprobables, et l'as de pique est l'un d'eux.
Compétences à pratiquer
  • Calculer des probabilités conditionnelles
II.2 Formule des probabilités composées
Lorsqu'une expérience se déroule en étapes successives --- premier tirage, deuxième tirage, troisième tirage --- la probabilité jointe d'une séquence d'événements se factorise en un produit de probabilités conditionnelles, chacune conditionnée par les événements réalisés jusque-là. La formule est une conséquence directe de la définition de \(P_B\), appliquée itérativement ; la preuve est un produit télescopique.
Theorem — Formule des probabilités composées
Soient \((\Omega, P)\) un espace probabilisé fini, \(n \ge 2\), et \(A_1, \ldots, A_n\) des événements tels que toute probabilité conditionnelle apparaissant dans la formule ci-dessous soit bien définie. Cela équivaut à demander que toutes les intersections préfixes vérifient \(P(A_1 \cap \cdots \cap A_k) > 0\) pour \(1 \le k \le n-1\) ; il suffit de supposer la dernière, \(P(A_1 \cap \cdots \cap A_{n-1}) > 0\), car par croissance elle est contenue dans toutes les intersections préfixes précédentes. Alors $$ \textcolor{colorprop}{P(A_1 \cap A_2 \cap \cdots \cap A_n) \ = \ P(A_1) \cdot P_{A_1}(A_2) \cdot P_{A_1 \cap A_2}(A_3) \cdots P_{A_1 \cap \cdots \cap A_{n-1}}(A_n).} $$

Par définition de la probabilité conditionnelle, pour \(k \in \llbracket 2, n \rrbracket\), $$ P_{A_1 \cap \cdots \cap A_{k-1}}(A_k) \ = \ \frac{P(A_1 \cap \cdots \cap A_k)}{P(A_1 \cap \cdots \cap A_{k-1})}. $$ Le membre de droite du théorème est alors un produit télescopique : $$ \begin{aligned} P(A_1) \cdot \prod_{k=2}^n P_{A_1 \cap \cdots \cap A_{k-1}}(A_k) \ &= \ P(A_1) \cdot \prod_{k=2}^n \frac{P(A_1 \cap \cdots \cap A_k)}{P(A_1 \cap \cdots \cap A_{k-1})} \\ &= \ P(A_1) \cdot \frac{P(A_1 \cap A_2)}{P(A_1)} \cdot \frac{P(A_1 \cap A_2 \cap A_3)}{P(A_1 \cap A_2)} \cdots \frac{P(A_1 \cap \cdots \cap A_n)}{P(A_1 \cap \cdots \cap A_{n-1})} \\ &= \ P(A_1 \cap A_2 \cap \cdots \cap A_n). \end{aligned} $$

Méthode — Expériences étape par étape
Lorsqu'une expérience se décompose en « étape \(1\), puis étape \(2\), puis \dots, étape \(n\) », on écrit la probabilité jointe comme une chaîne de probabilités conditionnelles, chacune conditionnée par les événements réalisés aux étapes précédentes. La formule se lit naturellement de gauche à droite : « d'abord la probabilité que l'étape \(1\) réussisse, puis la probabilité conditionnelle que l'étape \(2\) réussisse sachant que l'étape \(1\) a réussi, \dots ». Particulièrement utile pour les tirages sans remise successifs, les lancers successifs, ou tout contexte où la probabilité à l'étape \(k\) dépend de ce qui s'est passé avant.
Exemple
Trois tirages successifs sans remise dans une urne. Une urne contient \(n\) boules noires et \(b\) boules blanches, avec \(n \ge 2\) et \(b \ge 1\). Trois boules sont tirées l'une après l'autre, sans remise. Calculer la probabilité de la séquence noire-blanche-noire.

Notons \(K_i\) = « la \(i\)-ième boule est noire » et \(W_i\) = « la \(i\)-ième boule est blanche ». Par la formule des probabilités composées, $$ P(K_1 \cap W_2 \cap K_3) \ = \ P(K_1) \cdot P_{K_1}(W_2) \cdot P_{K_1 \cap W_2}(K_3). $$ À l'étape \(1\), l'urne contient \(n + b\) boules dont \(n\) noires, donc \(P(K_1) = n/(n+b)\). Sachant que l'étape \(1\) a donné une noire, l'urne contient maintenant \(n - 1\) noires et \(b\) blanches, soit \(n + b - 1\) au total, donc \(P_{K_1}(W_2) = b/(n+b-1)\). Sachant que les deux premières étapes ont donné noire-blanche, l'urne contient \(n - 1\) noires et \(b - 1\) blanches, soit \(n + b - 2\) au total, donc \(P_{K_1 \cap W_2}(K_3) = (n-1)/(n+b-2)\). En multipliant : $$ P(K_1 \cap W_2 \cap K_3) \ = \ \frac{n}{n+b} \cdot \frac{b}{n+b-1} \cdot \frac{n-1}{n+b-2}. $$ Pour \(n = 3\), \(b = 2\) : \(\frac{3}{5} \cdot \frac{2}{4} \cdot \frac{2}{3} = \frac{12}{60} = \frac{1}{5}\).

Compétences à pratiquer
  • Appliquer la formule des probabilités composées
II.3 Formule des probabilités totales
La formule des probabilités totales est le raisonnement « cas par cas » rendu quantitatif. Si l'univers se partitionne en cas connus \(A_1, \ldots, A_n\), la probabilité d'un événement \(B\) quelconque est la somme pondérée des probabilités conditionnelles \(P_{A_i}(B)\), avec poids \(P(A_i)\). C'est l'outil de prédilection des calculs de probabilités : chaque fois que l'expérience se décompose naturellement en « selon que \dots », on l'applique.
Theorem — Formule des probabilités totales
Soit \((\Omega, P)\) un espace probabilisé fini et \(\{A_1, \ldots, A_n\}\) un système complet d'événements avec \(P(A_i) > 0\) pour tout \(i\). Alors pour tout événement \(B \subseteq \Omega\), $$ \textcolor{colorprop}{P(B) \ = \ \sum_{i=1}^n P(A_i) \cdot P_{A_i}(B) \ = \ \sum_{i=1}^n P(A_i \cap B).} $$

Comme \(\{A_1, \ldots, A_n\}\) est un système complet, \(\Omega = \bigsqcup_{i=1}^n A_i\), et en intersectant avec \(B\) on obtient \(B = B \cap \Omega = \bigsqcup_{i=1}^n (B \cap A_i)\), la réunion étant disjointe puisque \(A_i \cap A_j = \emptyset\) pour \(i \ne j\). Par additivité finie (item (v) du théorème des Propriétés), $$ P(B) \ = \ \sum_{i=1}^n P(B \cap A_i). $$ Par définition de la probabilité conditionnelle, \(P(B \cap A_i) = P(A_i) \cdot P_{A_i}(B)\) (en utilisant \(P(A_i) > 0\)). En substituant on obtient la formule annoncée.

Événements de probabilité nulle. Si un des \(A_i\) du système vérifie \(P(A_i) = 0\), alors \(P(A_i \cap B) = 0\) pour tout événement \(B\) (par croissance, \(A_i \cap B \subseteq A_i\)). La probabilité conditionnelle \(P_{A_i}(B)\) n'est alors pas définie, donc la forme pondérée $$ P(B) \ = \ \sum_{i=1}^n P(A_i) \cdot P_{A_i}(B) $$ doit être écrite seulement sur les indices tels que \(P(A_i) > 0\) : $$ P(B) \ = \ \sum_{\substack{1 \le i \le n \\ P(A_i) > 0}} P(A_i) \cdot P_{A_i}(B). $$ Les parties de probabilité nulle ne contribuent pas à la somme, bien qu'elles appartiennent toujours à la partition de \(\Omega\) --- le système est inchangé, seule l'indexation de la somme est restreinte.
Méthode — Cas par cas
Lorsque l'expérience peut s'analyser en disant « selon que la première boule est blanche ou noire, selon que le test est positif ou négatif, \dots », on identifie le système complet \((A_i)\) qui capture les cas, on calcule les probabilités a priori \(P(A_i)\) et les probabilités conditionnelles \(P_{A_i}(B)\), et on applique la formule. La formule des probabilités totales est l'outil de prédilection des « arbres de probabilité » : chaque branche de l'arbre contribue un terme \(P(A_i) \cdot P_{A_i}(B)\) à la somme, comme illustré ci-dessous.
La probabilité de \(B\) s'obtient en suivant les trois branches « \(A_i\)-puis-\(B\) » et en sommant leurs produits : \(P(B) = \sum_{i=1}^3 P(A_i) \cdot P_{A_i}(B)\).
Exemple
Deux tirages successifs sans remise : probabilité que la deuxième boule soit blanche. Même cadre que précédemment --- urne avec \(n\) boules noires et \(b\) blanches --- mais maintenant on tire deux boules et on demande : quelle est la probabilité que la deuxième soit blanche ?

Le système complet naturel est \(\{W_1, \overline{W_1}\}\) où \(W_1\) = « la première boule est blanche ». Par la formule des probabilités totales, $$ \begin{aligned} P(W_2) \ &= \ P(W_1) \cdot P_{W_1}(W_2) + P(\overline{W_1}) \cdot P_{\overline{W_1}}(W_2) && \text{(probabilités totales)} \\ &= \ \frac{b}{n+b} \cdot \frac{b-1}{n+b-1} + \frac{n}{n+b} \cdot \frac{b}{n+b-1} && \text{(a priori + conditionnelles)} \\ &= \ \frac{b(b-1) + nb}{(n+b)(n+b-1)} && \text{(dénominateur commun)} \\ &= \ \frac{b(n + b - 1)}{(n+b)(n+b-1)} && \text{(factorisation par \(b\))} \\ &= \ \frac{b}{n+b}. \end{aligned} $$ Une réponse inattendue : \(P(W_2) = b/(n+b) = P(W_1)\). La probabilité que la deuxième boule soit blanche égale celle que la première le soit --- une manifestation de la symétrie du modèle sans remise. La leçon : la formule des probabilités totales est un outil de calcul, mais elle peut aussi révéler des symétries cachées du modèle.

Compétences à pratiquer
  • Appliquer la formule des probabilités totales
II.4 Formule de Bayes
La formule de Bayes est l'astuce d'inversion : étant donnée la probabilité conditionnelle \(P_A(B)\) dans un sens, retrouver la probabilité conditionnelle \(P_B(A)\) dans l'autre. Combinée à la formule des probabilités totales au dénominateur, elle transforme une probabilité a priori \(P(A_j)\) et une vraisemblance \(P_{A_j}(B)\) en une probabilité a posteriori \(P_B(A_j)\). Cette « révision des croyances à la lumière de l'évidence » est la base de l'inférence bayésienne, de l'apprentissage automatique, du diagnostic médical, de la détection de signal.
Theorem — Formule de Bayes
Soit \((\Omega, P)\) un espace probabilisé fini.
  • Forme à un événement. Pour des événements \(A, B \subseteq \Omega\) avec \(P(A), P(B) > 0\), $$ \textcolor{colorprop}{P_B(A) \ = \ \frac{P(A) \cdot P_A(B)}{P(B)}.} $$
  • Forme à système complet. Soit \(\{A_1, \ldots, A_n\}\) un système complet d'événements avec \(P(A_i) > 0\) pour tout \(i\), et soit \(B\) un événement avec \(P(B) > 0\). Alors pour tout \(j \in \llbracket 1, n \rrbracket\), $$ \textcolor{colorprop}{P_B(A_j) \ = \ \frac{P(A_j) \cdot P_{A_j}(B)}{\displaystyle\sum_{i=1}^n P(A_i) \cdot P_{A_i}(B)}.} $$

  • Forme à un événement. Par définition de la probabilité conditionnelle, $$ P_B(A) \ = \ \frac{P(A \cap B)}{P(B)} \quad \text{et} \quad P_A(B) \ = \ \frac{P(A \cap B)}{P(A)}. $$ La seconde donne \(P(A \cap B) = P(A) \cdot P_A(B)\) ; en substituant dans la première on obtient la formule.
  • Forme à système complet. On applique la forme à un événement avec \(A = A_j\) : $$ P_B(A_j) \ = \ \frac{P(A_j) \cdot P_{A_j}(B)}{P(B)}. $$ Le dénominateur \(P(B)\) se calcule par la formule des probabilités totales sur le système complet : \(P(B) = \sum_{i=1}^n P(A_i) P_{A_i}(B)\). On substitue.

Méthode — A priori\(\virgule\) vraisemblance\(\virgule\) a posteriori
La formule de Bayes est particulièrement utile lorsque l'on connaît les probabilités a priori \(P(A_j)\) (les « croyances initiales ») et les vraisemblances \(P_{A_j}(B)\) (« quelle est la probabilité d'observer \(B\) dans chaque scénario \(A_j\) ? »), et que l'on cherche la probabilité a posteriori \(P_B(A_j)\) (« sachant qu'on a observé \(B\), quelle est la probabilité du scénario \(A_j\) ? »).
La recette :
  1. Identifier le système complet \((A_j)\) des scénarios concurrents.
  2. Écrire les probabilités a priori \(P(A_j)\).
  3. Écrire les vraisemblances \(P_{A_j}(B)\).
  4. Appliquer la formule --- le dénominateur n'est autre que la somme des probabilités totales \(P(B)\).
La caractéristique la plus contre-intuitive de Bayes est qu'une évidence très fiable peut tout de même donner une probabilité a posteriori faible lorsque la probabilité a priori est faible. L'exemple du test médical ci-dessous le rend concret.
Exemple
Les taxis bleus (Bayes à un événement). Un taxi est impliqué dans un délit de fuite, de nuit, dans une ville où \(85\%\) des taxis sont verts et \(15\%\) sont bleus. Un témoin identifie le taxi comme bleu. Le témoin est fiable au sens où, dans des conditions de test nocturnes, il identifie correctement la couleur d'un taxi \(80\%\) du temps. Quelle est la probabilité que le taxi ait effectivement été bleu ?

Soit \(G\) = « le taxi est vert (green) » et \(B\) = « le taxi est bleu » (\(\{G, B\}\) est un système complet). Soit \(T\) = « le témoin dit bleu ». Les données : $$ P(G) = 0{,}85, \quad P(B) = 0{,}15, \quad P_G(T) = 0{,}20, \quad P_B(T) = 0{,}80. $$ Par Bayes (forme à système complet), $$ \begin{aligned} P_T(B) \ &= \ \frac{P(B) \cdot P_B(T)}{P(G) \cdot P_G(T) + P(B) \cdot P_B(T)} && \text{(Bayes)} \\ &= \ \frac{0{,}15 \cdot 0{,}80}{0{,}85 \cdot 0{,}20 + 0{,}15 \cdot 0{,}80} && \text{(substitution)} \\ &= \ \frac{0{,}12}{0{,}17 + 0{,}12} \ = \ \frac{0{,}12}{0{,}29} \ \approx \ 0{,}414. \end{aligned} $$ Bien que le témoin soit fiable à \(80\%\), la probabilité a posteriori que le taxi ait été bleu n'est que d'environ \(41\%\) --- la probabilité a priori (seulement \(15\%\) des taxis sont bleus) tire la réponse bien en-dessous du naïf \(80\%\).

Exemple
Test médical (rôle contre-intuitif de la probabilité a priori). Une maladie touche \(1\%\) d'une population. Un test diagnostique a une sensibilité de \(99\%\) (\(P(\text{test} = + \mid \text{malade}) = 0{,}99\)) et une spécificité de \(95\%\) (\(P(\text{test} = - \mid \text{sain}) = 0{,}95\)). Un individu choisi au hasard est testé positif. Quelle est la probabilité qu'il soit effectivement malade ?

Soit \(S\) = « malade », \(\overline{S}\) = « sain » (système complet), et \(T\) = « test positif ». Les données : $$ P(S) = 0{,}01, \quad P(\overline{S}) = 0{,}99, \quad P_S(T) = 0{,}99, \quad P_{\overline{S}}(T) = 1 - 0{,}95 = 0{,}05. $$ Par Bayes, $$ P_T(S) \ = \ \frac{P(S) \cdot P_S(T)}{P(S) \cdot P_S(T) + P(\overline{S}) \cdot P_{\overline{S}}(T)} \ = \ \frac{0{,}01 \cdot 0{,}99}{0{,}01 \cdot 0{,}99 + 0{,}99 \cdot 0{,}05} \ = \ \frac{0{,}0099}{0{,}0099 + 0{,}0495} \ \approx \ 0{,}167. $$ Malgré une sensibilité de \(99\%\), la probabilité a posteriori d'être malade sachant un test positif n'est que d'environ \(17\%\). La raison : la probabilité a priori \(P(S) = 1\%\) est si faible que même un taux de faux positifs de \(5\%\) inonde la population des tests positifs d'individus sains. C'est l'avertissement classique contre la confiance excessive accordée aux résultats des tests sans tenir compte du taux de base.

Exemple
Trois urnes, boule révélée par sa couleur. Trois urnes \(U_1, U_2, U_3\) contiennent respectivement \(\{2 \text{ blanches}, 1 \text{ noire}\}\), \(\{1 \text{ blanche}, 2 \text{ noires}\}\), \(\{1 \text{ blanche}, 1 \text{ noire}\}\). Une urne est choisie uniformément au hasard, puis une boule est tirée de cette urne. Sachant que la boule tirée est blanche, quelle est la probabilité que l'urne choisie ait été \(U_2\) ?

Soit \(A_i\) = « l'urne \(U_i\) a été choisie », un système complet avec \(P(A_i) = 1/3\) pour \(i \in \{1, 2, 3\}\). Soit \(B\) = « la boule tirée est blanche ». Les vraisemblances se lisent directement sur les compositions des urnes : $$ P_{A_1}(B) = 2/3, \quad P_{A_2}(B) = 1/3, \quad P_{A_3}(B) = 1/2. $$ Probabilités totales : \(P(B) = (1/3)(2/3) + (1/3)(1/3) + (1/3)(1/2) = 2/9 + 1/9 + 1/6 = 4/18 + 2/18 + 3/18 = 9/18 = 1/2\). Par Bayes, $$ P_B(A_2) \ = \ \frac{P(A_2) \cdot P_{A_2}(B)}{P(B)} \ = \ \frac{(1/3) \cdot (1/3)}{1/2} \ = \ \frac{1/9}{1/2} \ = \ \frac{2}{9}. $$ La probabilité a priori était \(P(A_2) = 1/3 \approx 0{,}33\) ; la probabilité a posteriori est \(P_B(A_2) = 2/9 \approx 0{,}22\), plus faible parce que \(U_2\) est l'urne la moins susceptible de produire une boule blanche.

Compétences à pratiquer
  • Appliquer la formule de Bayes
III Indépendance d'événements
L'indépendance est l'hypothèse de modélisation qui permet de multiplier les probabilités. Deux événements sont indépendants lorsque la réalisation de l'un ne change pas la probabilité de l'autre --- une condition qui se traduit par la factorisation \(P(A \cap B) = P(A) P(B)\). L'indépendance n'est presque jamais quelque chose que l'on démontre d'une expérience donnée ; c'est quelque chose que l'on postule lors de la modélisation (« on modélise les deux lancers comme indépendants », « les tirages avec remise sont indépendants »). L'indépendance mutuelle de \(n\) événements renforce cela : toute sous-famille à deux éléments ou plus doit se factoriser. Le chapitre se termine sur l'avertissement que l'indépendance deux à deux est strictement plus faible que l'indépendance mutuelle --- un fait qui surprend tous les étudiants au premier abord.
III.1 Indépendance de deux événements
L'indépendance de deux événements est le cas le plus simple : \(A\) et \(B\) sont indépendants lorsque la probabilité jointe se factorise comme le produit des probabilités individuelles, \(P(A \cap B) = P(A) P(B)\). Lorsque \(P(B) > 0\), cela équivaut à dire que \(B\) n'apporte aucune information sur \(A\) : \(P_B(A) = P(A)\). La notion est symétrique en \(A\) et \(B\).
Définition — Indépendance de deux événements
Soit \((\Omega, P)\) un espace probabilisé fini. Deux événements \(A, B \subseteq \Omega\) sont dits indépendants lorsque $$ \textcolor{colordef}{P(A \cap B) \ = \ P(A) \cdot P(B).} $$ On note \(A \perp B\) pour « \(A\) et \(B\) sont indépendants ».
Proposition — Indépendance et probabilité conditionnelle
Soient \(A, B\) deux événements avec \(P(B) > 0\). Alors $$ A \perp B \ \iff \ P_B(A) \ = \ P(A). $$ Symétriquement, lorsque \(P(A) > 0\), \(A \perp B \iff P_A(B) = P(B)\).

Par définition, \(P_B(A) = P(A \cap B)/P(B)\). En multipliant les deux membres par \(P(B) > 0\), l'équation \(P_B(A) = P(A)\) équivaut à \(P(A \cap B) = P(A) P(B)\), qui est la définition de \(A \perp B\).

Méthode — Incompatible \(\ne\) indépendant
On distingue soigneusement deux notions souvent confondues :
  • \(A\) et \(B\) sont incompatibles lorsque \(A \cap B = \emptyset\), c'est-à-dire lorsqu'ils ne peuvent pas se réaliser simultanément.
  • \(A\) et \(B\) sont indépendants lorsque \(P(A \cap B) = P(A) P(B)\), c'est-à-dire lorsque connaître l'un ne change pas la probabilité de l'autre.
Les deux notions sont différentes et, en fait, en tension : deux événements de probabilité strictement positive et incompatibles ne sont jamais indépendants. En effet, si \(A \cap B = \emptyset\), alors \(P(A \cap B) = 0\), tandis que \(P(A) P(B) > 0\) si à la fois \(P(A) > 0\) et \(P(B) > 0\). Donc « \(A\) et \(B\) ne se réalisent jamais ensemble » est une contrainte bien plus forte que « \(B\) ne nous apprend rien sur \(A\) ».
Exemple
Un dé équilibré : l'indépendance dépend des événements. Sur \(\Omega = \llbracket 1, 6 \rrbracket\) uniforme, soient \(A\) = « le résultat est pair » \(= \{2, 4, 6\}\) et \(B\) = « le résultat est \(\ge 4\) » \(= \{4, 5, 6\}\). Alors \(P(A) = P(B) = 1/2\), et $$ P(A \cap B) \ = \ P(\{4, 6\}) \ = \ \frac{2}{6} \ = \ \frac{1}{3}, \quad P(A) \cdot P(B) \ = \ \frac{1}{4}. $$ Comme \(1/3 \ne 1/4\), les événements \(A\) et \(B\) ne sont pas indépendants. Soit maintenant \(C\) = « le résultat est \(1\) ou \(4\) » \(= \{1, 4\}\). Alors \(P(C) = 1/3\) et $$ P(A \cap C) \ = \ P(\{4\}) \ = \ \frac{1}{6} \ = \ \frac{1}{2} \cdot \frac{1}{3} \ = \ P(A) \cdot P(C), $$ donc \(A\) et \(C\) sont indépendants. L'indépendance est une propriété du couple \((A, B)\) joint à \(\mathrm{P}\), et non des événements en isolation.
Exemple
Incompatible \(\Rightarrow\) non indépendant. Même dé. Soient \(A\) = « obtenir \(1\) ou \(2\) » \(= \{1, 2\}\) et \(B\) = « obtenir \(5\) ou \(6\) » \(= \{5, 6\}\). Alors \(P(A) = P(B) = 1/3\), tous deux strictement positifs. Les deux événements sont incompatibles : \(A \cap B = \emptyset\), donc \(P(A \cap B) = 0\). Mais le produit vaut \(P(A) \cdot P(B) = 1/9 \ne 0\). Donc \(A\) et \(B\) ne sont pas indépendants --- apprendre que \(B\) s'est réalisé exclut totalement \(A\), l'influence maximale qu'un événement peut avoir sur un autre.
Compétences à pratiquer
  • Vérifier ou réfuter l'indépendance
III.2 Indépendance mutuelle de \(n\) événements
Pour trois événements ou plus, demander que toute paire se factorise ne suffit pas --- il faut aussi demander que tout triplet, tout quadruplet, \ldots, toute sous-famille de taille \(\ge 2\), se factorise. Cette condition plus forte est l'indépendance mutuelle, et la différence avec l'indépendance deux à deux est réelle : il existe des familles d'événements deux à deux indépendants mais non mutuellement indépendants. Le contre-exemple classique sur \(\Omega = \llbracket 1, 4 \rrbracket\) rend cela concret.
Définition — Indépendance mutuelle
Soit \((\Omega, P)\) un espace probabilisé fini et \(A_1, \ldots, A_n\) des événements de \(\Omega\). La famille \((A_1, \ldots, A_n)\) est dite mutuellement indépendante (ou simplement indépendante) lorsque, pour toute partie \(I \subseteq \llbracket 1, n \rrbracket\) avec \(|I| \ge 2\), $$ \textcolor{colordef}{P\Bigl(\bigcap_{i \in I} A_i\Bigr) \ = \ \prod_{i \in I} P(A_i).} $$ Les cas \(|I| = 0\) et \(|I| = 1\) sont exclus pour la clarté (ils sont tautologiques : produit vide égal à \(1\), et un unique \(P(A_i)\) de chaque côté).
Proposition — Indépendance mutuelle entraîne deux à deux ; la réciproque est fausse
Si \((A_1, \ldots, A_n)\) est mutuellement indépendante, alors \(A_i\) et \(A_j\) sont indépendants pour tous \(i \ne j\) (« deux à deux indépendants »).
La réciproque est fausse : il existe trois événements \(A, B, C\) deux à deux indépendants mais non mutuellement indépendants.

La première assertion est immédiate : on prend \(I = \{i, j\}\) dans la définition de l'indépendance mutuelle, avec \(|I| = 2\), pour obtenir \(P(A_i \cap A_j) = P(A_i) P(A_j)\).
Pour la réciproque, on exhibe le contre-exemple classique. Soit \(\Omega = \llbracket 1, 4 \rrbracket\) muni de la probabilité uniforme (\(P(\{k\}) = 1/4\) pour tout \(k\)). On pose $$ A = \{1, 2\}, \qquad B = \{1, 3\}, \qquad C = \{2, 3\}. $$ Chaque événement a cardinal \(2\), donc \(P(A) = P(B) = P(C) = 1/2\). Les intersections deux à deux ont chacune cardinal \(1\) : $$ A \cap B = \{1\}, \qquad A \cap C = \{2\}, \qquad B \cap C = \{3\}, $$ donnant \(P(A \cap B) = P(A \cap C) = P(B \cap C) = 1/4 = (1/2)(1/2)\). Donc les trois événements sont deux à deux indépendants.
Mais \(A \cap B \cap C = \emptyset\), donc \(P(A \cap B \cap C) = 0\), tandis que \(P(A) P(B) P(C) = (1/2)^3 = 1/8 \ne 0\). Le triplet ne se factorise pas ; la famille n'est pas mutuellement indépendante.

Méthode — « Mutuelle » \(\ne\) « deux à deux »
Pour vérifier l'indépendance de trois événements ou plus, vérifier chaque paire ne suffit pas : il faut vérifier la factorisation sur toute sous-famille \(I \subseteq \llbracket 1, n \rrbracket\) avec \(|I| \ge 2\). En cas de doute, on calcule chaque sous-intersection et on la compare au produit correspondant.
Pour trois événements, l'indépendance mutuelle équivaut aux trois factorisations deux à deux plus la factorisation du triplet. Pour \(n \ge 4\), il faut vérifier toute sous-famille de taille au moins \(2\) : les paires, les triplets, \dots, jusqu'à l'intersection complète à \(n\) termes. Le nombre total de conditions est \(\sum_{k=2}^n \binom{n}{k} = 2^n - n - 1\).
En pratique de modélisation, l'indépendance mutuelle est en général postulée (modèles classiques de \(n\) lancers indépendants, de \(n\) tirages avec remise indépendants, etc.) plutôt que vérifiée à la main.
Exemple
Trois lancers indépendants : un cas positif d'indépendance mutuelle. Une pièce équilibrée est lancée trois fois. On modélise par \(\Omega = \{\mathrm{P}, \mathrm{F}\}^3\) uniforme, de cardinal \(8\). Pour \(i \in \{1, 2, 3\}\), soit \(A_i\) = « le \(i\)-ième lancer donne pile » ; chaque \(A_i\) a cardinal \(4\) (la \(i\)-ième coordonnée est fixée à \(\mathrm{P}\), les deux autres sont libres), donc \(P(A_i) = 4/8 = 1/2\). Vérifier que \((A_1, A_2, A_3)\) est mutuellement indépendante.

On vérifie la factorisation sur toute sous-famille de taille \(\ge 2\). Il y a \(\binom{3}{2} = 3\) paires et \(\binom{3}{3} = 1\) triplet --- quatre conditions à vérifier.
  • Factorisations deux à deux. Pour tout \(i \ne j\), l'événement \(A_i \cap A_j\) correspond à fixer deux coordonnées à \(\mathrm{P}\) et laisser une libre, de cardinal \(2\), donc \(P(A_i \cap A_j) = 2/8 = 1/4 = (1/2)(1/2) = P(A_i) P(A_j)\). Les trois paires \((A_1, A_2), (A_1, A_3), (A_2, A_3)\) se factorisent toutes.
  • Factorisation du triplet. L'événement \(A_1 \cap A_2 \cap A_3\) fixe les trois coordonnées à \(\mathrm{P}\), donc correspond à l'unique issue \(\mathrm{PPP}\) et a cardinal \(1\). Donc \(P(A_1 \cap A_2 \cap A_3) = 1/8 = (1/2)^3 = P(A_1) P(A_2) P(A_3)\). Le triplet se factorise.
Les quatre conditions sont vérifiées, donc \((A_1, A_2, A_3)\) est mutuellement indépendante. Le même argument se généralise immédiatement à \(n\) lancers indépendants : chaque sous-intersection \(\bigcap_{i \in I} A_i\) a cardinal \(2^{n - |I|}\), et la factorisation \(1/2^{|I|} = (1/2)^{|I|}\) est automatique. À comparer avec le contre-exemple classique sur \(\Omega = \llbracket 1, 4 \rrbracket\) : les factorisations deux à deux y sont vérifiées, mais celle du triplet échoue --- l'indépendance deux à deux n'entraîne pas l'indépendance mutuelle.

Compétences à pratiquer
  • Vérifier l'indépendance mutuelle
III.3 Indépendance et complémentaires
Le dernier fait technique du chapitre : remplacer certains des événements d'une famille mutuellement indépendante par leurs complémentaires préserve l'indépendance. En particulier, si \(A_1, \ldots, A_n\) sont mutuellement indépendants, alors \(\overline{A_1}, \overline{A_2}, A_3, \ldots, A_n\) le sont aussi, et \(\overline{A_1}, \ldots, \overline{A_n}\) également. La preuve est un calcul direct dans le cas \(n = 2\) (le seul exigé explicitement par le programme) ; l'énoncé général est admis comme un résultat de bookkeeping combinatoire.
Proposition — Indépendance et complémentaires
Soit \((\Omega, P)\) un espace probabilisé fini.
  • Cas \(n = 2\). Si \(A\) et \(B\) sont indépendants, alors \(\overline{A}\) et \(B\) aussi, \(A\) et \(\overline{B}\) aussi, et \(\overline{A}\) et \(\overline{B}\) aussi.
  • Cas général (admis). Si \(A_1, \ldots, A_n\) sont mutuellement indépendants, alors pour tout choix \(A_i' \in \{A_i, \overline{A_i}\}\) pour \(i \in \llbracket 1, n \rrbracket\), la famille \((A_1', \ldots, A_n')\) est aussi mutuellement indépendante.

On démontre le cas \(n = 2\). Soient \(A, B\) indépendants, c'est-à-dire \(P(A \cap B) = P(A) P(B)\). Alors $$ \begin{aligned} P(\overline{A} \cap B) \ &= \ P(B \setminus (A \cap B)) && \text{(car \(\overline{A} \cap B = B \setminus (A \cap B)\))} \\ &= \ P(B) - P(A \cap B) && \text{(item (ii) des Propriétés)} \\ &= \ P(B) - P(A) P(B) && \text{(indépendance de \(A, B\))} \\ &= \ (1 - P(A)) P(B) \\ &= \ P(\overline{A}) P(B) && \text{(item (ii) des Propriétés)}. \end{aligned} $$ Donc \(\overline{A}\) et \(B\) sont indépendants. Symétriquement (en échangeant les rôles de \(A\) et \(B\)), \(A\) et \(\overline{B}\) sont indépendants. En appliquant le résultat deux fois, \(\overline{A}\) et \(\overline{B}\) le sont aussi.
Esquisse du cas général (admis). Soit \(J \subseteq \llbracket 1, n \rrbracket\) l'ensemble des indices à complémenter, avec \(|J| = k\). On raisonne par récurrence sur \(k\). Le cas \(k = 0\) est l'hypothèse. Supposant qu'à \(k\) indices complémentés la famille est mutuellement indépendante, on choisit un \((k+1)\)-ième indice \(j \notin J\) ; pour toute sous-famille \(I \subseteq \llbracket 1, n \rrbracket\) avec \(|I| \ge 2\), la factorisation de \(\bigcap_{i \in I} A_i'\) soit n'implique pas \(j\) (elle reste inchangée), soit implique \(j\) une fois, auquel cas --- par indépendance mutuelle de la famille courante, \(A_j\) est indépendant de l'intersection des autres événements indexés par \(I\) --- le calcul du cas \(n = 2\) effectué ci-dessus sur \(A_j\) seul (cette intersection jouant le rôle de \(B\)) remplace \(P(A_j)\) par \(1 - P(A_j) = P(\overline{A_j})\), en préservant la structure de produit. Donc au rang \(k + 1\) la famille reste mutuellement indépendante. La démonstration inductive complète est admise ; seul le passage du rang \(0\) au rang \(1\) (le cas \(n = 2\) ci-dessus) est exigible.

Exemple
\(n\) lancers indépendants, événements seulement. On modélise \(n\) lancers indépendants d'une pièce équilibrée par l'univers uniforme \(\Omega = \{\mathrm{P}, \mathrm{F}\}^n\) (cardinal \(2^n\)). Pour \(i \in \llbracket 1, n \rrbracket\), soit \(A_i = \{\) le \(i\)-ième lancer donne pile \(\}\), un événement de cardinal \(2^{n-1}\) (la \(i\)-ième coordonnée est fixée à \(\mathrm{P}\), les autres sont libres), donc \(P(A_i) = 2^{n-1}/2^n = 1/2\). Les événements \((A_1, \ldots, A_n)\) sont mutuellement indépendants : pour toute partie \(I \subseteq \llbracket 1, n \rrbracket\) avec \(|I| \ge 2\), l'intersection \(\bigcap_{i \in I} A_i\) correspond à fixer les \(|I|\) coordonnées indexées par \(I\) à \(\mathrm{P}\), les \(n - |I|\) autres étant libres, donc son cardinal est \(2^{n - |I|}\) et sa probabilité est \(2^{n - |I|}/2^n = 1/2^{|I|} = \prod_{i \in I} P(A_i)\).
D'après la Proposition, toute famille obtenue en remplaçant certains des \(A_i\) par \(\overline{A_i}\) est aussi mutuellement indépendante. La probabilité « au moins un pile » se calcule par complémentaire : $$ P\Bigl(\bigcup_{i=1}^n A_i\Bigr) \ = \ 1 - P\Bigl(\bigcap_{i=1}^n \overline{A_i}\Bigr) \ = \ 1 - \prod_{i=1}^n P(\overline{A_i}) \ = \ 1 - (1/2)^n. $$ Pour \(n = 5\) : \(P(\text{au moins un pile}) = 1 - 1/32 = 31/32\). Notons que nous sommes restés strictement dans le monde des événements associés aux lancers ; l'indépendance de variables aléatoires est le contenu du chapitre suivant, Variables aléatoires.
Compétences à pratiquer
  • Appliquer l'indépendance aux complémentaires