Tests d'hypothèses

Procédure des tests statistiques

Logique des tests statistiques

Les tests statistiques fonctionnent un peu comme un procès au tribunal.

L'hypothèse (Innocence) : Nous partons du principe qu'il n'y a aucun effet ou aucune différence jusqu'à preuve du contraire.
La preuve (Données) : Nous collectons des données à partir d'un échantillon.
Le verdict : Si la preuve est suffisamment forte (au-delà de tout doute raisonnable), nous rejetons l'hypothèse de départ.

Important : En test d'hypothèse, on ne ``prouve'' jamais que $H_0$ est vraie. On rejette $H_0$ ou bien on ne la rejette pas car les preuves ne sont pas suffisantes.

Définition Hypothèses nulle et alternative

L'hypothèse nulle ($H_0$) représente le statu quo, « aucune différence » ou « aucun effet ». Elle inclut toujours une égalité ($\mu = k$, $\mu \leqslant k$ ou $\mu \geqslant k$).
L'hypothèse alternative ($H_1$) est l'affirmation pour laquelle nous recherchons des preuves. Elle utilise des inégalités strictes ($\mu \neq k$, $\mu > k$ ou $\mu < k$).

Exemple

Une entreprise affirme que l'autonomie moyenne de la batterie de son nouveau téléphone est de 24 heures. Un groupe de consommateurs soupçonne que l'autonomie est en réalité plus courte. Écrire les hypothèses nulle et alternative.

Correction

Soit $\mu$ la moyenne réelle de l'autonomie de la batterie.

$H_0: \mu = 24$ (L'affirmation de l'entreprise est vraie ; il n'y a pas de différence).
$H_1: \mu < 24$ (Le soupçon du groupe de consommateurs ; la moyenne est inférieure à celle annoncée).

p-value et le niveau de signification

Définition p-value et $\alpha$

Le niveau de signification ($\alpha$) est le seuil de preuve (généralement $0,05$, $0,01$ ou $0,10$). C'est la probabilité de rejeter $H_0$ alors qu'elle est vraie (erreur de Type I).
La p-value est la probabilité d'obtenir des résultats d'échantillonnage au moins aussi extrêmes que ceux observés, en supposant que $H_0$ est vraie.

Une p-value petite signifie que les données seraient très peu probables si $H_0$ était vraie : c'est donc un argument contre $H_0$.
Règle de décision :

Si $p\text{-value} \leqslant \alpha \implies$ Rejeter $H_0$. (Le résultat est statistiquement significatif).
Si $p\text{-value} > \alpha \implies$ Ne pas rejeter $H_0$. (Pas assez de preuves contre $H_0$).

Exemple

Un chercheur effectue un test d'hypothèse pour vérifier si un nouvel engrais augmente la croissance des plantes.
La p-value calculée est de $0,042$.
Tirer une conclusion pour les niveaux de signification suivants :

$\alpha = 0,05$ (niveau de signification de $5\pourcent$).
$\alpha = 0,01$ (niveau de signification de $1\pourcent$).

Correction

Pour $\alpha = 0,05$ : $$ p\text{-value} = 0,042 < 0,05 $$ Puisque la p-value est inférieure à $\alpha$, le résultat est statistiquement significatif au niveau de 5$\pourcent$. Nous rejetons l'hypothèse nulle ($H_0$). Il y a suffisamment de preuves, au niveau de signification de 5$\pourcent$, pour soutenir l'affirmation.
Pour $\alpha = 0,01$ : $$ p\text{-value} = 0,042 \geqslant 0,01 $$ Puisque la p-value est supérieure à $\alpha$, le résultat n'est pas statistiquement significatif à ce niveau. Nous ne rejetons pas l'hypothèse nulle ($H_0$). Il n'y a pas assez de preuves, au niveau de signification de 1$\pourcent$, pour soutenir l'affirmation.

Procédure en 5 étapes

Méthode Réaliser un test d'hypothèse

Énoncer les hypothèses : Définir le paramètre (ex : $\mu$) et écrire $H_0$ et $H_1$.
Indiquer le test et le niveau : Identifier le test (ex : test-t) et le niveau de signification $\alpha$.
Calculer les statistiques : Utiliser la calculatrice pour trouver la statistique de test et la p-value.
Comparer : Comparer explicitement la p-value à $\alpha$ (vérifier si $p \leqslant \alpha$ ou $p > \alpha$).
Conclure : Rédiger une conclusion dans le contexte du problème, en lien avec l'affirmation de départ.

Exemple

Une machine à café est censée distribuer $250$ ml par tasse. Un responsable soupçonne qu'elle en distribue moins. Il mesure un échantillon de 10 tasses et trouve une moyenne de $\bar{x} = 248$ ml avec un écart-type de $s_{n-1} = 3$ ml.
Tester le soupçon du responsable au niveau de signification de $5\pourcent$.

Correction

Soit $\mu$ le volume moyen de café de la population.

$H_0: \mu = 250$ et $H_1: \mu < 250$.
Test-t pour un échantillon à $\alpha = 0,05$.
Avec la calculatrice (Test-T avec $\mu_0=250, \bar{x}=248, s=3, n=10, <\mu_0$) :
$t \approx -2,108$ et $p\text{-value} \approx 0,032$.
Puisque $0,032 < 0,05$, nous rejetons $H_0$.
Il y a suffisamment de preuves pour suggérer que la machine distribue moins de 250 ml.

Erreurs de Type I et Type II

Définition Types d'erreurs

Lors de la prise de décision basée sur un test statistique, il y a toujours un risque d'erreur.

Erreur de Type I ($\alpha$) : Rejeter $H_0$ alors que $H_0$ est vraie (faux positif). La probabilité de cette erreur est le niveau de signification $\alpha$.
Erreur de Type II ($\beta$) : Ne pas rejeter $H_0$ alors que $H_0$ est fausse (faux négatif).

	$H_0$ est vraie	$H_0$ est fausse
Rejeter $H_0$	Erreur de Type I	Décision correcte
Ne pas rejeter $H_0$	Décision correcte	Erreur de Type II

Exemple

Une usine fabrique des parachutes. L'hypothèse nulle stipule qu'un lot de parachutes est sûr.

$H_0$ : Les parachutes sont sûrs.
$H_1$ : Les parachutes sont défectueux.

Décrivez les erreurs de Type I et de Type II. Quelle erreur est la plus dangereuse dans ce contexte ?

Correction

Erreur de Type I : L'inspecteur conclut que les parachutes sont défectueux (rejette $H_0$) alors qu'ils sont en réalité sûrs ($H_0$ est vraie). Conséquence : Perte financière due à l'arrêt de la production ou à la destruction de bons produits.
Erreur de Type II : L'inspecteur conclut que les parachutes sont sûrs (ne rejette pas $H_0$) alors qu'ils sont en réalité défectueux ($H_0$ est fausse). Conséquence : Accidents potentiellement mortels.

Dans ce contexte, une erreur de Type II est beaucoup plus dangereuse car des vies humaines sont en jeu.

Test-$t$

Le test-t est l'un des tests statistiques les plus couramment utilisés. Il sert à déterminer s'il existe une différence significative entre des moyennes, en particulier lorsque la variance de la population est inconnue et que la taille de l'échantillon est petite ($n < 30$).

Test-t pour un échantillon

Définition Formule du test-t pour un échantillon

Le test-t pour un échantillon compare la moyenne d'un échantillon unique ($\bar{x}$) à une moyenne de population connue ou hypothétique ($\mu_0$).
Il est utilisé lorsque :

Les données sont quantitatives (continues).
La population suit une distribution normale (ou la taille de l'échantillon est grande, $n \geqslant 30$).
L'écart-type de la population $\sigma$ est inconnu (nous utilisons l'écart-type de l'échantillon $s$).

La statistique de test $t$ est calculée comme suit :$$ t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} $$

Méthode Étapes pour un test-t à un échantillon avec une calculatrice

Étape 1 : Écrire les hypothèses
- $H_0: \mu = k$ (La moyenne de la population est égale à une valeur spécifique $k$).
- $H_1: \mu \neq k$ (ou $\mu < k$, $\mu > k$ selon la question).
Étape 2 : Entrer les données dans la calculatrice
- Entrer les données dans Liste 1 (ou utiliser les statistiques résumées $\bar{x}, s, n$).
- Sélectionner Test-T (ou Test-t 1 échantillon).
- Entrer la valeur de $\mu_0$ (tirée de $H_0$).
Étape 3 : Règle de décision
Comparer la p-value au niveau de signification $\alpha$.
- Si $p\text{-value} < \alpha$ : Rejeter $H_0$.
- Si $p\text{-value} \geqslant \alpha$ : Ne pas rejeter $H_0$.
Étape 4 : Conclusion
Indiquer s'il y a suffisamment de preuves pour soutenir l'hypothèse alternative, dans le contexte du problème.

Exemple

Une usine produit des vis avec une longueur cible de 50 mm. Un responsable du contrôle qualité prélève un échantillon aléatoire de 15 vis et trouve une longueur moyenne de 49,8 mm avec un écart-type de 0,5 mm.
Effectuer un test-t au niveau de signification de 5 $\pourcent$ pour voir si la longueur moyenne est différente de 50 mm.

Correction

Étape 1 : Hypothèses
- $H_0: \mu = 50$ (La moyenne est de 50 mm).
- $H_1: \mu \neq 50$ (La moyenne est différente de 50 mm).
Étape 2 : Calculatrice
Avec la calculatrice et les entrées : $\mu_0=50, \bar{x}=49,8, s_x=0,5, n=15$. $$ t \approx -1,549 $$ $$ p\text{-value} \approx 0,143 $$
Étape 3 : Décision
$0,143 > 0,05$. Puisque $p > \alpha$, nous ne rejetons pas $H_0$.
Étape 4 : Conclusion
Il n'y a pas suffisamment de preuves au niveau de 5$\pourcent$ pour affirmer que la longueur moyenne des vis est différente de 50 mm.

Test-t pour deux échantillons indépendants

Définition Formule du test-t pour deux échantillons

Le test-t pour deux échantillons compare les moyennes de deux groupes indépendants pour voir si elles sont significativement différentes.
La statistique de test est donnée par :$$ t = \frac{\bar{x}_1 - \bar{x}_2}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} $$où :

$\bar{x}_1, \bar{x}_2$ sont les moyennes des échantillons.
$s_1^2, s_2^2$ sont les variances des échantillons.
$n_1, n_2$ sont les tailles des échantillons.

Méthode Étapes pour un test-t à deux échantillons avec une calculatrice

Étape 1 : Écrire les hypothèses
- $H_0: \mu_1 = \mu_2$ (Les moyennes des populations sont égales).
- $H_1: \mu_1 \neq \mu_2$ (ou $\mu_1 < \mu_2$, $\mu_1 > \mu_2$).
Étape 2 : Entrer les données dans la calculatrice
- Entrer les données dans List 1 et List 2 (ou utiliser les statistiques résumées $\overline{x_1}, s_1, n_1, \overline{x_2}, s_2, n_2$).
- Sélectionner Test-t 2 échantillons.
- Réglage Groupé (Pooled) :
  - Choisir Non (Défaut) : Cela suppose que les variances ne sont pas nécessairement égales. Cela utilise la formule avec $\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}$. Utiliser ceci sauf indication contraire.
  - Choisir Oui : N'utiliser ceci que si la question demande explicitement de « supposer que les variances des populations sont égales ».
Étape 3 : Règle de décision
Comparer la p-value au niveau de signification $\alpha$.
- Si $p\text{-value} < \alpha$ : Rejeter $H_0$.
- Si $p\text{-value} \geqslant \alpha$ : Ne pas rejeter $H_0$.
Étape 4 : Conclusion
Indiquer s'il y a suffisamment de preuves pour soutenir l'hypothèse alternative.

Exemple

Une enseignante veut comparer l'efficacité de deux méthodes d'enseignement. Elle assigne au hasard 10 élèves à la méthode A et 12 élèves à la méthode B. Les résultats du test final sont indiqués ci-dessous :

Méthode A : $75, 82, 90, 65, 88, 92, 78, 85, 70, 80$
Méthode B : $60, 72, 68, 75, 62, 80, 70, 65, 78, 66, 74, 69$

Tester au niveau de signification de 5 $\pourcent$ s'il existe une différence dans les scores moyens des deux méthodes.

Correction

Étape 1 : Hypothèses
- $H_0: \mu_A = \mu_B$ (Les scores moyens sont égaux).
- $H_1: \mu_A \neq \mu_B$ (Les scores moyens sont différents).
Étape 2 : Calculatrice
Entrer les données dans Liste 1 et Liste 2. Sélectionner Test-t 2 échantillons.
Comme la question ne précise pas que les variances sont égales, nous choisissons Groupé : Non. $$ \bar{x}_A = 80,5, \quad \bar{x}_B \approx 69,92 $$ $$ t \approx 3,19 $$ $$ p\text{-value} \approx 0,0057 $$
Étape 3 : Décision
$0,0057 < 0,05$. Puisque $p < \alpha$, nous rejetons $H_0$.
Étape 4 : Conclusion
Il y a des preuves suffisantes au niveau de 5$\pourcent$ pour suggérer que les scores moyens des deux méthodes sont différents.

Test-t apparié

Définition Test-t apparié

Le test-t apparié compare les moyennes de deux groupes dépendants (par exemple, des mesures « Avant et Après » sur le même sujet ou des paires appariées).
Il est utilisé lorsque :

Les données sont constituées de paires appariées $(x_1, x_2)$.
Les différences $d = x_2 - x_1$ (ou $x_1 - x_2$) sont calculées.
Les différences suivent une distribution normale.

Le test est essentiellement un test-t pour un échantillon effectué sur les différences $d$, testant si la différence moyenne $\mu_d$ est nulle.La statistique de test est :$$ t = \frac{\bar{d} - 0}{s_d / \sqrt{n}} $$

Méthode Étapes pour un test-t apparié

Étape 1 : Calculer les différences
Calculer la différence pour chaque paire : $d_i = x_{2i} - x_{1i}$ (en restant cohérent avec l'ordre choisi).
Étape 2 : Écrire les hypothèses
Soit $\mu_d$ la moyenne de la population des différences.
- $H_0: \mu_d = 0$ (Pas de différence en moyenne).
- $H_1: \mu_d \neq 0$ (ou $\mu_d < 0$, $\mu_d > 0$).
Étape 3 : Entrer les données dans la calculatrice
- Entrer les différences calculées dans la Liste 1 (ou mettre les données brutes dans L1, L2 et définir L3 = L2 - L1).
- Sélectionner Test-T (Test-t 1 échantillon) sur la liste des différences.
- Régler $\mu_0 = 0$.
Étape 4 : Décision et conclusion
Comparer la p-value à $\alpha$ et conclure dans le contexte du problème.

Exemple

Un programme de perte de poids prétend réduire le poids après un mois. Les poids de 5 participants sont enregistrés avant et après le programme.

Participant	1	2	3	4	5
Avant (kg)	80	95	88	102	90
Après (kg)	78	94	85	100	91

Tester au niveau de 5 $\pourcent$ si le programme réduit efficacement le poids.

Correction

Calculer les différences ($d = \text{Après} - \text{Avant}$) : $$ d = \{78-80, 94-95, 85-88, 100-102, 91-90\} $$ $$ d = \{-2, -1, -3, -2, 1\} $$
Hypothèses :
Soit $\mu_d$ la différence moyenne.
- $H_0: \mu_d = 0$ (Le programme n'a aucun effet).
- $H_1: \mu_d < 0$ (Le programme réduit le poids en moyenne).
Calculatrice :
Effectuer un Test-T 1 échantillon sur la liste des différences $\{-2, -1, -3, -2, 1\}$ avec $\mu_0 = 0$ et test $< \mu_0$. $$ \bar{d} = -1,4, \quad s_d \approx 1,517 $$ $$ t \approx -2,06 $$ $$ p\text{-value} \approx 0,0549 $$
Conclusion :
$0,0549 > 0,05$. Puisque $p > \alpha$, nous ne rejetons pas $H_0$.
Il n'y a pas suffisamment de preuves au niveau de 5$\pourcent$ pour conclure que le programme réduit efficacement le poids (même si la différence moyenne est négative, l'échantillon est petit et le résultat n'est pas statistiquement significatif).

Test du Chi-carré ($\chi^2$)

Test d'indépendance du Chi-carré

Le test du Chi-carré ($\chi^2$) d'indépendance détermine s'il existe une association significative entre deux variables catégorielles. Il compare les fréquences observées dans un tableau de contingence aux fréquences que l'on attendrait si les variables étaient totalement indépendantes.

Définition Fréquences observées et attendues

Fréquences observées ($f_o$) : Les données réelles collectées et enregistrées dans un tableau de contingence.
Fréquences attendues ($f_e$) : Les effectifs théoriques calculés en supposant que les variables sont indépendantes.

La formule pour la fréquence attendue d'une cellule est :$$ f_e = \frac{\text{Total ligne} \times \text{Total colonne}}{\text{Total général}} $$

Définition Statistique du Chi-carré

La statistique de test $\chi^2_{calc}$ mesure l'écart total entre les valeurs observées et attendues :$$ \chi^2_{calc} = \sum \frac{(f_o - f_e)^2}{f_e} $$Le degré de liberté ($df$) pour un tableau avec $r$ lignes et $c$ colonnes est :$$ df = (r - 1)(c - 1) $$

Méthode Étapes pour un test du Chi-carré

Étape 1 : Écrire les hypothèses
- $H_0$ : Les variables sont indépendantes.
- $H_1$ : Les variables ne sont pas indépendantes (elles sont associées).
Étape 2 : Entrer les données dans la calculatrice
- Entrer le tableau de contingence observé dans une Matrice (ex : Matrice A).
- Sélectionner Test $\chi^2$ (généralement sous Stat $\to$ Tests).
Étape 3 : Analyser les résultats
La calculatrice fournit $\chi^2_{calc}$, la p-value et les degrés de liberté ($df$).
Note : En règle générale, toutes les fréquences attendues doivent être au moins égales à 5 pour que le test soit fiable.
Étape 4 : Conclusion
Comparer la p-value au niveau de signification $\alpha$.
- Si $p\text{-value} < \alpha$ : Rejeter $H_0$ (Les variables sont dépendantes/associées).
- Si $p\text{-value} \geqslant \alpha$ : Ne pas rejeter $H_0$ (Pas de preuve d'association).

Exemple

Une enquête a interrogé 200 personnes sur leur type de film préféré et leur tranche d'âge. Les résultats sont présentés ci-dessous :

	Action	Comédie	Drame
Moins de 30	40	35	15
30 et plus	20	45	45

Tester au niveau de signification de 5 $\pourcent$ si la tranche d'âge et la préférence cinématographique sont indépendantes.

Correction

Étape 1 : Hypothèses
$H_0$ : La tranche d'âge et la préférence cinématographique sont indépendantes.
$H_1$ : La tranche d'âge et la préférence cinématographique ne sont pas indépendantes (elles sont associées).
Étape 2 : Calculatrice
Entrer la matrice $2 \times 3$ dans la calculatrice et exécuter le Test $\chi^2$.
- $\chi^2_{calc} \approx 21{,}1$
- $df = (2-1)(3-1) = 2$
- $p\text{-value} \approx 0{,}000026$ (environ $2{,}6 \times 10^{-5}$)
Étape 3 : Conclusion
$0{,}000026 < 0{,}05$. Puisque $p < \alpha$, nous rejetons $H_0$.
Il existe de fortes preuves suggérant que la préférence cinématographique dépend de la tranche d'âge.

Test d'adéquation du $\chi^2$

Le test d'adéquation est utilisé pour déterminer si une variable provient probablement d'une loi de probabilité donnée (par exemple la loi uniforme, binomiale, normale, ou un rapport de probabilités spécifique). Il compare les données observées avec ce que nous attendrions théoriquement.

Définition Statistique d'adéquation

Le test utilise la même formule statistique $\chi^2$ :$$ \chi^2_{calc} = \sum \frac{(f_o - f_e)^2}{f_e} $$Cependant, le calcul du degré de liberté ($df$) dépend de la distribution :$$ df = k - 1 - m $$où :

$k$ est le nombre de catégories (classes).
$m$ est le nombre de paramètres de population estimés à partir des données de l'échantillon (par exemple, si on calcule la moyenne et l'écart-type à partir de l'échantillon pour ajuster une loi normale, $m=2$).

Méthode Étapes pour un test d'adéquation

Étape 1 : Hypothèses
- $H_0$ : Les données suivent la distribution spécifiée.
- $H_1$ : Les données ne suivent pas la distribution spécifiée.
Étape 2 : Fréquences attendues
Calculer la fréquence attendue pour chaque catégorie : $$ f_e = n \times P(\text{catégorie}) $$ Note : Généralement fait dans la Liste 2 de la calculatrice.
Étape 3 : Calculatrice
- Entrer les valeurs observées dans la Liste 1 ($f_o$).
- Entrer les valeurs attendues dans la Liste 2 ($f_e$).
- Sélectionner Test $\chi^2$ GOF (Adéquation).
- Entrer le bon $df$.
Étape 4 : Conclusion
Comparer la p-value à $\alpha$ et interpréter le résultat dans le contexte.

Exemple

Un dé est lancé 60 fois. Les résultats sont :

Issue	1	2	3	4	5	6
Fréquence	8	12	15	9	10	6

Tester au niveau de 5$\pourcent$ si le dé est équilibré (distribution uniforme).

Correction

Hypothèses :
$H_0$ : Le dé est équilibré (distribution uniforme).
$H_1$ : Le dé n'est pas équilibré.
Fréquences attendues :
Total $n=60$. Si le dé est équilibré, $P(X=k) = 1/6$.
$$ f_e = 60 \times \frac{1}{6} = 10 \quad \text{pour toutes les issues} $$
Calculatrice / calculs :
$L_1: \{8, 12, 15, 9, 10, 6\}$
$L_2: \{10, 10, 10, 10, 10, 10\}$ $$ \chi^2_{calc} = \sum \frac{(f_o - f_e)^2}{f_e} = \frac{(8-10)^2}{10} + \frac{(12-10)^2}{10} + \cdots + \frac{(6-10)^2}{10} = 5{,}0 $$ Degrés de liberté : $df = k - 1 = 6 - 1 = 5$ (aucun paramètre estimé).
$p\text{-value} \approx 0{,}416$.
Conclusion :
$0{,}416 > 0{,}05$. Nous ne rejetons pas $H_0$. Le dé semble être équilibré.

Tests d'hypothèses

Procédure des tests statistiques

Logique des tests statistiques

p-value et le niveau de signification

Procédure en 5 étapes

Erreurs de Type I et Type II

Test-\(t\)

Test-t pour un échantillon

Test-t pour deux échantillons indépendants

Test-t apparié

Test du Chi-carré (\(\chi^2\))

Test d'indépendance du Chi-carré

Test d'adéquation du \(\chi^2\)

	\(H_0\) est vraie	\(H_0\) est fausse
Rejeter \(H_0\)	Erreur de Type I	Décision correcte
Ne pas rejeter \(H_0\)	Décision correcte	Erreur de Type II