Variables bivariées

En statistique univariée, nous analysons une seule variable à la fois. La statistique bivariée étend cette analyse pour explorer la relation entre deux variables. En examinant des paires de données, nous pouvons rechercher des motifs, déterminer la nature et la force de leur relation, et utiliser cette relation pour faire des prédictions. Ce chapitre se concentre sur la relation entre deux variables quantitatives.

Variables bivariées

Définition Données bivariées

Les données bivariées se composent de paires de valeurs pour deux variables quantitatives, enregistrées pour chaque individu d'un ensemble de données. Nous notons généralement ces variables $(x, y)$, où :

$x$ est la variable indépendante (ou variable explicative).
$y$ est la variable dépendante (ou variable de réponse).

Exemple

Un enseignant enregistre les heures d'étude de chaque élève ($x$) et leur note à l'examen final ($y$).

Heures d'étude ($x$)	5	10	8	15
Note à l'examen ($y$)	50	85	75	95

Chaque paire de valeurs, telle que $(5, 50)$, est un point de donnée bivariée.

Nuages de points

Définition Nuage de points

Un nuage de points est un graphique qui affiche des données bivariées sous forme d'un ensemble de points dans le plan cartésien. La variable indépendante (explicative) est placée sur l'axe horizontal (axe des $x$), et la variable dépendante (réponse) est placée sur l'axe vertical (axe des $y$).

Un nuage de points est l'outil principal pour identifier visuellement une relation potentielle, ou corrélation, entre deux variables quantitatives.

Méthode Construire un nuage de points

Identifier les variables : Déterminer quelle variable est indépendante ($x$) et quelle est dépendante ($y$).
Préparer les axes : Dessiner et légender l'axe horizontal pour la variable $x$ et l'axe vertical pour la variable $y$. Choisir des échelles appropriées pour les deux axes qui couvrent l'étendue des données.
Placer les points : Pour chaque paire de valeurs ($x, y$) de votre ensemble de données, placer un unique point sur le graphique aux coordonnées correspondantes.

Exemple

Un enseignant a enregistré le nombre d’heures d’étude des élèves et leurs notes aux examens. Les données sont présentées ci-dessous :

Heures d’étude ($x$)	5	10	8	15
Note à l’examen ($y$)	50	85	75	95

Construis un nuage de points pour visualiser ces données.

Correction

Variables : « Heures d’étude » est la variable indépendante ($x$) et « Note à l’examen » est la variable dépendante ($y$).
Axes : L'axe des x sera légendé « Heures d’étude » et l'axe des y « Note à l’examen ». Les échelles doivent couvrir les plages de données.
Placer les points : Nous plaçons les quatre paires de coordonnées : (5, 50), (10, 85), (8, 75) et (15, 95).

Le nuage de points obtenu est présenté ci-dessous :

Corrélation

Définition Corrélation

La corrélation décrit la nature de la relation entre deux variables quantitatives.

Définition Direction : Positive ou Négative

La direction décrit la tendance générale des données.

Positive : Lorsque la variable indépendante ($x$) augmente, la variable dépendante ($y$) a tendance à augmenter. Les points suivent une tendance à la hausse.
Négative : Lorsque la variable indépendante ($x$) augmente, la variable dépendante ($y$) a tendance à diminuer. Les points suivent une tendance à la baisse.

Définition Forme : Linéaire ou non linéaire

La forme de la relation est linéaire si les points de données semblent suivre un motif de ligne droite. S'ils suivent une autre courbe qu'une droite, la forme est non linéaire.

Définition Force

La force d'une corrélation décrit à quel point les points de données adhèrent à la forme identifiée.

Définition Données aberrantes

Une donnée aberrante est un point de données qui s'écarte de manière significative du motif principal des données.

Méthode Décrire une corrélation

Lorsqu'on demande de décrire la relation montrée dans un nuage de points, on doit toujours commenter les quatre caractéristiques dans une déclaration concise.

Direction : Est-elle positive ou négative ?
Forme : Est-elle linéaire ou non linéaire ?
Force : Est-elle forte, modérée ou faible ?
Données aberrantes : Y a-t-il des données aberrantes notables ?

Exemple

Décrire la corrélation entre les heures d'étude et les notes à l'examen montrée dans ce nuage de points.

Correction

Il semble y avoir une corrélation linéaire positive et forte entre les heures d'étude et les notes à l'examen. À mesure que le nombre d'heures d'étude augmente, la note à l'examen a tendance à augmenter selon un motif linéaire. Il n'y a pas de données aberrantes évidentes.

Corrélation et Causalité

La corrélation n'implique pas la causalité

L'observation d'une relation statistique (corrélation) entre deux variables, $x$ et $y$, n'est pas une preuve suffisante pour conclure qu'un changement de $x$ provoque un changement de $y$.

Définition Causalité

La causalité n'existe que s'il est démontré qu'un changement de la variable indépendante provoque directement un changement de la variable dépendante. La preuve de la causalité nécessite une expérience contrôlée soigneusement conçue, et non de simples données d'observation.

Définition Variable de confusion

Souvent, une corrélation entre deux variables ($x$ et $y$) est en réalité causée par un troisième facteur non observé, appelé variable de confusion ($z$). Cette variable influence à la fois $x$ et $y$, créant entre eux une relation apparente mais trompeuse.

Exemple

Les données montrent une forte corrélation positive entre les ventes de glaces et le nombre de coups de soleil.
Cela signifie-t-il que manger des glaces provoque des coups de soleil ? Sinon, identifier les relations et la probable variable de confusion.

Correction

Non, manger des glaces ne provoque pas de coups de soleil.

La relation entre les ventes de glaces et les cas de coups de soleil est une corrélation, et non une causalité.
La variable de confusion probable est le temps ensoleillé. Les journées chaudes et ensoleillées provoquent une augmentation des ventes de glaces et provoquent également une augmentation du nombre de personnes qui prennent des coups de soleil.

Mesurer la corrélation

Bien que les nuages de points nous permettent de décrire visuellement une corrélation, cette évaluation est subjective. Pour fournir une mesure précise et objective de la force et de la direction d'une relation linéaire, nous utilisons des coefficients numériques.

Définition Coefficient de Corrélation de Pearson (r)

Le coefficient de corrélation de Pearson ($r$) est une valeur dans l'intervalle $[-1, 1]$ qui quantifie la direction et la force d'une relation linéaire entre deux variables quantitatives.

Le signe de $r$ indique la direction (positive ou négative).
La valeur absolue de $r$ indique la force. Une valeur de $|r|$ proche de 1 implique une forte corrélation linéaire, tandis qu'une valeur proche de 0 implique une corrélation linéaire faible ou nulle.

Valeur de $\|r\|$	Force de la corrélation
$\|r\| = 1$	Parfaite
$0,9 \le \|r\| < 1$	Très forte
$0,7 \le \|r\| < 0,9$	Forte
$0,5 \le \|r\| < 0,7$	Modérée
$0,3 \le \|r\| < 0,5$	Faible
$0 \le \|r\| < 0,3$	Très faible ou nulle

Définition Coefficient de détermination (r²)

Le coefficient de détermination ($r^2$) est le carré du coefficient de corrélation. C'est une valeur dans l'intervalle $[0, 1]$ et est généralement exprimée en pourcentage.
La valeur de $r^2$ représente la proportion de la variance de la variable dépendante ($y$) qui est prévisible à partir de la variable indépendante ($x$). En termes simples, il nous indique la qualité de l'ajustement du modèle linéaire aux données.

Exemple

Une étude sur les heures d'étude et les notes d'examen trouve un coefficient de corrélation de $r = 0,9$.
Interpréter $r$ et $r^2$.

Correction

Interprétation de $r$ : Puisque $r=0,9$, il y a une corrélation linéaire, positive et très forte entre les heures passées à étudier et les notes d'examen.
Interprétation de $r^2$ : Nous calculons $r^2 = (0,9)^2 = 0,81$. Cela signifie que 81$\pourcent$ de la variation des notes d'examen peut être expliquée par la relation linéaire avec le nombre d'heures passées à étudier. Les 19$\pourcent$ restants sont dus à d'autres facteurs (par ex., talent naturel, qualité du sommeil, etc.).

Régression linéaire

Lorsqu'un nuage de points indique une corrélation linéaire entre deux variables, nous pouvons modéliser cette relation par une droite. Cette droite, appelée droite de régression, peut être utilisée pour faire des prédictions. La fiabilité de ce modèle est souvent évaluée à l'aide du coefficient de détermination ($r^2$). Une valeur élevée de $r^2$ indique qu'une grande partie de la variance de la variable dépendante est expliquée par la variable indépendante, ce qui suggère que le modèle linéaire est bien ajusté aux données.

Définition Droite de régression des moindres carrés

La droite de régression des moindres carrés, écrite sous la forme $y = ax + b$, est l'unique droite du meilleur ajustement qui modélise la relation linéaire entre $x$ et $y$. Elle est calculée en minimisant la somme des carrés des résidus.
Un résidu est la distance verticale entre un point de donnée observé $(x_i, y_i)$ et le point prédit sur la droite de régression $(x_i, \hat{y}_i)$.$$ \text{Résidu} = y_{\text{observé}} - y_{\text{prédit}} = y_i - \hat{y}_i $$Une propriété clé est que la droite de régression des moindres carrés passe toujours par le point moyen, $(\bar{x}, \bar{y})$.

Définition Interpolation et Extrapolation

La droite de régression peut être utilisée pour faire des prédictions :

L'interpolation est le processus de prédiction d'une valeur de $y$ pour une valeur de $x$ qui se situe à l'intérieur de l'étendue des données originales. Si la corrélation est forte, l'interpolation est généralement considérée comme fiable.
L'extrapolation est le processus de prédiction d'une valeur de $y$ pour une valeur de $x$ qui se situe à l'extérieur de l'étendue des données originales. L'extrapolation est généralement considérée comme non fiable, car nous ne pouvons pas supposer que la tendance linéaire se poursuit indéfiniment.

Exemple

Pour les données « Heures d'étude vs. Note à l'examen », une calculatrice graphique calcule la droite de régression comme étant $y = 3,5x + 40$. Les données pour les heures d'étude s'étendaient de 2 à 18 heures.

Prédire la note d'examen d'un élève qui a étudié pendant 11 heures.
Prédire la note d'examen d'un élève qui a étudié pendant 25 heures.
Commenter la fiabilité de la prédiction de la partie (b).

Correction

Puisque $x=11$ est dans l'intervalle des données, il s'agit d'une interpolation. $$ y = 3,5(11) + 40 = 38,5 + 40 = 78,5 $$ La note prédite est de 78,5.
Puisque $x=25$ est en dehors de l'intervalle des données, il s'agit d'une extrapolation. $$ y = 3,5(25) + 40 = 87,5 + 40 = 127,5 $$ La note prédite est de 127,5.
La prédiction de la partie (b) est non fiable. C'est une extrapolation, et nous ne pouvons pas supposer que la tendance linéaire se poursuit pour 25 heures d'étude. De plus, le modèle prédit une note supérieure à 100, ce qui est impossible dans ce contexte, soulignant le danger de l'extrapolation.

Heures d'étude (\(x\))	5	10	8	15
Note à l'examen (\(y\))	50	85	75	95

Heures d’étude (\(x\))	5	10	8	15
Note à l’examen (\(y\))	50	85	75	95

Valeur de \(\|r\|\)	Force de la corrélation
\(\|r\| = 1\)	Parfaite
\(0,9 \le \|r\| < 1\)	Très forte
\(0,7 \le \|r\| < 0,9\)	Forte
\(0,5 \le \|r\| < 0,7\)	Modérée
\(0,3 \le \|r\| < 0,5\)	Faible
\(0 \le \|r\| < 0,3\)	Très faible ou nulle