Statistiques à deux variables : définitions

icône de pdf
Signaler

I. Définitions

Lorsqu’on étudie conjointement deux caractères (ou variables) xx et yy sur une même population de taille nn, on associe à chaque individu de la population un couple (xi;yi)(x_i ; y_i), où xix_i et yiy_i sont les valeurs respectives des variables xx et yy prises par l’individu « numéro ii » (où ii est un nombre entier entre 11 et nn, ou parfois entre 00 et n1n - 1).

Définition :

On appelle série statistique double (x;y)(x ; y) l’ensemble des couples (xi;yi)(x_i ; y_i) associés à chaque individu de la population. On la présente en général dans un tableau.

picture-in-textRemarque : La liste des valeurs associées à la variable xx est une série statistique simple dont on peut calculer la moyenne x\overline{x}. Il en va de même pour les valeurs de yy, dont la moyenne est y\overline{y} :

x=x1+x2++xnn\overline{x} = \dfrac{x_1 + x_2 + \dots + x_n}{n} et y=y1+y2++ynn\overline{y} = \dfrac{y_1 + y_2 + \dots + y_n}{n}

Définition :

On appelle point moyen de la série statistique double (x;y)(x ; y) le point GG de coordonnées (x,y)(\overline{x}, \overline{y}), où : x=x1+x2++xnn\overline{x} = \dfrac{x_1 + x_2 + \dots + x_n}{n} et y=y1+y2++ynn\overline{y} = \dfrac{y_1 + y_2 + \dots + y_n}{n}

Le point GG représente le barycentre des points du nuage de points associé à la série.

Définition :

À chaque couple (xi;yi)(x_i ; y_i) de la série statistique double (x;y)(x ; y), on peut associer le point MiM_i de coordonnées (xi;yi)(x_i ; y_i) dans un repère.

L’ensemble de ces points est appelé nuage de points associé à la série statistique double (x;y)(x ; y).

II. Exemple

On étudie la taille (en cm), notée xx, et le poids (en kg), noté yy, de 8 élèves. On recueille les données suivantes :

Élève

Taille xix_i (cm)

Poids yiy_i (kg)

1

150

45

2

160

50

3

155

48

4

165

55

5

170

60

6

158

49

7

162

52

8

168

57

La série statistique double (x;y)(x ; y) est l’ensemble des couples suivants :

(x1,y1)=(150,45)(x_1, y_1) = (150, 45)
(x2,y2)=(160,50)(x_2, y_2) = (160, 50)
(x3,y3)=(155,48)(x_3, y_3) = (155, 48)
(x4,y4)=(165,55)(x_4, y_4) = (165, 55)
(x5,y5)=(170,60)(x_5, y_5) = (170, 60)
(x6,y6)=(158,49)(x_6, y_6) = (158, 49)
(x7,y7)=(162,52)(x_7, y_7) = (162, 52)
(x8,y8)=(168,57)(x_8, y_8) = (168, 57)

On peut calculer les moyennes des variables xx et yy.

Pour la taille :

x=150+160+155+165+170+158+162+1688=12888=161\overline{x} = \dfrac{150 + 160 + 155 + 165 + 170 + 158 + 162 + 168}{8} = \dfrac{1288}{8} = 161

Pour le poids :

y=45+50+48+55+60+49+52+578=4168=52\overline{y} = \dfrac{45 + 50 + 48 + 55 + 60 + 49 + 52 + 57}{8} = \dfrac{416}{8} = 52

Le point moyen de la série est donc le point de coordonnées (x,y)=(161,52)(\overline{x}, \overline{y}) = (161, 52).

picture-in-textOn cherche s’il existe un lien entre ces deux variables, l’altitude et la température.
On va donc essayer de trouver une courbe qui « approche au mieux » le nuage, c’est-à-dire une courbe qui passe au plus près des points du nuage.
On dit que l’on a effectué un ajustement.

Cette courbe d’ajustement, si elle existe, représente alors une fonction ff qui permet quasiment d’exprimer la variable yy en fonction de la variable xx, sous la forme y=f(x)y = f(x).

Ici, les points sont presque alignés, donc on peut ajuster le nuage par une droite :
on a donc quasiment une relation du type : y=ax+by = ax + b entre les deux variables xx et yy de la série statistique.