Pour aller plus loin : Échantillonnage, intervalle de fluctuation et intervalle de confiance

icône de pdf
Signaler
Apprends à interpréter des résultats statistiques grâce aux notions d'échantillonnage, d'intervalle de fluctuation et d'intervalle de confiance. Ces outils sont essentiels pour comprendre les sondages et valider des hypothèses avec un seuil de confiance de 95%. Mots-clés : échantillon, fluctuation, intervalle de fluctuation, intervalle de confiance, probabilité, fréquence, sondage, statistique, seuil de 95%, prise de décision, marge d'erreur

👉 Ce contenu va au delà des attendus du programme de seconde, mais il permet de comprendre le contexte des échantillonnages et les réponses que Python peut apporter.

Prérequis
Tu auras besoin dans ce chapitre de savoir calculer une fréquence et une probabilité ainsi que d'être capable de fournir une interprétation de ces calculs.

Enjeu
Dans ce chapitre, on va essayer d'extrapoler des valeurs à partir d'échantillons de population ou au contraire tirer des conclusions portant sur la population à partir des données en notre possession.

I. Échantillon et fluctuation


Il est parfois impossible d'étudier le caractère d'une population dans sa totalité. C'est le cas quand on étudie la population d'un pays mais aussi quand on s'intéresse à des lancers de dés, à l'étude qualitative de composants électroniques. On s'intéresse alors à une partie représentative de cette population qu'on appelle un échantillon.

Définition
Un échantillon de taille nn est constitué des résultats de nn répétitions indépendantes de la même expérience.
Un échantillon, pour être utilisable mathématiquement, doit être aléatoire.

Mise en garde : l'exemple des sondages électoraux ne peut être valable que si le sondage est réalisé à partir de tirages aléatoires dans la population. Certains résultats de sondages peuvent laisser penser que cela relève plus de la communication commerciale de certains instituts de sondage que d'une réalité quelconque.

En admettant que le panel est bien aléatoire, prenons l'exemple de ces sondages électoraux. Les instituts s'intéressent aux intentions de votes d'un panel d'individus très souvent compris entre 1 000 et 10 000 personnes. En fonction des résultats obtenus, ils sont alors capables de fournir une photographie à l'instant donné de l'opinion des habitants d'un pays, d'une région ou d'une ville. C'est ce qu'on appelle la distribution des fréquences.

Mais à chaque échantillon qu'on va choisir va correspondre une nouvelle distribution des fréquences différente.

Regardons ce qui se passe quand on effectue 100 lancers de dés deux fois de suite à l'aide d'un algorithme sous Algobox :

Voici la sortie logicielle
picture-in-text

Obtenue à partir de l'algorithme suivant
picture-in-text

Déterminons les fréquences associées à chacune des faces pour ces deux expériences
picture-in-text

On constate donc qu'au fil des expériences les fréquences sont légèrement différentes. C'est ce qu'on appelle les fluctuations d'échantillonnage. Plus la taille de l'échantillon sera grande, moins les écarts entre les fréquences seront visibles.

Les instituts chargés de faire des statistiques essayent de faire un compromis entre la fiabilité des résultats et la taille de l'échantillon choisi. Ils fournissent, dans tous les cas, leurs résultats accompagnés de la taille de l'échantillon et de la marge d'erreur associée.

Voyons maintenant comment déterminer une fourchette raisonnable dans laquelle la majeure partie de nos valeurs sont censées se trouver.

II. Intervalle de fluctuation


On considère une population de nn individus sur laquelle on connaît la probabilité d'apparition pp d'un caractère donné.

Définition
On appelle intervalle de fluctuation au seuil de 95% correspondant à un échantillon de taille nn un intervalle centré sur pp pour lequel la probabilité que la fréquence observée d'apparition du caractère est au moins égale à 0,95.

Remarque : il est impossible d'être certain que la fréquence appartienne à un intervalle donné sauf si on prend l'intervalle [0;1][0;1] du fait des fluctuations observées dans la partie précédente.

Propriété

Lorsque n25n \geq 25 et 0,2p0,80{,}2 \leq p \leq 0{,}8, un intervalle de fluctuation au seuil de 95% est donné par : [p1n  ;  p+1n]\left[p-\dfrac{1}{\sqrt{n}}\;;\;p+\dfrac{1}{\sqrt{n}}\right]

Remarque : L'amplitude de cet intervalle est p+1n(p1n)=2np+\dfrac{1}{\sqrt{n}}-(p-\dfrac{1}{\sqrt{n}})=\dfrac{2}{\sqrt{n}}

Exemple : On lance 100 fois une pièce équilibrée et on s'intéresse à la fréquence d'apparition du « Pile ». On a donc n=100n = 100 et p=12p = \frac{1}{2}.

L'intervalle de fluctuation au seuil de 95% est donc :
I=[121100  ;  12+1100]I =\left[\dfrac{1}{2}-\dfrac{1}{\sqrt{100}}\;;\;\dfrac{1}{2}+\frac{1}{\sqrt{100}}\right]

I=[12110  ;  12+110]{\phantom I}= \left[\dfrac{1}{2}-\dfrac{1}{10}\;;\;\dfrac{1}{2}+\dfrac{1}{10}\right]

I=[0,4  ;  0,6]{\phantom I}= [0{,}4\;;\;0{,}6]

Remarque : Quand on doit fournir des arrondis, la borne de gauche de l'intervalle est arrondie par défaut et celle de droite par excès.

Par conséquent, ici, on devrait voir des fréquences d'apparition de « Pile » comprises entre 0,4 et 0,6 au gré des fluctuations.

Échantillon représentatif ou pas ?

Voyons maintenant si un échantillon est représentatif d'une population à l'aide de la méthode de prise de décision suivante.

  • On fait l'hypothèse que la proportion du caractère étudié dans la population est pp

  • On détermine un intervalle de fluctuation II au seuil de 95% pour la proportion pp du caractère étudié dans un échantillon de taille nn

  • On détermine la fréquence d'apparition ff du caractère dans l'échantillon

  • Si fIf\notin I alors on peut rejeter l'hypothèse que l'échantillon soit compatible avec le modèle, au risque d'erreur de 5%

  • Si fIf\in I alors on ne peut pas rejeter l'hypothèse que l'échantillon soit compatible avec le modèle

Exemple : Sur 100 lancers de pièces, on constate que « Pile » est sorti 58 fois. La fréquence observée est donc f=0,58f = 0{,}58. On émet l'hypothèse que la pièce est équilibrée. Est-ce raisonnable ?
Un intervalle de fluctuation au seuil de 95% est :

I=[0,501100  ;  0,50+1100]I=\left[0{,}50-\dfrac{1}{\sqrt{100}}\;;\;0{,}50+\dfrac{1}{\sqrt{100}}\right]

I=[0,4  ;  0,6]{\phantom I}=[0{,}4\;;\;0{,}6]

Par conséquent fIf \in I et l'hypothèse que la pièce soit équilibrée n'est pas remise en cause au seuil de confiance de 95%.

III. Intervalle de confiance


Dans cette partie, nous allons adopter une position différente. Nous voulons déterminer la proportion pp d'un caractère dans une population à partir d'échantillons représentatifs. On considère ici encore un échantillon de taille nn pour lequel la fréquence observée du caractère est ff.

Propriété
Au moins 95%95\% des intervalles de la forme [f1n  ;  f+1n]\left[f-\dfrac{1}{\sqrt{n}}\;;\;f+\dfrac{1}{\sqrt{n}}\right] contiennent la proportion pp.

Preuve :
On a vu précédemment que la probabilité que ff appartienne à l'intervalle [f1n  ;  f+1n]\left[f-\dfrac{1}{\sqrt{n}}\;;\;f+\dfrac{1}{\sqrt{n}}\right] est d'au moins 0,95.


Cela signifie donc que p1nfp-\dfrac{1}{\sqrt{n}} \leq f et fp+1nf \leq p+\dfrac{1}{\sqrt{n}}
Donc pf+1np \leq f+\dfrac{1}{\sqrt{n}} et f1npf-\dfrac{1}{\sqrt{n}}\leq p

Cela signifie qu'on peut donc estimer la valeur de pp à l'aide de ce type d'intervalle, appelé intervalle de confiance, avec un seuil de confiance de 95%.

Cela est particulièrement utile dans les sondages d'opinion puisqu’il est impossible de sonder un pays tout entier.

Exemple :
Un sondage effectué auprès de 1 000 personnes indique que 52% d'entre elles sont favorables à un projet d'aménagement du territoire.

Déterminons un intervalle de confiance au seuil de 95% :
I=[0,5211000  ;  0,52+11000]I=\left[0{,}52-\dfrac{1}{\sqrt{1000}}\;;\;0{,}52+\dfrac{1}{\sqrt{1000}}\right]

I[0,48  ;  0,56]{\phantom I}\approx[0{,}48\;;\;0{,}56]

Cela signifie donc, au seuil de confiance de 95%, qu'entre 48% et 56% de la population est favorable au projet. On ne peut donc pas être certain que la majorité y est favorable.