Lecture de données avec Python (intervalle de confiance 95%)

icône de pdf
Signaler
Apprends à interpréter en Python la moyenne, l’écart type et un intervalle de confiance pour comprendre la distribution d’une série. Mots-clés : Python, moyenne, écart type, intervalle, statistiques, simulation

Objectif de la leçon
Savoir lire et interpréter les résultats d’une fonction Python renvoyant la moyenne mm, l’écart type ss, et comprendre la proportion d’éléments appartenant à l’intervalle [m2s, m+2s][m - 2s,\ m + 2s].

  1. Moyenne et écart type : rappels

  • La moyenne mm donne une idée de la valeur « centrale » ou « typique » d’une série de données.

  • L’écart type ss mesure l’écart moyen des valeurs par rapport à cette moyenne. Plus ss est petit, plus les données sont regroupées autour de mm.

  1. Interprétation de l’intervalle [m2s, m+2s][m - 2s,\ m + 2s]
    Dans une distribution symétrique proche d’une loi normale (cas fréquent dans les grandes séries de données simulées), environ 95 % des données se trouvent à l’intérieur de l’intervalle : [m2s, m+2s][m - 2s,\ m + 2s]
    C’est ce qu’on appelle l’intervalle de confiance à 95 % autour de la moyenne.

  2. Exemple d’application
    Un programme Python renvoie les résultats suivants :

    moyenne = 72.3

    ecart_type = 4.5

On en déduit que 95 % des valeurs se trouvent entre :
m2s=72,32×4,5=72,39=63,3m - 2s = 72{,}3 - 2 \times 4{,}5 = 72{,}3 - 9 = 63{,}3
m+2s=72,3+9=81,3m + 2s = 72{,}3 + 9 = 81{,}3
Donc environ 95 % des données de la série se situent entre 63,3 et 81,3.

  1. Lecture verbale
    Lorsque tu lis un résultat du type :

"m = 72,3, s = 4,5, intervalle de confiance : [63,3 ; 81,3]"

Tu peux dire :
"Les données sont en moyenne autour de 72,3, avec une dispersion de 4,5. Environ 95 % des valeurs sont comprises entre 63,3 et 81,3."

  1. Cas d’usage typique en Python

    picture-in-text

  2. À retenir

  • L’intervalle [m2s, m+2s][m - 2s,\ m + 2s] contient environ 95 % des valeurs si la distribution est régulière et symétrique.

  • Cela ne veut pas dire que toutes les séries suivent cette règle, mais c’est une approximation très utile en statistiques descriptives, notamment avec des données simulées.