Apprendre les statistiques de manière simple et accessible

La statistique est une discipline omniprésente dans notre quotidien. Elle permet, par exemple, de prévoir la météo des jours à venir ou, dans le cadre d’un commerce, d’estimer le nombre de clients attendus durant une période de soldes. Dans cet article, nous allons apprendre les statistiques de manière simple et accessible. À l’aide d’exemples concrets et de cas pratiques, nous aborderons les principes fondamentaux du calcul statistique et apprendrons à déterminer quelques indicateurs clés.​

Mais d’abord …

Comment définir la statistique pour les nuls?

Pour apprendre les statistiques, il faut comprendre leur définition. Alors, selon Wikipédia, la statistique est la discipline qui étudie des phénomènes à travers

  • la collecte de données,
  • leur traitement,
  • leur analyse
  • l’interprétation des résultats
  • et leur présentation 

afin de rendre ces données compréhensibles par tous. Je vais donc détailler chacun de ces points pour comprendre les bases de la statistique.

Données statistiques

Pour faire de la statistique on commence par collecter des données, il y a différentes manières pour faire cela, la méthode la plus utilisée est basée sur les sondages, un simple questionnaire axé sur les informations que l’on souhaite étudiées, on demande ensuite à un échantillon de la population concernée de remplir ce questionnaire. Et de cette manière on aura collecté les données nécessaires pour effectuer les calculs statistiques.

Collecte de données statistiques

Voici un exemple de collecte de données statistiques. On souhaite étudier par exemple le taux d’équipement d’écran d’un certains nombre de foyers. on leur demande par exemple de nous dire de combien ils disposent de

  • téléviseur;
  • ordinateur;
  • téléphone portable;
  • et tablette.
 téléviseurOrdinateurTéléphone mobileTablette
Foyer 11110
Foyer 20243
Foyer 31112
Foyer 40331
Foyer 52220
Foyer 62220
Foyer 72220
Foyer 81110
Foyer 93010
Foyer 103112
Foyer 111320
Foyer 123221
Foyer 132031
Foyer 141110
Foyer 151110
Foyer 162322
Foyer 171110
Foyer 182020
Foyer 192220
Foyer 202220

Comme on peut le voir, les données sont à l’état brut et difficilement exploitables en l’état. Il est donc nécessaire de les organiser et de les traiter. Avec les données de ce tableau on va apprendre les statistiques concrètement.

📊 Traiter les données : premières notions à connaître

Une fois les données collectées, il est temps de passer à leur traitement. Mais avant cela, il est essentiel de poser quelques bases en vocabulaire statistique. Commençons par définir ce qu’est une série statistique.

📘 Vocabulaire de base pour apprendre les statistiques

Dans une enquête statistique, on étudie un ou plusieurs caractères d’une population. Le caractère étudié est aussi appelé variable statistique.
Ce caractère peut appartenir à différentes catégories :

  • 🔹 Qualitatif : il s’agit de caractéristiques qui ne sont pas mesurables numériquement, comme les couleurs (ex. : rouge, blanc, noir…).
  • 🔹 Quantitatif continu : ce type de caractère peut prendre toutes les valeurs possibles dans un intervalle, comme les longueurs (ex. : 15,2 cm ; 17,45 cm ; 16,98 cm…).
  • 🔹 Quantitatif discret : ici, la variable ne peut prendre qu’un nombre limité de valeurs, souvent des nombres entiers (ex. : l’âge en années — 17 ans, 25 ans, etc.).
Schéma détaillant les types de caractère
Schéma détaillant les types de caractère

🔢 Qu’est-ce qu’une série statistique ?

Une série statistique désigne simplement l’ensemble des données recueillies, notées généralement xi. Il est essentiel de comprendre ceci pour apprendre les statistiques.
Pour rendre ces données plus lisibles et exploitables, on peut les organiser dans un tableau statistique.
Voici comment on pourrait représenter les résultats de l’enquête précédente sous forme de tableaux:

Nombre de téléviseur (xi)0123
Nombre de foyer (ni)2783
Nombre d’ordinateur (xi)0123
Nombre de foyer (ni)3773
Nombre de Téléphone mobile (xi)1234
Nombre de foyer (ni)8921
Nombre de Tablette (xi)0123
Nombre de foyer (ni)13331

📊 Classe, effectif et effectif total

  • Une classe correspond à une tranche de valeurs dans laquelle on regroupe plusieurs données de la série.
    • Par exemple, si l’on interroge des personnes sur leur âge, on peut organiser les réponses par classes.
    • La classe [18 ; 25[ regroupera toutes les personnes dont l’âge est compris entre 18 ans inclus et 25 ans exclus.
  • L’effectif d’une classe ou d’une valeur correspond au nombre de fois qu’elle apparaît dans la série.
    • Par exemple, si l’on étudie le nombre de téléviseurs par foyer, et que 7 foyers possèdent 1 téléviseur, alors l’effectif de la valeur 1 est égal à 7.
  • L’effectif total, noté N, représente le nombre total de données recueillies. Il est égal à la somme de tous les effectifs :
    • N=n1+n2+n3+⋯+ni​.
    • Dans notre exemple, 20 foyers ont été interrogés, donc l’effectif total est N=20N=20.

📈 Indicateurs statistiques essentiels pour apprendre les statistiques

Pour apprendre les statistiques, il est primordial de connaitre les indicateurs statistiques.

Il en existe une grande variété selon les domaines et les objectifs de l’analyse, mais pour garder ce cours simple et accessible à tous, nous allons nous concentrer sur les indicateurs les plus faciles à comprendre et les plus utiles pour interpréter des données brutes.

✅ La fréquence

La fréquence est un indicateur très important, elle permet de donner une idée précise sur l’importance (ou le poids) d’une valeur statistique par rapport au total.

La fréquence est souvent notée fi, elle se calcule de la manière suivante :

fi = ni / N.

où ni est l’effectif de la valeur ou de la classe, et N l’effectif total.

  • La fréquence est une valeur comprise entre 0 et 1.
  • On peut aussi l’exprimer en pourcentage, en multipliant par 100.

📌 Exemple :
Dans un tableau où 7 foyers sur 20 possèdent 1 téléviseur, on a :

f = 7/20 = 0,35 ⇒ soit 35%

Donc 35 % des foyers interrogés ont un seul téléviseur.

📌 Autre exemple :
18 foyers sur 20 ont au moins un téléviseur, la fréquence est :

f = 18/20 =0,9 ⇒ 90%

Cela signifie que 90 % des foyers disposent d’au moins un téléviseur.

➗ La moyenne

La moyenne est un indicateur qui résume l’ensemble des données par une seule valeur représentative.

🧮 Cas 1 : moyenne simple

Si on connaît toutes les valeurs individuellement, on utilise :

xˉ = (x1+x2+x3+⋯+xN) / N

🧮 Cas 2 : moyenne pondérée

Lorsque les données sont groupées par valeurs avec leurs effectifs ni, on calcule :

xˉ = n1⋅x1 + n2⋅x2 +⋯+ np⋅xp / N

Dans ce cas, la moyenne est pondérée par les effectifs.

Toujours avec notre exemple de l’enquête sur les écrans, dans la cas du nombre de téléviseur par foyer, l’effectif total est : N=20. Le nombre total de téléviseur est 32.

La moyenne est donc 32/20 = 1,6 téléviseur par foyer.

📍 La médiane

La médiane Me est la valeur qui partage la série statistique en 2 groupes tel que :

  • Au moins 50% des données ont des valeurs inférieures ou égales à Me;
  • Au moins 50% des données ont des valeurs supérieures ou égales à Me.

La moyenne et la médiane sont des indicateurs statistiques dits de position (ils indiquent le centre de la série).

L’Étendue

L’étendue d’une série est tout simplement la différence entre la plus grande et la plus petite valeur. 

Soit par exemple la série de vaeurs: 12 ; 10 ; 6 ; 14 ; 8 ; 19. L’étendue de cette série est égale à : 19– 6 = 13

Quartiles 

Les quartiles Q1 (premier quartile) et Q3 (troisième quartile) d’une série sont calculés de la manière suivante :

Au moins 25% des données ont des valeurs inférieures ou égales à Q1;

Au moins 75% des données ont des valeurs inférieures ou égales à Q3;

Environ 50% des données ont des valeurs comprises entre Q1 et Q3;

[Q1 ; Q3] est l’intervalle interquartile;

[Q3 – Q1] est l’écart interquartile;

Si on prend l’exemple de la série suivante :

  • 2 ; 2 ; 3 ; 5 ; 6 ; 8 ; 9 ; 10 ; 12 ; 14 ; 15 ; 16 ; 17 ; 19

Cette série est ordonnée et son effectif total est 14

  • 25% de 14 est égale à 3,5. Donc le premier quartile est la valeur de la 4ème donnée. D’où : Q1 = 5 (les valeurs de 4 données ≤ 5)
  • 75% de 14 est égale à 10,5. Donc le troisième quartile est la valeur de la 11èmedonnée. D’où : Q3 = 15 (les valeurs de 11 données ≤ 15)
  • 50% de 14 est égale à 7. Environ 7 données (8 exactement) ont des valeurs comprise entre 5 et 15

L’étendue et les quartiles sont des indicateurs statistiques dits de dispersion (ils indiquent si les valeurs sont très regroupées autour du « centre » de la série).

Apprendre les statistiques avec les principaux indicateurs

Voici un schéma récapitulatif pour calculer les principaux indicateurs statistiques :

Méthodes de calcul des principaux indicateurs statistiques

Les résultats statistiques

La partie analyse est une partie très importante dans les études statistiques, car on doit extraire des informations à partir des différents calculs effectués. Ces informations vont nous permettre de prendre des décisions ou tirer des conclusions.

Pour bien analyser les résultats statistiques, il est important de savoir les présenter de différentes manières. Excel est un excellent choix pour présenter les résultats statistiques. Vous consulter l’article comment utiliser excel pour faire des représentations de données.

On peut présenter par exemple les résultats de l’enquête que j’ai utilisée pour illustrer ce cours de la manière suivante :

Présentation avec des tableaux

TotalMoyenneFréquenceFréquence en%
Téléviseur 321.60.29129.1%
Ordinateur301.50.27327.3%
Téléphone mobile361.80.32732.7%
Tablette120.60.10910.9%

Présentations graphiques. Diagramme en bâtons

Chaque valeur de la série est représentée par un bâton (ou une barre) dont la largeur est constante et la longueur est proportionnel à l’effectif (ou à la fréquence)

Diagramme batons

Diagramme secteurs circulaire

Chaque valeur de la série est représentée par un secteur circulaire dont l’angle est proportionnel à l’effectif (ou à la fréquence)

Diagramme en secteur
Diagramme camembert

Histogramme 

Ce type de diagramme est utilisé souvent quand il s’agit d’une étude par classe de donnée. Chaque classe de la série est représentée par un rectangle dont la largeur correspond à la largeur de la classe, l’air du rectangle est proportionnel à l’effectif (ou à la fréquence)

Si on considère la classe de données suivante :

Classe155 – 160160;165165;170170;175175;180180;185185;190190;195195;200
Effectif37121720171273

Cette classe peut être représentée par l’histogramme suivant :

Représentation graphique
Histogramme

Grâce à ce type de présentation, on peut extraire des informations pertinentes qui vont nous permettre de mieux répondre aux questions fixées par l’enquête statistique.

Vous pouvez consulter l’article sur comment monétiser une page instagram qui met en pratique quelques enseignement de ce cours.

Voilà ce cours touche à sa fin, j’espère que j’ai réussi à vous éclairer sur les principes de base de la statistiques, d’autres exemples et cas pratiques viendront par la suite pour illustrer et appliquer ce cours.

Si vous avez des questions n’hésitez pas à m’en faire part en postant des commentaires, je répondrai avec plaisir.

Si vous avez aimé l'article vous êtes libre de le partager :)

3 commentaire

  1. Super ce blog, j’ai adolescent en 3ᵉ et je cale dès qu’il faut lui expliquer quoi que ce soit et surtout sur les statistiques…. Je garde précieusement ton site sous le coude pour les urgences mathématiques et celle à venir sur le code. 😉

    1. Merci
      et c’est vrai que ce n’est pas toujours facile d’expliquer des choses qui nous paraissent évidentes

Laisser un commentaire