Cours facile pour apprendre la statistique

La statistique est une discipline très utilisée dans la vie de tous les jours. C’est grâce à la statistique qu’on peut prévoir, par exemple, la météo des jours qui viennent, ou encore dans le cadre d’un magasin de commerce, le nombre de personnes que l’on compte accueillir durant une période de solde.

Dans cet article je vais essayer de vous éclairer sur quelques principes de calculs statistique. Je vais utiliser des exemples extraits de cas pratiques pour appliquer les enseignements du cours et calculer quelques indicateurs statistiques.

Mais d’abord …

Comment définir la statistique?

Alors, selon Wikipédia, la statistique est la discipline qui étudie des phénomènes à travers

  • la collecte de données,
  • leur traitement,
  • leur analyse
  • l’interprétation des résultats
  • et leur présentation 

afin de rendre ces données compréhensibles par tous.

Je vais donc détailler chacun de ces points pour comprendre les bases de la statistique.

Données statistiques

Pour faire de la statistique on commence par collecter des données, il y a différentes manières pour faire cela, la méthode la plus utilisée est basée sur les sondages, un simple questionnaire axé sur les informations que l’on souhaite étudiées, on demande ensuite à un échantillon de la population concernée de remplir ce questionnaire. Et de cette manière on aura collecté les données nécessaires pour effectuer les calculs statistiques.

Exemple de collecte de données statistiques

On souhaite étudier par exemple le taux d’équipement d’écran d’un certains nombre de foyers. on leur demande par exemple de nous dire de combien ils disposent de

  • téléviseur;
  • ordinateur;
  • téléphone portable;
  • et tablette.
Foyer 1Foyer 2Foyer 3Foyer 4Foyer 5Foyer 6Foyer 7Foyer 8Foyer 9Foyer 10
téléviseur1010222133
Ordinateur1213222101
Téléphone mobile1413222111
Tablette0321000002
Foyer 11Foyer 12Foyer 13Foyer 14Foyer 15Foyer 16Foyer 17Foyer 18Foyer 19Foyer 20
téléviseur1321121222
Ordinateur3201131022
Téléphone mobile2231121222
Tablette0110020000
Tableau des données collectées

Comme on peut le constater, les données sont brutes, elles sont quasiment incompréhensibles à cet état, il faudra donc les traiter

Traitement des données

Une fois les données collectées, on peut commencer à les traiter. mais avant de faire cela, on va donner quelques définitions statistiques. tout d’abord, on va commencer par définir la série statistique.

Vocabulaire statistique

Lors d’une enquête statistique on étudie un ou plusieurs caractères d’une population, le caractère étudié, est aussi appelé variable statistique. Le caractère peut être 

  • soit qualitatif (comme par exemple les couleurs : rouge, blanc noir, …)
  • ou quantitatif continu, il prend toutes les valeurs dans un intervalle (comme par exemple les longueurs :15,2cm ; 17,45cm ; 16,98com …
  • ou bien quantitatif discret il ne prend qu’un nombre limité de valeurs dans un intervalle (comme par exemple l’âge en année : 17 ans ; 25 ans ;…
Schéma détaillant les types de caractère
  • Une série statistique est tout simplement, l’ensemble des des données recueillies (xi). Le tableau représentatif de l’enquête de l’exemple précédent peut être organisé de la manière suivante:
Nombre de téléviseur (xi)0123
Nombre de foyer (ni)2783
Série statistique. Téléviseur
Nombre d’ordinateur (xi)0123
Nombre de foyer (ni)3773
Série statistique. Ordinateur
Nombre de Téléphone mobile (xi)1234
Nombre de foyer (ni)8921
Série statistique. Téléphone mobile
Nombre de Tablette (xi)0123
Nombre de foyer (ni)13331
Série statistique. Tablette
  • Une classe est est une tranche de valeurs regroupant plusieurs données de la série. Si on réalise une enquête où on demande aux personnes sondées leur âge, on pourrait ranger les données obtenues par des classes, par exemple dans la classe [18; 25[ on mettrait le nombre de personnes dont l’âge est compris entre 18 et 25 ans.
  • L’effectif d’une classe ou d’une valeur de la série est le nombre ni de données ayant la valeur considérée. Si on considère la série statistique des nombres de téléviseurs, l’effectif de la valeur 1 est égale à 7.
  • L’effectif total (N) de la série est le nombre total des données (xi) d’une série. (N = n1 + n2 + n3 + … + ni). L’effectif total de notre exemple est 20 (on a questionné 20 foyers).

Indicateurs statistiques

Il existe plusieurs indicateurs statistiques, en fonction des domaines et de ce que l’on cherche à étudier ou analyser. Comme je veux que ce cours reste digest et à la portée de tout le monde, je ne vais présenter que certains indicateurs qui sont facile à comprendre et qui permettent de bien assimiler les données statistiques brutes.

La fréquence

La fréquence est un indicateur très important, elle permet de donner une idée précise sur l’importance (ou le poids) d’une valeur statistique par rapport au total. La fréquence est souvent notée fi, et se calcule de la manière suivante: fi d’une valeur xi (ou d’une classe) est : fi = ni/N. C’est une fraction dont le résultat est inférieur à 1, La fréquence est généralement exprimée en pourcentage (résultat de la fraction multiplier par 100)

Selon le tableau des données, 7 foyers sur 20 au total dispose d’un seul téléviseur, on déduit donc que la fréquence est égale à 7/20 = 0,291, soit 29,1% des foyers questionnés dispose d’un seul téléviseur.

Selon le même tableau 18 foyers sur 20 dispose au moins d’un téléviseur, soit 90% des foyers.

La moyenne

La moyenne d’une série de valeurs est égale à la somme des valeurs divisée par le nombre total des valeurs. On peut la calculer de 2 manières différentes :

  • La moyenne  d’une série de N données xi est 
  • La moyenne  d’une série de N données ayant p valeurs différentes xi et d’effectifs ni est Dans ce cas, on dit que la moyenne est pondérée par les effectifs.

Toujours avec notre exemple de l’enquête sur les écrans, dans la cas du nombre de téléviseur par foyer, l’effectif total est : N=20. Le nombre total de téléviseur est S = 32. La moyenne est donc 32/20 = 1,6 téléviseur par foyer.

La médiane

La médiane Me est la valeur qui partage la série statistique en 2 groupes tel que :

  • Au moins 50% des données ont des valeurs inférieures ou égales à Me;
  • Au moins 50% des données ont des valeurs supérieures ou égales à Me.

La moyenne et la médiane sont des indicateurs statistiques dits de position (ils indiquent le centre de la série).

Étendue

L’étendue d’une série est tout simplement la différence entre la plus grande et la plus petite valeur. 

Soit par exemple la série de vaeurs: 12 ; 10 ; 6 ; 14 ; 8 ; 19. L’étendue de cette série est égale à : 19– 6 = 13

Quartiles 

Les quartiles Q1 (premier quartile) et Q3 (troisième quartile) d’une série sont calculés de la manière suivante :

Au moins 25% des données ont des valeurs inférieures ou égales à Q1;

Au moins 75% des données ont des valeurs inférieures ou égales à Q3;

Environ 50% des données ont des valeurs comprises entre Q1 et Q3;

[Q1 ; Q3] est l’intervalle interquartile;

[Q3 – Q1] est l’écart interquartile;

Si on prend l’exemple de la série suivante :

  • 2 ; 2 ; 3 ; 5 ; 6 ; 8 ; 9 ; 10 ; 12 ; 14 ; 15 ; 16 ; 17 ; 19

Cette série est ordonnée et son effectif total est 14

  • 25% de 14 est égale à 3,5. Donc le premier quartile est la valeur de la 4ème donnée. D’où : Q1 = 5 (les valeurs de 4 données ≤ 5)
  • 75% de 14 est égale à 10,5. Donc le troisième quartile est la valeur de la 11èmedonnée. D’où : Q3 = 15 (les valeurs de 11 données ≤ 15)
  • 50% de 14 est égale à 7. Environ 7 données (8 exactement) ont des valeurs comprise entre 5 et 15

L’étendue et les quartiles sont des indicateurs statistiques dits de dispersion (ils indiquent si les valeurs sont très regroupées autour du « centre » de la série).

Voici un schéma récapitulatif pour calculer les principaux indicateurs statistiques :

Méthodes de calcul des principaux indicateurs statistiques

Analyse interprétation et présentation des résultats

La partie analyse est une partie très importante dans les études statistiques, car on doit extraire des informations à partir des différents calculs effectués. Ces informations vont nous permettre de prendre des décisions ou tirer des conclusions.

Pour bien analyser les résultats statistiques, il est primordial de savoir les présenter de différentes manières

On peut présenter par exemple les résultats de l’enquête que j’ai utilisée pour illustrer ce cours de la manière suivante :

Présentation avec des tableaux

TotalMoyenneFréquenceFréquence en%
Téléviseur 321.60.29129.1%
Ordinateur301.50.27327.3%
Téléphone mobile361.80.32732.7%
Tablette120.60.10910.9%

Présentations graphiques

Diagramme en battons

Chaque valeur de la série est représentée par un bâton (ou une barre) dont la largeur est constante et la longueur est proportionnel à l’effectif (ou à la fréquence)

Diagramme circulaire (ou en secteur)

Chaque valeur de la série est représentée par un secteur circulaire dont l’angle est proportionnel à l’effectif (ou à la fréquence)

Histogramme 

Ce type de diagramme est utilisé souvent quand il s’agit d’une étude par classe de donnée. Chaque classe de la série est représentée par un rectangle dont la largeur correspond à la largeur de la classe, l’air du rectangle est proportionnel à l’effectif (ou à la fréquence)

Si on considère la classe de données suivante :

Classe155 – 160160;165165;170170;175175;180180;185185;190190;195195;200
Effectif37121720171273

Cette classe peut être représentée par l’histogramme suivant :

Grâce à ce type de présentation, on peut extraire des informations pertinentes qui vont nous permettre de mieux répondre aux questions fixées par l’enquête statistique.

Voilà ce cours touche à sa fin, j’espère que j’ai réussi à vous éclairer sur les principes de base de la statistiques, d’autres exemples et cas pratiques viendront par la suite pour illustrer et appliquer ce cours.

Si vous avez des questions n’hésitez pas à m’en faire part en postant des commentaires, je répondrai avec plaisir.

Si vous avez aimé l'article vous êtes libre de le partager :)

2 commentaire

  1. Super ce blog, j’ai adolescent en 3ᵉ et je cale dès qu’il faut lui expliquer quoi que ce soit et surtout sur les statistiques…. Je garde précieusement ton site sous le coude pour les urgences mathématiques et celle à venir sur le code. 😉

Laisser un commentaire