La statistique est une discipline très utilisée dans la vie de tous les jours. C’est grâce à la statistique qu’on peut prévoir, par exemple, la météo des jours qui viennent, ou encore dans le cadre d’un magasin de commerce, le nombre de personnes que l’on compte accueillir durant une période de solde.
Dans cet article je vais essayer de vous éclairer sur quelques principes de calculs statistique. Je vais utiliser des exemples extraits de cas pratiques pour appliquer les enseignements du cours et calculer quelques indicateurs statistiques.
Mais d’abord …
Comment définir la statistique?
Alors, selon Wikipédia, la statistique est la discipline qui étudie des phénomènes à travers
- la collecte de données,
- leur traitement,
- leur analyse,
- l’interprétation des résultats
- et leur présentation
afin de rendre ces données compréhensibles par tous.
Je vais donc détailler chacun de ces points pour comprendre les bases de la statistique.
Données statistiques
Pour faire de la statistique on commence par collecter des données, il y a différentes manières pour faire cela, la méthode la plus utilisée est basée sur les sondages, un simple questionnaire axé sur les informations que l’on souhaite étudiées, on demande ensuite à un échantillon de la population concernée de remplir ce questionnaire. Et de cette manière on aura collecté les données nécessaires pour effectuer les calculs statistiques.
Exemple de collecte de données statistiques
On souhaite étudier par exemple le taux d’équipement d’écran d’un certains nombre de foyers. on leur demande par exemple de nous dire de combien ils disposent de
- téléviseur;
- ordinateur;
- téléphone portable;
- et tablette.
Foyer 1 | Foyer 2 | Foyer 3 | Foyer 4 | Foyer 5 | Foyer 6 | Foyer 7 | Foyer 8 | Foyer 9 | Foyer 10 | |
téléviseur | 1 | 0 | 1 | 0 | 2 | 2 | 2 | 1 | 3 | 3 |
Ordinateur | 1 | 2 | 1 | 3 | 2 | 2 | 2 | 1 | 0 | 1 |
Téléphone mobile | 1 | 4 | 1 | 3 | 2 | 2 | 2 | 1 | 1 | 1 |
Tablette | 0 | 3 | 2 | 1 | 0 | 0 | 0 | 0 | 0 | 2 |
Foyer 11 | Foyer 12 | Foyer 13 | Foyer 14 | Foyer 15 | Foyer 16 | Foyer 17 | Foyer 18 | Foyer 19 | Foyer 20 | |
téléviseur | 1 | 3 | 2 | 1 | 1 | 2 | 1 | 2 | 2 | 2 |
Ordinateur | 3 | 2 | 0 | 1 | 1 | 3 | 1 | 0 | 2 | 2 |
Téléphone mobile | 2 | 2 | 3 | 1 | 1 | 2 | 1 | 2 | 2 | 2 |
Tablette | 0 | 1 | 1 | 0 | 0 | 2 | 0 | 0 | 0 | 0 |
Comme on peut le constater, les données sont brutes, elles sont quasiment incompréhensibles à cet état, il faudra donc les traiter
Traitement des données
Une fois les données collectées, on peut commencer à les traiter. mais avant de faire cela, on va donner quelques définitions statistiques. tout d’abord, on va commencer par définir la série statistique.
Vocabulaire statistique
Lors d’une enquête statistique on étudie un ou plusieurs caractères d’une population, le caractère étudié, est aussi appelé variable statistique. Le caractère peut être
- soit qualitatif (comme par exemple les couleurs : rouge, blanc noir, …)
- ou quantitatif continu, il prend toutes les valeurs dans un intervalle (comme par exemple les longueurs :15,2cm ; 17,45cm ; 16,98com …
- ou bien quantitatif discret il ne prend qu’un nombre limité de valeurs dans un intervalle (comme par exemple l’âge en année : 17 ans ; 25 ans ;…
- Une série statistique est tout simplement, l’ensemble des des données recueillies (xi). Le tableau représentatif de l’enquête de l’exemple précédent peut être organisé de la manière suivante:
Nombre de téléviseur (xi) | 0 | 1 | 2 | 3 |
Nombre de foyer (ni) | 2 | 7 | 8 | 3 |
Nombre d’ordinateur (xi) | 0 | 1 | 2 | 3 |
Nombre de foyer (ni) | 3 | 7 | 7 | 3 |
Nombre de Téléphone mobile (xi) | 1 | 2 | 3 | 4 |
Nombre de foyer (ni) | 8 | 9 | 2 | 1 |
Nombre de Tablette (xi) | 0 | 1 | 2 | 3 |
Nombre de foyer (ni) | 13 | 3 | 3 | 1 |
- Une classe est est une tranche de valeurs regroupant plusieurs données de la série. Si on réalise une enquête où on demande aux personnes sondées leur âge, on pourrait ranger les données obtenues par des classes, par exemple dans la classe [18; 25[ on mettrait le nombre de personnes dont l’âge est compris entre 18 et 25 ans.
- L’effectif d’une classe ou d’une valeur de la série est le nombre ni de données ayant la valeur considérée. Si on considère la série statistique des nombres de téléviseurs, l’effectif de la valeur 1 est égale à 7.
- L’effectif total (N) de la série est le nombre total des données (xi) d’une série. (N = n1 + n2 + n3 + … + ni). L’effectif total de notre exemple est 20 (on a questionné 20 foyers).
Indicateurs statistiques
Il existe plusieurs indicateurs statistiques, en fonction des domaines et de ce que l’on cherche à étudier ou analyser. Comme je veux que ce cours reste digest et à la portée de tout le monde, je ne vais présenter que certains indicateurs qui sont facile à comprendre et qui permettent de bien assimiler les données statistiques brutes.
La fréquence
La fréquence est un indicateur très important, elle permet de donner une idée précise sur l’importance (ou le poids) d’une valeur statistique par rapport au total. La fréquence est souvent notée fi, et se calcule de la manière suivante: fi d’une valeur xi (ou d’une classe) est : fi = ni/N. C’est une fraction dont le résultat est inférieur à 1, La fréquence est généralement exprimée en pourcentage (résultat de la fraction multiplier par 100)
Selon le tableau des données, 7 foyers sur 20 au total dispose d’un seul téléviseur, on déduit donc que la fréquence est égale à 7/20 = 0,291, soit 29,1% des foyers questionnés dispose d’un seul téléviseur.
Selon le même tableau 18 foyers sur 20 dispose au moins d’un téléviseur, soit 90% des foyers.
La moyenne
La moyenne d’une série de valeurs est égale à la somme des valeurs divisée par le nombre total des valeurs. On peut la calculer de 2 manières différentes :
- La moyenne d’une série de N données xi est
- La moyenne d’une série de N données ayant p valeurs différentes xi et d’effectifs ni est . Dans ce cas, on dit que la moyenne est pondérée par les effectifs.
Toujours avec notre exemple de l’enquête sur les écrans, dans la cas du nombre de téléviseur par foyer, l’effectif total est : N=20. Le nombre total de téléviseur est S = 32. La moyenne est donc 32/20 = 1,6 téléviseur par foyer.
La médiane
La médiane Me est la valeur qui partage la série statistique en 2 groupes tel que :
- Au moins 50% des données ont des valeurs inférieures ou égales à Me;
- Au moins 50% des données ont des valeurs supérieures ou égales à Me.
La moyenne et la médiane sont des indicateurs statistiques dits de position (ils indiquent le centre de la série).
Étendue
L’étendue d’une série est tout simplement la différence entre la plus grande et la plus petite valeur.
Soit par exemple la série de vaeurs: 12 ; 10 ; 6 ; 14 ; 8 ; 19. L’étendue de cette série est égale à : 19– 6 = 13
Quartiles
Les quartiles Q1 (premier quartile) et Q3 (troisième quartile) d’une série sont calculés de la manière suivante :
Au moins 25% des données ont des valeurs inférieures ou égales à Q1;
Au moins 75% des données ont des valeurs inférieures ou égales à Q3;
Environ 50% des données ont des valeurs comprises entre Q1 et Q3;
[Q1 ; Q3] est l’intervalle interquartile;
[Q3 – Q1] est l’écart interquartile;
Si on prend l’exemple de la série suivante :
- 2 ; 2 ; 3 ; 5 ; 6 ; 8 ; 9 ; 10 ; 12 ; 14 ; 15 ; 16 ; 17 ; 19
Cette série est ordonnée et son effectif total est 14
- 25% de 14 est égale à 3,5. Donc le premier quartile est la valeur de la 4ème donnée. D’où : Q1 = 5 (les valeurs de 4 données ≤ 5)
- 75% de 14 est égale à 10,5. Donc le troisième quartile est la valeur de la 11èmedonnée. D’où : Q3 = 15 (les valeurs de 11 données ≤ 15)
- 50% de 14 est égale à 7. Environ 7 données (8 exactement) ont des valeurs comprise entre 5 et 15
L’étendue et les quartiles sont des indicateurs statistiques dits de dispersion (ils indiquent si les valeurs sont très regroupées autour du « centre » de la série).
Voici un schéma récapitulatif pour calculer les principaux indicateurs statistiques :
Analyse interprétation et présentation des résultats
La partie analyse est une partie très importante dans les études statistiques, car on doit extraire des informations à partir des différents calculs effectués. Ces informations vont nous permettre de prendre des décisions ou tirer des conclusions.
Pour bien analyser les résultats statistiques, il est primordial de savoir les présenter de différentes manières
On peut présenter par exemple les résultats de l’enquête que j’ai utilisée pour illustrer ce cours de la manière suivante :
Présentation avec des tableaux
Total | Moyenne | Fréquence | Fréquence en% | |
Téléviseur | 32 | 1.6 | 0.291 | 29.1% |
Ordinateur | 30 | 1.5 | 0.273 | 27.3% |
Téléphone mobile | 36 | 1.8 | 0.327 | 32.7% |
Tablette | 12 | 0.6 | 0.109 | 10.9% |
Présentations graphiques
Diagramme en battons
Chaque valeur de la série est représentée par un bâton (ou une barre) dont la largeur est constante et la longueur est proportionnel à l’effectif (ou à la fréquence)
Diagramme circulaire (ou en secteur)
Chaque valeur de la série est représentée par un secteur circulaire dont l’angle est proportionnel à l’effectif (ou à la fréquence)
Histogramme
Ce type de diagramme est utilisé souvent quand il s’agit d’une étude par classe de donnée. Chaque classe de la série est représentée par un rectangle dont la largeur correspond à la largeur de la classe, l’air du rectangle est proportionnel à l’effectif (ou à la fréquence)
Si on considère la classe de données suivante :
Classe | 155 – 160 | 160;165 | 165;170 | 170;175 | 175;180 | 180;185 | 185;190 | 190;195 | 195;200 |
Effectif | 3 | 7 | 12 | 17 | 20 | 17 | 12 | 7 | 3 |
Cette classe peut être représentée par l’histogramme suivant :
Grâce à ce type de présentation, on peut extraire des informations pertinentes qui vont nous permettre de mieux répondre aux questions fixées par l’enquête statistique.
Voilà ce cours touche à sa fin, j’espère que j’ai réussi à vous éclairer sur les principes de base de la statistiques, d’autres exemples et cas pratiques viendront par la suite pour illustrer et appliquer ce cours.
Si vous avez des questions n’hésitez pas à m’en faire part en postant des commentaires, je répondrai avec plaisir.
Super ce blog, j’ai adolescent en 3ᵉ et je cale dès qu’il faut lui expliquer quoi que ce soit et surtout sur les statistiques…. Je garde précieusement ton site sous le coude pour les urgences mathématiques et celle à venir sur le code. 😉
Merci
et c’est vrai que ce n’est pas toujours facile d’expliquer des choses qui nous paraissent évidentes