Statistiques
Une étude statistique se déroule normalement en plusieurs étapes :
collecte des données ;
-
classement des données en un tableau ;
-
représentation de cette série à l’aide d’un diagramme statistique ;
-
caractérisation de la série à l’aide de paramètres.
En classe de seconde, on a étudié deux paramètres : la moyenne et la médiane.
On définit ici de nouveaux paramètres : la variance, l’écart-type, les quartiles et l’intervalle interquartile, et on utilise un nouveau type de représentation : le diagramme en boîte, qui permet de comparer rapidement deux séries.
1. Comment calculer une variance et un écart-type ?
Soit la série statistique X de taille n suivante :
On rappelle que la moyenne de X est le nombre : .
On appelle variance de la série statistique X, le nombre :
, qu’on réécrit ainsi :
.
L’écart-type de X est le nombre : .
Exemple
On étudie X, l’âge des employés d’une entreprise. On obtient :
La moyenne de X est :
.
La variance de X est :
.
Et l’écart-type de X est : .
Remarques
La variance et l’écart-type mesurent la façon dont les valeurs de X se dispersent autour de la moyenne. Ce sont des paramètres de dispersion (alors que la moyenne et la médiane sont des paramètres de position, ils précisent vers quelles valeurs se situe la série).
On peut aussi calculer la variance à l’aide de la formule suivante :
.
Dans le cas où, au lieu d’avoir une valeur , on a un intervalle, les formules sont les mêmes en remplaçant par le centre de l’intervalle.
2. Comment calculer la médiane d’une série statistique ?
La médiane, que l’on note me, est le nombre qui sépare la série ordonnée en valeurs croissantes en deux groupes de même effectif.
Pour la trouver, on écrit la liste de toutes les valeurs de la série par ordre croissant, chacune d’elles étant répétée autant de fois que son effectif.
On distingue ensuite deux cas :
si l’effectif total n est un nombre impair, la médiane est le terme de rang ;
-
si l’effectif total n est un nombre pair, la médiane est le centre de l’intervalle formé par les termes de rang et .
Quand la série est regroupée par classes, on détermine la médiane soit graphiquement à partir du polygone des effectifs ou des fréquences cumulés, soit par interpolation linéaire.
Exemple
Reprenons l’exemple précédent. On étudie X l’âge des employés d’une entreprise. On a :
Nous avons rajouté dans le tableau une ligne pour les effectifs cumulés. Ainsi, on peut y lire que 1 050 individus ont moins de 35 ans et que 1 800 individus ont moins de 40 ans.
La médiane me qui correspond à l’effectif cumulé 1 500, appartient à l’intervalle [35 ; 40[.
On a :
Notons A(35 ; 1 050) et B(35 ; 1 800).
On cherche me l’abscisse du point M de [AB] d’ordonnée 1 500.
et sont colinéaires.
Par conséquent : , d’où .
3. Comment déterminer les quartiles d’une série statistique ?
Soit une série statistique X de taille n.
Le premier quartile Q1 est la plus petite valeur de la série telle qu’au moins 25 % des données soient inférieures ou égales à Q1.
Le troisième quartile Q3 est la plus petite valeur de la série telle qu’au moins 75 % des données soient inférieures ou égales à Q3.
L’intervalle interquartile est l’intervalle .
Le nombre s’appelle l’interquartile.
Pour déterminer les quartiles Q1 et Q3, on procède un peu comme pour la médiane.
On écrit la liste de toutes les valeurs de la série par ordre croissant, chacune d’elles étant répétée autant de fois que son effectif.
On distingue ensuite deux cas :
Quand la série est regroupée par classes, on détermine les quartiles soit graphiquement à partir du polygone des effectifs ou des fréquences cumulés, soit par interpolation linéaire.
Exemple
Reprenons l’exemple précédent. On étudie X l’âge des employés d’une entreprise. On a :
25 % de 3 000 font 750. À l’aide des effectifs cumulés, on peut voir que Q1 appartient à [30 ; 35[. On a le graphique suivant :
Notons A(30 ; 450) et B(35 ; 1 050).
On cherche Q1 l’abscisse du point M de [AB] d’ordonnée 750.
et sont colinéaires.
Par conséquent : , d’où .
75 % de 3 000 font 2 250. À l’aide des effectifs cumulés, on peut voir que 2 250 employés ont moins de 45 ans. D’où Q3 est égal à 45.
4. Comment se transforment les paramètres d’une série lors d’un changement affine ?
Soit la série statistique X de taille n suivante :
On considère la série statistique . C’est-à-dire la série :
où .
En reprenant nos notations, on a :
; ; .
Si sont la médiane, le premier quartile, le troisième quartile de X et si sont la médiane, le premier quartile, le troisième quartile de Y, on a :
;
si a > 0, ; ;
si a < 0, ; .
5. Comment tracer un diagramme en boîte ?
On construit un diagramme en boîte de la façon suivante :
sur un axe vertical ou horizontal, on repère les valeurs de la série statistique ;
-
on place le minimum et le maximum de la série, le 1er quartile, le 3e quartile et la médiane ;
-
on construit le rectangle (la boîte), parallèle à l’axe, qui a pour longueur l’interquartile et une largeur arbitraire.
Ce diagramme en boîte est aussi appelé « diagramme à moustaches » ou « diagramme à pattes ».
Exemple
Reprenons l’exemple précédent, où l’on étudie l’âge des employés d’une entreprise.
Le maximum est 55, le minimum est 20. La médiane est 38, le 1er quartile est 32,5 et le 3e est 45. D’où le diagramme en boîte suivant :
À retenir absolument
Soit X une série statistique.
La variance de X est le nombre : .
L’écart-type de X est la racine carré de la variance : .
Le premier quartile de X, noté Q1, est la plus petite valeur de la série telle qu’au moins 25 % des données soient inférieures ou égales à Q1.
Le troisième quartile de X, noté Q3, est la plus petite valeur de la série telle qu’au moins 75 % des données soient inférieures ou égales à Q3.
L’intervalle interquartile est l’intervalle .
|