Tendance centrale vs dispersion
Dans les statistiques descriptives et inférentielles, plusieurs indices sont utilisés pour décrire un ensemble de données correspondant à sa tendance centrale, sa dispersion et son asymétrie: les trois propriétés les plus importantes qui déterminent la forme relative de la distribution d'un ensemble de données.
Qu'est-ce que la tendance centrale ?
Tendance centrale désigne et situe le centre de la distribution des valeurs. La moyenne, le mode et la médiane sont les indices les plus couramment utilisés pour décrire la tendance centrale d'un ensemble de données. Si un ensemble de données est symétrique, la médiane et la moyenne de l'ensemble de données coïncident l'une avec l'autre.
Étant donné un ensemble de données, la moyenne est calculée en prenant la somme de toutes les valeurs de données, puis en la divisant par le nombre de données. Par exemple, les poids de 10 personnes (en kilogrammes) sont mesurés à 70, 62, 65, 72, 80, 70, 63, 72, 77 et 79. Ensuite, le poids moyen des dix personnes (en kilogrammes) peut être calculé comme suit. La somme des poids est 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79=710. Moyenne=(somme) / (nombre de données)=710 / 10=71 (en kilogrammes). Il est entendu que les valeurs aberrantes (points de données qui s'écartent de la tendance normale) ont tendance à affecter la moyenne. Ainsi, en présence de valeurs aberrantes, la moyenne seule ne donnera pas une image correcte du centre de l'ensemble de données.
La médiane est le point de données situé exactement au milieu de l'ensemble de données. Une façon de calculer la médiane consiste à ordonner les points de données par ordre croissant, puis à localiser le point de données au milieu. Par exemple, si une fois commandé, le jeu de données précédent ressemble à 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Par conséquent, (70+72)/2=71 est au milieu. À partir de là, on voit que la médiane n'a pas besoin d'être dans l'ensemble de données. La médiane n'est pas affectée par la présence des valeurs aberrantes. Par conséquent, la médiane servira de meilleure mesure de la tendance centrale en présence de valeurs aberrantes.
Le mode est la valeur la plus fréquente dans l'ensemble de données. Dans l'exemple précédent, les valeurs 70 et 72 se produisent toutes les deux deux fois et donc, les deux sont des modes. Cela montre que, dans certaines distributions, il y a plus d'une valeur modale. S'il n'y a qu'un seul mode, le jeu de données est dit unimodal, dans ce cas, le jeu de données est bimodal.
Qu'est-ce que la dispersion ?
La dispersion est la quantité de propagation des données autour du centre de la distribution. La plage et l'écart type sont les mesures de dispersion les plus couramment utilisées.
La plage est simplement la valeur la plus élevée moins la valeur la plus basse. Dans l'exemple précédent, la valeur la plus élevée est 80 et la valeur la plus basse est 62, donc la plage est 80-62=18. Mais la plage ne fournit pas une image suffisante de la dispersion.
Pour calculer l'écart type, les écarts des valeurs de données par rapport à la moyenne sont d'abord calculés. La moyenne quadratique des écarts est appelée écart-type. Dans l'exemple précédent, les écarts respectifs à la moyenne sont (70 – 71)=-1, (62 – 71)=-9, (65 – 71)=-6, (72 – 71)=1, (80 – 71)=9, (70 – 71)=-1, (63 – 71)=-8, (72 – 71)=1, (77 – 71)=6 et (79 – 71)=8. La somme de les carrés de déviation sont (-1)2 + (-9)2 + (-6)2+ 12 + 92 + (-1)2 + (-8) 2 + 12 + 62 + 82=366 L'écart type est √(366/10)=6,05 (en kilogrammes). À moins que l'ensemble de données ne soit fortement asymétrique, on peut en conclure que la majorité des données se situent dans l'intervalle 71 ± 6,05, et c'est effectivement le cas dans cet exemple particulier.
Quelle est la différence entre tendance centrale et dispersion ?
• La tendance centrale désigne et situe le centre de la distribution des valeurs
• La dispersion est la quantité de propagation des données autour du centre d'un ensemble de données.