Les histogrammes donnent une bonne idée de la distribution d'une variable. Les diagrammes en boîte tentent de faire la même chose cependant, ils ne donnent pas une image aussi bonne de la distribution de cette variable.
Je ne comprends pas pourquoi les gens utilisent des boîtes à moustaches. Les histogrammes sont meilleurs à tous points de vue. Y a-t-il une raison pour laquelle j'utiliserais les deux?
La seule chose que je pense que les parcelles sont: les valeurs aberrantes! Il nous indique quelles observations peuvent être aberrantes.
Réponses:
Le fait que les diagrammes en boîte fournissent davantage de résumé d'une distribution peut également être considéré comme un avantage dans certains cas. Parfois, lorsque nous comparons des distributions, nous ne nous soucions pas de la forme globale, mais plutôt de la position des distributions les unes par rapport aux autres. Tracer les quantiles côte à côte peut être un moyen utile de le faire sans nous distraire avec d'autres détails qui ne nous intéressent peut-être pas.
la source
Dans le cas univarié, les boîtes à moustaches fournissent des informations que l'histogramme ne fournit pas (du moins, pas explicitement). Autrement dit, il fournit généralement la médiane, le 25e et le 75e centile, min / max qui n'est pas une valeur aberrante et sépare explicitement les points qui sont considérés comme aberrants. Tout cela peut être «observé» à partir de l'histogramme (et il peut être préférable de le regarder dans le cas de valeurs aberrantes).
Cependant, l'avantage beaucoup plus important réside dans la comparaison simultanée des distributions entre de nombreux groupes différents. Avec plus de 10 groupes, c'est une tâche fatigante avec des histogrammes côte à côte, mais très facile avec des boîtes à moustaches.
Comme vous l'avez mentionné, les parcelles de violon (ou parcelles de haricot) sont des alternatives un peu plus informatives. Cependant, ils nécessitent un peu plus de connaissances statistiques que les boîtes à moustaches (c'est-à-dire si elles sont présentées à un public non statistique, cela peut être un peu plus intimidant) et les boîtes à moustaches existent depuis bien plus longtemps que les estimateurs de densité du noyau, d'où leur plus grande popularité.
la source
Si je vous montre un histogramme et vous demande où se trouve la médiane, vous aurez peut-être un certain temps à le découvrir ... et vous n'en obtiendrez qu'une approximation. Si je fais de même avec un boxplot, vous l'avez immédiatement; si c'est ce qui vous intéresse, les boxplots gagnent évidemment.
Je suis d'accord pour dire que les boîtes à moustaches ne sont pas aussi efficaces qu'une description de la distribution d'un seul échantillon, car elles la réduisent à quelques points et cela ne vous dit pas grand-chose.
Cependant, si vous comparez plusieurs dizaines de distributions, avoir tous les détails de chacune peut être plus d'informations que ce qui est facilement comparé - vous voudrez peut-être réduire les informations à un plus petit nombre de choses à comparer.
Si plus d'informations sont meilleures, il y a de bien meilleurs choix que l'histogramme; un tracé de tige et de feuille, par exemple, ou un tracé ecdf / quantile.
Ou vous pouvez ajouter des informations à un histogramme:
(parcelles de cette réponse )
Le premier de ceux-ci - ajouter un boxplot étroit à la marge - vous offre tous les avantages à tirer de l'un ou l'autre écran.
la source
Les diagrammes à barres ne fournissent que la plage de fréquence des observations, tandis que les diagrammes à boîte permettent de mieux déterminer où se trouvent plusieurs paramètres d'une distribution, par exemple la moyenne et les variances que les graphiques à barres ne peuvent pas. Les boîtes à moustaches sont donc utilisées comme un outil de comparaison efficace si l'on a plusieurs distributions.
la source