Quelles informations un diagramme en boîte fournit-il qu'un histogramme ne fournit pas?

13

Les histogrammes donnent une bonne idée de la distribution d'une variable. Les diagrammes en boîte tentent de faire la même chose cependant, ils ne donnent pas une image aussi bonne de la distribution de cette variable.

Je ne comprends pas pourquoi les gens utilisent des boîtes à moustaches. Les histogrammes sont meilleurs à tous points de vue. Y a-t-il une raison pour laquelle j'utiliserais les deux?

La seule chose que je pense que les parcelles sont: les valeurs aberrantes! Il nous indique quelles observations peuvent être aberrantes.

John
la source
1
L'histogramme est-il pire à tous égards qu'une représentation de la distribution entière?
Anthony Martin
2
Cela dépend de ce que vous voulez, avec un diagramme en boîte, vous pouvez avoir des valeurs précises (par exemple, médiane, P75), que vous n'avez pas avec un histogramme. Il affiche moins d'informations, mais est plus synthétique. Mon point est que même un histogramme est une simplification et un gaspillage d'informations par rapport à l'ensemble de la distribution. Mais il peut être plus facile à utiliser
Anthony Martin
2
Un point de vue contraire sur l'utilité des histogrammes a été exprimé de manière convaincante et bien illustré dans le post très voté sur stats.stackexchange.com/a/51753 (qui peut être trouvé en recherchant sur notre site "histogramme").
whuber
3
Pensée intéressante - mais l'augmentation de la taille du bac réduirait l'histogramme à une forme de boîte à moustaches tout en conservant sa dépendance malheureuse sur le choix des points de coupure. À mon humble avis, les avantages réels des boîtes à moustaches peuvent être mieux appréciés en étudiant l'utilisation par Tukey du résumé à N lettres pour l'analyse exploratoire des données multivariées et en se souvenant qu'il calculait avec un crayon et du papier à l'époque. Pour des visualisations comme une "trace schématique errante", d'autres résumés univariés de réponses conditionnelles, comme des histogrammes ou des tracés de violon, ne fonctionneraient tout simplement pas.
whuber
1
Les deux échecs (imo) de l'histogramme se produisent lorsqu'il y a peu d'échantillons ou lorsque les boîtes sont de mauvaise taille. La faiblesse d'un bon boxplot (et je pense à la variabilité JMP quand je le dis) est la multimodalité et les détails fins. Un endroit où le boxplot brille est quand il y a peu d'échantillons. J'aime aussi quand il y a un certain nombre de variables qui interagissent à différents niveaux - donc le graphique de variabilité JMP.
EngrStudent

Réponses:

16

Le fait que les diagrammes en boîte fournissent davantage de résumé d'une distribution peut également être considéré comme un avantage dans certains cas. Parfois, lorsque nous comparons des distributions, nous ne nous soucions pas de la forme globale, mais plutôt de la position des distributions les unes par rapport aux autres. Tracer les quantiles côte à côte peut être un moyen utile de le faire sans nous distraire avec d'autres détails qui ne nous intéressent peut-être pas.

dsaxton
la source
1
C'est la meilleure réponse. Les boîtes à moustaches sont meilleures pour comparer les distributions que les histogrammes!
kjetil b halvorsen
14

Dans le cas univarié, les boîtes à moustaches fournissent des informations que l'histogramme ne fournit pas (du moins, pas explicitement). Autrement dit, il fournit généralement la médiane, le 25e et le 75e centile, min / max qui n'est pas une valeur aberrante et sépare explicitement les points qui sont considérés comme aberrants. Tout cela peut être «observé» à partir de l'histogramme (et il peut être préférable de le regarder dans le cas de valeurs aberrantes).

Cependant, l'avantage beaucoup plus important réside dans la comparaison simultanée des distributions entre de nombreux groupes différents. Avec plus de 10 groupes, c'est une tâche fatigante avec des histogrammes côte à côte, mais très facile avec des boîtes à moustaches.

Comme vous l'avez mentionné, les parcelles de violon (ou parcelles de haricot) sont des alternatives un peu plus informatives. Cependant, ils nécessitent un peu plus de connaissances statistiques que les boîtes à moustaches (c'est-à-dire si elles sont présentées à un public non statistique, cela peut être un peu plus intimidant) et les boîtes à moustaches existent depuis bien plus longtemps que les estimateurs de densité du noyau, d'où leur plus grande popularité.

Cliff AB
la source
3
+1. Correction cependant, les boîtes à moustaches fournissent des médianes, pas des moyens.
Greenparker
3
Tout le monde peut avoir raison. Les boîtes à moustaches comme d'habitude montrent les médianes (j'ai vu cela refusé, mais je ne me souviens pas avoir vu un exemple). Mais certaines implémentations vous permettent également d'afficher des moyens. C'est souvent une bonne idée.
Nick Cox
Merci d'avoir fait remarquer cela. Je continue (à tort) à penser que c'est généralement la moyenne, ce qui pourrait conduire à des intrigues très étranges dans des cas extrêmes.
Cliff AB
1
ce serait bien s'il y avait des images pour accompagner cela pour montrer la valeur des comparaisons côte à côte avec les diagrammes en boîte par rapport aux histogrammes
Rudolf Olah
7
  1. Si je vous montre un histogramme et vous demande où se trouve la médiane, vous aurez peut-être un certain temps à le découvrir ... et vous n'en obtiendrez qu'une approximation. Si je fais de même avec un boxplot, vous l'avez immédiatement; si c'est ce qui vous intéresse, les boxplots gagnent évidemment.

  2. Je suis d'accord pour dire que les boîtes à moustaches ne sont pas aussi efficaces qu'une description de la distribution d'un seul échantillon, car elles la réduisent à quelques points et cela ne vous dit pas grand-chose.

    Cependant, si vous comparez plusieurs dizaines de distributions, avoir tous les détails de chacune peut être plus d'informations que ce qui est facilement comparé - vous voudrez peut-être réduire les informations à un plus petit nombre de choses à comparer.

  3. Si plus d'informations sont meilleures, il y a de bien meilleurs choix que l'histogramme; un tracé de tige et de feuille, par exemple, ou un tracé ecdf / quantile.

    Ou vous pouvez ajouter des informations à un histogramme:

histogramme avec boxplot marginal tapis de terrain histogramme avec gigue histogramme avec stripchart

(parcelles de cette réponse )

Le premier de ceux-ci - ajouter un boxplot étroit à la marge - vous offre tous les avantages à tirer de l'un ou l'autre écran.

Glen_b -Reinstate Monica
la source
1

Les diagrammes à barres ne fournissent que la plage de fréquence des observations, tandis que les diagrammes à boîte permettent de mieux déterminer où se trouvent plusieurs paramètres d'une distribution, par exemple la moyenne et les variances que les graphiques à barres ne peuvent pas. Les boîtes à moustaches sont donc utilisées comme un outil de comparaison efficace si l'on a plusieurs distributions.

Shiv_90
la source
Il est rare qu'un boxplot affiche une moyenne - ils utilisent presque toujours des médianes - et ils ne représentent jamais directement les variances. Notons également que ces quantités ne sont généralement pas considérées comme des "paramètres d'une distribution": ce sont des statistiques descriptives d'un lot de données .
whuber
Exactement, ils sont un bon outil pour décrire une distribution sans faire trop de calculs. Et ils affichent davantage les médianes, et comme dans de nombreux cas les deux mesures coïncident, les diagrammes en boîte sont également un bon outil pour approximer la moyenne.
Shiv_90
Votre commentaire semble continuer à confondre les données avec la distribution sous - jacente . Il est très rare que la moyenne soit égale à la médiane dans un lot de données. De plus, l'une des utilisations les meilleures et les plus courantes du boxplot est d'identifier l'asymétrie, ce qui implique généralement une différence importante entre la moyenne et la médiane. L'un des principes fondamentaux de la conception originale du boxplot est qu'il doit être un outil d'exploration robuste - ce qui implique qu'il ne devrait pas être basé sur des statistiques sensibles comme la moyenne ou la variance.
whuber