Règles «Quand utiliser boxplot et quand barplot» (du pouce?)

14

Le graphique en boîte et moustache et le graphique à barres sont des graphiques appropriés pour l'ANOVA selon The R Book (Crawley, 2013), mais lequel est le plus approprié ? Je suppose que cela dépend de la situation ... quelqu'un peut-il m'aider?

Ladislav Naďo
la source
5
" Bien qu'un problème puisse être résolu par plusieurs tests alternatifs - il n'y a toujours qu'un seul test qui est le plus approprié à utiliser " - je ne suis pas d'accord avec cette phrase; Je ne pense pas que ce soit toujours vrai.
Glen_b -Reinstate Monica
5
Je suis d'accord avec @Glen_b ici et suggère que même cette formulation manque le point clé. L'identification du test le plus approprié dépend au minimum de la connaissance du processus de génération exact des données, ce qui est, dirons-nous, inhabituel. Il est plus courant qu'il existe plusieurs tests possibles avec des avantages et des inconvénients différents.
Nick Cox
1
Je ne pense pas que je mentionnerais même des tests (d'hypothèse ou de signification) dans une brève caractérisation d'une bonne pensée statistique ... Je pense que c'est un problème secondaire, cependant. Votre question est assez claire sans elle.
Nick Cox

Réponses:

18

Spécifiquement pour l'illustration graphique de l'ANOVA:

  • Un diagramme à barres ou un graphique à barres est bien meilleur que rien graphiquement pour l'ANOVA, mais comme souvent tracé, les deux sont indirects ou incomplets en tant que résumé graphique.

  • L'ANOVA concerne les comparaisons de moyennes dans un contexte de variations d'un ou plusieurs types, donc le graphique le plus approprié montrerait, au minimum, les moyennes ainsi que les données brutes. Les écarts types (SD) de groupe ou les quantités associées ne nuiraient pas.

  • =+1,5 IQR. Une telle convention peut être utile pour montrer les valeurs aberrantes brutes qui peuvent être problématiques pour l'ANOVA, mais ni les médianes ni les quartiles ne jouent aucun rôle dans l'ANOVA et si la médiane des moyennes approximatives est un point à vérifier, non supposé. Généralement, les analystes de données expérimentés considèrent par exemple des valeurs aberrantes prononcées prononcées et / ou une asymétrie de distribution comme un signe d'un problème qui nécessite une action, comme la transformation des données ou le besoin d'un modèle linéaire généralisé avec une fonction de lien sans identité. Néanmoins, il est surprenant de voir combien de manuels et d'autres comptes montrent des parcelles de terrain lorsqu'une ANOVA est présentée, mais ne mentionnez pas les éléphants qui ne sont pas dans la salle, les moyens qui ne sont pas tracés.

  • Inversement, le type de graphique à barres le plus courant dans ce contexte résume les données au moyen de SD et d'erreurs standard, mais omet autrement tout affichage des points de données individuels. Ainsi, par exemple, des valeurs aberrantes ou une asymétrie marquée ne peuvent être déduites que de moyennes hors ligne ou d'une variabilité gonflée au sein de groupes individuels.

En général, il existe de nombreuses suggestions sur les types de graphiques utiles, mais peu de consensus sur les meilleurs. Je suggérerais comme critère qu'un bon graphique montre

  • Le schéma complet de variation des données, au moins en toile de fond ou en contexte

  • Résumés pertinents des données, en particulier celles concernant le modèle envisagé ou les descripteurs envisagés

  • Indications de problèmes possibles avec les données qui mettent en doute les hypothèses formulées.

Il existe plusieurs conceptions qui aident à l'ANOVA, telles que les parcelles à points ou à bandes avec des moyens et des SE ajoutés.

Cet article de John Tukey explique la différence entre les graphiques de propagande et les graphiques analytiques qui est pertinente ici. Trop d'illustrations graphiques de l'ANOVA sont des graphiques de propagande (regardez! Les groupes sont très différents) sans beaucoup d'analyse (et que pouvons-nous apprendre d'autre sur les données ou les limites de la technique dans cette application?).

Nick Cox
la source
Alors qu'en est-il des complots de violon avec, idéalement avec des moyennes, des SD et des valeurs aberrantes tirées?
ziggystar
Les complots de violon peuvent être utiles. Personnellement, je préfère quelque chose de plus proche des données brutes, afin que je puisse également voir la modalité et la granularité.
Nick Cox
8

Veuillez ne pas confondre les graphiques à barres (une barre est utilisée pour montrer chaque quantité d'intérêt) et les graphiques de dynamite (une barre affiche la moyenne de chaque groupe, plus les barres d'erreur). Les diagrammes de dynamite ne sont JAMAIS acceptables car ils masquent la distribution des données sans aucune raison.

Oui, je me rends compte que c'est de loin le type d'intrigue le plus courant. C'est un gros problème qui reflète l'importance (faible) que les chercheurs accordent à la forme de leurs données. Si vous étiez un détective à la recherche d'une arme de meurtre, serait-il préférable qu'un témoin vous dise 1) seulement l'emplacement et la taille de l'arme? ou 2) l'emplacement, la taille et la forme?

http://biostat.mc.vanderbilt.edu/wiki/pub/Main/TatsukiRcode/Poster3.pdf

Livide
la source
Avez-vous d'autres ressources sur les raisons pour lesquelles les parcelles de dynamite ne sont pas idéales?
mguzmann
@mguzmann Désolé, je ne le fais pas. Je me suis également demandé qui avait eu l'idée, son adoption au fil du temps, etc. et je n'ai rien trouvé à ce sujet. J'imagine qu'il a évolué à partir des tableaux de rapports des moyennes +/- erreurs dans les jours précédant les ordinateurs. J'ai vu des articles des années 30 qui ont réussi à publier des tableaux de l'ensemble complet de données, donc je ne suis pas sûr que la pratique ait jamais été vraiment justifiée non plus. Par exemple: Hedrich AW. Estimations mensuelles de la population d'enfants "sensibles" à la rougeole, 1900–1931, Baltimore, Maryland. Am J Hyg 1933; 17: 613-636.
Livid