Supposons que nous examinions ce complot en boîte et moustaches:
Entre jeudi et vendredi, je pense que la plupart conviendraient qu'il semble y avoir une différence significative dans le temps passé à dormir. Est-ce une conjecture statistiquement valable, cependant? Pouvons-nous discerner des différences significatives du fait qu'aucune des fourchettes du quartile interne ne se chevauche entre jeudi et vendredi? Qu'en est-il du fait que les moustaches supérieures et inférieures de jeudi et vendredi, respectivement, se chevauchent? Cela affecte-t-il notre analyse?
Habituellement, accompagner un tableau comme celui-ci serait une sorte d'ANOVA, mais je suis juste curieux de savoir combien nous pouvons dire sur les différences entre les groupes simplement en regardant un boxplot .
la source
Réponses:
Non, tu ne peux pas. Si vous aviez les tailles d'échantillon et beaucoup d'expérience, vous pourriez deviner - et la précision de votre supposition dépendrait (en plus de la taille de l'effet) de la taille de l'échantillon. Si N = 1 000 000 par groupe, beaucoup d'importance. Si N = 10 par groupe, pas tellement. À 100 par groupe, c'est plus difficile à deviner.
Je dirais que c'est une bonne chose. La chose à faire avec une boîte à moustaches n'est pas d'essayer de deviner la signification statistique mais de regarder ce qui se passe et d'essayer de raisonner à ce sujet. Hmm. Plus de sommeil le week-end. C'est intéressant mais pas vraiment surprenant. Nous pourrions modéliser les heures de sommeil en fonction du week-end ou non. Ou nous pourrions essayer de voir si ce modèle variait. Peut-être que les retraités n'ont pas ce schéma? Et les travailleurs postés? Les gens qui travaillent le week-end? Des gens qui travaillent 7 jours sur 7?
Comme disait mon professeur préféré à l'école doctorale (Herman Friedman): "Arrête de piquer sur la recherche!"
la source
Oui, vous pouvez. Au moins dans un sens approximatif.
Je souligne comment ci-dessous (et en effet il y a une relation avec le "chevauchement de boîtes" comme vous le suggérez) avec quelques mises en garde et limitations. Mais d'abord, discutons de quelques préliminaires pour un contexte et un contexte. (Je pense qu'une réponse appropriée ici ne devrait pas se concentrer sur les détails de l'exemple - bien que cela mérite peut-être une mention en aparté - mais sur la question centrale de l'utilisation des boîtes à moustaches pour évaluer si les différences apparentes peuvent facilement être expliquées par une variation aléatoire ou non. .)
Si vous avez accès aux données, vous pouvez dessiner des boîtes à moustaches à encoches conçues pour ce type de comparaison visuelle.
Il y a une discussion sur les calculs de boxplot crantés ici . Si les intervalles d'entaille ne se chevauchent pas, les deux groupes comparés sont approximativement différents au niveau de 5%; les calculs sont basés sur des calculs à la normale, mais ils sont assez robustes et fonctionnent assez bien sur une gamme de distributions. (S'il est traité comme un test formel, la puissance n'est pas si élevée à la normale, mais elle devrait plutôt bien fonctionner pour une variété de cas plus ou moins "typiques" à queue plus lourde.)
Compte tenu du fonctionnement des boîtes à moustaches à encoches, vous pouvez discerner une règle empirique rapide qui fonctionnera lorsque vous n'aurez qu'un affichage comme celui de la question. Lorsque la taille de l'échantillon est de 10 et que la médiane est placée près du milieu de la boîte, les encoches d'une boîte à moustaches à encoches ont environ la largeur de la boîte, de sorte que les extrémités des encoches et la boîte sont à peu près au même endroit.
Voir ici pour une discussion sur la façon dont un "n=10
En regardant votre intrigue:
Notez que l’apparence de la parcelle dans la question permet de constater que la taille des échantillons doit être d’au moins 5; s'ils étaient inférieurs à 5, les boîtes à moustaches à échantillon individuel auraient des indices distincts qu'elles provenaient d'un échantillon de taille inférieure (comme les médianes étant le point mort de chaque boîte, ou le moustache étant de longueur 0 lorsqu'il y avait une valeur aberrante).
Alternativement, si les cases (marquant les quartiles) ne se chevauchent pas et que la taille de l'échantillon est d'au moins 10, les deux groupes comparés devraient avoir des médianes différentes au niveau de 5% (considérées comme une seule comparaison par paire).
[Notez que cela ne tient pas compte du nombre de comparaisons, donc si vous effectuez plusieurs comparaisons, votre erreur globale de type I sera plus importante. Il est destiné à une inspection visuelle plutôt qu'à des tests formels; néanmoins, les idées en cause peuvent être adaptées à une approche plus formelle, y compris un ajustement pour des comparaisons multiples.]
Après avoir examiné si vous le pouvez , il serait raisonnable de considérer si vous le devriez . Peut-être pas; le problème du piratage p potentiel est réel, mais si vous l'utilisez pour déterminer si, par exemple, poursuivre la collecte de nouvelles données sur le problème de la recherche et tout ce que vous avez est un boxplot dans un papier - disons - cela peut être assez utile pour pouvoir évaluer s'il y a plus que ce qui pourrait facilement être expliqué par la variation due au bruit. Mais examiner ce problème en profondeur reviendrait vraiment à répondre à une autre question.
la source