Tout en faisant un EDA, j'ai décidé d'utiliser un diagramme en boîte pour illustrer la différence entre deux niveaux d'un facteur.
La façon dont ggplot a rendu le diagramme en boîte était satisfaisante, mais légèrement simpliste (premier tracé ci-dessous). Tout en recherchant les caractéristiques des parcelles en caissons, j'ai commencé à expérimenter avec des encoches.
Je comprends que les encoches affichent l'IC autour de la médiane, et que si les encoches de deux cases ne se chevauchent pas, il y a des "preuves solides" - à un niveau de confiance de 95% - que les médianes diffèrent.
Dans mon cas (deuxième tracé), les encoches ne se chevauchent pas de manière significative. Mais pourquoi le fond de la boîte à droite prend-il cette étrange forme?
Le tracé des mêmes données dans un tracé de violon n'a rien révélé d'inhabituel au sujet de la densité de probabilité du violon correspondant.
ggplot2
. J'aime aussi l'idée de tracer les points de données individuels, mais c'est frustrant dans la mesure où les points dans la boîte sombre sont rendus invisibles.Réponses:
Il indique que le 25e centile est d'environ 21, le 75e centile d'environ 30,5. Et les limites inférieure et supérieure de l'encoche sont d'environ 18 et 27.
Une raison courante est que votre distribution est asymétrique ou que la taille de l'échantillon est faible. La limite de l'encoche est basée sur:
Si la distance entre la médiane et le 25e centile et la distance entre la médiane et le 75e centile sont extrêmement différentes (comme celle de droite) et / ou si la taille de l'échantillon est faible, l'encoche sera plus large. Si elle est suffisamment large pour que la limite de l'entaille soit plus extrême que les 25e et 75e centiles (aka, la boîte), alors le tracé de boîte à encoches affichera cette forme "à l'envers".
la source