Comment interpréter les tracés en boîte crantée

11

Tout en faisant un EDA, j'ai décidé d'utiliser un diagramme en boîte pour illustrer la différence entre deux niveaux d'un facteur.

La façon dont ggplot a rendu le diagramme en boîte était satisfaisante, mais légèrement simpliste (premier tracé ci-dessous). Tout en recherchant les caractéristiques des parcelles en caissons, j'ai commencé à expérimenter avec des encoches.

Je comprends que les encoches affichent l'IC autour de la médiane, et que si les encoches de deux cases ne se chevauchent pas, il y a des "preuves solides" - à un niveau de confiance de 95% - que les médianes diffèrent.

Dans mon cas (deuxième tracé), les encoches ne se chevauchent pas de manière significative. Mais pourquoi le fond de la boîte à droite prend-il cette étrange forme?

Le tracé des mêmes données dans un tracé de violon n'a rien révélé d'inhabituel au sujet de la densité de probabilité du violon correspondant.

fig.1 boxplot

fig.2 boxplot cranté

RDJ
la source
1
Dans votre code ggplot, vous devez utiliser fill = factor (am) car actuellement am est utilisé comme variable numérique.
rnso
C'est un super endroit @rnso
RDJ
Quelqu'un peut-il publier les données originales? Je suppose qu'ils proviennent d'un bac à sable standard pour ggplot2. J'aime aussi l'idée de tracer les points de données individuels, mais c'est frustrant dans la mesure où les points dans la boîte sombre sont rendus invisibles.
Nick Cox

Réponses:

18

Dans mon cas (deuxième tracé), les encoches ne se chevauchent pas de manière significative. Mais pourquoi le fond de la boîte à droite prend-il cette étrange forme? Comment expliquer ça?

Il indique que le 25e centile est d'environ 21, le 75e centile d'environ 30,5. Et les limites inférieure et supérieure de l'encoche sont d'environ 18 et 27.

Une raison courante est que votre distribution est asymétrique ou que la taille de l'échantillon est faible. La limite de l'encoche est basée sur:

median±1.57×IQRn

Si la distance entre la médiane et le 25e centile et la distance entre la médiane et le 75e centile sont extrêmement différentes (comme celle de droite) et / ou si la taille de l'échantillon est faible, l'encoche sera plus large. Si elle est suffisamment large pour que la limite de l'entaille soit plus extrême que les 25e et 75e centiles (aka, la boîte), alors le tracé de boîte à encoches affichera cette forme "à l'envers".

Penguin_Knight
la source
1
Merci beaucoup pour votre explication détaillée. Permettez-moi de vous demander pourquoi les limites inférieure et supérieure de l'encoche sont d'environ 17 et 24, et non d'environ 18 et 27 (sur le boxplot de droite)?
Denis
@Denis, Merci d'avoir attrapé ça. Je l'ai révisé.
Penguin_Knight