Comment mettre à l'échelle des parcelles de violon pour des comparaisons?

14

J'essaie de dessiner des parcelles de violon et je me demande s'il existe une meilleure pratique acceptée pour les mettre à l'échelle entre les groupes. Voici trois options que j'ai essayées en utilisant l' mtcarsensemble de données R (Motor Trend Cars de 1973, trouvé ici ).

Largeurs égales

Semble être ce que fait le papier original * et ce que fait R vioplot( exemple ). Bon pour comparer la forme.

Plots de violon à surface égale

Zones égales

Se sent bien puisque chaque tracé est un tracé de probabilité, et donc l'aire de chacun doit être égale à 1,0 dans un espace de coordonnées. Bon pour comparer la densité au sein de chaque groupe, mais semble plus approprié si les parcelles sont superposées.

Plots de violon d'égale largeur

Zones pondérées

Comme une surface égale, mais pondérée par le nombre d'observations. 6 cylindres devient relativement plus mince car il y a moins de ces voitures. Bon pour comparer la densité entre les groupes.

Parcelles de violon pondérées

* Plots de violon: une boîte Trace-Density Trace Synergis (DOI: 10.2307 / 2685478)

xan
la source
1
Le but des parcelles déterminera, dans une large mesure, les solutions appropriées. Qu'essayez-vous donc de montrer avec eux?
whuber
@whuber Bonne question, même si je n'ai pas de réponse directe. J'essaie de fournir un graphique pour EDA et je cherche une bonne valeur par défaut générale (et si les autres options sont suffisamment utiles pour faire surface).
xan
Je voudrais suggérer que vous contrôliez les parcelles en fonction de vos objectifs plutôt que d'accepter certains paramètres par défaut.
whuber
Je dirais que votre version des «zones pondérées» était «bonne pour comparer les sous-groupes d'une population», car il pourrait être judicieux d'ajouter les largeurs pour obtenir la forme de la population entière.
Henry
Je préfère des zones égales, pour préserver l'impact visuel de la forme des distributions. Complétez ensuite le graphique avec des thermomètres indiquant la taille des échantillons, ou utilisez simplement des représentations textuelles des tailles des échantillons à côté des violons.
Frank Harrell

Réponses:

4

Les boîtes à moustaches sont utilisées pour les résumés schématiques d'une distribution. Les tracés de violon ne sont que des tracés de boîte dans lesquels les boîtes Q1, Q2 et Q3 sont remplacées par une large gamme de quantiles. Pour cette raison, je pense que la pratique acceptée consiste à utiliser une largeur uniforme entre les groupes.

Cependant, vous soulevez un bon point: comment comparer les densités entre les groupes? La réponse dépend de si vous considérez chaque groupe comme sa propre population ou comme des sous-populations.

ΣjePje=1

Meule
la source
Les parcelles de violon ont été initialement introduites et définies comme des parcelles hybrides et des traces de densité. Un rapide Google montre que dans la pratique, de nombreux complots rendus publics car les complots de violon omettent la boîte et beaucoup ne montrent aucun quantile en tant que tel. Les définitions sont donc largement ouvertes ici.
Nick Cox du
5

Honnêtement, je pense que vous l'abordez dans la mauvaise direction. Les trois graphiques vous indiquent clairement des informations ayant une valeur - sinon, vous ne considéreriez pas le graphique à utiliser. L'analyse exploratoire des données consiste à comprendre vos données. Où il est conforme aux attentes. Là où ça ne marche pas. Comment est-il façonné sur plusieurs variables?

L' intérêt de l'EDA est d'évaluer si nos valeurs par défaut, qu'il s'agisse d'hypothèses de distribution ou de colinéarité, du modèle statistique qui allait être utilisé, etc., sont bien justifiées. En tant que tel, le concept d'un EDA "par défaut" est quelque peu imparfait.

Regardez-les tous - ou du moins toutes les parcelles qui se rapportent à la question que vous avez l'intention de poser. Il n'y a aucune raison de s'immiscer dans "ce qui est intéressant" et "ce que je vais ignorer" au stade de l'EDA. Et si nous alimentons simplement les données par défaut, ce n'est pas vraiment EDA en premier lieu.

Fomite
la source
+1 pour des remarques éclairantes sur EDA, bien qu'il ne soit toujours pas clair (pour moi) si l'OP est après EDA ou non ...
chl
@chl Certains des commentaires du PO suggèrent que c'est ce qu'il recherche. Si c'est juste "lequel d'entre eux est le plus utile", la réponse que je crains devient encore plus ambiguë "eh bien, que voulez-vous montrer?"
Fomite
Ah, j'ai raté ce commentaire ... Donc votre réponse vaut à nouveau un +1, mais je ne peux pas :(
chl
4

Et la bande passante? Vous y avez pensé?

Si vous utilisez les paramètres par défaut de votre logiciel pour obtenir le pdf, vous utilisez probablement la règle générale pour une bande passante optimale d'un noyau gaussien. Cette «bande passante optimale» pourrait alors différer ensuite pour chaque sous-ensemble. Maintenant, demandez-vous si les formes sont toujours comparables? Il se pourrait que l'on rencontre la même variable (estimation de la densité du noyau) avec des standards doubles.

Pour l'estimation de la densité du noyau, des règles claires ont été développées pour obtenir la bonne bande passante (une sorte de validation croisée), mais pour les tracés de violon, elles sont généralement ignorées. Cela peut être important lorsque la taille des échantillons diffère beaucoup.

J'ai ce problème en ce moment. Qu'est-ce que tu en penses? Comment le résolvez-vous? Tous les commentaires sont grandement appréciés.

Holger Hoffmann
la source