J'essaie de dessiner des parcelles de violon et je me demande s'il existe une meilleure pratique acceptée pour les mettre à l'échelle entre les groupes. Voici trois options que j'ai essayées en utilisant l' mtcars
ensemble de données R (Motor Trend Cars de 1973, trouvé ici ).
Largeurs égales
Semble être ce que fait le papier original * et ce que fait R vioplot
( exemple ). Bon pour comparer la forme.
Zones égales
Se sent bien puisque chaque tracé est un tracé de probabilité, et donc l'aire de chacun doit être égale à 1,0 dans un espace de coordonnées. Bon pour comparer la densité au sein de chaque groupe, mais semble plus approprié si les parcelles sont superposées.
Zones pondérées
Comme une surface égale, mais pondérée par le nombre d'observations. 6 cylindres devient relativement plus mince car il y a moins de ces voitures. Bon pour comparer la densité entre les groupes.
* Plots de violon: une boîte Trace-Density Trace Synergis (DOI: 10.2307 / 2685478)
Réponses:
Les boîtes à moustaches sont utilisées pour les résumés schématiques d'une distribution. Les tracés de violon ne sont que des tracés de boîte dans lesquels les boîtes Q1, Q2 et Q3 sont remplacées par une large gamme de quantiles. Pour cette raison, je pense que la pratique acceptée consiste à utiliser une largeur uniforme entre les groupes.
Cependant, vous soulevez un bon point: comment comparer les densités entre les groupes? La réponse dépend de si vous considérez chaque groupe comme sa propre population ou comme des sous-populations.
la source
Honnêtement, je pense que vous l'abordez dans la mauvaise direction. Les trois graphiques vous indiquent clairement des informations ayant une valeur - sinon, vous ne considéreriez pas le graphique à utiliser. L'analyse exploratoire des données consiste à comprendre vos données. Où il est conforme aux attentes. Là où ça ne marche pas. Comment est-il façonné sur plusieurs variables?
L' intérêt de l'EDA est d'évaluer si nos valeurs par défaut, qu'il s'agisse d'hypothèses de distribution ou de colinéarité, du modèle statistique qui allait être utilisé, etc., sont bien justifiées. En tant que tel, le concept d'un EDA "par défaut" est quelque peu imparfait.
Regardez-les tous - ou du moins toutes les parcelles qui se rapportent à la question que vous avez l'intention de poser. Il n'y a aucune raison de s'immiscer dans "ce qui est intéressant" et "ce que je vais ignorer" au stade de l'EDA. Et si nous alimentons simplement les données par défaut, ce n'est pas vraiment EDA en premier lieu.
la source
Et la bande passante? Vous y avez pensé?
Si vous utilisez les paramètres par défaut de votre logiciel pour obtenir le pdf, vous utilisez probablement la règle générale pour une bande passante optimale d'un noyau gaussien. Cette «bande passante optimale» pourrait alors différer ensuite pour chaque sous-ensemble. Maintenant, demandez-vous si les formes sont toujours comparables? Il se pourrait que l'on rencontre la même variable (estimation de la densité du noyau) avec des standards doubles.
Pour l'estimation de la densité du noyau, des règles claires ont été développées pour obtenir la bonne bande passante (une sorte de validation croisée), mais pour les tracés de violon, elles sont généralement ignorées. Cela peut être important lorsque la taille des échantillons diffère beaucoup.
J'ai ce problème en ce moment. Qu'est-ce que tu en penses? Comment le résolvez-vous? Tous les commentaires sont grandement appréciés.
la source