J'écris ma thèse de doctorat et je me suis rendu compte que je m'appuie excessivement sur les boîtes à moustaches pour comparer les distributions. Quelles autres alternatives aimez-vous pour accomplir cette tâche?
J'aimerais également vous demander si vous connaissez une autre ressource comme la galerie R dans laquelle je peux m'inspirer de différentes idées sur la visualisation des données.
hist
; densité lissées,density
; Parcelles QQqqplot
; parcelles de tiges et de feuilles (un peu anciennes)stem
. De plus, le test de Kolmogorov-Smirnov pourrait être un bon complémentks.test
.Réponses:
Je vais développer mon commentaire, comme suggéré par @gung. Je vais également inclure l'intrigue de violon suggérée par @Alexander, par souci d'exhaustivité. Certains de ces outils peuvent être utilisés pour comparer plus de deux échantillons.
J'espère que ça aide.
la source
Après avoir exploré un peu plus vos suggestions, j'ai trouvé ce type de complot pour compléter la réponse de @Procastinator. Il est appelé «essaim d'abeilles» et est un mélange de boîte à moustaches et de violon avec le même niveau de détail que le nuage de points.
paquet R de beeswarm
la source
beanplot
.Une note:
Vous souhaitez répondre à des questions sur vos données et ne pas créer de questions sur la méthode de visualisation elle-même. Souvent, ennuyeux, c'est mieux. Cela rend aussi les comparaisons de comparaisons plus faciles à comprendre.
Une réponse:
La nécessité d'un formatage simple au-delà du package de base de R explique probablement la popularité du package ggplot de Hadley dans R.
Enfin, j'ai trouvé que l'ajout d'un arrière-plan simple aide. C'est pourquoi j'ai écrit "bgfun" qui peut être appelé par panel.first
la source
alpha=0.5
au premier tracé pourgeom_density()
que les parties qui se chevauchent ne soient pas cachées.Voici un joli didacticiel du blog Flowing Data de Nathan Yau utilisant des données sur la criminalité au niveau de l'État R et américain. Ça montre:
Dernièrement, je me retrouve à tracer des CDF beaucoup plus que des histogrammes.
la source
Il existe un concept spécifique pour comparer les distributions, qui devrait être mieux connu: la distribution relative.
Voyons un exemple. Le site Web http://www.math.hope.edu/swanson/data/cellphone.txt fournit des données sur la durée du dernier appel téléphonique des étudiants masculins et féminins. Exprimons la distribution de la durée des appels téléphoniques pour les étudiants masculins, avec les étudiantes comme référence.
Nous pouvons également faire le même tracé avec des intervalles de confiance ponctuels autour de la courbe de densité relative:
Les larges bandes de confiance dans ce cas reflètent la petite taille de l'échantillon.
Il existe un livre sur cette méthode: Handcock
Le code R pour l'intrigue est ici:
Pour le dernier tracé, changez en:
Notez que les graphiques sont produits en utilisant l'estimation de la densité du noyau, avec un degré de lissage choisi via gcv (validation croisée généralisée).
la source
J'aime juste estimer les densités et les tracer,
la source