Disons que j'ai deux distributions que je veux comparer en détail, c'est-à-dire d'une manière qui rend la forme, l'échelle et le décalage facilement visibles. Une bonne façon de procéder consiste à tracer un histogramme pour chaque distribution, à les placer sur la même échelle X et à les empiler les uns sous les autres.
Lors de cette opération, comment procéder au binning? Les deux histogrammes devraient-ils utiliser les mêmes limites de bac même si une distribution est beaucoup plus dispersée que l'autre, comme dans l'image 1 ci-dessous? Le regroupement doit-il être effectué indépendamment pour chaque histogramme avant le zoom, comme dans l'image 2 ci-dessous? Y a-t-il même une bonne règle empirique à ce sujet?
data-visualization
histogram
pdf
binning
dsimcha
la source
la source
Réponses:
Je pense que vous devez utiliser les mêmes bacs. Sinon, l'esprit vous joue des tours. Normal (0,2) semble plus dispersé par rapport à Normal (0,1) dans l'image n ° 2 que dans l'image n ° 1. Rien à voir avec les statistiques. Il semble que Normal (0,1) ait suivi un "régime".
-Ralph Winters
Les points d'extrémité médian et histogramme peuvent également altérer la perception de la dispersion. Notez que dans cette applet, une sélection de bin maximale implique une plage de> 1,5 - ~ 5 tandis qu'une sélection de bin minimale implique une plage de <1 -> 5,5
http://www.stat.sc.edu/~west/javahtml/Histogram.html
la source
Une autre approche consisterait à tracer les différentes distributions sur le même tracé et à utiliser quelque chose comme le
alpha
paramètre dansggplot2
pour résoudre les problèmes de surplacement. L'utilité de cette méthode dépendra des différences ou des similitudes dans votre distribution car elles seront tracées avec les mêmes cases. Une autre alternative serait d'afficher des courbes de densité lissées pour chaque distribution. Voici un exemple de ces options et des autres options discutées dans le fil:la source
Il s'agit donc de conserver la même taille de bac ou de conserver le même nombre de bacs? Je peux voir des arguments des deux côtés. Une solution de contournement consisterait à normaliser les valeurs en premier. Ensuite, vous pourriez conserver les deux.
la source