Dans mon domaine, la façon habituelle de tracer des données appariées consiste en une série de segments de ligne en pente mince, en les superposant à la médiane et à l'IC de la médiane pour les deux groupes:
Cependant, ce type de tracé devient beaucoup plus difficile à lire car le nombre de points de données devient très important (dans mon cas, j'ai de l'ordre de 10000 paires):
Réduire l'alpha aide un peu, mais ce n'est toujours pas génial. En cherchant une solution, je suis tombé sur ce document et j'ai décidé d'essayer de mettre en œuvre un «tracé de ligne parallèle». Encore une fois, cela fonctionne très bien pour un petit nombre de points de données:
Mais il est encore plus difficile de faire en sorte que ce type d'intrigue est très grand:
Je suppose que je pourrais montrer séparément les distributions pour les deux groupes, par exemple avec des boîtes à moustaches ou des violons, et tracer une ligne avec des barres d'erreur en haut montrant les deux médianes / CI, mais je n'aime vraiment pas cette idée, car elle ne véhiculerait pas la nature jumelée des données.
Je ne suis pas non plus trop intéressé par l'idée d'un nuage de points 2D: je préférerais une représentation plus compacte, et idéalement une représentation dans laquelle les valeurs des deux groupes sont tracées le long du même axe. Par souci d'exhaustivité, voici à quoi ressemblent les données en tant que nuage 2D:
Quelqu'un connaît-il une meilleure façon de représenter les données appariées avec un échantillon de très grande taille? Pourriez-vous me lier à quelques exemples?
Éditer
Désolé, je n'ai clairement pas fait un assez bon travail pour expliquer ce que je cherche. Oui, le nuage de points 2D fonctionne, et il existe de nombreuses façons de l'améliorer afin de mieux transmettre la densité des points - je pourrais coder par couleur les points selon une estimation de la densité du noyau, je pourrais faire un histogramme 2D , Je pourrais tracer des contours au-dessus des points etc., etc ...
Cependant, je pense que c'est exagéré pour le message que j'essaie de transmettre. Je ne m'inquiète pas vraiment de montrer la densité 2D de points en soi - tout ce que je dois faire est de montrer que les valeurs pour les «barres» sont généralement plus grandes que celles pour les «points», d'une manière aussi simple et claire que possible , et sans perdre la nature appariée essentielle des données. Idéalement, je voudrais tracer les valeurs appariées pour les deux groupes le long des mêmes axes plutôt que orthogonaux, car cela facilite la comparaison visuelle.
Il n'y a peut-être pas de meilleure option qu'un nuage de points, mais j'aimerais savoir s'il existe des alternatives qui pourraient fonctionner.
bar
sur l'horizontale etdot
sur l'axe vertical comme un nuage de points?Réponses:
Compte tenu de la façon dont je comprends votre objectif, je calculerais simplement les différences appariées (
bars - dots
), puis représenterais ces différences dans un histogramme ou un graphique d'estimation de la densité du noyau. Vous pouvez également ajouter n'importe quelle combinaison de (1) une ligne verticale correspondant à une différence nulle (2) n'importe quel choix de centiles.Cela mettrait en évidence quelle partie des données a
bars
dépassédots
, et généralement quelles sont les différences observées.(J'ai supposé que vous n'êtes pas intéressé à afficher les valeurs réelles et brutes de
bars
etdots
dans le même tracé.)On pourrait également tracer la confiance ou des intervalles crédibles postérieurs pour indiquer si ces différences sont significatives. (H / T @MrMeritology!)
la source
Avec autant de paires, vous avez la possibilité d'étudier plus en profondeur la structure, comme si la différenceyB-yUNE dépend du "point de départ" yUNE !
Vous pourriez adapter un modèle commeyB= μ + décalage (yUNE) + Δ (yUNE-y¯UNE) + ϵ
et vous pourriez même ajouter un terme quadratique +Δ2(yUNE-y¯UNE)2
ou vous pouvez remplacer le terme linéaire + quadratique par une spline à l'aide d'un modèle additif généralisé (ou splines de régression).
Graphiquement, vous pouvez afficher les lignes comme vous l'avez montré, avec un facteur alpha réduit (*), peut-être réduire davantage en n'affichant qu'un échantillon aléatoire de lignes. Ensuite, vous pouvez colorer les lignes en fonction de la pente ...
Pour les graphiques de Bland-Altman, mentionnés dans un commentaire de Nick Cox, voir par exemple un exemple d' accord entre des méthodes avec plusieurs observations par individu ou regardez à travers la baliseintrigue fade-altman.
(*) Le facteur alpha est ici un paramètre graphique qui rend les points du tracé transparents, de sorte que les premiers points tracés ne sont pas totalement occultés par un surplacement ultérieur.
la source
Je préférerais le nuage de points 2D. Je dessinerais la ligne de référence en gris clair pour plus de contraste dans la région surpeuplée. Pour réduire l'encombrement, dessinez les marqueurs sans bordure, réduisez davantage l'alpha, réduisez la taille des marqueurs.
Cela dit, si vous êtes plus intéressé par les paires typiques que par les ailes de la distribution, essayez de tracer la ligne de la somme cumulée de la
dots
par rapport à la somme cumulée de labars
. L'intrigue est toujours en 2D mais avec beaucoup moins d'encre. Pour enregistrer également la zone de traçage, vous pouvez faire pivoter la trace de 45 ° afin que le cadre serve de direction de référence.Ce graphique montrerait également toute tendance dans les données. Si le processus est connu pour être stationnaire, trier les paires par, par exemple, leur moyenne géométrique,
sqrt(bars*dots)
.la source
Je recommanderais de tracer les lignes telles que vous les avez pour la médiane et les quartiles, ou autant de centiles que vous le souhaitez. La médiane pourrait rester plus épaisse / plus perceptible que les autres lignes de centile. Cela aiderait à préserver la capacité de voir comment les données se comportent dans la distribution sans compromettre la simplicité et la familiarité du tracé actuellement utilisé dans votre domaine.
De plus, avec une taille d'échantillon aussi élevée, la tendance moyenne ou médiane avec barres d'erreur serait probablement suffisante car vous apprécieriez tellement le théorème de la limite centrale. Le champ biomédical repose également sur ces tracés linéaires appariés, mais c'est souvent le cas parce que la taille de l'échantillon peut être de l'ordre de 10-20, il est donc important de visualiser les points de levier potentiels.
la source
Ma première suggestion est un nuage de points.
Si 10000 points inégalement répartis dans votre parcelle sont toujours un nuage vague, envisagez une carte thermique. La couleur du pixel à x = 10,5, y = 11,5 indiquerait combien de fois la valeur entre 10,45 et 10,55 est mappée sur une valeur comprise entre 11,45 et 11,55: 0 = blanc = RVB (255,255,255), 1 = bleu = RGB (0, 0,255), 2 = RVB (1,0254), ... 256 et plus = RVB (255,0,0) = rouge
la source