Une fois, je suis tombé sur un type de graphique pour des données catégorielles (c'est-à-dire des tableaux de contingence) sur Internet, ce que j'ai vraiment aimé, mais je ne l'ai jamais retrouvé, et je ne sais même pas comment il s'appelle. C'était essentiellement comme un diagramme à tamis, en ce sens que les hauteurs de ligne et les largeurs de colonne étaient mises à l'échelle par rapport aux probabilités marginales. Ainsi, chaque case a été mise à l'échelle à la fréquence relative attendue sous l'indépendance. Cependant, il différait d'un diagramme à tamis en ce que, plutôt que de tracer des hachures croisées dans chaque boîte, il représentait un point (comme dans un nuage de points) à un endroit choisi au hasard parmi un uniforme bivarié pour chaque observation. De cette façon, la densité des points reflète à quel point les dénombrements observés correspondent aux dénombrements attendus. Autrement dit, si la densité était similaire dans chaque boîte, le modèle nul est raisonnable, ) pourrait ne pas être très probable sous le modèle nul. Étant donné que les points sont tracés au lieu de hachures croisées, il existe une correspondance simple et intuitive entre l'élément tracé et le nombre observé, ce qui n'est pas nécessairement vrai pour les tracés de tamis (voir ci-dessous). De plus, le placement aléatoire des points donne à l'intrigue une sensation «organique». De plus, la couleur pourrait être utilisée pour mettre en évidence les cases / cellules qui s'écartent fortement du modèle nul, et une matrice de tracé pourrait être utilisée pour examiner les relations par paires entre de nombreuses variables différentes, afin qu'elle puisse incorporer les avantages de tracés similaires.
- Est-ce que quelqu'un sait comment s'appelle ce complot?
- Existe-t-il un package / une fonction qui le fera facilement dans R ou dans un autre logiciel (par exemple, Mondrian)? Je ne trouve rien de semblable dans vcd . Bien sûr, il pourrait être codé en dur à partir de zéro, mais ce serait pénible.
Voici un exemple simple d'un tracé de tamisage, notez qu'il est facile de voir comment les comptes attendus pour les différentes catégories devraient se dérouler sous le modèle nul, mais difficile de concilier le hachurage croisé avec les nombres réels, ce qui donne un tracé qui n'est pas assez aussi facile à lire et esthétiquement hideux:
B ~B
A 38 4
~A 3 19
Pour ce que ça vaut, un graphique en mosaïque a en quelque sorte le problème opposé: bien qu'il soit plus facile de voir quelles cellules ont un nombre «trop» ou «trop peu» (par rapport au modèle nul), il est plus difficile de reconnaître quelles sont les relations entre les les comptes attendus auraient été. Plus précisément, les largeurs de colonne sont mises à l'échelle par rapport à la probabilité marginale, mais les hauteurs de ligne ne le sont pas, ce qui rend cette information presque impossible à extraire.
Et maintenant pour quelque chose de complètement différent...
- Est-ce que quelqu'un sait d'où vient la convention pour utiliser le bleu pour «trop» et le rouge pour «trop peu»? Cela a toujours été contre-intuitif pour moi. Il me semble qu'une densité exceptionnellement élevée (ou trop d'observations) va de pair avec le chaud , et une faible densité va de pair avec le froid , et que (au moins dans l'éclairage de scène) les rouges sont chauds et les bleus sont frais .
Mise à jour: Si je me souviens bien, l'intrigue que j'ai vue était dans un pdf d'un chapitre (introduction ou ch1) d'un livre qui a été mis gratuitement à disposition en ligne comme teaser marketing. Voici une version approximative de l'idée que j'ai codée à partir de zéro:
même avec cette version brute, je pense qu'elle est plus facile à lire que le graphique au tamis, et à certains égards plus facile que le graphique en mosaïque (par exemple, il est plus facile de reconnaître ce que les relations entre les fréquences des cellules serait sous indépendance). Ce serait bien d'avoir une fonction qui: a. ferait cela automatiquement avec n'importe quel tableau de contingence, b. pourrait être utilisé comme élément constitutif d'une matrice de parcelle, et c. aurait les fonctionnalités intéressantes fournies avec les tracés ci-dessus (comme la légende des résidus normalisés sur le tracé de la mosaïque).
la source
R
fonctionassocplot
est-elle proche de ce que vous voulez dire? Sinon, je parie qu'unR
programmeur pourrait modifier cela oumosaicplot
faire ce que vous voulez.shading.points()
pour faire ce que vous voulez, dans le cadre strucplot qui a été cité ci-dessus et est disponible sous forme de vignette dans levcd
package.Réponses:
Le livre que vous avez décrit ressemble à «Visualiser les données catégoriques», Michael Friendly. L'intrigue décrite dans le 1er chapitre qui semble correspondre à votre demande a été décrite comme un type de modèle conceptuel pour visualiser les données du tableau de contingence (décrit de manière lâche par l'auteur comme un modèle de pression dynamique avec une densité d'observation), et peut être vu dans l'aperçu google pour Ch 1. Le livre est destiné aux utilisateurs SAS.
Un article sur le sujet est référencé ici: www.datavis.ca/papers/koln/kolnpapr.pdf
«Modèles conceptuels pour visualiser les données des tableaux de contingence», Michael Friendly.
* accessoirement, l'auteur est également répertorié comme l'un des auteurs du package vcd (car il a été spécifiquement inspiré par son livre mentionné ci-dessus) - vous pouvez peut-être lui demander directement s'il y a une simple modification à l'une des fonctions intégrées qui est pas facilement apparent.
** Le schéma de coloration semble relier la couleur bleue aux écarts positifs par rapport à l'indépendance et le rouge aux écarts négatifs. Bien que le schéma rouge soit logique dans ce contexte, il aurait peut-être été plus approprié d'utiliser le vert pour représenter des écarts positifs.
http://www.datavis.ca/papers/asa92.html
la source
Peut-être pas ce que vous avez vu, mais pour la visualisation des départs attendus sous l' indépendance, les parcelles de correspondance sont bien motivées.
http://www.jstatsoft.org/v20/i03/
(En passant, le livre de SAS et M Friendly s'est trompé sur l'ajustement recommandé et de nombreuses parcelles contenaient des artefacts et cela peut avoir distrait de leur valeur perçue.)
la source