J'ai des difficultés à sélectionner la bonne façon de visualiser les données. Disons que nous avons des librairies qui vendent des livres , et chaque livre a au moins une catégorie .
Pour une librairie, si nous comptons toutes les catégories de livres, nous acquérons un histogramme qui montre le nombre de livres qui tombe dans une catégorie spécifique pour cette librairie.
Je veux visualiser le comportement de la librairie, je veux voir s'ils favorisent une catégorie par rapport aux autres catégories. Je ne veux pas voir s'ils favorisent la science-fiction tous ensemble, mais je veux voir s'ils traitent toutes les catégories de manière égale ou non.
J'ai environ 1 million de librairies.
J'ai pensé à 4 méthodes:
Échantillonnez les données, montrez seulement 500 histogrammes de librairie. Montrez-les sur 5 pages distinctes en utilisant une grille 10x10. Exemple d'une grille 4x4:
Identique à # 1. Mais cette fois, triez les valeurs de l'axe x en fonction de leur nombre de descentes, donc s'il y a une faveur, cela sera facilement visible.
Imaginez que vous assembliez les histogrammes du n ° 2 comme un deck et que vous les montriez en 3D. Quelque chose comme ça:
Au lieu d'utiliser le troisième axe pour poursuivre la couleur afin de représenter les couleurs, utilisez donc une carte thermique (histogramme 2D):
Si généralement les librairies préfèrent certaines catégories aux autres, elles seront affichées comme un joli dégradé de gauche à droite.
Avez-vous d'autres idées / outils de visualisation pour représenter plusieurs histogrammes?
Réponses:
Comme vous l'avez découvert, il n'y a pas de réponses faciles à votre question!
Je suppose que vous êtes intéressé à trouver des librairies étranges ou différentes? Si tel est le cas, vous pouvez essayer des choses comme PCA (voir la page d' analyse des clusters de wikipedia pour plus de détails).
Pour vous donner une idée, considérez cet exemple. Vous avez 26 librairies (avec les noms A, B, .. Z). Toutes les librairies sont similaires, sauf:
Un tracé des composants principaux met en évidence ces magasins pour une enquête plus approfondie.
Voici un exemple de code R:
Cela donne le tracé suivant:
Tracé PCA http://img265.imageshack.us/img265/7263/tmplx.jpg
Remarquerez que:
Autres possibilités
Vous pouvez également regarder GGobi , je ne l'ai jamais utilisé, mais il semble intéressant.
la source
Je suggérerais quelque chose qui n'a pas de nom défini (probablement "tracé parallèle") et ressemble à ceci:
Fondamentalement, vous tracez tous les décomptes de toutes les librairies sous forme de points sur les catégories répertoriées sur l'axe des x et connectez les résultats de chaque librairie à une ligne. Cependant, cela peut être trop emmêlé pour les lignes 1M. Le concept vient de GGobi qui était déjà mentionné par csgillespie.
la source