Je travaille sur un projet qui comprend 14 variables et 345 000 observations pour les données sur le logement (des choses comme l'année de construction, la superficie, le prix vendu, le comté de résidence, etc.). Je cherche à trouver de bonnes techniques graphiques et des bibliothèques R qui contiennent de belles techniques de traçage.
Je vois déjà ce qui fonctionnera bien dans ggplot et lattice, et je pense à faire des tracés de violon pour certaines de mes variables numériques.
Quels autres packages recommanderaient les utilisateurs pour afficher une grande quantité de variables numériques ou factorisées de manière claire, polie et, surtout, succincte?
r
data-visualization
large-data
eda
Christopher Aden
la source
la source
Réponses:
Le meilleur "graphique" est si évident que personne ne l'a encore mentionné: faites des cartes. Les données sur le logement dépendent fondamentalement de la localisation spatiale (selon l'ancienne scie de l'immobilier), donc la toute première chose à faire est de faire une carte claire et détaillée de chaque variable. Pour bien faire cela avec un tiers de million de points, il faut vraiment un SIG de puissance industrielle, ce qui peut rendre le processus court. Après cela, il est logique de continuer et de faire des graphiques de probabilité et des boîtes à moustaches pour explorer des distributions univariées, et à tracer des matrices de nuages de points et des boîtes à moustaches schématiques errantes, etc., pour explorer les dépendances - mais les cartes suggéreront immédiatement ce qu'il faut explorer, comment modéliser le les relations entre les données et comment répartir géographiquement les données en sous-ensembles significatifs.
la source
ggplot2
(en particulier si vous n'avez pas besoin de tracer les frontières des pays), had.co.nz/ggplot2/coord_map.html . Dans le cas contraire,maps
,gmaps
sont mieux. Il y a aussiGeoXp
et une interface R pour GRASS. BTW, Mondrian a un plugin pour les données géographiques :)lattice
« slevelplot
etcontourplot
. Le paquetfields
a de belles fonctionnalités, y comprisquiltplot
ce qui est bien si vos données ne sont pas strictement sur une grille. Il a également une belle fonction de spline en plaque minceTps
pour lisser les données non maillées vers une grille. En ce qui concerne les logiciels SIG dédiés, GRASS n'a en quelque sorte jamais de sens pour moi, je préfère QGIS.Je recommanderais de jeter un œil à GGobi , qui a également une interface R, au moins à des fins exploratoires. Il dispose d'un certain nombre d'affichages graphiques particulièrement utiles pour traiter un grand nombre d'observations et de variables et pour les relier entre elles. Vous voudrez peut-être commencer par regarder certaines des vidéos dans la section "Regarder une démo" sur la page Apprendre GGobi .
Mise à jour
Liens vers les outils de Hadley Wickham pour GGobi, comme suggéré par chl dans les commentaires:
la source
DescribeDisplay
etclusterfly
.Je pense que vous posez en fait deux questions: 1) quels types de visualisations utiliser et 2) quel package R peut les produire.
Dans le cas du type de graphique à utiliser, il y en a beaucoup et cela dépend de vos besoins (par exemple: types de variables - numériques, facteurs, géographiques, etc., et le type de connexions que vous êtes intéressé à afficher):
Maintenant, comment le faire. Un problème avec de nombreux points de données est le temps jusqu'à la création du tracé. ggplot2, iplots, ggobi ne sont pas très bons pour trop de points de données (du moins d'après mon expérience). Dans ce cas, vous souhaiterez peut-être vous concentrer sur les fonctionnalités graphiques de base R, ou échantillonner vos données et utiliser ces autres outils. Ou vous pouvez espérer que les personnes développant des iplots extreme (ou Acinonyx ) arriveront à un stade de sortie avancé.
la source
rflowcyt
et Acinonyx.rflowcyt
a été déconseillé avec les dernières versions de Bioconductor, il est maintenant recommandé de l'utiliserflowViz
. Quoi qu'il en soit, les deux comptent surlattice
.Mondrian fournit des fonctionnalités interactives et gère des ensembles de données assez volumineux (c'est en Java, cependant).
Paraview comprend des informations 2D / 3D. Caractéristiques.
la source
iplots
citée par @Tal. À propos de Paraview, vous avez la possibilité d'enregistrer une capture d'écran de votre visualisation.DescribeDisplay
est le chemin à parcourir pour exporter la visualisation dynamique à partir de GGobi, cran.r-project.org/web/packages/DescribeDisplay/index.html .Je voudrais attirer votre attention sur les coordonnées parallèles: la géométrie multidimensionnelle visuelle et ses applications , qui contient les dernières percées et applications dans le domaine.
Le livre a été salué entre autres par Stephen Hawking. Les surfaces sont décrites (en utilisant la dualité) par leurs vecteurs normaux en ses points. Il contient des applications pour le contrôle du trafic aérien (évitement automatique des collisions - 3 brevets américains), l'exploration de données multivariée (sur des ensembles de données réels dont certains avec des centaines de variables), l'optimisation multiobjective, le contrôle de processus, les écrans intelligents de soins intensifs, la sécurité, la visualisation réseau et récemment Big Les données.
la source