J'ai lu et vu beaucoup de tracés de coordonnées parallèles. Quelqu'un peut-il répondre à l'ensemble des questions suivantes:
- Que sont les tracés de coordonnées parallèles (PCP) en termes simples, pour qu'un profane puisse comprendre?
- Une explication mathématique avec une certaine intuition si possible
- Quand le PCP est-il utile et quand les utiliser?
- Quand le PCP n'est-il pas utile et quand devrait-il être évité?
- Avantages et inconvénients possibles du PCP
r
data-visualization
suncoolsu
la source
la source
Réponses:
Il me semble que la fonction principale du PCP est de mettre en évidence des groupes homogènes d'individus, ou inversement (dans le double espace, par analogie avec l'ACP) des schémas d'association spécifiques sur différentes variables. Il produit un résumé graphique efficace d'un ensemble de données multivariées, lorsqu'il n'y a pas trop de variables. Les variables sont automatiquement mises à l'échelle sur une plage fixe (généralement, 0–1), ce qui équivaut à travailler avec des variables standardisées (pour éviter l'influence d'une variable sur les autres en raison d'un problème de mise à l'échelle), mais pour un ensemble de données de très grande dimension (# de variables> 10), vous devez certainement regarder d'autres affichages, comme le graphique de fluctuation ou la carte thermique utilisés dans les études de puces à ADN.
Cela aide à répondre à des questions comme:
Dans le graphique suivant des données Iris , on voit clairement que les espèces (ici illustrées en différentes couleurs) présentent des profils très discriminants lorsque l'on considère la longueur et la largeur des pétales, ou que Iris setosa (bleu) sont plus homogènes par rapport à leur longueur de pétale ( c'est-à-dire que leur variance est plus faible), par exemple.
Vous pouvez même l'utiliser comme backend pour des techniques de classification ou de réduction de dimension, comme PCA. Le plus souvent, lorsque vous effectuez une ACP, en plus de réduire l'espace des fonctionnalités, vous souhaitez également mettre en évidence des groupes d'individus (par exemple, y a-t-il des individus qui obtiennent systématiquement un score plus élevé sur une combinaison de variables); ceci est généralement réduit en appliquant une sorte de clustering hiérarchique sur les scores des facteurs et en mettant en évidence l'appartenance au cluster résultant sur l'espace factoriel (voir le package FactoClass R).
Il est également utilisé dans les clustergrams ( Visualizing non hierarchical and hierarchical cluster analyses ) qui vise à examiner comment l'allocation des clusters évolue en augmentant le nombre de clusters (voir aussi, Quels sont les critères d'arrêt pour le clustering hiérarchique agglomératif utilisés en pratique? ).
De tels affichages sont également utiles lorsqu'ils sont liés à des diagrammes de dispersion habituels (qui par construction sont limités aux relations 2D), c'est ce qu'on appelle le brossage et il est disponible dans le système de visualisation de données GGobi ou le logiciel Mondrian .
la source
En ce qui concerne les questions 3, 4 et 5, je vous suggère de vérifier ce travail
Percevoir les modèles en coordonnées parallèles: déterminer les seuils pour l'identification des relations par: Jimmy Johansson, Camilla Forsell, Mats Lind, Matthew Cooper dans Visualisation de l'information, Vol. 7, n ° 2. (2008), pp. 152-162.
Pour résumer leurs résultats, les gens sont capables d'identifier la direction de la pente de la relation entre chaque nœud, mais ne sont pas très bons pour identifier la force de la relation ou le degré de la pente. Ils donnent des niveaux de bruit suggérés dans lesquels les gens peuvent encore déchiffrer la relation dans l'article. Malheureusement, l'article ne traite pas de l'identification des sous-groupes via la couleur comme le démontre chl.
la source
S'il vous plaît visitez http://www.cs.tau.ac.il/~aiisreal/ et regardez également le nouveau livre
Coordonnées parallèles - Ce livre traite de la visualisation, incorporant systématiquement la fantastique reconnaissance des formes humaines dans le processus de résolution de problèmes ... www.springer.com/math/cse/book/978-0-387-21507-5.
Dans Ch. 10 il existe de nombreux exemples réels avec des données multivariées montrant comment les coordonnées parallèles (abr. || -cs) peuvent être utilisées. Il vaut également la peine d'apprendre quelques notions mathématiques pour visualiser et travailler avec des relations (surfaces) multivariées / multidimensionnelles et pas seulement avec des ensembles de points. Il est amusant de voir et de travailler avec les analogues d'objets familiers dans de nombreuses dimensions, à savoir la bande Moebius, les ensembles convexes et plus encore.
En bref || -cs est un système de coordonnées multidimensionnelles où les axes sont parallèles les uns aux autres permettant de voir beaucoup d'axes. La méthodologie a été appliquée aux algorithmes de résolution des conflits dans le contrôle du trafic aérien, la vision par ordinateur, le contrôle des processus et l'aide à la décision.
la source