J'ai un ensemble de points de données dans un espace à N dimensions. De plus, j'ai également un centroïde dans ce même espace à N dimensions. Existe-t-il des approches qui peuvent me permettre de projeter ces points de données dans un espace à deux dimensions tout en conservant leurs informations de distance relative dans l'espace d'origine. PCA est-il le bon?
data-visualization
pca
multidimensional-scaling
bit-question
la source
la source
Réponses:
Un cadre général qui aborde votre problème est appelé réduction de la dimensionnalité. Vous souhaitez projeter des données de N dimensions à 2 dimensions, tout en conservant les "informations essentielles" dans vos données. La méthode la plus appropriée dépend de la distribution de vos données, c'est-à-dire du collecteur à N dimensions. PCA s'adaptera à un avion en utilisant le critère des moindres carrés. Cela fonctionnera probablement mal pour l'exemple "swiss roll": swiss roll .
Les méthodes plus modernes incluent le noyau PCA, LLE, les cartes de diffusion et les représentations de dictionnaire clairsemées. En ce qui concerne la préservation de la distance, certaines méthodes peuvent préserver les distances non euclidiennes.
la source
Comme mentionné dans la réponse précédente, il existe un certain nombre de méthodes de réduction de la dimensionnalité, et une chose importante à considérer est ce que vous essayez de représenter - êtes-vous intéressé par les mesures de distance euclidienne? Ou une métrique de similitude entre les échantillons?
Pour les premiers, l'ACP peut être appropriée. Il est couramment utilisé avec des mesures continues telles que des mesures d'échantillons (animaux, plantes, etc ...). J'examinerais également les mentions plus modernes dans la réponse précédente.
Pour ce dernier, où vous essayez de comparer la similitude en utilisant une métrique de distance non euclidienne, il existe quelques bonnes méthodes telles que l'Ordination des composants principaux (PCoA) et la mise à l'échelle multidimensionnelle non métrique (NMDS). Un exemple de cas où vous pourriez les utiliser est lorsque vous comparez les communautés écologiques entre différentes zones et que vous avez trouvé un certain nombre de différents types d'organismes. Ainsi, vos données sont des "données de comptage". Il existe un certain nombre de paramètres de similarité tels que Jaccard, Sorensen, Bray-Curtis, qui vous permettent effectivement d'estimer la similitude des sites dans leur composition d'organismes. PCoA et NMDS vous permettent essentiellement de tracer les échantillons (sites) pour représenter la distance écologique (similitude), et vous avez un score pour le site sur chaque axe.
Il y a beaucoup de bons livres et d'autres ressources pour l'analyse multivariée. Recherchez "Ordination" sur Google. En outre, il existe un package R appelé «vegan» qui est vraiment bon pour effectuer une grande partie de ce travail.
la source
Votre problème ressemble à une application de manuel pour une mise à l'échelle multidimensionnelle . Une bonne introduction peut être trouvée ici: http://www.mathpsyc.uni-bonn.de/doc/delbeke/delbeke.htm
Bien sûr, vous pouvez essayer PCA. Mais PCA n'a pas l'intention de conserver les informations de distance relative dans l'espace d'origine.
la source