Comment projeter un espace de grande dimension dans un plan bidimensionnel?

11

J'ai un ensemble de points de données dans un espace à N dimensions. De plus, j'ai également un centroïde dans ce même espace à N dimensions. Existe-t-il des approches qui peuvent me permettre de projeter ces points de données dans un espace à deux dimensions tout en conservant leurs informations de distance relative dans l'espace d'origine. PCA est-il le bon?

bit-question
la source
1
Si vous voulez essayer de préserver les distances, ma première pensée aurait été une mise à l'échelle multidimensionnelle des distances elles-mêmes (qui est liée à l'ACP), mais puisque vous avez les emplacements et pas seulement les distances, à ma connaissance, l'ACP devrait fonctionner pour cela .
Glen_b -Reinstate Monica
1
@Glen_b, Le point clé n'est pas que MDS est pour la saisie de distances et PCA est pour la saisie de coordonnées, mais que le MDS itératif s'adapte à quelques dimensions tandis que PCA conserve peu de dimensions. Ainsi, MDS préserve les distances un peu mieux que le PCA classique. La réponse à la question est Oui, PCA est approprié, mais MDS est plus approprié.
ttnphns
1
C'est en grande partie ce qui est étudié dans le domaine de l'intégration de l'espace métrique , c'est-à-dire comment pouvez-vous réduire la dimensionnalité de vos données tout en minimisant la distorsion des distances.
Bitwise

Réponses:

6

Un cadre général qui aborde votre problème est appelé réduction de la dimensionnalité. Vous souhaitez projeter des données de N dimensions à 2 dimensions, tout en conservant les "informations essentielles" dans vos données. La méthode la plus appropriée dépend de la distribution de vos données, c'est-à-dire du collecteur à N dimensions. PCA s'adaptera à un avion en utilisant le critère des moindres carrés. Cela fonctionnera probablement mal pour l'exemple "swiss roll": swiss roll .

Les méthodes plus modernes incluent le noyau PCA, LLE, les cartes de diffusion et les représentations de dictionnaire clairsemées. En ce qui concerne la préservation de la distance, certaines méthodes peuvent préserver les distances non euclidiennes.

Leeor
la source
2
Il est important de noter que les méthodes de «réduction de la dimensionnalité» ne conservent généralement pas les «informations de distance relative». Qu'ils le fassent ou non dépend en partie de la méthode et en partie de la «distance» prévue.
whuber
2

Comme mentionné dans la réponse précédente, il existe un certain nombre de méthodes de réduction de la dimensionnalité, et une chose importante à considérer est ce que vous essayez de représenter - êtes-vous intéressé par les mesures de distance euclidienne? Ou une métrique de similitude entre les échantillons?

Pour les premiers, l'ACP peut être appropriée. Il est couramment utilisé avec des mesures continues telles que des mesures d'échantillons (animaux, plantes, etc ...). J'examinerais également les mentions plus modernes dans la réponse précédente.

Pour ce dernier, où vous essayez de comparer la similitude en utilisant une métrique de distance non euclidienne, il existe quelques bonnes méthodes telles que l'Ordination des composants principaux (PCoA) et la mise à l'échelle multidimensionnelle non métrique (NMDS). Un exemple de cas où vous pourriez les utiliser est lorsque vous comparez les communautés écologiques entre différentes zones et que vous avez trouvé un certain nombre de différents types d'organismes. Ainsi, vos données sont des "données de comptage". Il existe un certain nombre de paramètres de similarité tels que Jaccard, Sorensen, Bray-Curtis, qui vous permettent effectivement d'estimer la similitude des sites dans leur composition d'organismes. PCoA et NMDS vous permettent essentiellement de tracer les échantillons (sites) pour représenter la distance écologique (similitude), et vous avez un score pour le site sur chaque axe.

Il y a beaucoup de bons livres et d'autres ressources pour l'analyse multivariée. Recherchez "Ordination" sur Google. En outre, il existe un package R appelé «vegan» qui est vraiment bon pour effectuer une grande partie de ce travail.

mtreg
la source
0

Votre problème ressemble à une application de manuel pour une mise à l'échelle multidimensionnelle . Une bonne introduction peut être trouvée ici: http://www.mathpsyc.uni-bonn.de/doc/delbeke/delbeke.htm

Bien sûr, vous pouvez essayer PCA. Mais PCA n'a pas l'intention de conserver les informations de distance relative dans l'espace d'origine.

Weiwei
la source