Je lis actuellement sur la technique de visualisation t-SNE et il a été mentionné que l'un des inconvénients de l'utilisation de l'analyse en composantes principales (ACP) pour visualiser des données de grande dimension est qu'elle ne conserve que de grandes distances par paires entre les points. Les points signifiants qui sont éloignés l'un de l'autre dans un espace de grande dimension sembleraient également très éloignés l'un de l'autre dans un sous-espace de faible dimension, mais à part cela, toutes les autres distances par paire se feraient foirer.
Quelqu'un pourrait-il m'aider à comprendre pourquoi et qu'est-ce que cela signifie graphiquement?
machine-learning
data-visualization
pca
tsne
utilisateur
la source
la source
Réponses:
Considérez l'ensemble de données suivant:
L'axe PC1 maximise la variance de la projection. Donc, dans ce cas, il ira évidemment en diagonale du coin inférieur gauche au coin supérieur droit:
La plus grande distance par paire dans l'ensemble de données d'origine est entre ces deux points périphériques; notez qu'il est presque exactement conservé dans le PC1. Des distances par paires plus petites mais toujours substantielles se trouvent entre chacun des points périphériques et tous les autres points; ceux-ci sont également assez bien conservés. Mais si vous regardez les distances par paires encore plus petites entre les points du cluster central, vous verrez que certains d'entre eux sont fortement déformés.
Je pense que cela donne la bonne intuition: l' ACP trouve un sous-espace de faible dimension avec une variance maximale. La variance maximale signifie que le sous-espace aura tendance à être aligné de manière à se rapprocher des points situés loin du centre; par conséquent, les plus grandes distances par paire auront tendance à être bien préservées et les plus petites moins.
Cependant, notez que cela ne peut pas être transformé en argument formel car en fait ce n'est pas nécessairement vrai. Jetez un œil à ma réponse dans Quelle est la différence entre l'analyse des composants principaux et la mise à l'échelle multidimensionnelle? Si vous prenez les points des figures ci-dessus, construisez une matrice de distances par paires et demandez quelle est la projection 1D qui préserve les distances aussi près que possible, alors la réponse est donnée par la solution MDS et n'est pas donnée par PC1 . Cependant, si vous considérez une matrice de produits scalaires centrés par paire, alors il est10 × 10 10 × 1010 10×10 10×10 en fait mieux conservé précisément par PC1 (voir ma réponse là pour la preuve). Et on peut faire valoir que de grandes distances par paires signifient généralement aussi de grands produits scalaires; en fait, l'un des algorithmes MDS (classique / Torgerson MDS) est disposé à faire explicitement cette hypothèse.
Donc, pour résumer:
la source