Qu'entend-on par PCA ne préservant que de grandes distances par paires?

10

Je lis actuellement sur la technique de visualisation t-SNE et il a été mentionné que l'un des inconvénients de l'utilisation de l'analyse en composantes principales (ACP) pour visualiser des données de grande dimension est qu'elle ne conserve que de grandes distances par paires entre les points. Les points signifiants qui sont éloignés l'un de l'autre dans un espace de grande dimension sembleraient également très éloignés l'un de l'autre dans un sous-espace de faible dimension, mais à part cela, toutes les autres distances par paire se feraient foirer.

Quelqu'un pourrait-il m'aider à comprendre pourquoi et qu'est-ce que cela signifie graphiquement?

utilisateur
la source
L'ACP est étroitement liée aux distances euclidiennes et mahalanobis, qui sont myopes dans les dimensions supérieures, elles ne peuvent pas voir de petites distances.
Aksakal
Notez également que l'ACP, considérée comme la MDS métrique la plus simple, consiste à reconstruire les distances euclidiennes au carré . Énorme, la précision pour de petites distances en souffre.
ttnphns

Réponses:

8

Considérez l'ensemble de données suivant:

Ensemble de données PCA

L'axe PC1 maximise la variance de la projection. Donc, dans ce cas, il ira évidemment en diagonale du coin inférieur gauche au coin supérieur droit:

PCA ne préservant que les grandes distances par paires

La plus grande distance par paire dans l'ensemble de données d'origine est entre ces deux points périphériques; notez qu'il est presque exactement conservé dans le PC1. Des distances par paires plus petites mais toujours substantielles se trouvent entre chacun des points périphériques et tous les autres points; ceux-ci sont également assez bien conservés. Mais si vous regardez les distances par paires encore plus petites entre les points du cluster central, vous verrez que certains d'entre eux sont fortement déformés.

Je pense que cela donne la bonne intuition: l' ACP trouve un sous-espace de faible dimension avec une variance maximale. La variance maximale signifie que le sous-espace aura tendance à être aligné de manière à se rapprocher des points situés loin du centre; par conséquent, les plus grandes distances par paire auront tendance à être bien préservées et les plus petites moins.

Cependant, notez que cela ne peut pas être transformé en argument formel car en fait ce n'est pas nécessairement vrai. Jetez un œil à ma réponse dans Quelle est la différence entre l'analyse des composants principaux et la mise à l'échelle multidimensionnelle? Si vous prenez les points des figures ci-dessus, construisez une matrice de distances par paires et demandez quelle est la projection 1D qui préserve les distances aussi près que possible, alors la réponse est donnée par la solution MDS et n'est pas donnée par PC1 . Cependant, si vous considérez une matrice de produits scalaires centrés par paire, alors il est10 × 10 10 × 101010×1010×10en fait mieux conservé précisément par PC1 (voir ma réponse là pour la preuve). Et on peut faire valoir que de grandes distances par paires signifient généralement aussi de grands produits scalaires; en fait, l'un des algorithmes MDS (classique / Torgerson MDS) est disposé à faire explicitement cette hypothèse.

Donc, pour résumer:

  1. L'ACP vise à préserver la matrice des produits scalaires par paire, en ce sens que la somme des différences au carré entre les produits scalaires originaux et reconstruits doit être minimale.
  2. Cela signifie qu'il préservera plutôt les produits scalaires avec la plus grande valeur absolue et se souciera moins de ceux avec une petite valeur absolue, car ils ajoutent moins à la somme des erreurs au carré.
  3. Par conséquent, PCA préserve mieux les produits scalaires plus grands que les plus petits.
  4. Les distances par paire ne seront préservées que dans la mesure où elles sont similaires aux produits scalaires, ce qui est souvent mais pas toujours le cas. Si c'est le cas, les plus grandes distances par paire seront également mieux préservées que les plus petites.
amibe
la source
Je ne pense pas que ce soit un bon visuel. Cela ne montre pas comment les choses empirent avec l'augmentation de la dimensionnalité
Aksakal
2
Je ne suis pas sûr de comprendre votre point, @Aksakal. Pensez à publier une réponse alternative avec votre point de vue. Je pense que l'effet de mieux préserver des distances par paires plus grandes que plus petites est déjà présent en 2D, et il n'est pas nécessaire de penser à une haute dimensionnalité pour comprendre ce qui se passe. Je me suis donc concentré sur un simple exemple 2D.
amoeba
Ce que vous avez dessiné serait applicable à n'importe quelle méthode. Je peux mettre quelques points très loin et faire valoir qu'ils l'emportent sur le reste. Le problème avec les distances euclidiennes est que leur plage dynamique diminue avec l'augmentation de la dimensionnalité
Aksakal
+1, mais je changerais d'accent, quelque peu différemment de vous (point 4 surtout). Le problème n'est pas que ce sont des distances et que ce sont des produits scalaires (la matrice "à double centrage") - après tout, étant donné la diagonale, ils conservent des informations identiques. Au contraire, le problème est exactement analogue à la cote d'analyse PCA vs facteur. Le PCoA de Torgerson, en tant que PCA, visera à maximiser la reconstruction de la sc. prod. matrice principalement via sa diagonale, ne contrôlant pas spécifiquement comment les entrées hors diagonale seront ajustées.
ttnphns
(suite) La trace de la diagonale mentionnée est la variabilité globale et est directement liée à la somme de toutes les distances au carré, laissant les distances individuelles derrière. Il pourrait être formulé également en termes de théorème d'Eckart-Young qui stipule que le nuage de données reconstruit par l'ACP est le plus proche en termes de somme de carrés de l'original; c'est-à-dire que la distance quadratique globale entre les anciens points et leurs spots projetés par l'ACP est minimale. Ce n'est pas la même chose que les anciennes distances par paires - les nouvelles relations de distances pw.
ttnphns