Les réponses ici ont indiqué que les dimensions dans t-SNE sont dénuées de sens et que les distances entre les points ne sont pas une mesure de similitude .
Cependant, pouvons-nous dire quelque chose sur un point basé sur ses voisins les plus proches dans l'espace t-SNE? Cette réponse à la raison pour laquelle les points qui sont exactement les mêmes ne sont pas regroupés suggère que le rapport des distances entre les points est similaire entre les représentations dimensionnelles inférieures et supérieures.
Par exemple, l'image ci-dessous montre t-SNE sur l'un de mes ensembles de données (15 classes).
Puis-je dire que cro 479
(en haut à droite) est une valeur aberrante? Est-ce que fra 1353
(en bas à gauche) est plus similaire aux cir 375
autres images de la fra
classe, etc.? Ou pourraient-ils simplement être des artefacts, par exemple se fra 1353
sont coincés de l'autre côté de quelques grappes et n'ont pas pu se frayer un chemin vers l'autre fra
classe?
Réponses:
Non, il n'est pas nécessaire que ce soit le cas, cependant, c'est, de manière alambiquée, l'objectif du T-SNE.
Avant d'entrer dans le vif du sujet, examinons quelques définitions de base, à la fois mathématiquement et intuitivement.
Maintenant, enfin, un exemple de codage soigné qui illustre également ce concept.
Bien que ce soit un exemple très naïf et ne reflète pas la complexité, il fonctionne par expérience pour quelques exemples simples.
EDIT: En outre, en ajoutant quelques points par rapport à la question elle-même, il n'est donc pas nécessaire que ce soit le cas, il se pourrait cependant que la rationaliser par le biais des mathématiques prouve que vous n'avez pas de résultat concret (pas de oui ou de non définitif) .
J'espère que cela a clarifié certaines de vos préoccupations avec TSNE.
la source