Je comprends d'après l'article de Hinton que le T-SNE fait un bon travail en gardant les similitudes locales et un travail décent en préservant la structure mondiale (clusterisation).
Cependant, je ne sais pas si les points apparaissant plus proches dans une visualisation 2D t-sne peuvent être supposés comme des points de données "plus similaires". J'utilise des données avec 25 fonctionnalités.
À titre d'exemple, en observant l'image ci-dessous, puis-je supposer que les points de données bleus sont plus similaires aux points verts, en particulier au plus grand cluster de points verts ?. Ou, en posant une autre question, est-il acceptable de supposer que les points bleus sont plus similaires au vert dans le cluster le plus proche, qu'aux rouges dans l'autre cluster? (sans tenir compte des points verts dans le cluster rouge-ish)
En observant d'autres exemples, tels que ceux présentés dans sci-kit learn Manifold learning, il semble juste de supposer cela, mais je ne sais pas si c'est correct statistiquement parlant.
ÉDITER
J'ai calculé manuellement les distances par rapport à l'ensemble de données d'origine (la distance euclidienne moyenne par paire) et la visualisation représente en fait une distance spatiale proportionnelle par rapport à l'ensemble de données. Cependant, je voudrais savoir si cela est assez acceptable à attendre de la formulation mathématique originale de t-sne et non pas par simple coïncidence.
Réponses:
Je présenterais t-SNE comme une adaptation probabiliste intelligente de l'incorporation localement linéaire. Dans les deux cas, nous essayons de projeter des points d'un espace de grande dimension vers un petit. Cette projection se fait en optimisant la conservation des distances locales (directement avec LLE, en préproduisant une distribution probabiliste et en optimisant la KL-divergence avec t-SNE). Ensuite, si votre question est, maintient-elle les distances mondiales, la réponse est non. Cela dépendra de la "forme" de vos données (si la distribution est régulière, les distances doivent être conservées d'une manière ou d'une autre).
t-SNE ne fonctionne pas bien sur le rouleau suisse (votre image 3D "S") et vous pouvez voir que, dans le résultat 2D, les points jaunes très centraux sont généralement plus proches des rouges que des bleus (ils sont parfaitement centrés dans l'image 3D).
Un autre bon exemple de ce que fait t-SNE est le regroupement des chiffres manuscrits. Voir les exemples sur ce lien: https://lvdmaaten.github.io/tsne/
la source