Les données doivent-elles être centrées + mises à l'échelle avant d'appliquer t-SNE?

18

Certaines fonctionnalités de mes données ont de grandes valeurs, tandis que d'autres fonctionnalités ont des valeurs beaucoup plus petites.

Est-il nécessaire de centrer + l'échelle des données avant d'appliquer t-SNE pour éviter un biais vers les valeurs plus grandes?

J'utilise l'implémentation sklearn.manifold.TSNE de Python avec la métrique de distance euclidienne par défaut.

stmax
la source

Réponses:

18

Le centrage ne devrait pas avoir d'importance puisque l'algorithme ne fonctionne que sur les distances entre les points, mais la mise à l'échelle est nécessaire si vous voulez que les différentes dimensions soient traitées avec une importance égale, car la norme 2 sera plus fortement influencée par les dimensions avec une grande variance.

jon_simon
la source