Réduction supervisée de la dimensionnalité

13

J'ai un ensemble de données composé d'échantillons étiquetés 15K (de 10 groupes). Je souhaite appliquer une réduction de dimensionnalité en 2 dimensions, qui tiendrait compte de la connaissance des labels.

Lorsque j'utilise des techniques de réduction de dimensionnalité "standard" non supervisées telles que l'ACP, le nuage de points semble n'avoir rien à voir avec les étiquettes connues.

Est-ce que ce que je cherche a un nom? Je voudrais lire quelques références de solutions.

Roy
la source
3
Si vous recherchez des méthodes linéaires, alors l'analyse discriminante linéaire (LDA) est ce que vous devriez utiliser.
Amoeba dit Reinstate Monica
@amoeba: Merci. Je l'ai utilisé et il a fait beaucoup mieux!
Roy
Heureux que cela ait aidé. J'ai fourni une brève réponse avec quelques références supplémentaires.
amoeba dit Reinstate Monica
1
Une possibilité serait de réduire d'abord à l'espace à neuf dimensions couvrant les centroïdes de classe, puis d'utiliser l'ACP pour réduire davantage à deux dimensions.
A. Donda
Connexes: stats.stackexchange.com/questions/16305 (peut-être en double, mais peut-être l'inverse. J'y reviendrai après avoir mis à jour ma réponse ci-dessous.)
amoeba dit Reinstate Monica

Réponses:

27

La méthode linéaire la plus standard de réduction supervisée de la dimensionnalité est appelée analyse discriminante linéaire (LDA). Il est conçu pour trouver une projection de faible dimension qui maximise la séparation des classes. Vous pouvez trouver beaucoup d'informations à ce sujet sous notre balise d' , et dans n'importe quel manuel d'apprentissage automatique tel que par exemple les éléments de l'apprentissage statistique disponibles gratuitement .

Voici une photo que j'ai trouvée ici avec une recherche rapide sur google; il montre les projections PCA et LDA unidimensionnelles lorsqu'il y a deux classes dans l'ensemble de données (origine ajoutée par moi):

PCA vs LDA

Une autre approche est appelée moindres carrés partiels (PLS). LDA peut être interprété comme recherchant des projections ayant la corrélation la plus élevée avec les variables fictives codant les étiquettes de groupe (dans ce sens, LDA peut être considéré comme un cas spécial d'analyse de corrélation canonique, CCA). En revanche, PLS recherche les projections ayant la covariance la plus élevée avec les étiquettes de groupe. Alors que LDA ne donne qu'un axe pour le cas de deux groupes (comme sur l'image ci-dessus), PLS trouvera de nombreux axes classés par la covariance décroissante. Notez que lorsqu'il y a plus de deux groupes présents dans l'ensemble de données, il existe différentes «saveurs» de PLS qui produiront des résultats quelque peu différents.

Mise à jour (2018)

Je devrais trouver le temps de développer cette réponse; ce fil semble être populaire mais ma réponse originale ci-dessus est très courte et pas assez détaillée.

k

amibe dit réintégrer Monica
la source
1
joli graphique, explique beaucoup
Titou