J'ai un ensemble de données composé d'échantillons étiquetés 15K (de 10 groupes). Je souhaite appliquer une réduction de dimensionnalité en 2 dimensions, qui tiendrait compte de la connaissance des labels.
Lorsque j'utilise des techniques de réduction de dimensionnalité "standard" non supervisées telles que l'ACP, le nuage de points semble n'avoir rien à voir avec les étiquettes connues.
Est-ce que ce que je cherche a un nom? Je voudrais lire quelques références de solutions.
machine-learning
pca
dimensionality-reduction
supervised-learning
discriminant-analysis
Roy
la source
la source
Réponses:
La méthode linéaire la plus standard de réduction supervisée de la dimensionnalité est appelée analyse discriminante linéaire (LDA). Il est conçu pour trouver une projection de faible dimension qui maximise la séparation des classes. Vous pouvez trouver beaucoup d'informations à ce sujet sous notre balise d' analyse discriminante , et dans n'importe quel manuel d'apprentissage automatique tel que par exemple les éléments de l'apprentissage statistique disponibles gratuitement .
Voici une photo que j'ai trouvée ici avec une recherche rapide sur google; il montre les projections PCA et LDA unidimensionnelles lorsqu'il y a deux classes dans l'ensemble de données (origine ajoutée par moi):
Une autre approche est appelée moindres carrés partiels (PLS). LDA peut être interprété comme recherchant des projections ayant la corrélation la plus élevée avec les variables fictives codant les étiquettes de groupe (dans ce sens, LDA peut être considéré comme un cas spécial d'analyse de corrélation canonique, CCA). En revanche, PLS recherche les projections ayant la covariance la plus élevée avec les étiquettes de groupe. Alors que LDA ne donne qu'un axe pour le cas de deux groupes (comme sur l'image ci-dessus), PLS trouvera de nombreux axes classés par la covariance décroissante. Notez que lorsqu'il y a plus de deux groupes présents dans l'ensemble de données, il existe différentes «saveurs» de PLS qui produiront des résultats quelque peu différents.
Mise à jour (2018)
Je devrais trouver le temps de développer cette réponse; ce fil semble être populaire mais ma réponse originale ci-dessus est très courte et pas assez détaillée.
la source