Est-il possible d'utiliser l'analyse du composant principal du noyau (kPCA) pour l'indexation sémantique latente (LSI) de la même manière que PCA est utilisé?
J'exécute LSI dans R en utilisant la prcomp
fonction PCA et j'extrais les caractéristiques avec les charges les plus élevées à partir des premiers composants. Par cela, j'obtiens les fonctionnalités décrivant le mieux le composant.
J'ai essayé d'utiliser la kpca
fonction (à partir du kernlib
package) mais je ne vois pas comment accéder aux poids des fonctionnalités à un composant principal. Est-ce globalement possible lors de l'utilisation des méthodes du noyau?
r
pca
feature-selection
kernel-trick
user3683
la source
la source
Réponses:
Je pense que la réponse à votre question est négative: ce n'est pas possible.
La PCA standard peut être utilisée pour la sélection des fonctionnalités, car chaque composant principal est une combinaison linéaire de fonctionnalités originales, et donc on peut voir quelles fonctionnalités originales contribuent le plus aux composants principaux les plus importants, voir par exemple ici: Utilisation de l'analyse des composants principaux (PCA) pour sélection des fonctionnalités .
Mais dans le noyau PCA, chaque composant principal est une combinaison linéaire de caractéristiques dans l'espace cible , et par exemple pour le noyau gaussien (qui est souvent utilisé), l'espace cible est de dimension infinie. Donc, le concept de "chargements" n'a pas vraiment de sens pour kPCA, et en fait, les composants principaux du noyau sont calculés directement, en contournant le calcul des axes principaux (qui pour PCA standard sont donnés dans R par
prcomp$rotation
), grâce à ce qu'on appelle astuce du noyau . Voir par exemple ici: Le noyau PCA avec noyau linéaire est-il équivalent au PCA standard? pour plus de détails.Donc non, ce n'est pas possible. Au moins, il n'y a pas de moyen facile.
la source
L'exemple suivant (tiré du manuel de référence de kernlab) vous montre comment accéder aux différents composants de la PCA du noyau:
Est-ce que cela répond à votre question?
la source