J'utilise le caret
package R
pour la formation des classificateurs SVM binaires. Pour réduire les fonctionnalités, je prétraitement avec PCA en utilisant la fonction intégrée preProc=c("pca")
lors de l'appel train()
. Voici mes questions:
- Comment le curseur sélectionne-t-il les principaux composants?
- Existe-t-il un nombre fixe de composants principaux sélectionnés?
- Les principales composantes sont-elles sélectionnées selon une certaine variance expliquée (par exemple 80%)?
- Comment puis-je définir le nombre de composants principaux utilisés pour la classification?
- (Je comprends que l'ACP devrait faire partie de la validation croisée externe pour permettre des estimations de prédiction fiables.) L'ACP devrait-elle également être mise en œuvre dans le cycle de validation croisée interne (estimation des paramètres)?
- Comment Caret met-il en œuvre l'ACP dans la validation croisée?
Réponses:
Par défaut, caret conserve les composants qui expliquent 95% de la variance.
Mais vous pouvez le changer en utilisant le
thresh
paramètre.Vous pouvez également définir un nombre particulier de composants en définissant le
pcaComp
paramètre.Si vous utilisez les deux paramètres,
pcaComp
a priorité surthresh
.Veuillez consulter: https://www.rdocumentation.org/packages/caret/versions/6.0-77/topics/preProcess
la source