Méthodes de rééchantillonnage du caret

20

J'utilise la bibliothèque careten R pour tester différentes procédures de modélisation.

L' trainControlobjet permet de spécifier une méthode de rééchantillonnage. Les méthodes sont décrites dans la documentation section 2.3 et comprennent: boot, boot632, cv, LOOCV, LGOCV, repeatedcvet oob. Bien que certaines d'entre elles soient faciles à déduire, toutes ces méthodes ne sont pas clairement définies.

Quelles sont les procédures correspondant à ces méthodes de rééchantillonnage?

Ram Ahluwalia
la source
le lien de documentation est rompu. Utilisez -le à la place.
vikas

Réponses:

20

Ok, voici mon essai:

  • boot - bootstrap
  • boot632 - 0.632 bootstrap
  • cv - validation croisée, cela fait probablement référence à la validation croisée pliée en K .
  • LOOCV - validation croisée avec oubli, également connue sous le nom de jacknife.
  • LGOCV - validation croisée sans groupe, variante de LOOCV pour les données hiérarchiques.
  • repeatcv - est probablement une validation répétée de sous-échantillonnage aléatoire , c.-à-d. que la division pour former et tester les données se fait de manière aléatoire.
  • oob - fait référence à l'estimation hors sac proposée par Breiman , qui est en outre liée à l' agrégation bootstrap . (Le fichier dans le lien n'est pas un fichier ps, mais un fichier ps.Z, renommez-le et essayez d'ouvrir.)
mpiktas
la source
1
Je crois que LGOCV est une répartition aléatoire entre un ensemble d'entraînement et un ensemble de validation, répétée n fois. Ainsi, au lieu du cas ordinaire de division des données entre train et blocage (construire un modèle sur le train et valider sur le blocage) une fois, ce processus est répété plusieurs fois.
B_Miner
3
Je crois également que le CV répété est une validation croisée k-fold, effectuée plusieurs fois.
B_Miner
Difficile de croire que cela n'est pas documenté quelque part.
andrew
4

La repeatedcvrépétition croisée est multipliée par 10 à coup sûr, selon la présentation de Max Kuhn. Le schéma de rééchantillonnage par défaut est le bootstrap.

Un bon fichier que vous pouvez consulter sur les méthodes de rééchantillonnage est la modélisation prédictive avec R et le package caret ( pdf ). Max l'a présenté dans "useR! 2013".

tigergopro
la source