Posez n'importe quelle question à un statisticien et sa réponse sera une sorte de "ça dépend".
Ça dépend . Mis à part le type de modèle (bon point cbeleites!), Le nombre de points de consigne d'entraînement et le nombre de prédicteurs? Si le modèle est pour la classification, un grand déséquilibre de classe me ferait augmenter le nombre de répétitions. De plus, si je rééchantillonne une procédure de sélection de fonctionnalités, je me pencherais davantage sur le rééchantillonnage.
Pour toute méthode de rééchantillonnage utilisée dans ce contexte, n'oubliez pas que (contrairement au bootstrap classique), vous n'avez besoin que d'itérations suffisantes pour obtenir une estimation "suffisamment précise" de la moyenne de la distribution. C'est subjectif mais toute réponse le sera.
Pour en rester à la classification avec deux classes pendant une seconde, supposons que vous vous attendiez à ce que la précision du modèle soit d'environ 0,80. Étant donné que le processus de rééchantillonnage consiste à échantillonner l'estimation de précision (par exemple p
), l'erreur standard serait sqrt[p*(1-p)]/sqrt(B)
où B
est le nombre de rééchantillons. Pour B = 10
, l'erreur standard de la précision est d'environ 0,13 et avec B = 100
elle est d'environ 0,04. Vous pouvez utiliser cette formule comme guide approximatif pour ce cas particulier.
Considérez également que, dans cet exemple, la variance de la précision est maximisée au fur et à mesure que vous vous rapprochez de 0,50, de sorte qu'un modèle précis devrait nécessiter moins de répétitions car l'erreur standard devrait être inférieure aux modèles qui sont des apprenants faibles.
HTH,
Max