J'ai une régression aléatoire de la forêt construite en utilisant skl et je note que je donne des résultats différents basés sur la définition de la valeur aléatoire de la graine aléatoire.
Si j'utilise LOOCV pour déterminer quelle graine fonctionne le mieux, est-ce une méthode valide?
cross-validation
random-forest
user2723494
la source
la source
Réponses:
La réponse est non .
Votre modèle donne un résultat différent pour chaque graine que vous utilisez. Ceci est le résultat de la nature non déterministe du modèle. En choisissant une graine spécifique qui maximise les performances sur l'ensemble de validation signifie que vous avez choisi "l'arrangement" qui correspond le mieux à cet ensemble. Cependant, cela ne garantit pas que le modèle avec cette graine fonctionnerait mieux sur un ensemble de test séparé . Cela signifie simplement que vous avez suréquipé le modèle sur l'ensemble de validation .
Cet effet est la raison pour laquelle vous voyez beaucoup de gens qui se classent haut dans les compétitions (par exemple kaggle) sur l'ensemble de test public, tombent loin sur l'ensemble de test caché. Cette approche est pas considérée par quelque moyen que l'approche correcte.
la source