J'ai déjà entendu l'expression suivante:
"L'optimisation est la racine de tout mal dans les statistiques".
Par exemple, la première réponse dans ce fil fait cette déclaration en référence au danger d'optimiser trop agressivement lors de la sélection du modèle.
Ma première question est la suivante: cette citation est-elle attribuable à quelqu'un en particulier? (par exemple dans la littérature statistique)
D'après ce que je comprends, la déclaration fait référence aux risques de sur-ajustement. La sagesse traditionnelle dirait qu'une validation croisée appropriée lutte déjà contre ce problème, mais il semble qu'il y ait plus à ce problème que cela.
Les statisticiens et les praticiens du ML devraient-ils se méfier de la sur-optimisation de leurs modèles même lorsqu'ils adhèrent à des protocoles de validation croisée stricts (par exemple 100 CV imbriqués 10 fois)? Dans l'affirmative, comment savoir quand arrêter de rechercher «le meilleur» modèle?
la source
Réponses:
La citation est une paraphrase d'une citation de Donald Knuth , qu'il a lui-même attribuée à Hoare. Trois extraits de la page ci-dessus:
Je ne sais pas si je suis d'accord avec la paraphrase des statistiques *. Il y a beaucoup de «mal» dans les statistiques qui ne sont pas liées à l'optimisation.
Je pense que l'essentiel est de bien comprendre (ou aussi complètement que possible) les propriétés des procédures que vous entreprenez.
la source
Deux façons d'analyser le devis (en statistiques), en supposant que l'optimisation se réfère à la sélection de modèle (basée sur les données):
la source