Existe-t-il des études empiriques justifiant l’utilisation de la règle de l’erreur standard unique en faveur de la parcimonie? Cela dépend évidemment du processus de génération des données, mais tout ce qui analyse un grand corpus de jeux de données serait une lecture très intéressante.
La "règle d'erreur standard unique" est appliquée lors de la sélection de modèles par validation croisée (ou plus généralement par toute procédure basée sur la randomisation).
Supposons que nous considérions les modèles indexés par un paramètre de complexité , tels que est "plus complexe" que exactement quand . Supposons en outre que nous évaluons la qualité d'un modèle par un processus de randomisation, par exemple une validation croisée. Soit q (M) la qualité "moyenne" de M , c'est-à-dire l'erreur de prédiction moyenne hors sac sur de nombreux cycles de validation croisée. Nous souhaitons minimiser cette quantité.
Cependant, comme notre mesure de qualité provient d’une procédure de randomisation, elle est variable. Soit l'erreur-type de la qualité de des cycles de randomisation, par exemple, l'écart-type de l'erreur de prédiction hors sac de lors des cycles de validation croisée.
Ensuite, nous choisissons le modèle , où est le plus petit tel que
où indexe le meilleur modèle (en moyenne), .
En d’autres termes, nous choisissons le modèle le plus simple (le plus petit ) qui n’est pas supérieur à une erreur type plus grave que le meilleur modèle dans la procédure de randomisation.
J'ai trouvé cette "règle d'erreur standard unique" mentionnée aux endroits suivants, mais jamais avec une justification explicite:
- Page 80 dans Classification et arbres de régression de Breiman, Friedman, Stone & Olshen (1984)
- Page 415 dans Estimation du nombre de grappes dans un ensemble de données via la statistique d'écart de Tibshirani, Walther & Hastie ( JRSS B , 2001) (référence à Breiman et al.)
- Pages 61 et 244 dans Eléments d'apprentissage statistique de Hastie, Tibshirani & Friedman (2009)
- Page 13 dans Apprentissage statistique avec parcimonie par Hastie, Tibshirani & Wainwright (2015)
Réponses:
Ce qui suit n’est pas une étude empirique , c’est la raison pour laquelle j’ai voulu au départ l’afficher sous forme de commentaire, pas de réponse - mais c’est vraiment trop long pour un commentaire.
Cawley & Talbot ( J de Machine Learning Research , 2010) attirent l'attention sur la différence entre surajustement pendant la phase de sélection du modèle et surajustement pendant la phase d'ajustement du modèle.
Le deuxième type de overfitting est celle que la plupart des gens connaissent: étant donné un modèle particulier, nous ne voulons pas surajuster il, par exemple, pour l' adapter trop près aux idiosyncrasies particulières des données unique , nous avons en général. ( C’est là que le rétrécissement / la régularisation peut aider, en échangeant une légère augmentation du biais contre une forte diminution de la variance. )
Cependant, Cawley et Talbot soutiennent que nous pouvons également sur-adapter lors de la phase de sélection du modèle. Après tout, nous n’avons en général qu’un seul jeu de données et nous choisissons entre différents modèles de complexité variable. L'évaluation de chaque modèle candidat pour en sélectionner un implique généralement l' ajustement de ce modèle, ce qui peut être fait avec régularisation ou non. Mais cette évaluation en elle-même est encore une variable aléatoire, car elle dépend de l'ensemble de données spécifique que nous avons. Donc , notre choix d'un modèle « optimal » peut en soi présenter un parti pris et va présenter une variance, comme en fonction de l'ensemble de données spécifiques de tous les ensembles de données que nous aurions pu tirées de la population.
Cawley & Talbot soutiennent donc que le simple choix du modèle qui donne les meilleurs résultats dans cette évaluation pourrait bien être une règle de sélection peu biaisée, mais pouvant présenter une grande variance. Autrement dit, étant donné que différents jeux de données d'apprentissage du même processus de génération de données (DGP), cette règle peut sélectionner des modèles très différents, qui seraient ensuite ajustés et utilisés pour la prévision dans de nouveaux jeux de données qui suivent à nouveau le même DGP. Dans cette optique, restreindre la variance de la procédure de sélection du modèle mais engendrer un léger biais en faveur de modèles plus simples peut générer des erreurs plus faibles hors de l'échantillon.
Cawley et Talbot ne lient pas explicitement cette question à la règle d’erreur standard unique et leur section sur la "régularisation de la sélection de modèle" est très courte. Toutefois, la règle d’erreur standard à une erreur effectuerait exactement cette régularisation et prendrait en compte la relation entre la variance dans la sélection du modèle et la variance de l’erreur de validation croisée hors sac.
Par exemple, la figure 2.3 ci-dessous est tirée de Statistical Learning with Sparsity de Hastie, Tibshirani & Wainwright (2015) . La variance de sélection du modèle est donnée par la convexité de la ligne noire à son minimum. Ici, le minimum n'est pas très prononcé et la ligne est plutôt faiblement convexe, de sorte que la sélection du modèle est probablement assez incertaine avec une variance élevée. Et la variance de l'estimation de l'erreur CV OOB est bien sûr donnée par les multiples lignes bleu clair indiquant les erreurs types.
la source
Pour une justification empirique, reportez-vous à la page 12 de ces notes de cours d’exploration de données de Tibshirani , qui montre l’erreur CV en fonction de lambda pour un problème de modélisation particulier. La suggestion semble être que, au-dessous d'une certaine valeur, tous les lambdas donnent à peu près la même erreur CV. Cela est logique car, contrairement à la régression de crête, LASSO n’est généralement pas utilisé, ni même principalement, pour améliorer la précision des prévisions. Son principal argument de vente est de rendre les modèles plus simples et plus faciles à interpréter en éliminant les prédicteurs les moins pertinents / précieux.
la source
Cela devrait être rapporté dans les statistiques pour les données de grandes dimensions par Bühlmann et van de Geer.
la source