Dans son article Linear Model Selection by Cross-Validation , Jun Shao montre que pour le problème de la sélection des variables dans la régression linéaire multivariée, la méthode de validation croisée avec oubli (LOOCV) est `` asymptotiquement incohérente ''. En clair, il a tendance à sélectionner des modèles avec trop de variables. Dans une étude de simulation, Shao montre que même pour aussi peu que 40 observations, LOOCV peut sous-performer d'autres techniques de validation croisée.
Cet article est quelque peu controversé et quelque peu ignoré (10 ans après sa publication, mes collègues chimiométriques n'en avaient jamais entendu parler et utilisaient volontiers LOOCV pour la sélection des variables ...). Il y a aussi une croyance (j'en suis coupable), que ses résultats dépassent quelque peu la portée limitée d'origine.
La question est donc: jusqu'où ces résultats s'étendent-ils? Sont-ils applicables aux problèmes suivants?
- Sélection variable pour la régression logistique / GLM?
- Sélection variable pour la classification Fisher LDA?
- Sélection de variables utilisant SVM avec un espace noyau fini (ou infini)?
- Comparaison des modèles de classification, par exemple SVM utilisant différents noyaux?
- Comparaison de modèles en régression linéaire, disons comparer MLR à Ridge Regression?
- etc.
la source
Réponses:
Vous devez spécifier l'objectif du modèle avant de pouvoir dire si les résultats de Shao sont applicables. Par exemple, si le but est la prédiction, alors LOOCV est logique et l'incohérence de la sélection des variables n'est pas un problème. D'un autre côté, si le but est d'identifier les variables importantes et d'expliquer comment elles affectent la variable de réponse, alors les résultats de Shao sont évidemment importants et LOOCV n'est pas approprié.
L'AIC est asymptotiquement LOOCV et BIC est asymptotiquement équivalent à un CV de sortie- out où v = n [ 1 - 1 / ( log ( n ) - 1 )v --- le résultat BIC pour les modèles linéaires uniquement. Le BIC offre donc une sélection de modèle cohérente. Par conséquent, un bref résumé du résultat de Shao est que AIC est utile pour la prédiction mais BIC est utile pour l'explication.v=n[1−1/(log(n)−1)]
la source
Pas vraiment, il est bien considéré en ce qui concerne la théorie de la sélection des modèles, bien qu'il soit certainement mal interprété. Le vrai problème est de savoir à quel point il est pertinent pour la pratique de la modélisation dans la nature. Supposons que vous effectuiez les simulations pour les cas que vous proposez d'étudier et de déterminer que LOOCV est en effet incohérent. La seule raison pour laquelle vous obtiendriez cela est parce que vous connaissiez déjà le "vrai" modèle et pourriez donc déterminer que la probabilité de récupérer le "vrai" modèle ne converge pas vers 1. Pour la modélisation dans la nature, à quelle fréquence est-ce vrai ( que les phénomènes sont décrits par des modèles linéaires et que le "vrai" modèle est un sous-ensemble de ceux considérés)?
L'article de Shao est certainement intéressant pour faire avancer le cadre théorique. Il apporte même une certaine clarté: si le "vrai" modèle est effectivement à l'étude, alors nous avons les résultats de cohérence pour accrocher nos chapeaux. Mais je ne sais pas à quel point les simulations réelles seraient intéressantes pour les cas que vous décrivez. C'est en grande partie pourquoi la plupart des livres comme EOSL ne se concentrent pas autant sur le résultat de Shao, mais plutôt sur l'erreur de prédiction / généralisation comme critère de sélection du modèle.
EDIT: La réponse très courte à votre question est: les résultats de Shao sont applicables lorsque vous effectuez une estimation des moindres carrés, une fonction de perte quadratique. Pas plus large. (Je pense qu'il y avait un article intéressant de Yang (2005?) Qui a cherché à savoir si vous pouviez avoir de la cohérence et de l'efficacité, avec une réponse négative.)
la source
la source
1) La réponse de @ars mentionne Yang (2005), "Les forces de l'AIC et du BIC peuvent-elles être partagées?" . En gros, il semble que vous ne puissiez pas avoir un critère de sélection de modèle pour atteindre à la fois la cohérence (tendent à choisir le bon modèle, s'il existe en effet un modèle correct et il fait partie des modèles envisagés) et l'efficacité (atteindre la moyenne la plus faible erreur quadratique en moyenne parmi les modèles que vous avez choisis). Si vous avez tendance à choisir le bon modèle en moyenne, vous obtiendrez parfois des modèles légèrement trop petits ... mais en ratant souvent un vrai prédicteur, vous faites pire en termes de MSE que quelqu'un qui inclut toujours quelques prédicteurs erronés.
Donc, comme dit précédemment, si vous vous souciez de faire de bonnes prédictions plus que d'obtenir exactement les bonnes variables, il est bon de continuer à utiliser LOOCV ou AIC.
2) Mais je voulais également mentionner deux autres de ses articles: Yang (2006) "Comparing Learning Methods for Classification" et Yang (2007) "Cohérence de la validation croisée pour comparer les procédures de régression" . Ces articles montrent que vous n'avez pas besoin que le rapport des données de formation aux tests diminue vers 0 si vous comparez des modèles qui convergent à des taux plus lents que les modèles linéaires.
Donc, pour répondre plus directement à vos questions originales 1-6: les résultats de Shao s'appliquent lors de la comparaison de modèles linéaires entre eux. Que ce soit pour la régression ou la classification, si vous comparez des modèles non paramétriques qui convergent à un rythme plus lent (ou même en comparant un modèle linéaire à un modèle non paramétrique), vous pouvez utiliser la plupart des données pour la formation et avoir toujours un CV cohérent avec la sélection du modèle. .. mais quand même, Yang suggère que LOOCV est trop extrême.
la source