Lors de l'utilisation de k-fold CV pour sélectionner parmi les modèles de régression, je calcule généralement l'erreur CV séparément pour chaque modèle, ainsi que son erreur standard SE, et je sélectionne le modèle le plus simple dans 1 SE du modèle avec l'erreur CV la plus faible (le 1 règle d'erreur standard, voir par exemple ici ). Cependant, on m'a récemment dit que de cette façon, je surestimais la variabilité et que dans le cas spécifique de la sélection entre deux modèles A et B, je devrais vraiment procéder de manière différente:
- pour chaque pli de longueur N K , calculer les différences ponctuelles entre les deux prédictions du modèle, puis calculer la différence quadratique moyenne pour le pli M S D K = √
- moyenne entre les plis, comme d'habitude, et utiliser cette erreur de différence de CV (avec son erreur standard) comme estimateur de l'erreur de généralisation.
Des questions:
- Est-ce que cela a du sens pour vous? Je sais qu'il y a des raisons théoriques derrière l'utilisation de l'erreur CV comme estimateur d'erreur de généralisation (je ne sais pas quelles sont ces raisons, mais je sais qu'elles existent!). Je n'ai aucune idée s'il y a des raisons théoriques derrière l'utilisation de cette erreur CV "de différence".
- Je ne sais pas si cela peut être généralisé aux comparaisons de plus de deux modèles. Le calcul des différences pour toutes les paires de modèles semble risqué (comparaisons multiples?): Que feriez-vous si vous aviez plus de deux modèles?
EDIT: ma formule est totalement fausse, la métrique correcte est décrite ici et c'est beaucoup plus compliqué. Eh bien, je suis heureux d'avoir demandé ici avant d'appliquer aveuglément la formule! Je remercie @Bay de m'avoir aidé à comprendre avec sa réponse éclairante. La mesure correcte décrite est assez expérimentale, donc je m'en tiendrai à mon cheval de bataille de confiance, l'erreur CV!