Ajustement régularisé à partir de données résumées: choix du paramètre

9

Dans le prolongement de ma question précédente , la solution aux équations normales pour la régression des crêtes est donnée par:

β^λ=(XTX+λI)1XTy

Pourriez-vous offrir des conseils pour choisir le paramètre de régularisation λ. De plus, comme la diagonale de croît avec le nombre d'observationsXTXm , devraitλ être également fonction de m?

NPE
la source

Réponses:

7

Ma réponse sera basée sur une belle revue du problème par Anders Bjorkstorm Ridge régression et problèmes inverses (je recommanderais de lire l'article entier).

La partie 4 de cette revue est consacrée à la sélection d'un paramètre λ dans la régression de crête introduisant plusieurs approches clés:

  1. trace de crête correspond à l'analyse graphique deβ^i,λ contre λ. Un tracé typique dépeindra un comportement instable (pour un vrai problème mal affiché, vous devez être sûr que vous avez besoin de cette régularisation)β^i,λ estimations pour λproche de zéro, et presque constant à partir d'un certain point (en gros, nous devons détecter une région d'intersection à comportement constant pour tous les paramètres). Cependant, la décision de savoir où commence ce comportement presque constant est quelque peu subjective. La bonne nouvelle pour cette approche est qu'elle ne nécessite pas d'observerX et y.
  2. L-courbe il trace la norme euclidienne du vecteur des paramètres estimés|β^λ| contre la norme résiduelle |y-Xβ^λ|. La forme est généralement proche de la lettreL donc il existe un coin qui détermine où appartient le paramètre optimal (on peut choisir le point dans Lcourbe où ce dernier atteint la courbure maximale , mais il est préférable de rechercher l 'article de Hansen pour plus de détails).
  3. Pour la validation croisée, on choisit souvent une approche simple de «laisser de côté»,λqui maximise (ou minimise) certains critères de précision des prévisions (vous en avez un large éventail, RMSE et MAPE sont les deux pour commencer). Les difficultés avec 2. et 3. sont que vous devez observerX et y pour les mettre en pratique.
Dmitrij Celov
la source
3
D'après mon expérience, en laisser un validation croisée entraîne presque toujours une trop faible régularisation.kLa validation croisée pliée fonctionne presque toujours mieux.
Cardinal
(+1) @cardinal, belle addition, pour être franc, j'ai peu d'expérience avec les méthodes de validation croisée. Les choses simples habituelles que j'utilisais dans la pratique sont des couteaux-jack (kobservations subséquentes) et hors échantillons pour les données de séries chronologiques. Bien quek-fold pourrait également être implémenté pour certains modèles de séries chronologiques, je dois d'abord l'essayer pour créer ma propre expérience.
Dmitrij Celov
Il existe de belles méthodes de démarrage par blocs pour les séries chronologiques stationnaires. Peut-être pourraient-ils ou auraient-ils été modifiés afin de sélectionner un paramètre de régularisation.
Cardinal
Vous pouvez trouver le document suivant utile: Golub, GH; Heath, M. & Wahba, G. La validation croisée généralisée comme méthode de choix d'un bon paramètre de crête. Technometrics, 1979, 21, 215-223. Le critère introduit par Golub et al. ne nécessite aucun rééchantillonnage.
emakalic