En régression de crête, la fonction objectif à minimiser est:
Peut-on l'optimiser en utilisant la méthode du multiplicateur de Lagrange? Ou est-ce une différenciation directe?
En régression de crête, la fonction objectif à minimiser est:
Peut-on l'optimiser en utilisant la méthode du multiplicateur de Lagrange? Ou est-ce une différenciation directe?
Réponses:
Il existe deux formulations pour le problème des crêtes. Le premier est
sujet à
Cette formulation montre la contrainte de taille sur les coefficients de régression. Notez ce que cette contrainte implique; nous forçons les coefficients à se situer dans une boule autour de l'origine de rayon .s√
La deuxième formulation est exactement votre problème
qui peut être considérée comme la formulation du multiplicateur de Largrange. Notez qu'ici est un paramètre de réglage et que des valeurs plus élevées entraîneront un retrait plus important. Vous pouvez procéder à la différenciation de l'expression par rapport à et obtenir l'estimateur de crête bien connuβλ β
Les deux formulations sont complètement équivalentes , car il existe une correspondance biunivoque entre et .s λ
Permettez-moi de vous en dire un peu plus. Imaginez que vous êtes dans le cas orthogonal idéal, . Il s'agit d'une situation très simplifiée et irréaliste, mais nous pouvons enquêter un peu plus sur l'estimateur, alors soyez indulgent avec moi. Considérez ce qui arrive à l'équation (1). L'estimateur de crête se réduit àX′X=I
comme dans le cas orthogonal, l'estimateur OLS est donné par . En regardant ce composant maintenant, nous obtenonsβOLS=X′y
Notez alors que maintenant le retrait est constant pour tous les coefficients. Cela pourrait ne pas tenir dans le cas général et en effet , il peut être démontré que les rétrécissements seront très différents s'il y a dégénérescences dans le matrice.X′X
Mais revenons au problème d'optimisation contraint. Selon la théorie KKT , une condition nécessaire pour l'optimalité est
soit ou ∑ β 2 R , j - s = 0 (dans ce cas, nous disons que la contrainte est contraignante). Si λ = 0 alors il n'y a pas de pénalité et nous sommes de retour dans la situation OLS régulière. Supposons alors que la contrainte est contraignante et que nous sommes dans la seconde situation. En utilisant la formule de (2), nous avons alorsλ=0 ∑β2R,j−s=0 λ=0
d'où nous obtenons
la relation un à un précédemment revendiquée. Je m'attends à ce que cela soit plus difficile à établir dans le cas non orthogonal, mais le résultat est valable malgré tout.
Regardez encore (2) et vous verrez que nous manquons toujours le . Pour obtenir une valeur optimale, vous pouvez soit utiliser la validation croisée, soit regarder la trace de la crête. Cette dernière méthode consiste à construire une séquence de λ dans (0,1) et à regarder comment les estimations changent. Vous sélectionnez ensuite le λ qui les stabilise. Cette méthode a d'ailleurs été suggérée dans la seconde des références ci-dessous et est la plus ancienne.λ λ λ
Les références
la source
Mon livre Regression Modeling Strategies se penche sur l'utilisation d'un AIC efficace pour choisir . Cela vient de la probabilité du journal pénalisé et les degrés de liberté réels , ce dernier étant fonction de la façon dont les écarts de beaucoup β sont réduits par Pénalisation. Une présentation à ce sujet est ici . Le package R trouve λ qui optimise l'AIC efficace et permet également de multiples paramètres de pénalité (par exemple, un pour les effets principaux linéaires, un pour les effets principaux non linéaires, un pour les effets d'interaction linéaires et un pour les effets d'interaction non linéaires).λ β^ λ
rms
pentrace
la source
Je ne le fais pas analytiquement, mais plutôt numériquement. Je trace habituellement RMSE vs λ en tant que tel:
Figure 1. RMSE et la constante λ ou alpha.
la source