Selon les références Livre 1 , Livre 2 et papier .
Il a été mentionné qu'il existe une équivalence entre la régression régularisée (Ridge, LASSO et Elastic Net) et leurs formules de contraintes.
J'ai également examiné Cross Validated 1 et Cross Validated 2 , mais je ne vois pas de réponse claire pour montrer que l'équivalence ou la logique.
Ma question est
Comment montrer cette équivalence en utilisant Karush – Kuhn – Tucker (KKT)?
Les formules suivantes concernent la régression Ridge.
REMARQUE
Cette question n'est pas un devoir. C'est seulement pour augmenter ma compréhension de ce sujet.
MISE À JOUR
Je n'ai pas encore l'idée.
Réponses:
La réponse plus technique est parce que le problème d'optimisation contraint peut être écrit en termes de multiplicateurs de Lagrange. En particulier, le lagrangien associé au problème d'optimisation contraint est donné parL(β)=argminβ⎧⎩⎨∑i=1N(yi−∑j=1pxijβj)2⎫⎭⎬+μ{(1−α)∑j=1p|βj|+α∑j=1pβ2j}
oùμ est un multiplicateur choisi pour satisfaire les contraintes du problème. Les conditions de premier ordre (qui suffisent puisque vous travaillez avec de belles fonctions convexes propres) pour ce problème d'optimisation peuvent ainsi être obtenues en différenciant le lagrangien par rapport à β et en fixant les dérivées égales à 0 (c'est un peu plus nuancé depuis le LASSO La partie a des points indifférenciables, mais il existe des méthodes d'analyse convexe pour généraliser la dérivée pour que la condition du premier ordre fonctionne toujours). Il est clair que ces conditions de premier ordre sont identiques aux conditions de premier ordre du problème non contraint que vous avez noté.
Edit: Comme demandé, j'inclurai une analyse plus concrète de la régression des crêtes, car elle capture les idées principales tout en évitant d'avoir à traiter les aspects techniques associés à la non-différentiabilité de la pénalité LASSO. Rappelons que nous résolvons un problème d'optimisation (en notation matricielle):
la source
Il y a une grande analyse par stats_model dans sa réponse .
J'ai essayé de répondre à une question similaire à The Proof of Equivalent Formulas of Ridge Regression .
Comme je l'ai écrit et comme le montre stats_model dans son analyse, la cartographie dépend des données. Nous choisirons donc une réalisation spécifique du problème. Pourtant, le code et l'esquisse de la solution ajouteront de l'intuition à ce qui se passe.
Nous comparerons les 2 modèles suivants:
Le solveur résout essentiellement:
Voici donc notre matrice:
Et voici notre vecteur:
Voici la cartographie:
Zoom avant sur la plage [0, 10]:
Le code complet est disponible sur mon référentiel GitHub Q401212 à validation croisée StackExchange .
la source