Je semble mal comprendre une affirmation sur les méthodes de régression linéaire que j'ai vu à divers endroits. Les paramètres du problème sont:
Contribution:
échantillons de données de quantités constituées chacune d'une quantité de "réponse" et de quantités de "prédicteur"
Le résultat souhaité est un "bon ajustement linéaire" qui prédit la réponse sur la base des prédicteurs où un bon ajustement présente de petites différences entre la prédiction et la réponse observée (entre autres critères).
Sortie: coefficients où est un "bon ajustement" pour prédire la quantité de réponse à partir des quantités de prédicteur.
Je suis confus quant à l'approche de "régression de crête" à ce problème. Dans «The Elements of Statistical Learning» de Hastie, Tibshirani et Friedman page 63, la régression des crêtes est formulée de deux manières.
D'abord comme problème d' optimisation contraint :
Le deuxième est le problème d'optimisation pénalisé : pour un paramètre positif .
Le texte dit que ces formulations sont équivalentes et qu'il existe une "correspondance un à un entre les paramètres et ". J'ai vu cette affirmation (et d'autres similaires) à plusieurs endroits en plus de ce livre. Je pense que je manque quelque chose parce que je ne vois pas comment les formulations sont équivalentes si je comprends bien.
Considérons le cas où et avec , et , . En choisissant le paramètre la formulation contrainte devient:
étendu à
Pour résoudre ce problème, trouvez la solution où les dérivées partielles par rapport à et sont nulles: avec la solution et . Notez que comme requis.
Quel est le lien entre cette dérivation et l'autre formulation? Selon l'explication, il y a une certaine valeur de correspondant uniquement à où si nous optimisons la formulation pénalisée du problème, nous les mêmes et . Dans ce cas, la forme pénalisée devient étendu à Pour résoudre ce problème, trouvez la solution où les dérivées partielles avec par rapport à
En résumé, je suis totalement confus par les deux présentations et je ne comprends pas comment elles se correspondent. Je ne comprends pas comment vous pouvez optimiser un formulaire et obtenir la même solution pour l'autre formulaire ou comment est lié à . Ce n'est qu'un exemple de ce type de correspondance - il y en a d'autres pour d'autres approches comme le lasso - et je ne comprends aucune d'entre elles.
Quelqu'un, s'il vous plaît, aidez-moi.
la source
Réponses:
La confusion vient ici d'essayer de travailler dans une plage de valeurs ou où il n'y a aucune contrainte sur la régression.t λ
Dans votre exemple, à l'ajustement parfait de la droite de régression, la somme des carrés des coefficients de régression est 1. Par conséquent, la valeur de (ou toute valeur de égale ou supérieure à 1) n'impose aucune contrainte à la régression. Dans l'espace des valeurs de , toute la régression non contrainte est représentée par . Il n'y a pas de correspondance biunivoque entre et dans la régression non contrainte ; toutes les valeurs de de 1 ou plus dans ce cas correspondent à . C'était la région sur laquelle vous enquêtiez.t=2 t λ λ=0 t λ t λ=0
Seule une valeur de inférieure à 1 imposera une contrainte sur la régression, correspondant à des valeurs positives de . Comme le montre la réponse acceptée sur cette page , la correspondance biunivoque entre et est valable " lorsque la contrainte est contraignante ", dans votre exemple pour les valeurs de inférieures à 1.t λ t λ t
la source
La régression de crête classique ( régularisation de Tikhonov ) est donnée par:
L'affirmation ci-dessus est que le problème suivant est équivalent:
Définissons comme la solution optimale du premier problème et comme la solution optimale du second problème.x^ x~
La revendication d'équivalence signifie que . À savoir, vous pouvez toujours avoir une paire de et , la solution du problème est la même.∀t,∃λ≥0:x^=x~
t λ≥0
Comment pourrions-nous trouver une paire?
Eh bien, en résolvant les problèmes et en examinant les propriétés de la solution.
Les deux problèmes sont convexes et fluides, ce qui devrait simplifier les choses.
La solution du premier problème est donnée au point où le gradient disparaît, ce qui signifie:
Les conditions KKT du deuxième problème stipulent:
et
La dernière équation suggère que ou .μ=0 ∥x~∥22=t
Faites attention à ce que les 2 équations de base soient équivalentes.x^=x~ μ=λ
À savoir si et deux équations sont valables.
Cela signifie donc que dans le cas on doit définir ce qui signifie que pour suffisamment grand pour que les deux soient équivalents, on doit définir .∥y∥22≤t μ=0 t λ=0
Dans l'autre cas, on devrait trouver où:μ
C'est essentiellement quand∥x~∥22=t
Une fois que vous avez trouvé que les solutions entreront en collision.μ
En ce qui concerne le cas , eh bien, cela fonctionne avec la même idée. La seule différence est que nous n'avons pas fermé pour une solution, d'où la dérivation de la connexion est plus difficile.L1
Jetez un œil à ma réponse sur StackExchange Cross Validated Q291962 et StackExchange Signal Processing Q21730 - Signification de dans Basis Pursuitλ .
la source