J'ai des problèmes avec la dérivation de la solution pour la régression de crête.
Je connais la solution de régression sans le terme de régularisation:
Mais après avoir ajouté le terme L2 à la fonction de coût, comment se fait-il que la solution devienne
regression
least-squares
regularization
ridge-regression
utilisateur34790
la source
la source
Construisons sur ce que nous savons, à savoir que chaque fois que la matrice de modèle est , la réponse -vector est et le paramètre -vector est , la fonction objectifX nn×p X n p βy p β
(qui est la somme des carrés des résidus) est minimisé quand résout les équations normalesβ
La régression de crête ajoute un autre terme à la fonction objectif (généralement après normalisation de toutes les variables afin de les rendre communes), demandant de minimiser
pour une constante non-négative . C'est la somme des carrés des résidus plus un multiple de la somme des carrés des coefficients eux-mêmes (ce qui rend évident qu'il a un minimum global). Parce que , il a une racine carrée positive .λ ≥ 0λ λ≥0 ν2=λ
Considérons la matrice augmentée de lignes correspondant à fois la matrice d'identité :νX ν Ip×p I
Lorsque le vecteur est étendu de manière similaire avec zéros à la fin de , le produit matriciel de la fonction objectif ajoute termes supplémentaires de la forme à l'objectif initial. Par conséquentp y ∗ p ( 0 - ν β i ) 2 = λ βy p y∗ p (0−νβi)2=λβ2i
A partir de la forme de l’expression de gauche, il est immédiat que les équations de Normal soient
Comme nous avons joint des zéros à la fin de , le côté droit est identique à . Du côté gauche est ajouté à l'original . Par conséquent, les nouvelles équations normales simplifientX ′ y ν 2 I = λy X′y X ' Xν2I=λI X′X
En plus d'être conceptuellement économique - aucune nouvelle manipulation n'est nécessaire pour obtenir ce résultat - il est également économique en calcul: votre logiciel de calcul des moindres carrés ordinaires effectuera également une régression de crête sans aucune modification. (Il peut néanmoins être utile dans les gros problèmes d’utiliser un logiciel conçu à cet effet, car il exploitera la structure particulière de pour obtenir des résultats efficaces pour un intervalle de très espacé , ce qui vous permettra d’explorer comment les réponses varient. avec .)X∗ λλ λ
Une autre beauté de cette façon de voir les choses est de savoir comment cela peut nous aider à comprendre la régression de crête. Quand on veut vraiment comprendre la régression, il est presque toujours utile d’y penser géométriquement: les colonnes de constituent des vecteurs dans un espace vectoriel réel de dimension . En joignant à , en les prolongeant ainsi de vecteurs à vecteurs, nous intégrons dans un espace plus grand en incluant "imaginaire", directions orthogonales. La première colonne dep n ν I X n n + p R n R n + p p X ν p p th ν ν p ν 0X p n νI X n n+p Rn Rn+p p X reçoit un petit composant imaginaire de taille , l’allongeant ainsi et le déplaçant hors de l’espace généré par les colonnes originales . Le deuxième, troisième, ..., colonnes sont également rallongé et déplacé hors de l'espace d' origine du même montant - mais dans différentes directions nouvelles. Par conséquent, toute colinéarité présente dans les colonnes d'origine sera immédiatement résolue. De plus, plus devient grand, plus ces nouveaux vecteurs se rapprochent deν p pth ν ν p directions imaginaires: elles deviennent de plus en plus orthonormées. En conséquence, la solution des équations de Normal deviendra immédiatement possible et deviendra rapidement numériquement stable à mesure que augmente à partir de .ν 0
Cette description du processus suggère certaines approches novatrices et créatives pour résoudre les problèmes que Ridge Regression a été conçu pour traiter. Par exemple, en utilisant quelque moyen que ce soit (comme la décomposition de la variance décrite par Belsley, Kuh et Welsch dans leur livre de 1980 sur Regression Diagnostics , chapitre 3), vous pourrez peut-être identifier des sous-groupes de colonnes presque colinéaires de , où chaque sous-groupe est presque orthogonal à un autre. Il vous suffit d'adjoindre autant de lignes à (et de zéros à ) qu'il y a d'éléments dans le groupe le plus grand, en dédiant une nouvelle dimension "imaginaire" pour déplacer chaque élément d'un groupe loin de ses frères et soeurs: vous n'avez pas besoin de imaginaire dimensions pour le faire.X y pX X y p
la source
Notez maintenant que et Ensemble nous arrivons à la condition du premier ordre Isoler donne la solution:
la source
Je suis récemment tombé sur la même question dans le contexte de P-Splines et, comme le concept est le même, je souhaite donner une réponse plus détaillée sur la dérivation de l'estimateur de crête.
Nous commençons par une fonction de critère pénalisée qui diffère de la fonction de critère classique MCO par son terme de pénalisation dans le dernier sommand:
où
Nous pouvons réécrire ce critère en notation matricielle et le décomposer:
avec I étant la matrice d'identité=yTy−βTXTy−βTXTy+βTXTXβ+βTλIβ I
Maintenant, nous cherchons le qui minimise notre critère. Nous utilisons entre autres la règle de différenciation matricielle ∂ x T A xβ queon peut appliquer ici(XTX+λI)∈Rn×n: ∂xTAx∂x=(A+AT)x=A symmetric2Ax (XTX+λI)∈Rn×n
la source
Il manque quelques éléments importants dans les réponses fournies.
La solution pour est dérivé du premier ordre condition nécessaire: ∂ f r i d g e ( β , λ )β qui donnedes =(XTX+λI)-1XTY. Mais est-ce suffisant? Autrement dit, la solution est un minimum global que sifridge(β,λ)est strictement convexe. Cela peut être montré pour être vrai.∂fridge(β,λ)∂β=0 β=(XTX+λI)−1XTY fridge(β,λ)
Une autre façon de considérer le problème est de voir l'équivalence entre et f O L S ( β ) = ( Y - β T X ) T ( Y - β T X ) contraint de | | β | | 2 2 ≤ t . OLS signifie «moindres carrés ordinaires». De ce point de vue f r ifridge(β,λ) fOLS(β)=(Y−βTX)T(Y−βTX) ||β||22≤t n'est que la fonction lagrangienne utilisée pour trouver les minima globaux de la fonction objectif convexe f O L S (β)contrainte de la fonction convexe | | β | | 2 2 .fridge(β,λ) fOLS(β) ||β||22
Une bonne explication de ces points et de la dérivation de peut être trouvée dans ces notes de cours: http://math.bu.edu/people/cgineste/classes/ma575/p/w14_1.pdfβ
la source