Comment trouver les coefficients de régression

14

En régression de crête, la fonction objectif à minimiser est:

RSS+λβj2.

Peut-on l'optimiser en utilisant la méthode du multiplicateur de Lagrange? Ou est-ce une différenciation directe?

Minaj
la source
1
Quel est le lien entre le titre (qui se concentre sur λ ) et la question (qui semble ne concerner que le βj )? Je crains que «être optimisé» puisse avoir des interprétations distinctement différentes selon les variables qui sont considérées comme celles qui peuvent être modifiées et celles qui doivent être fixées.
whuber
1
merci modifié la question. J'ai lu que le est trouvé par validation croisée - mais je crois que cela signifie que vous avez déjà le β j et utilisez des données différentes pour trouver la meilleure question λ est - comment trouvez-vous les β j en premier lieu quand λ est un inconnu? λβjλβjλ
Minaj

Réponses:

22

Il existe deux formulations pour le problème des crêtes. Le premier est

βR=argminβ(yXβ)(yXβ)

sujet à

jβj2s.

Cette formulation montre la contrainte de taille sur les coefficients de régression. Notez ce que cette contrainte implique; nous forçons les coefficients à se situer dans une boule autour de l'origine de rayon .s

La deuxième formulation est exactement votre problème

βR=argminβ(yXβ)(yXβ)+λβj2

qui peut être considérée comme la formulation du multiplicateur de Largrange. Notez qu'ici est un paramètre de réglage et que des valeurs plus élevées entraîneront un retrait plus important. Vous pouvez procéder à la différenciation de l'expression par rapport à et obtenir l'estimateur de crête bien connuβλβ

(1)βR=(XX+λI)1Xy

Les deux formulations sont complètement équivalentes , car il existe une correspondance biunivoque entre et .sλ

Permettez-moi de vous en dire un peu plus. Imaginez que vous êtes dans le cas orthogonal idéal, . Il s'agit d'une situation très simplifiée et irréaliste, mais nous pouvons enquêter un peu plus sur l'estimateur, alors soyez indulgent avec moi. Considérez ce qui arrive à l'équation (1). L'estimateur de crête se réduit àXX=I

βR=(I+λI)1Xy=(I+λI)1βOLS

comme dans le cas orthogonal, l'estimateur OLS est donné par . En regardant ce composant maintenant, nous obtenonsβOLS=Xy

(2)βR=βOLS1+λ

Notez alors que maintenant le retrait est constant pour tous les coefficients. Cela pourrait ne pas tenir dans le cas général et en effet , il peut être démontré que les rétrécissements seront très différents s'il y a dégénérescences dans le matrice.XX

Mais revenons au problème d'optimisation contraint. Selon la théorie KKT , une condition nécessaire pour l'optimalité est

λ(βR,j2s)=0

soit ou β 2 R , j - s = 0 (dans ce cas, nous disons que la contrainte est contraignante). Si λ = 0 alors il n'y a pas de pénalité et nous sommes de retour dans la situation OLS régulière. Supposons alors que la contrainte est contraignante et que nous sommes dans la seconde situation. En utilisant la formule de (2), nous avons alorsλ=0βR,j2s=0λ=0

s=βR,j2=1(1+λ)2βOLS,j2

d'où nous obtenons

λ=βOLS,j2s1

la relation un à un précédemment revendiquée. Je m'attends à ce que cela soit plus difficile à établir dans le cas non orthogonal, mais le résultat est valable malgré tout.

Regardez encore (2) et vous verrez que nous manquons toujours le . Pour obtenir une valeur optimale, vous pouvez soit utiliser la validation croisée, soit regarder la trace de la crête. Cette dernière méthode consiste à construire une séquence de λ dans (0,1) et à regarder comment les estimations changent. Vous sélectionnez ensuite le λ qui les stabilise. Cette méthode a d'ailleurs été suggérée dans la seconde des références ci-dessous et est la plus ancienne.λλλ

Les références

Hoerl, Arthur E. et Robert W. Kennard. "Régression de crête: estimation biaisée pour les problèmes non orthogonaux." Technometrics 12.1 (1970): 55-67.

Hoerl, Arthur E. et Robert W. Kennard. "Régression de crête: applications à des problèmes non orthogonaux." Technometrics 12.1 (1970): 69-82.

JohnK
la source
2
La régression @Minaj Ridge a un retrait constant pour tous les coefficients (autres que l'ordonnée à l'origine). C'est pourquoi il n'y a qu'un seul multiplicateur.
JohnK
2
@amoeba Il s'agit d'une suggestion de Hoerl et Kennard, les personnes qui ont introduit la régression des crêtes dans les années 1970. D'après leur expérience - et la mienne - les coefficients se stabiliseront dans cet intervalle même avec des degrés extrêmes de multicolinéarité. Bien sûr, il s'agit d'une stratégie empirique et il n'est donc pas garanti de fonctionner tout le temps.
JohnK
2
Vous pouvez également simplement faire la méthode de pseudo-observation et obtenir les estimations avec rien de plus compliqué qu'un programme de régression des moindres carrés droits. Vous pouvez également étudier l'effet de la modification de d'une manière similaire. λ
Glen_b -Reinstate Monica
2
@amoeba Il est vrai que la crête n'est pas invariante à l'échelle, c'est pourquoi il est courant de standardiser les données au préalable. J'ai inclus les références pertinentes au cas où vous souhaiteriez y jeter un œil. Ils sont extrêmement intéressants et pas si techniques.
JohnK
2
@JohnK en effet, la régression de crête rétrécit chaque d'une quantité différente, de sorte que le retrait n'est pas constant même s'il n'y a qu'un seul paramètre de retrait λ . βλ
Frank Harrell
4

Mon livre Regression Modeling Strategies se penche sur l'utilisation d'un AIC efficace pour choisir . Cela vient de la probabilité du journal pénalisé et les degrés de liberté réels , ce dernier étant fonction de la façon dont les écarts de beaucoup β sont réduits par Pénalisation. Une présentation à ce sujet est ici . Le package R trouve λ qui optimise l'AIC efficace et permet également de multiples paramètres de pénalité (par exemple, un pour les effets principaux linéaires, un pour les effets principaux non linéaires, un pour les effets d'interaction linéaires et un pour les effets d'interaction non linéaires).λβ^rmspentraceλ

Frank Harrell
la source
1
+1. Que pensez-vous de l'utilisation de l'erreur CV avec absence de calcul, calculée via la formule explicite (c'est-à-dire sans réellement effectuer le CV), pour choisir ? Avez-vous une idée de la façon dont il se compare dans la pratique à un «AIC efficace»? λ
amibe dit Réintégrer Monica le
Je n'ai pas étudié ça. LOOCV prend beaucoup de calcul.
Frank Harrell
Pas si la formule explicite est utilisée: stats.stackexchange.com/questions/32542 .
amibe dit Réintégrer Monica le
1
Cette formule fonctionne pour le cas particulier de l'OLS, et non pour la probabilité maximale en général. Mais il existe une formule approximative utilisant les résidus de score. Je me rends bien compte que nous parlons principalement d'OLS dans cette discussion.
Frank Harrell
1

Je ne le fais pas analytiquement, mais plutôt numériquement. Je trace habituellement RMSE vs λ en tant que tel:

enter image description here

Figure 1. RMSE et la constante λ ou alpha.

Lennart
la source
λβjλ