La limite de l'estimateur de régression de crête de «variance unitaire» lorsque

21

Considérons la régression de crête avec une contrainte supplémentaire exigeant que ait une somme unitaire de carrés (de manière équivalente, la variance unitaire); si nécessaire, on peut supposer que a également une somme unitaire de carrés: yy^y

β^λ=argmin{yXβ2+λβ2}s.t.Xβ2=1.

Quelle est la limite de β^λ lorsque λ ?


Voici quelques déclarations qui, je crois, sont vraies:

  1. Lorsque λ=0 , il existe une solution explicite: prenez l'estimateur OLS β^0=(XX)1Xy et normaliser pour satisfaire la contrainte (on peut le voir en ajoutant un multiplicateur de Lagrange et en le différenciant):

    β^0=β^0/Xβ^0.
  2. En général, la solution est

    β^λ=((1+μ)XX+λI)1Xywith μ needed to satisfy the constraint.
    Je ne vois pas de solution de formulaire fermé lorsque λ>0 . Il semble que la solution soit équivalente à l'estimateur RR habituel avec certains λ normalisés pour satisfaire la contrainte, mais je ne vois pas de formule fermée pour λ .
  3. Lorsque λ , l'estimateur RR habituel \ hat {\ boldsymbol \ beta} _ \ lambda = (\ mathbf X ^ \ top \ mathbf X + \ lambda \ mathbf I) ^ {- 1} \ mathbf X ^ \ top \ mathbf y converge

    β^λ=(XX+λI)1Xy
    évidemment vers zéro, mais sa direction β^λ/β^λconverge vers la direction de Xy , alias le premier composant des moindres carrés partiels (PLS).

Les déclarations (2) et (3) ensemble me font penser que peut-être β^λ converge également vers le \ mathbf X ^ \ top \ mathbf y normalisé de manière appropriée Xy, mais je ne suis pas sûr si cela est correct et je n'ai pas réussi à me convaincre de toute façon.

amibe dit réintégrer Monica
la source

Réponses:

17

Une interprétation géométrique

L'estimateur décrit dans la question est l'équivalent multiplicateur de Lagrange du problème d'optimisation suivant:

minimize f(β) subject to g(β)t and h(β)=1 

f(β)=yXβ2g(β)=β2h(β)=Xβ2

qui peut être considérée, géométriquement, comme trouvant le plus petit ellipsoïde qui touche l'intersection de la sphère et de l'ellipsoïdef(β)=RSS g(β)=th(β)=1


Comparaison avec la vue de régression de crête standard

En termes de vue géométrique, cela change l' ancienne vue (pour la régression de crête standard) du point où un sphéroïde (erreurs) et une sphère ( ) se touchentβ2=t . Dans une nouvelle vue où l'on cherche le point où le sphéroïde (erreurs) touche une courbe (norme de bêta contrainte par )Xβ2=1 . La sphère unique (bleue dans l'image de gauche) se transforme en une figure de dimension inférieure en raison de l'intersection avec la contrainte .Xβ=1

Dans le cas bidimensionnel, cela est simple à voir.

vue géométrique

Lorsque nous réglons le paramètre nous modifions la longueur relative des sphères bleues / rouges ou les tailles relatives de et (Dans la théorie des multiplicateurs lagrangiens, il y a probablement un bon moyen de formellement et décrire exactement que cela signifie que pour chaque en fonction de , ou inversé, est une fonction monotone. Mais j'imagine que vous pouvez voir intuitivement que la somme des carrés au carré augmente uniquement lorsque nous diminuons .)tf(β)g(β) tλ||β||

La solution pour est comme vous l'avez argumenté sur une ligne entre 0 etβλλ=0βLS

La solution pour est (en effet comme vous l'avez commenté) dans les chargements du premier composant principal. C'est le point où est le plus petit pour . C'est le point où le cercle touche l'ellipse en un seul point.βλλβ2βX2=1β2=t|Xβ|=1

Dans cette vue les bords de l'intersection de la sphère et sphéroïde sont des points. Dans plusieurs dimensions, ce seront des courbesβ2=tβX2=1

(J'imaginais d'abord que ces courbes seraient des ellipses mais elles sont plus compliquées. On pourrait imaginer l'ellipsoïde étant intersecté par la balle comme certains sorte de tronc ellipsoïde mais avec des bords qui ne sont pas de simples ellipses)Xβ2=1β2t


Concernant la limiteλ

Au début (éditions précédentes), j'ai écrit qu'il y aura des limites au-dessus desquelles toutes les solutions sont les mêmes (et elles résident au point ). Mais ce n'est pas le casλlimβ

Considérez l'optimisation comme un algorithme LARS ou une descente de gradient. Si pour n'importe quel point il y a une direction dans laquelle nous pouvons changer le telle sorte que le terme de pénalité augmente moins que le terme SSR diminue alors vous n'êtes pas dans un minimum .ββ|β|2|yXβ|2

  • Dans la régression de crête normale, vous avez une pente nulle (dans toutes les directions) pour au point . Donc, pour tout fini, la solution ne peut pas être (puisqu'un pas infinitésimal peut être fait pour réduire la somme des résidus au carré sans augmenter la pénalité).|β|2β=0λβ=0
  • Pour LASSO ce n'est pas pareil puisque: la pénalité est (donc ce n'est pas quadratique avec une pente nulle). De ce fait, LASSO aura une valeur limite au-dessus de laquelle toutes les solutions sont nulles car le terme de pénalité (multiplié par ) augmentera plus que la somme résiduelle des carrés ne diminuera.|β|1λlimλ
  • Pour l'arête contrainte, vous obtenez la même chose que la régression d'arête régulière. Si vous modifiez le à partir du alors ce changement sera perpendiculaire à (le est perpendiculaire à la surface de l'ellipse ) et peut être modifié par une étape infinitésimale sans changer le terme de pénalité mais en diminuant la somme des résidus au carré. Ainsi, pour tout fini, le point ne peut pas être la solution.ββ β β | X β | = 1 β λ β ββ|Xβ|=1βλβ

Remarques supplémentaires concernant la limiteλ

La limite de régression de crête habituelle pour à l'infini correspond à un point différent dans la régression de crête contrainte. Cette «ancienne» limite correspond au point où est égal à -1. Alors la dérivée de la fonction de Lagrange dans le problème normaliséλμ

2(1+μ)XTXβ+2XTy+2λβ
correspond à une solution pour la dérivée de la fonction de Lagrange dans le problème standard

2XTXβ+2XTy+2λ(1+μ)βwith β=(1+μ)β


Écrit par StackExchangeStrike

Sextus Empiricus
la source
+1. Merci beaucoup, c'est super utile! J'aurai besoin de temps pour y réfléchir.
amibe dit Réintégrer Monica
Il convient de souligner que les ellipsoïdes rouges et noirs ont la même forme: c'est pourquoi le point où ils se touchent se trouve sur la ligne reliant leurs centres. Belle preuve graphique du point n ° 1 de ma question.
amibe dit Réintégrer Monica le
J'essaie de comprendre où se trouve sur votre dessin la bêta qui correspond à l'estimateur de crête avec lambda infini, normalisé pour se situer sur l'ellipse noire. Je pense que c'est quelque part entre et (en utilisant ma notation) - deux points qui sont marqués par des cercles noirs ouverts sur votre dessin. Donc, si nous faisons une régression de crête et normalisons la solution et augmentons lambda de 0 à l'infini, cela nous emmènera probablement sur le même arc, mais pas tout le chemin jusqu'à PC1. Au lieu de cela, en plaçant explicitement la contrainte , les solutions vont jusqu'au PC1. β X β = 1β0βXβ=1
Amoeba dit Reinstate Monica
+5 (j'ai commencé une prime que j'attribuerai avec plaisir à votre réponse). J'ai également posté ma propre réponse car j'ai fait quelques dérivations algébriques et c'était trop pour ajouter à la question. Je ne suis pas convaincu par votre conclusion qu'il y aura un fini, après quoi la solution ne changera plus et sera donnée par PC1. Je ne le vois pas algébriquement, et je ne comprends pas très bien votre argument pour savoir pourquoi il devrait exister. Essayons de le comprendre. λlim
Amoeba dit Reinstate Monica
@amoeba, vous aviez raison sur la fin du . J'ai argumenté trop intuitivement et je suis passé rapidement d'une condition particulière pour la régression de crête régulière à la régression de crête contrainte. RR normal a une pente nulle (dans toutes les directions) pour au point . Je pensais que (depuis ) vous n'obtenez pas cela avec la régression contrainte. Cependant, parce que est contraint à l'ellipsoïde vous ne pouvez pas "déplacer" dans toutes les directions. | β | 2 β = 0 β 0 β | X β | = 1 βλlim|β|2β=0β0β|Xβ|=1β
Sextus Empiricus
10

Ceci est une contrepartie algébrique à la belle réponse géométrique de @ Martijn.

Tout d'abord, la limite de lorsque est très simple à obtenir: à la limite, le premier terme de la fonction de perte devient négligeable et peut donc être ignoré. Le problème d'optimisation devient qui est le premier composant principal deλ lim λ β * λ = β * = a r g

β^λ=argmin{yXβ2+λβ2}s.t.Xβ2=1
λX
limλβ^λ=β^=argminXβ2=1β2argmaxβ2=1Xβ2,
X(mise à l'échelle appropriée). Cela répond à la question.

Examinons maintenant la solution pour toute valeur de laquelle j'ai fait référence au point # 2 de ma question. En ajoutant à la fonction de perte le multiplicateur de Lagrange et en différenciant, on obtientμ ( X β 2 - 1 )λμ(Xβ21)

β^λ=((1+μ)XX+λI)1Xywith μ needed to satisfy the constraint.

Comment se comporte cette solution lorsque passe de zéro à l'infini?λ

  • Lorsque , nous obtenons une version à l'échelle de la solution OLS:β * 0 ~ β 0 .λ=0

    β^0β^0.
  • Pour des valeurs positives mais faibles de , la solution est une version à l'échelle d'un estimateur de crête:ß * λ ~ ß λ * .λ

    β^λβ^λ.
  • Lorsque, la valeur de nécessaire pour satisfaire la contrainte est . Cela signifie que la solution est une version à l'échelle du premier composant PLS (ce qui signifie que de l'estimateur de crête correspondant est ):( 1 + μ ) 0 λ * ∞ la ß *λ=XXy(1+μ)0λ

    β^XXyXy.
  • Lorsque devient plus grand que cela, le terme nécessaire devient négatif. Désormais, la solution est une version à l'échelle d'un estimateur de pseudo-arête avec paramètre de régularisation négatif ( arête négative ). En termes de directions, nous avons maintenant dépassé la régression des crêtes avec un lambda infini.( 1 + μ )λ(1+μ)

  • Lorsque , le terme irait à zéro (ou divergerait à infini) sauf si où est la plus grande valeur singulière de . Cela rendra fini et proportionné au premier axe principal . Nous devons définir pour satisfaire la contrainte. Ainsi, nous obtenons ce( ( 1 + μ ) XX + λ I ) - 1 μ = - λ / s 2 m a x + alpha s m a x X = U S V ⊤ la ß * λ V 1 μ = - λ / s 2 m a x + U 1 yλ((1+μ)XX+λI)1μ=λ/smax2+αsmaxX=USVβ^λV1βμ=λ/smax2+U1y1

    β^V1.

Dans l'ensemble, nous constatons que ce problème de minimisation contraint englobe les versions à variance unitaire des OLS, RR, PLS et PCA sur le spectre suivant:

OLSRRPLSnegative RRPCA

Cela semble être équivalent à un cadre chimiométrique obscur (?) Appelé "régression du continuum" (voir https://scholar.google.de/scholar?q="continuum+regression " , en particulier Stone & Brooks 1990, Sundberg 1993, Björkström & Sundberg 1999, etc.) qui permet la même unification en maximisant un critère ad hocCela donne évidemment OLS mis à l'échelle lorsque , PLS lorsque , PCA lorsque , et peut être montré pour donner RR mis à l'échelle pourγ = 0 γ = 1 γ 0 < γ < 1 1 < γ <

T=corr2(y,Xβ)Varγ(Xβ)s.t.β=1.
γ=0γ=1γ0<γ<11<γ< , voir Sundberg 1993.

Malgré avoir un peu d'expérience avec RR / PLS / PCA / etc, je dois admettre que je n'ai jamais entendu parler de "régression du continuum" auparavant. Je dois également dire que je n'aime pas ce terme.


Un schéma que j'ai fait sur la base de celui de @ Martijn:

Régression de la crête de variance unitaire

Mise à jour: Figure mise à jour avec le chemin de crête négatif, merci à @Martijn pour avoir suggéré à quoi cela devrait ressembler. Voir ma réponse dans Comprendre la régression de crête négative pour plus de détails.

amibe dit réintégrer Monica
la source
La "régression en continu" semble faire partie d'une catégorie étonnamment large de techniques visant à unifier le PLS et l'ACP dans un cadre commun. D'ailleurs, je n'en avais jamais entendu parler avant de faire des recherches sur la crête négative (je fournis un lien vers l'article de Bjorkstron et Sundberg, 1999, dans le premier commentaire de la question sur la crête négative à laquelle vous faites un lien), bien qu'il semble être assez largement discuté dans la littérature chimiométrique. Il doit y avoir une raison historique pour laquelle il s'est développé apparemment indépendamment des autres domaines de la statistique. (1/3)
Ryan Simmons
Un article que vous voudrez peut-être lire est de Jong et al. (2001) . Leur formulation de "PLS canonique" semble à première vue être équivalente à la vôtre, bien que j'avoue que je n'ai pas encore comparé rigoureusement les calculs (ils fournissent également un examen de plusieurs autres généralisations PLS-PCA dans la même veine). Mais il peut être utile de voir comment ils ont expliqué le problème. (2/3)
Ryan Simmons
Dans le cas où ce lien meurt, la citation complète est: Sijmen de Jong, Barry M. Wise, N. Lawrence Ricker. «Moindres carrés partiels canoniques et régression de la puissance du continuum». Journal of Chemometrics, 2001; 15: 85-100. doi.org/10.1002/… (3/3)
Ryan Simmons
1
ah, ok, alors et vont à infinity mais leur rapport reste . Dans tous les cas, le chemin de régression de crête négative doit être dans le secteur (négatif) entre les vecteurs PLS et PCA de telle sorte que leur projection sur l'ellipseest entre les points PLS et PCA. (la norme allant à l'infini prend tout son sens lorsque le va également à l'infini, de sorte que le chemin continue vers le bas à droite, initialement tangent à, négatif, PLS et finalement à PCA)λ1+μ±smax2|Xβ=1|μ
Sextus Empiricus
1
Cela ajouterait à la visualisation. J'imagine les trois points actuels du chemin RR (où le cercle et l'ellipsoïde se touchent) continuant vers le bas à droite et finalement, à l'infini, le cercle et l'ellipsoïde devrait 'toucher' en direction de l' endroit où le cercle touche l'ellipsoïde | X ( β - β ) | 2 = R S S | β | 2 = t p c a | X β | 2 = 1|β|2=t|X(ββ^)|2=RSS|β|2=tpca|Xβ|2=1
Sextus Empiricus