Interprétation de la régularisation des crêtes en régression

25

J'ai plusieurs questions concernant la pénalité de crête dans le contexte des moindres carrés:

βridge=(λID+XX)1Xy

1) L'expression suggère que la matrice de covariance de X est rétrécie vers une matrice diagonale, ce qui signifie que (en supposant que les variables sont normalisées avant la procédure) la corrélation entre les variables d'entrée sera abaissée. Cette interprétation est-elle correcte?

2) S'il s'agit d'une application de rétrécissement, pourquoi n'est-elle pas formulée dans les lignes de , en supposant que nous pouvons en quelque sorte restreindre lambda à [0,1] avec une normalisation .(λID+(1λ)XX)

3) Qu'est-ce qui peut être une normalisation pour afin qu'elle puisse être limitée à une plage standard comme [0,1].λ

4) L'ajout d'une constante à la diagonale affectera toutes les valeurs propres. Serait-il préférable d'attaquer uniquement les valeurs singulières ou quasi singulières? Est-ce que cela équivaut à appliquer l'ACP à X et à conserver les principaux composants N avant la régression ou a-t-il un nom différent (car il ne modifie pas le calcul de la covariance croisée)?

5) Pouvons-nous régulariser la covariance croisée, ou est-ce utile, ce qui signifie

βridge=(λID+XX)1(γXy)

où un petit abaissera la covariance croisée. Évidemment, cela réduit également tous les , mais il existe peut-être une méthode plus intelligente comme le seuillage dur / souple en fonction de la valeur de covariance.βγβ

Cagdas Ozgenc
la source
iirc la pénalité de crête provient d'une restriction qui , au moyen d'un multiplicateur de Lagrange sur la fonction objectif MSE. LASSO est le même mais avecau lieu. Je suis sur mon téléphone, je ne peux donc pas facilement publier de dérivation pour le moment. Mais ce sont de grandes questions| β |β2T|β|
shadowtalker

Réponses:

19

Bonnes questions!

  1. Oui, c'est exactement ça. Vous pouvez voir la pénalité de crête comme un moyen possible de traiter le problème de multicolinéarité qui survient lorsque de nombreux prédicteurs sont fortement corrélés. L'introduction d'une pénalité de crête réduit efficacement ces corrélations.

  2. λ = 0 β β r i d g e

    L=yXβ2+λβ2.
    λ=0ββridge
  3. Une façon possible de normaliser est de le mettre à l'échelle par la variance totale , c'est-à-dire d'utiliser au lieu de . Cela ne limiterait pas nécessairement à , mais le rendrait "sans dimension" et se traduirait probablement par un optimal inférieur à dans tous les cas pratiques (NB: ce n'est qu'une supposition!).t r ( XX ) λ t r ( XX ) λ λ [ 0 , 1 ] λ 1λtr(XX)λtr(XX)λλ[0,1]λ1

  4. "Attaquer uniquement les petites valeurs propres" a un nom distinct et est appelé régression des composants principaux. Le lien entre la PCR et la régression de crête est qu'en PCR, vous avez effectivement une "pénalité de pas" coupant toutes les valeurs propres après un certain nombre, tandis que la régression de crête applique une "pénalité douce", pénalisant toutes les valeurs propres, les plus petites étant plus pénalisées. Ceci est bien expliqué dans The Elements of Statistical Learning par Hastie et al. (disponible gratuitement en ligne), section 3.4.1. Voir aussi ma réponse dans Relation entre la régression de crête et la régression PCA .

  5. Je n'ai jamais vu cela se faire, mais notez que vous pourriez envisager une fonction de coût sous la formeCela réduit votre non à zéro, mais à une autre valeur prédéfinie . Si l'on fait le calcul, vous arriverez à la optimale donnée par qui peut peut-être être considéré comme une "régularisation de la covariance croisée"?β β 0 β β = ( XX + λ I ) - 1 ( Xy + λ β 0 ) ,

    L=yXβ2+λββ02.
    ββ0β
    β=(XX+λI)1(Xy+λβ0),
amibe dit réintégrer Monica
la source
1
Pourriez-vous expliquer pourquoi l'ajout de à signifie que la matrice de covariance de est réduite vers une matrice diagonale? C'est une question d'algèbre purement linéaire, je suppose. X X XλIDXXX
Heisenberg
3
@ Heisenberg, eh bien, est la matrice de covariance de (jusqu'à un facteur d'échelle ). Le calcul nécessite d'inverser cette matrice de covariance. Dans la régression de crête, nous inversons à la place , donc on peut voir comme une estimation régularisée de la matrice de covariance. Maintenant, le terme est une matrice diagonale avec sur la diagonale. Imaginez que est très grand; alors la somme est dominée par le terme diagonal , et donc la covariance régularisée devient de plus en plus diagonale à mesure que grandit.X 1 / N β X X + λ I X X + λ I λ I λ λ λ I λXXX1/NβXX+λIXX+λIλIλλλIλ
amibe dit Réintégrer Monica
wrt Q5, Elements of Statistical Learning examine les contraintes de lissage pour les applications de traitement d'image (PDA - page 447)
seanv507
10

Un autre commentaire sur la question 4. En fait, la régression de crête traite assez efficacement les petites valeurs propres de tout en laissant la plupart du temps les grandes valeurs propres seules. XTX

Pour le voir, exprimons l'estimateur de régression de crête en termes de décomposition en valeurs singulières de , X

X=i=1nσiuiviT

où les vecteurs sont mutuellement orthogonaux et les vecteurs sont également mutuellement orthogonaux. Ici, les valeurs propres de sont , . v i X T X σ 2 i i = 1 , 2 , , nuiviXTXσi2i=1,2,,n

Ensuite, vous pouvez montrer que

βridge=i=1nσi2σi2+λ1σi(uiTy)vi.

Considérons maintenant les "facteurs de filtrage" . Si , alors les facteurs de filtrage sont 1, et nous obtenons la solution conventionnelle des moindres carrés. Si et , alors le facteur de filtrage est essentiellement 1. Si , alors ce facteur est essentiellement 0. Ainsi, les termes correspondant aux petites valeurs propres abandonnent effectivement, tandis que ceux correspondant aux plus grandes valeurs propres sont conservés. σi2/(σi2+λ)λ=0λ>0σi2λσi2λ

En comparaison, la régression des composantes principales utilise simplement des facteurs de 1 (pour les valeurs propres plus grandes) ou 0 (pour les valeurs propres plus petites qui sont abandonnées) dans cette formule.

Brian Borchers
la source
1
C'est exactement ce que j'ai brièvement mentionné dans ma réponse, mais c'est très agréable de l'avoir élaboré et démontré mathématiquement, +1.
amibe dit Réintégrer Monica
5

XX

λx+y=κ(αx+(1α)y),
α=λ1+λκ=1+λ0λ<+0<α1

La technique que vous décrivez comme "attaquant [uniquement] les valeurs singulières ou quasi singulières" est également connue sous le nom d' analyse du spectre singulier (à des fins de régression linéaire) (voir Eq. 19), si par "attaquer", vous voulez dire "enlever ". La covariance croisée est inchangée.

X

Vincent Guillemot
la source
Merci. En PCR, la covariance avec y est calculée après la réduction de dimension, non? Est-ce la différence entre la PCR et la SSA? Votre gamma (pas le mien), comment sélectionnez-vous pour que alpha soit [0,1] délimité?
Cagdas Ozgenc
1
γκ
Je pense que vous avez raison au sujet de la différence entre SSA et PCR, nous devons cependant l'écrire pour être sûr.
Vincent Guillemot