J'ai plusieurs questions concernant la pénalité de crête dans le contexte des moindres carrés:
1) L'expression suggère que la matrice de covariance de X est rétrécie vers une matrice diagonale, ce qui signifie que (en supposant que les variables sont normalisées avant la procédure) la corrélation entre les variables d'entrée sera abaissée. Cette interprétation est-elle correcte?
2) S'il s'agit d'une application de rétrécissement, pourquoi n'est-elle pas formulée dans les lignes de , en supposant que nous pouvons en quelque sorte restreindre lambda à [0,1] avec une normalisation .
3) Qu'est-ce qui peut être une normalisation pour afin qu'elle puisse être limitée à une plage standard comme [0,1].
4) L'ajout d'une constante à la diagonale affectera toutes les valeurs propres. Serait-il préférable d'attaquer uniquement les valeurs singulières ou quasi singulières? Est-ce que cela équivaut à appliquer l'ACP à X et à conserver les principaux composants N avant la régression ou a-t-il un nom différent (car il ne modifie pas le calcul de la covariance croisée)?
5) Pouvons-nous régulariser la covariance croisée, ou est-ce utile, ce qui signifie
où un petit abaissera la covariance croisée. Évidemment, cela réduit également tous les , mais il existe peut-être une méthode plus intelligente comme le seuillage dur / souple en fonction de la valeur de covariance.β
la source
Réponses:
Bonnes questions!
Oui, c'est exactement ça. Vous pouvez voir la pénalité de crête comme un moyen possible de traiter le problème de multicolinéarité qui survient lorsque de nombreux prédicteurs sont fortement corrélés. L'introduction d'une pénalité de crête réduit efficacement ces corrélations.
λ = 0 β β r i d g e
Une façon possible de normaliser est de le mettre à l'échelle par la variance totale , c'est-à-dire d'utiliser au lieu de . Cela ne limiterait pas nécessairement à , mais le rendrait "sans dimension" et se traduirait probablement par un optimal inférieur à dans tous les cas pratiques (NB: ce n'est qu'une supposition!).t r ( X ⊤ X ) λ t r ( X ⊤ X ) λ λ [ 0 , 1 ] λ 1λ tr(X⊤X) λtr(X⊤X) λ λ [0,1] λ 1
"Attaquer uniquement les petites valeurs propres" a un nom distinct et est appelé régression des composants principaux. Le lien entre la PCR et la régression de crête est qu'en PCR, vous avez effectivement une "pénalité de pas" coupant toutes les valeurs propres après un certain nombre, tandis que la régression de crête applique une "pénalité douce", pénalisant toutes les valeurs propres, les plus petites étant plus pénalisées. Ceci est bien expliqué dans The Elements of Statistical Learning par Hastie et al. (disponible gratuitement en ligne), section 3.4.1. Voir aussi ma réponse dans Relation entre la régression de crête et la régression PCA .
Je n'ai jamais vu cela se faire, mais notez que vous pourriez envisager une fonction de coût sous la formeCela réduit votre non à zéro, mais à une autre valeur prédéfinie . Si l'on fait le calcul, vous arriverez à la optimale donnée par qui peut peut-être être considéré comme une "régularisation de la covariance croisée"?β β 0 β β = ( X ⊤ X + λ I ) - 1 ( X ⊤ y + λ β 0 ) ,
la source
Un autre commentaire sur la question 4. En fait, la régression de crête traite assez efficacement les petites valeurs propres de tout en laissant la plupart du temps les grandes valeurs propres seules.XTX
Pour le voir, exprimons l'estimateur de régression de crête en termes de décomposition en valeurs singulières de ,X
où les vecteurs sont mutuellement orthogonaux et les vecteurs sont également mutuellement orthogonaux. Ici, les valeurs propres de sont , . v i X T X σ 2 i i = 1 , 2 , … , nui vi XTX σ2i i=1,2,…,n
Ensuite, vous pouvez montrer que
Considérons maintenant les "facteurs de filtrage" . Si , alors les facteurs de filtrage sont 1, et nous obtenons la solution conventionnelle des moindres carrés. Si et , alors le facteur de filtrage est essentiellement 1. Si , alors ce facteur est essentiellement 0. Ainsi, les termes correspondant aux petites valeurs propres abandonnent effectivement, tandis que ceux correspondant aux plus grandes valeurs propres sont conservés.σ2i/(σ2i+λ) λ=0 λ>0 σ2i≫λ σ2i≪λ
En comparaison, la régression des composantes principales utilise simplement des facteurs de 1 (pour les valeurs propres plus grandes) ou 0 (pour les valeurs propres plus petites qui sont abandonnées) dans cette formule.
la source
La technique que vous décrivez comme "attaquant [uniquement] les valeurs singulières ou quasi singulières" est également connue sous le nom d' analyse du spectre singulier (à des fins de régression linéaire) (voir Eq. 19), si par "attaquer", vous voulez dire "enlever ". La covariance croisée est inchangée.
la source