Dans quelles conditions exactement la régression des crêtes est-elle en mesure d'apporter une amélioration par rapport à la régression des moindres carrés ordinaires?

16

La régression de crête estime les paramètres β dans un modèle linéaire y=Xβ by

β^λ=(XX+λI)1Xy,
λ est un paramètre de régularisation. Il est bien connu qu'elle fonctionne souvent mieux que la régression OLS (avec λ=0 ) lorsqu'il existe de nombreux prédicteurs corrélés.

Un théorème d'existence pour la régression de crête dit qu'il existe toujours un paramètre λ>0 tel que l'erreur quadratique moyenne de β^λ est strictement inférieure à l'erreur quadratique moyenne de l'OLS estimation β^OLS=β^0 . En d'autres termes, une valeur optimale de λ est toujours non nulle. Cela a apparemment été prouvé pour la première fois dans Hoerl et Kennard, 1970 et est répété dans de nombreuses notes de cours que je trouve en ligne (par exemple ici et ici ). Ma question porte sur les hypothèses de ce théorème:

  1. Y a-t-il des hypothèses sur la matrice de covariance XX ?

  2. Y a-t-il des hypothèses sur la dimensionnalité de X ?

En particulier, le théorème est-il toujours vrai si les prédicteurs sont orthogonaux (c'est-à-dire XX est diagonal), ou même si XX=I ? Et est-ce toujours vrai s'il n'y a qu'un ou deux prédicteurs (disons, un prédicteur et une interception)?

Si le théorème ne fait pas de telles hypothèses et reste vrai même dans ces cas, alors pourquoi la régression de crête n'est-elle généralement recommandée que dans le cas de prédicteurs corrélés, et jamais (?) Recommandée pour une régression simple (c'est-à-dire non multiple)?


Ceci est lié à ma question sur la vision unifiée du rétrécissement: quelle est la relation (le cas échéant) entre le paradoxe de Stein, la régression des crêtes et les effets aléatoires dans les modèles mixtes? , mais aucune réponse ne clarifie ce point jusqu'à présent.

amibe dit réintégrer Monica
la source
1
Il semble que toutes les questions, sauf la dernière, soient directement traitées dans le document Hoerl & Kennard, en particulier dans la première phrase de l'introduction et la première phrase des conclusions. On peut répondre à la dernière question en notant que la covariance entre un vecteur constant et tout prédicteur unique est toujours nulle, ce qui permet (de manière standard) de réduire à une matrice . 1×1XX1×1
whuber
1
Merci, @whuber. Je crois que le papier Hoerl & Kennard répond à mes questions (au moins les questions techniques) - il faut pouvoir suivre la preuve et vérifier les hypothèses (je ne l'ai pas encore fait). Mais je ne suis pas entièrement convaincu par les phrases auxquelles vous faites référence. Quel est le lien entre la première phrase de l'Intro et ma question? La première phrase des conclusions suggère que si a un spectre uniforme (par exemple est égal à ) alors le théorème ne s'applique pas. Mais je ne suis pas sûr à 100%, car je ne vois pas cette hypothèse explicitement énoncée avant la preuve. IXXI
amibe dit Réintégrer Monica
Regardez quels types de questions peuvent être posées par les utilisateurs de haut représentant (qui ne répondent généralement qu'à eux) (et de même pour votre autre question liée qui m'a envoyé ici stats.stackexchange.com/questions/122062/… !
javadba

Réponses:

11

La réponse à la fois à 1 et à 2 est non, mais il faut être prudent dans l'interprétation du théorème d'existence.

Variance de Ridge Estimator

Soit l'estimation de la crête sous la pénalité , et soit le véritable paramètre du modèle . Soit les valeurs propres de . D'après les équations de Hoerl et Kennard 4.2-4.5, le risque (en termes de la norme attendue de l'erreur) est kβY=Xβ+ϵλ1,,λpXTXL2β^kβY=Xβ+ϵλ1,,λpXTX
L2

( X T X+k I p ) -2= ( X T X+k I p ) -1 ( X T X+k I p ) -1. γ1 ^ β -βγ2

E([β^β]T[β^β])=σ2j=1pλj/(λj+k)2+k2βT(XTX+kIp)2β=γ1(k)+γ2(k)=R(k)
où pour autant que je sache, Ils remarquent que a l'interprétation de la variance du produit interne de , tandis que est le produit interne du biais.(XTX+kIp)2=(XTX+kIp)1(XTX+kIp)1.γ1β^βγ2

Supposons que , puis Soit être la dérivée du risque w / r / t . Puisque , nous concluons qu'il existe des tels que . R ( k ) = p σ 2 + k 2 β T βXTX=IpR(k)=2k(1+k)βTβ-(pσ2+k2βTβ)

R(k)=pσ2+k2βTβ(1+k)2.
klimk0+R(k)=-2pσ2<0k>0R(k)<R(0)
R(k)=2k(1+k)βTβ(pσ2+k2βTβ)(1+k)3
klimk0+R(k)=2pσ2<0k>0R(k)<R(0)

Les auteurs remarquent que l'orthogonalité est la meilleure que l'on puisse espérer en termes de risque à , et qu'à mesure que le nombre de conditions de augmente, approches .X T X lim k 0 + R ( k ) - k=0XTXlimk0+R(k)

Commentaire

Il semble y avoir un paradoxe ici, en ce que si et est constant, alors nous estimons simplement la moyenne d'une séquence de variables normales , et nous connaissons l'estimation sans biais de la vanille est recevable en l'espèce. Ceci est résolu en remarquant que le raisonnement ci-dessus prévoit simplement qu'une valeur minimisante de existe pour les fixes . Mais pour tout , nous pouvons faire exploser le risque en rendant grand, donc cet argument à lui seul ne montre pas l'admissibilité pour l'estimation de la crête.p=1X(β,σ2)kβTβkβTβ

Pourquoi la régression des crêtes n'est-elle généralement recommandée que dans le cas de prédicteurs corrélés?

La dérivation du risque de H&K montre que si nous pensons que est petit, et si le plan est presque singulier, alors nous pouvons réaliser de grandes réductions du risque de l'estimation. Je pense que la régression de crête n'est pas utilisée de manière omniprésente car l'estimation OLS est un défaut sûr et que les propriétés d'invariance et de non-biais sont attrayantes. Quand il échoue, il échoue honnêtement - votre matrice de covariance explose. Il y a aussi peut-être un point philosophique / inférentiel, que si votre conception est presque singulière et que vous avez des données d'observation, alors l'interprétation de comme donnant des changements dans pour les changements d'unité dans est suspecte - la grande matrice de covariance est un symptôme de cela. βTβXTXβEYX

Mais si votre objectif est uniquement la prédiction, les préoccupations inférentielles ne sont plus valables et vous avez un argument solide pour utiliser une sorte d'estimateur de rétrécissement.

Andrew M
la source
2
Ouah merci! Permettez-moi de vérifier ma compréhension de votre section "Commentaire": pour tout donné , un optimal est non nul, mais sa valeur est différente pour différents bêtas, et aucun fixe ne peut battre pour tous les bêtas, ce qui est ce qui est nécessaire pour l'admissibilité. Correct? En dehors de cela, pourriez-vous commenter ma question générale: [Si le théorème ne fait pas de telles hypothèses, alors] pourquoi la régression de crête n'est-elle généralement recommandée que pour les prédicteurs corrélés, et jamais recommandée pour la régression simple (et non multiple)? Est-ce parce que l'effet positif est empiriquement connu pour être trop petit pour déranger? βkkk=0
amibe dit Réintégrer Monica
2
H&K suppose toujours que est de plein rang. En déclarant que la réponse à la question 1 est «non», prétendez-vous que leurs résultats continuent d'être vrais alors que ce n'est pas le cas? XX
whuber
3
@whuber: Au centre de leur dérivation du risque est que l'estimation de la crête , où est l'estimation OLS et . Cela ne peut clairement pas tenir comme tel lorsque est déficient en rang. Mais l'estimation OLS n'existe pas - donc peut-être que toute estimation avec un risque fini (prenez assez grand et vous obtiendrez , avec le risque ) est mieux qu'un estimateur qui n'existe pas? En ce qui concerne la dérivation du risque: je ne suis pas sûr. Une preuve différente serait nécessaire. β^=Zβ^β^Z=((XTX)1+kIp)1XTXkβ^0βTβ
Andrew M
3
@amoeba: oui, votre retraitement semble correct. Pour dominer l'estimateur OLS, nous avons besoin d'une sorte de procédure adaptative , dans laquelle est fonction des données. Sur votre autre fil, Xi'an avait un commentaire sur les estimations de crête adaptative, donc cela pourrait être un endroit à regarder. RE: estimations de crête pour les conceptions orthogonales - J'ai ajouté un autre commentaire en ce qui concerne les indications que je tirerais de leur preuve. λ
Andrew M