La régression de crête estime les paramètres dans un modèle linéaire by
Un théorème d'existence pour la régression de crête dit qu'il existe toujours un paramètre tel que l'erreur quadratique moyenne de est strictement inférieure à l'erreur quadratique moyenne de l'OLS estimation . En d'autres termes, une valeur optimale de est toujours non nulle. Cela a apparemment été prouvé pour la première fois dans Hoerl et Kennard, 1970 et est répété dans de nombreuses notes de cours que je trouve en ligne (par exemple ici et ici ). Ma question porte sur les hypothèses de ce théorème:
Y a-t-il des hypothèses sur la matrice de covariance ?
Y a-t-il des hypothèses sur la dimensionnalité de ?
En particulier, le théorème est-il toujours vrai si les prédicteurs sont orthogonaux (c'est-à-dire est diagonal), ou même si ? Et est-ce toujours vrai s'il n'y a qu'un ou deux prédicteurs (disons, un prédicteur et une interception)?
Si le théorème ne fait pas de telles hypothèses et reste vrai même dans ces cas, alors pourquoi la régression de crête n'est-elle généralement recommandée que dans le cas de prédicteurs corrélés, et jamais (?) Recommandée pour une régression simple (c'est-à-dire non multiple)?
Ceci est lié à ma question sur la vision unifiée du rétrécissement: quelle est la relation (le cas échéant) entre le paradoxe de Stein, la régression des crêtes et les effets aléatoires dans les modèles mixtes? , mais aucune réponse ne clarifie ce point jusqu'à présent.
la source
Réponses:
La réponse à la fois à 1 et à 2 est non, mais il faut être prudent dans l'interprétation du théorème d'existence.
Variance de Ridge Estimator
Soit l'estimation de la crête sous la pénalité , et soit le véritable paramètre du modèle . Soit les valeurs propres de . D'après les équations de Hoerl et Kennard 4.2-4.5, le risque (en termes de la norme attendue de l'erreur) est kβY=Xβ+ϵλ1,…,λpXTXL2β∗^ k β Y=Xβ+ϵ λ1,…,λp XTX
L2
( X T X+k I p ) -2= ( X T X+k I p ) -1 ( X T X+k I p ) -1. γ1 ^ β ∗ -βγ2
Supposons que , puis Soit être la dérivée du risque w / r / t . Puisque , nous concluons qu'il existe des tels que . R ( k ) = p σ 2 + k 2 β T βXTX=Ip R′(k)=2k(1+k)βTβ-(pσ2+k2βTβ)
Les auteurs remarquent que l'orthogonalité est la meilleure que l'on puisse espérer en termes de risque à , et qu'à mesure que le nombre de conditions de augmente, approches .X T X lim k → 0 + R ′ ( k ) - ∞k=0 XTX limk→0+R′(k) −∞
Commentaire
Il semble y avoir un paradoxe ici, en ce que si et est constant, alors nous estimons simplement la moyenne d'une séquence de variables normales , et nous connaissons l'estimation sans biais de la vanille est recevable en l'espèce. Ceci est résolu en remarquant que le raisonnement ci-dessus prévoit simplement qu'une valeur minimisante de existe pour les fixes . Mais pour tout , nous pouvons faire exploser le risque en rendant grand, donc cet argument à lui seul ne montre pas l'admissibilité pour l'estimation de la crête.p=1 X (β,σ2) k βTβ k βTβ
Pourquoi la régression des crêtes n'est-elle généralement recommandée que dans le cas de prédicteurs corrélés?
La dérivation du risque de H&K montre que si nous pensons que est petit, et si le plan est presque singulier, alors nous pouvons réaliser de grandes réductions du risque de l'estimation. Je pense que la régression de crête n'est pas utilisée de manière omniprésente car l'estimation OLS est un défaut sûr et que les propriétés d'invariance et de non-biais sont attrayantes. Quand il échoue, il échoue honnêtement - votre matrice de covariance explose. Il y a aussi peut-être un point philosophique / inférentiel, que si votre conception est presque singulière et que vous avez des données d'observation, alors l'interprétation de comme donnant des changements dans pour les changements d'unité dans est suspecte - la grande matrice de covariance est un symptôme de cela.βTβ XTX β EY X
Mais si votre objectif est uniquement la prédiction, les préoccupations inférentielles ne sont plus valables et vous avez un argument solide pour utiliser une sorte d'estimateur de rétrécissement.
la source