Pourquoi l’estimation de la crête devient-elle meilleure que celle des MCO en ajoutant une constante à la diagonale?

59

Je comprends que l’estimation de la régression de crête est la qui minimise la somme résiduelle du carré et une pénalité sur la taille deβββ

βridge=(λID+XX)1Xy=argmin[RSS+λβ22]

Cependant, je ne comprends pas tout à fait la signification du fait que βridge diffère de βOLS en ajoutant seulement une petite constante à la diagonale de XX . En effet,

βOLS=(XX)1Xy
  1. Mon livre mentionne que cela rend l'estimation plus stable numériquement - pourquoi?

  2. La stabilité numérique est-elle liée au retrait vers 0 de l'estimation de la crête, ou s'agit-il d'une simple coïncidence?

Heisenberg
la source

Réponses:

76

Dans une régression non pénalisée, vous pouvez souvent obtenir une crête * dans l'espace des paramètres, où de nombreuses valeurs différentes le long de la crête ont toutes la même valeur ou presque aussi bien sur le critère des moindres carrés.

* (du moins, c'est une crête dans la fonction de vraisemblance - ce sont en réalité des vallées dans le critère RSS, mais je continuerai à l'appeler une crête, car cela semble être conventionnel - ou même, comme le souligne Alexis dans les commentaires, je pourrais appeler cela un thalweg , la contrepartie de la vallée d'une crête)

En présence d'une crête dans le critère des moindres carrés dans l'espace des paramètres, la pénalité que vous obtenez avec la régression de crête supprime ces crêtes en poussant le critère vers le haut lorsque les paramètres s'éloignent de l'origine:

entrez la description de l'image ici
[ Image plus claire ]

Dans le premier graphique, une modification importante des valeurs des paramètres (le long de la crête) produit une modification minime du critère RSS. Cela peut provoquer une instabilité numérique. il est très sensible aux petites modifications (par exemple, une infime modification d'une valeur de donnée, voire une erreur de troncature ou d'arrondi). Les estimations de paramètres sont presque parfaitement corrélées. Vous pouvez obtenir des estimations de paramètres de très grande ampleur.

En revanche, en soulevant ce que la régression de crête minimise (en ajoutant la pénalité ) lorsque les paramètres sont éloignés de 0, de petits changements dans les conditions (comme une petite erreur d’arrondi ou de troncature) ne peuvent pas produire de changements gigantesques dans les résultats. estimations. Le terme de pénalité entraîne un rétrécissement vers 0 (entraînant un certain biais). Une petite quantité de biais peut acheter une amélioration substantielle de la variance (en éliminant cette crête).L2

L'incertitude des estimations est réduite (les erreurs-types sont inversement proportionnelles à la dérivée seconde, aggravée par la pénalité).

La corrélation dans les estimations de paramètres est réduite. Vous n'obtiendrez plus d'estimations de paramètres de très grande ampleur si le RSS de petits paramètres ne serait pas pire.

Glen_b
la source
4
Cette réponse m'aide vraiment à comprendre le rétrécissement et la stabilité numérique. Cependant, je ne vois toujours pas comment "ajouter une petite constante à " permet d'atteindre ces deux . XX
Heisenberg
4
Ajouter une constante à la diagonale * revient à ajouter un paraboloïde circulaire centré sur sur le RSS (avec le résultat présenté ci-dessus - il "s'éloigne" de zéro - éliminant l'arête). * (ce n'est pas nécessairement petit, cela dépend de votre façon de voir les choses et de ce que vous avez ajouté)0
Glen_b
6
Glen_b l'antonyme de "ridge" dans la langue anglaise que vous recherchez (ce chemin / courbe au fond d'une vallée) est thalweg . Ce que je viens d'apprendre il y a deux semaines et que j'adore tout simplement. Cela ne ressemble même pas à un mot anglais! : D
Alexis
5
@ Alexis Ce serait sans doute un mot utile, alors merci pour cela. Cela ne sonne probablement pas anglais parce que c'est un mot allemand (en fait, thal est le même «thal» que dans « Neanderthal » = «Neander valley» et weg = 'way'). [Dans l’état actuel, j’ai voulu «arête», non pas parce que je ne savais pas comment l’appeler, mais parce que les gens semblaient appeler cela une arête, qu’ils examinent la vraisemblance ou le RSS, et j’expliquais mon désir de suivre la convention, même si cela semble étrange. Thalweg serait un excellent choix pour le mot juste, si je ne
suivais
4
X devient proche d'une matrice non de rang total (et donc X'X devient presque singulier) exactement quand une crête apparaît dans la vraisemblance. La crête est une conséquence directe d'une relation presque linéaire entre les colonnes de , ce qui rend s (presque) linéairement dépendant. Xβ
Glen_b
28

+1 sur l'illustration de Glen_b et les commentaires de statistiques sur l'estimateur Ridge. Je voudrais juste ajouter un pov sur une régression de type purement mathématique (algèbre linéaire) qui répond aux questions 1) et 2) des points opérationnels.

Notons d’abord que est une matrice semi-définie positive symétrique - fois la matrice de covariance de l’échantillon. Par conséquent, il a la décomposition propreXXp×pn

XX=VDV,D=[d1dp],di0

Or, l’inversion de la matrice correspondant à l’inversion des valeurs propres, l’estimateur OLS requiert (notez que ). Évidemment, cela ne fonctionne que si toutes les valeurs propres sont strictement supérieures à zéro, . Pour c'est impossible; pour c’est en général vrai - c’est là que nous nous intéressons habituellement à la multicolinéarité .(XX)1=VD1VV=V1di>0pnnp

En tant que statisticiens, nous souhaitons également savoir comment de petites perturbations dans les données modifient les estimations. Il est clair qu’un petit changement dans un entraîne une énorme variation dans si est très petit.Xdi1/didi

Donc, ce que fait la régression de Ridge est de déplacer toutes les valeurs propres plus loin de zéro

XX+λIp=VDV+λIp=VDV+λVV=V(D+λIp)V,
qui a maintenant les valeurs propres . C’est pourquoi le choix d’un paramètre de pénalité positif rend la matrice inversible, même dans le cas . Pour la régression de Ridge, une petite variation dans les données n’a plus l’effet extrêmement instable qu’elle a sur l’inversion de matrice.di+λλ0pnX

La stabilité numérique est liée au retour à zéro car elles sont toutes deux une conséquence de l'ajout d'une constante positive aux valeurs propres: elle la rend plus stable car une petite perturbation dans ne modifie pas trop l'inverse; il le réduit près de puisque le terme est multiplié par ce qui est plus proche de zéro que la solution de MCO à valeurs propres inverses .X0V1Xy1/(di+λ)1/d

Georg M. Goerg
la source
2
Cela répond de manière satisfaisante à la partie algèbre de ma question! En association avec Glen_b answer, il fournit une explication complète du problème.
Heisenberg
17

La démonstration de @ Glen_b est magnifique. J'ajouterais simplement qu'en dehors de la cause exacte du problème et de la description du fonctionnement de la régression pénalisée quadratique, il y a le fait que la pénalisation a pour effet net de réduire les coefficients autres que l'intercept vers zéro. Ceci fournit une solution directe au problème de surajustement, inhérent à la plupart des analyses de régression, lorsque la taille de l'échantillon n'est pas énorme par rapport au nombre d'estimations de paramètres. Presque toute pénalisation vers zéro pour les non-interceptions va améliorer la précision prédictive par rapport à un modèle non pénalisé.

Frank Harrell
la source