Explication lucide de la «stabilité numérique de l'inversion matricielle» dans la régression des crêtes et son rôle dans la réduction de la surajustement

Je comprends que nous pouvons utiliser la régularisation dans un problème de régression des moindres carrés comme

w^{*} = \underset{w}{argmin} [(y - X w)^{T} (y - X w) + λ ‖ w ‖^{2}]

$\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right]$

et que ce problème a une solution de forme fermée comme:

\hat{w} = (X^{T} X + λ I)^{- 1} X^{T} y .

$\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}.$

Nous voyons que dans la 2e équation, la régularisation consiste simplement à ajouter $\lambda$ à la diagonale de $\boldsymbol{X}^T\boldsymbol{X}$ , ce qui est fait pour améliorer la stabilité numérique de l'inversion matricielle.

Ma compréhension «brute» actuelle de la stabilité numérique est que si une fonction devient plus «numériquement stable», alors sa sortie sera moins affectée de manière significative par le bruit dans ses entrées. J'ai des difficultés à relier ce concept de stabilité numérique améliorée à une vue d'ensemble de la façon dont il évite / réduit le problème de sur-ajustement.

J'ai essayé de consulter Wikipédia et quelques autres sites Web d'universités, mais ils n'expliquent pas en profondeur pourquoi il en est ainsi.

regression regularization ridge-regression overfitting matrix-inverse débutant
la source

La régression des crêtes me vient à l'esprit. link

EngrStudent

Vous pouvez trouver une certaine valeur dans la discussion (principalement descriptive / intuitive plutôt qu'algébrique) sur Pourquoi l'estimation des crêtes devient-elle meilleure que l'OLS en ajoutant une constante à la diagonale?

Glen_b -Reinstate Monica

Réponses:

Dans le modèle linéaire , en supposant des erreurs non corrélées avec un zéro moyen et ayant un rang de colonne complet, l'estimateur des moindres carrés est un estimateur sans biais pour le paramètre . Cependant, cet estimateur peut avoir une variance élevée. Par exemple, lorsque deux des colonnes de sont fortement corrélées. $Y=X\beta + \epsilon$ $X$ $(X^TX)^{-1}X^TY$ $\beta$ $X$

Le paramètre de pénalité fait de un estimateur biaisé de , mais il diminue sa variance. De plus, est l'attente postérieure de dans une régression bayésienne avec un avant . En ce sens, nous incluons dans l'analyse des informations qui indiquent que les composants de ne devraient pas être trop loin de zéro. Encore une fois, cela nous conduit à une estimation ponctuelle biaisée de mais réduit la variance de l'estimation. $\lambda$ $\hat{w}$ $\beta$ $\hat{w}$ $\beta$ $N(0,\frac{1}{\lambda}I)$ $\beta$ $\beta$ $\beta$

Dans un contexte où haute dimension, disons , les moindres carrés correspondent aux données presque parfaitement. Bien que non biaisée, cette estimation sera très sensible aux fluctuations des données, car dans des dimensions aussi élevées, il y aura de nombreux points avec un effet de levier élevé. Dans de telles situations, le signe de certains composants de peut être déterminé par une seule observation. Le terme de pénalité a pour effet de ramener ces estimations à zéro, ce qui peut réduire le MSE de l'estimateur en réduisant la variance. $X$ $N \approx p$ $\hat{\beta}$

Edit: Dans ma réponse initiale, j'ai fourni un lien vers un document pertinent et dans ma hâte, je l'ai supprimé. Le voici: http://www.jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf

HStamper
la source

Dans sa forme actuelle, c'est vraiment plus un commentaire; pensez-vous que vous pourriez l'étoffer en une réponse substantielle?

Silverfish

Le bas de p. 5 droite / haut de p. 6 à gauche, se rapportant à la figure 3, contient la discussion clé pour la question posée dans ce post.

Mark L. Stone

Tout cela est correct, mais je ne suis pas sûr que cela réponde à la question du PO.

amoeba

amibe, voir mon commentaire ci-dessus, qui fait référence au lien qui a ensuite été édité à partir de la réponse d'Eric Mittman, jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf .

Mark L. Stone

La stabilité numérique et le sur-ajustement sont en quelque sorte liés mais différents.

Le problème OLS classique:

Considérez le problème classique des moindres carrés:

minimize (over b) (y - X b)^{T} (y - X b)

$\operatorname*{minimize}(\text{over $\mathbf{b}$}) \quad(\mathbf y-X\mathbf{b})^T(\boldsymbol{y}-X\mathbf{b})$

La solution est le classique . Une idée est que par la loi des grands nombres: $\hat{\mathbf{b}} = (X'X)^{-1}(X'\mathbf{y})$

lim_{n \to \infty} \frac{1}{n} X^{'} X \to E [x x^{'}] lim_{n \to \infty} \frac{1}{n} X^{'} y \to E [x y]

$\lim_{n \rightarrow \infty} \frac{1}{n} X'X \rightarrow \mathrm{E}[\mathbf{x}\mathbf{x}'] \quad \quad \quad \lim_{n \rightarrow \infty} \frac{1}{n} X'\mathbf{y} \rightarrow \mathrm{E}[\mathbf{x}y]$

Par conséquent, l'estimation OLS converge également vers . (En termes d'algèbre linéaire, il s'agit de la projection linéaire de la variable aléatoire sur la plage linéaire des variables aléatoires .) $\hat{\mathbf{b}}$ $\mathrm{E}[\mathbf{x}\mathbf{x}']^{-1}\mathrm{E}[\mathbf{x}y]$ $y$ $x_1, x_2, \ldots, x_k$

Problèmes?

Mécaniquement, qu'est-ce qui peut mal tourner? Quels sont les problèmes possibles?

Pour les petits échantillons, nos estimations d'échantillon de et peuvent être médiocres. $\mathrm{E}[\mathbf{x}\mathbf{x}']$ $\mathrm{E}[\mathbf{x}y]$
Si les colonnes de sont colinéaires (soit en raison de la colinéarité inhérente ou de la petite taille de l'échantillon), le problème aura un continuum de solutions! La solution n'est peut-être pas unique.
- Cela se produit si est un classement déficient. $\mathrm{E}[\mathbf{x}\mathbf{x}']$
- Cela se produit également si est déficient en rang en raison de la petite taille de l'échantillon par rapport au nombre de problèmes de régresseur. $X'X$

Le problème (1) peut conduire à un surajustement car l'estimation commence à refléter des modèles dans l'échantillon qui ne sont pas là dans la population sous-jacente. L'estimation peut refléter des modèles dans et qui n'existent pas réellement dans et $\hat{\mathbf{b}}$ $\frac{1}{n}X'X$ $\frac{1}{n}X'\mathbf{y}$ $\mathrm{E}[\mathbf{x}\mathbf{x}']$ $\mathrm{E}[\mathbf{x}y]$

Le problème (2) signifie qu'une solution n'est pas unique. Imaginez que nous essayons d'estimer le prix des chaussures individuelles, mais les paires de chaussures sont toujours vendues ensemble. C'est un problème mal posé, mais disons que nous le faisons quand même. Nous pouvons croire que le prix de la chaussure gauche plus le prix de la chaussure droite est égal 50 , mais comment pouvons-nous trouver des prix individuels? Le prix de la chaussure gauche et le prix de la chaussure droite corrects? Comment choisir parmi toutes les possibilités? $p_l = 45$ $p_r = 5$

Introduction de la pénalité : $L_2$

Considérez maintenant:

minimize (over b) (y - X b)^{T} (y - X b) + λ ‖ b ‖^{2}

$\operatorname*{minimize}(\text{over }\mathbf{b})\quad (\mathbf y-X\mathbf{b})^T(\boldsymbol{y}-X\mathbf{b}) + \lambda\|\boldsymbol{b}\|^2$

Cela peut nous aider avec les deux types de problèmes. La pénalité pousse notre estimation de vers zéro. Cela fonctionne efficacement comme un bayésien avant que la distribution sur les valeurs des coefficients soit centrée autour de . Cela aide au sur-ajustement. Notre estimation reflétera à la fois les données et nos croyances initiales selon lesquelles est proche de zéro. $L_2$ $\mathbf{b}$ $\mathbf{0}$ $\mathbf{b}$

$L_2$ régularisation nous permet également toujours de trouver une solution unique à des problèmes mal posés. Si nous savons que le prix des chaussures gauche et droite s'élève à , la solution qui minimise également la norme est de choisir . $\$50$ $L_2$ $p_l = p_r = 25$

Est-ce magique? Non. La régularisation n'est pas la même chose que l'ajout de données qui nous permettraient de répondre à la question. régularisation adopte dans un certain sens le point de vue que si vous manquez de données, choisissez des estimations plus proches de . $L_2$ $0$

Matthew Gunn
la source

Explication lucide de la «stabilité numérique de l'inversion matricielle» dans la régression des crêtes et son rôle dans la réduction de la surajustement

Réponses:

Le problème OLS classique:

Problèmes?

Introduction de la pénalité :L2L2L_2

Introduction de la pénalité : $L_2$