Je comprends que nous pouvons utiliser la régularisation dans un problème de régression des moindres carrés comme
et que ce problème a une solution de forme fermée comme:
Nous voyons que dans la 2e équation, la régularisation consiste simplement à ajouter à la diagonale de , ce qui est fait pour améliorer la stabilité numérique de l'inversion matricielle.
Ma compréhension «brute» actuelle de la stabilité numérique est que si une fonction devient plus «numériquement stable», alors sa sortie sera moins affectée de manière significative par le bruit dans ses entrées. J'ai des difficultés à relier ce concept de stabilité numérique améliorée à une vue d'ensemble de la façon dont il évite / réduit le problème de sur-ajustement.
J'ai essayé de consulter Wikipédia et quelques autres sites Web d'universités, mais ils n'expliquent pas en profondeur pourquoi il en est ainsi.
Réponses:
Dans le modèle linéaire , en supposant des erreurs non corrélées avec un zéro moyen et ayant un rang de colonne complet, l'estimateur des moindres carrés est un estimateur sans biais pour le paramètre . Cependant, cet estimateur peut avoir une variance élevée. Par exemple, lorsque deux des colonnes de sont fortement corrélées.Y=Xβ+ϵ X (XTX)−1XTY β X
Le paramètre de pénalité fait de un estimateur biaisé de , mais il diminue sa variance. De plus, est l'attente postérieure de dans une régression bayésienne avec un avant . En ce sens, nous incluons dans l'analyse des informations qui indiquent que les composants de ne devraient pas être trop loin de zéro. Encore une fois, cela nous conduit à une estimation ponctuelle biaisée de mais réduit la variance de l'estimation.λ w^ β w^ β N(0,1λI) β β β
Dans un contexte où haute dimension, disons , les moindres carrés correspondent aux données presque parfaitement. Bien que non biaisée, cette estimation sera très sensible aux fluctuations des données, car dans des dimensions aussi élevées, il y aura de nombreux points avec un effet de levier élevé. Dans de telles situations, le signe de certains composants de peut être déterminé par une seule observation. Le terme de pénalité a pour effet de ramener ces estimations à zéro, ce qui peut réduire le MSE de l'estimateur en réduisant la variance.X N≈p β^
Edit: Dans ma réponse initiale, j'ai fourni un lien vers un document pertinent et dans ma hâte, je l'ai supprimé. Le voici: http://www.jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf
la source
La stabilité numérique et le sur-ajustement sont en quelque sorte liés mais différents.
Le problème OLS classique:
Considérez le problème classique des moindres carrés:
La solution est le classique . Une idée est que par la loi des grands nombres:b^=(X′X)−1(X′y)
Par conséquent, l'estimation OLS converge également vers . (En termes d'algèbre linéaire, il s'agit de la projection linéaire de la variable aléatoire sur la plage linéaire des variables aléatoires .)b^ E[xx′]−1E[xy] y x1,x2,…,xk
Problèmes?
Mécaniquement, qu'est-ce qui peut mal tourner? Quels sont les problèmes possibles?
Le problème (1) peut conduire à un surajustement car l'estimation commence à refléter des modèles dans l'échantillon qui ne sont pas là dans la population sous-jacente. L'estimation peut refléter des modèles dans et qui n'existent pas réellement dans etb^ 1nX′X 1nX′y E[xx′] E[xy]
Le problème (2) signifie qu'une solution n'est pas unique. Imaginez que nous essayons d'estimer le prix des chaussures individuelles, mais les paires de chaussures sont toujours vendues ensemble. C'est un problème mal posé, mais disons que nous le faisons quand même. Nous pouvons croire que le prix de la chaussure gauche plus le prix de la chaussure droite est égal à 50 $ , mais comment pouvons-nous trouver des prix individuels? Le prix de la chaussure gauche et le prix de la chaussure droite corrects? Comment choisir parmi toutes les possibilités?pl=45 pr=5
Introduction de la pénalité :L2
Considérez maintenant:
Cela peut nous aider avec les deux types de problèmes. La pénalité pousse notre estimation de vers zéro. Cela fonctionne efficacement comme un bayésien avant que la distribution sur les valeurs des coefficients soit centrée autour de . Cela aide au sur-ajustement. Notre estimation reflétera à la fois les données et nos croyances initiales selon lesquelles est proche de zéro.L2 b 0 b
50 $ L 2 p l = p r = 25L2 régularisation nous permet également toujours de trouver une solution unique à des problèmes mal posés. Si nous savons que le prix des chaussures gauche et droite s'élève à , la solution qui minimise également la norme est de choisir .$50 L2 pl=pr=25
Est-ce magique? Non. La régularisation n'est pas la même chose que l'ajout de données qui nous permettraient de répondre à la question. régularisation adopte dans un certain sens le point de vue que si vous manquez de données, choisissez des estimations plus proches de . 0L2 0
la source