Pourquoi le retrait fonctionne-t-il?

55

Afin de résoudre les problèmes de sélection de modèle, un certain nombre de méthodes (LASSO, régression de crête, etc.) réduiront les coefficients des variables prédictives vers zéro. Je cherche une explication intuitive de la raison pour laquelle cela améliore la capacité de prédiction. Si le véritable effet de la variable était en réalité très important, pourquoi la réduction du paramètre ne conduit-elle pas à une pire prédiction?

aspirant statisticien
la source

Réponses:

48

En gros, il y a trois différentes sources d'erreur de prédiction:

  1. le biais de votre modèle
  2. la variance de votre modèle
  3. variance inexplicable

Nous ne pouvons rien faire au sujet du point 3 (sauf d'essayer d'estimer la variance inexpliquée et de l'incorporer à nos densités et intervalles de prédiction prédictifs). Cela nous laisse avec 1 et 2.

Si vous avez réellement le "bon" modèle, supposons que les estimations de paramètres MLS soient non biaisées et que la variance soit minimale entre tous les estimateurs non linéaires (linéaires) (ils sont BLEUS). Les prédictions d'un modèle OLS seront les meilleures prédictions linéaires sans biais (BLUP). Ça sonne bien.

Cependant, il s'avère que bien que nous ayons des prédictions non biaisées et une variance minimale entre toutes les prédictions non biaisées, la variance peut encore être assez importante. Plus important encore, nous pouvons parfois introduire "un peu" de biais et économiser simultanément "beaucoup" de variance - et en effectuant le compromis juste, nous pouvons obtenir une erreur de prédiction plus faible avec un modèle biaisé (variance inférieure) par rapport à un modèle non biaisé ( variance plus élevée) un. C'est ce qu'on appelle le "compromis biais-variance", et cette question et ses réponses sont éclairantes: quand un estimateur biaisé est-il préférable à un estimateur non biaisé?

Et la régularisation comme le lasso, la régression de crête, le filet élastique et ainsi de suite font exactement cela. Ils tirent le modèle vers zéro. (Les approches bayésiennes sont similaires - elles tirent le modèle vers les précédents.) Ainsi, les modèles régularisés seront biaisés par rapport aux modèles non régularisés, mais auront également une variance plus faible. Si vous choisissez votre droit de régularisation, le résultat est une prédiction avec une erreur plus faible.

Si vous recherchez une "régularisation des compromis biais-variance" ou similaire, vous aurez matière à réflexion. Cette présentation, par exemple, est utile.

EDIT: l’ amibe souligne à juste titre que j’ai la main à la main pour expliquer pourquoi la régularisation produit exactement une variance plus faible des modèles et des prévisions. Considérons un modèle de lasso avec un grand paramètre de régularisation . Si , vos estimations de paramètres de lasso seront toutes réduites à zéro. Un paramètre fixe de valeur zéro a une variance nulle. (Ce n'est pas tout à fait correct, car la valeur seuil de au-delà de laquelle vos paramètres seront ramenés à zéro dépend de vos données et de votre modèle. Mais, compte tenu du modèle et des données, vous pouvez trouver unX X Xλλλλtel que le modèle est le modèle zéro. Gardez toujours vos quantificateurs droits.) Cependant, le modèle zéro aura également un biais géant. Peu importe les observations, après tout.

Et la même chose s’applique aux valeurs pas-tout-ça-extrêmes de vos paramètres de régularisation: de petites valeurs donneront les estimations de paramètres non normalisées, qui seront moins biaisées (non biaisées si vous avez le modèle "correct"), mais ont variance. Ils vont "sauter" en suivant vos observations. Des valeurs plus élevées de votre régularisation "contraindront" vos paramètres de plus en plus. C'est pourquoi les méthodes ont des noms tels que "lasso" ou "réseau élastique": elles contraignent la liberté de vos paramètres de flotter autour et de suivre les données.λ

(J'écris un petit article à ce sujet qui, espérons-le, sera plutôt accessible. J'ajouterai un lien dès qu'il sera disponible.)

S. Kolassa - Réintégrer Monica
la source
4
Il semble que la pièce cruciale du puzzle soit la suivante: pourquoi les méthodes de retrait réduisent-elles la variance? (Qu'ils introduisent un parti pris est plus ou moins évident.) Vous déclarez simplement qu'ils le font; pouvez-vous fournir une intuition pour cela?
amibe dit de réintégrer Monica
2
@Stephan Kolassa Ainsi, l'ajout du terme de pénalisation représentant la taille des coefficients ajoute un peu de biais, mais réduit la variabilité car il pénalise les coefficients élevés, qui auront généralement plus de variabilité que les coefficients plus petits. Est-ce exact? Ensuite, finalement, nous ne sommes pas tellement préoccupés par l’obtention de la «bonne» valeur pour un coefficient particulier, nous sommes simplement intéressés par la capacité prédictive globale du modèle.
aspiringstatistician
2
@aspiringstatistician: Votre deuxième phrase est exacte. (Rappelez George Box à propos de modèles "faux mais utiles".) Je ne voudrais pas trop m'inquiéter de savoir si les estimations de grand paramètre sont plus réduites que les petites. Tout d'abord, cela dépendra de la normalisation. Deuxièmement, si vos valeurs de paramètre importantes sont bien estimées (c.-à-d. Avec une erreur faible), elles ne seront pas nécessairement réduites beaucoup. La régularisation "préfère" réduire les paramètres mal définis, c'est-à-dire ceux qui présentent une variance élevée.
S. Kolassa - Réintégrer Monica
3
+1 Bonne chance avec le papier! @aspiringstatistician: Très bonne observation sur le fait que le rétrécissement ne vise pas à obtenir le bon modèle; c’est tout à fait correct (et mérite d’être envisagé): un modèle correctement spécifié peut avoir une capacité de prévision plus médiocre que le modèle régularisé et "moins vrai" (voir l’ Annexe à la page 307 du présent document ).
amibe dit de réintégrer Monica
7
+1 Je voulais juste ajouter que, si la question portait sur l’ intuition qui se cache derrière les modèles régularisés, elle semble un peu incomplète, sans parler de la dérivation bayésienne de ces modèles. Par exemple, lorsqu’on compare la régression de crête à la méthode MLE simple, dans la plupart des applications, il me semble naturel de penser à l’effet tiré d’une distribution normale, par opposition à une distribution uniforme (impropre). Donc, voir ces techniques à la fois comme des cas spéciaux d’estimation MAP permet de comprendre pourquoi on choisirait une régression de crête.
Jlimahaverford
10

Pour ajouter quelque chose à la réponse précise de @ Kolassa, toute la question des estimations de la contraction est liée au paradoxe de Stein . Pour les processus multivariés avec , le vecteur de moyennes d'échantillon n'est pas admissible. En d'autres termes, pour certaines valeurs de paramètre, il existe un estimateur différent avec un risque attendu plus faible. Stein a proposé un estimateur de retrait, par exemple. Nous avons donc affaire à la malédiction de la dimensionnalité, car le retrait ne vous aide pas lorsque vous n’avez que 1 ou 2 variables indépendantes.p3

Lisez cette réponse pour plus. Apparemment, le paradoxe de Stein est lié au théorème bien connu selon lequel un processus de mouvement browien à 3 dimensions ou plus est non récurrent (errant partout sans revenir à l'origine), alors que les browniens à 1 et 2 dimensions sont récurrents.

Le paradoxe de Stein tient quel que soit le but recherché, même si, dans la pratique, il est préférable de le réduire aux véritables valeurs de paramètre. C'est ce que font les Bayésiens. Ils pensent savoir où se trouve le véritable paramètre et s’y rétractent. Ensuite, ils prétendent que Stein valide leur existence.

C'est ce qu'on appelle un paradoxe précisément parce que cela défie notre intuition. Cependant, si vous pensez au mouvement brownien, le seul moyen d'obtenir un mouvement brownien 3D pour revenir à l'origine serait d'imposer une pénalité d'amortissement aux marches. Un estimateur de retrait impose également une sorte d'amortisseur aux estimations (réduit la variance), raison pour laquelle cela fonctionne.

Placidia
la source
Avez-vous une référence pour le lien entre le paradoxe de Stein et les processus browniens?
kjetil b halvorsen
1
Suivez mon lien sous "Lire cette réponse pour plus". Cette réponse contient un lien vers un document qui établit la connexion.
Placidia
Les estimateurs bayes sont admissibles selon le théorème de la classe complète: cela n'a rien à voir avec l'estimateur JS directement. Cependant, le résultat selon lequel JS domine la moyenne de l'échantillon a incité les gens à s'intéresser davantage à l'étude des estimateurs de Bayes. (Je m'oppose à l'affirmation selon laquelle les bayésiens "affirment que Stein valide leur existence.")
user795305