En gros, il y a trois différentes sources d'erreur de prédiction:
- le biais de votre modèle
- la variance de votre modèle
- variance inexplicable
Nous ne pouvons rien faire au sujet du point 3 (sauf d'essayer d'estimer la variance inexpliquée et de l'incorporer à nos densités et intervalles de prédiction prédictifs). Cela nous laisse avec 1 et 2.
Si vous avez réellement le "bon" modèle, supposons que les estimations de paramètres MLS soient non biaisées et que la variance soit minimale entre tous les estimateurs non linéaires (linéaires) (ils sont BLEUS). Les prédictions d'un modèle OLS seront les meilleures prédictions linéaires sans biais (BLUP). Ça sonne bien.
Cependant, il s'avère que bien que nous ayons des prédictions non biaisées et une variance minimale entre toutes les prédictions non biaisées, la variance peut encore être assez importante. Plus important encore, nous pouvons parfois introduire "un peu" de biais et économiser simultanément "beaucoup" de variance - et en effectuant le compromis juste, nous pouvons obtenir une erreur de prédiction plus faible avec un modèle biaisé (variance inférieure) par rapport à un modèle non biaisé ( variance plus élevée) un. C'est ce qu'on appelle le "compromis biais-variance", et cette question et ses réponses sont éclairantes: quand un estimateur biaisé est-il préférable à un estimateur non biaisé?
Et la régularisation comme le lasso, la régression de crête, le filet élastique et ainsi de suite font exactement cela. Ils tirent le modèle vers zéro. (Les approches bayésiennes sont similaires - elles tirent le modèle vers les précédents.) Ainsi, les modèles régularisés seront biaisés par rapport aux modèles non régularisés, mais auront également une variance plus faible. Si vous choisissez votre droit de régularisation, le résultat est une prédiction avec une erreur plus faible.
Si vous recherchez une "régularisation des compromis biais-variance" ou similaire, vous aurez matière à réflexion. Cette présentation, par exemple, est utile.
EDIT: l’ amibe souligne à juste titre que j’ai la main à la main pour expliquer pourquoi la régularisation produit exactement une variance plus faible des modèles et des prévisions. Considérons un modèle de lasso avec un grand paramètre de régularisation . Si , vos estimations de paramètres de lasso seront toutes réduites à zéro. Un paramètre fixe de valeur zéro a une variance nulle. (Ce n'est pas tout à fait correct, car la valeur seuil de au-delà de laquelle vos paramètres seront ramenés à zéro dépend de vos données et de votre modèle. Mais, compte tenu du modèle et des données, vous pouvez trouver unX → ∞ X XλX → ∞λλtel que le modèle est le modèle zéro. Gardez toujours vos quantificateurs droits.) Cependant, le modèle zéro aura également un biais géant. Peu importe les observations, après tout.
Et la même chose s’applique aux valeurs pas-tout-ça-extrêmes de vos paramètres de régularisation: de petites valeurs donneront les estimations de paramètres non normalisées, qui seront moins biaisées (non biaisées si vous avez le modèle "correct"), mais ont variance. Ils vont "sauter" en suivant vos observations. Des valeurs plus élevées de votre régularisation "contraindront" vos paramètres de plus en plus. C'est pourquoi les méthodes ont des noms tels que "lasso" ou "réseau élastique": elles contraignent la liberté de vos paramètres de flotter autour et de suivre les données.λ
(J'écris un petit article à ce sujet qui, espérons-le, sera plutôt accessible. J'ajouterai un lien dès qu'il sera disponible.)
Pour ajouter quelque chose à la réponse précise de @ Kolassa, toute la question des estimations de la contraction est liée au paradoxe de Stein . Pour les processus multivariés avec , le vecteur de moyennes d'échantillon n'est pas admissible. En d'autres termes, pour certaines valeurs de paramètre, il existe un estimateur différent avec un risque attendu plus faible. Stein a proposé un estimateur de retrait, par exemple. Nous avons donc affaire à la malédiction de la dimensionnalité, car le retrait ne vous aide pas lorsque vous n’avez que 1 ou 2 variables indépendantes.p≥3
Lisez cette réponse pour plus. Apparemment, le paradoxe de Stein est lié au théorème bien connu selon lequel un processus de mouvement browien à 3 dimensions ou plus est non récurrent (errant partout sans revenir à l'origine), alors que les browniens à 1 et 2 dimensions sont récurrents.
Le paradoxe de Stein tient quel que soit le but recherché, même si, dans la pratique, il est préférable de le réduire aux véritables valeurs de paramètre. C'est ce que font les Bayésiens. Ils pensent savoir où se trouve le véritable paramètre et s’y rétractent. Ensuite, ils prétendent que Stein valide leur existence.
C'est ce qu'on appelle un paradoxe précisément parce que cela défie notre intuition. Cependant, si vous pensez au mouvement brownien, le seul moyen d'obtenir un mouvement brownien 3D pour revenir à l'origine serait d'imposer une pénalité d'amortissement aux marches. Un estimateur de retrait impose également une sorte d'amortisseur aux estimations (réduit la variance), raison pour laquelle cela fonctionne.
la source