La régularisation peut-elle être utile si nous nous intéressons uniquement à l'estimation (et à l'interprétation) des paramètres du modèle, pas à la prévision ou à la prédiction?
Je vois à quel point la régularisation / validation croisée est extrêmement utile si votre objectif est de faire de bonnes prévisions sur les nouvelles données. Mais que se passe-t-il si vous faites de l'économie traditionnelle et que tout ce qui vous intéresse est d'estimer ? La validation croisée peut-elle également être utile dans ce contexte? La lutte I de difficulté conceptuelle avec est que nous pouvons réellement calculer sur des données de test, mais nous ne pouvons jamais Compute parce que le vrai est , par définition , jamais observé. (Prenez comme étant donné l'hypothèse qu'il existe même un vrai, c'est-à-dire que nous connaissons la famille de modèles à partir desquels les données ont été générées.)
Supposons que votre perte soit . Vous faites face à un compromis biais-variance, non? Donc, en théorie, vous feriez mieux de faire une régularisation. Mais comment pouvez-vous éventuellement sélectionner votre paramètre de régularisation?
Je serais heureux de voir un exemple numérique simple d'un modèle de régression linéaire, avec les coefficients , où la fonction de perte du chercheur est par exemple \ lVert \ beta - \ hat {\ beta} \ rVert , ou même simplement (\ beta_1 - \ hat {\ beta} _1) ^ 2 . Comment, dans la pratique, pourrait-on utiliser la validation croisée pour améliorer la perte attendue dans ces exemples?
Edit : DJohnson m'a indiqué https://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdf , qui est pertinent pour cette question. Les auteurs écrivent que
Les techniques d'apprentissage automatique ... fournissent un moyen discipliné de prédire qui (i) utilise les données elles-mêmes pour décider comment faire le compromis biais-variance et (ii) permet de rechercher un ensemble très riche de variables et formes fonctionnelles. Mais tout a un coût: il faut toujours garder à l'esprit que parce qu'ils sont réglés pour ils ne donnent pas (sans beaucoup d'autres hypothèses) des garanties très utiles pour .
Un autre article pertinent, encore une fois grâce à DJohnson: http://arxiv.org/pdf/1504.01132v3.pdf . Cet article répond à la question avec laquelle je me débattais ci-dessus:
Un ... défi fondamental à l'application de méthodes d'apprentissage automatique telles que les arbres de régression standard au problème de l'inférence causale est que les approches de régularisation basées sur la validation croisée reposent généralement sur l'observation de la «vérité fondamentale», c'est-à-dire des résultats réels dans un échantillon de validation croisée. Cependant, si notre objectif est de minimiser l'erreur quadratique moyenne des effets du traitement, nous rencontrons ce que [11] appelle le «problème fondamental de l'inférence causale»: l'effet causal n'est observé pour aucune unité individuelle, et donc nous ne le faisons pas directement avoir une vérité fondamentale. Nous y répondons en proposant des approches pour construire des estimations non biaisées de l'erreur quadratique moyenne de l'effet causal du traitement.
Réponses:
Oui, lorsque nous voulons des estimations biaisées de faible variance. J'aime particulièrement le post de gung ici Quel problème les méthodes de retrait résolvent-elles? S'il vous plaît, permettez-moi de coller la figure de Gung ici ...
Si vous vérifiez l'intrigue faite, vous comprendrez pourquoi nous avons besoin de régularisation / retrait. Au début, je me sens étrange pourquoi nous avons besoin d'estimations biaisées? Mais en regardant ce chiffre, je me suis rendu compte, avoir un modèle à faible variance a beaucoup d'avantages: par exemple, il est plus "stable" dans l'utilisation de la production.
la source
Oui il peut. Par exemple, l'autre jour, j'utilisais l'estimation de l'importance des paramètres via les arbres de décision. Chaque fois que je crée un arbre, je vérifie l'erreur de validation croisée. J'essaie de diminuer l'erreur autant que possible, puis je passe à l'étape suivante d'estimation de l'importance des paramètres. Il est possible que si la première arborescence que vous construisez est très mauvaise et que vous ne vérifiez pas l'erreur, vous aurez des réponses moins précises (sinon erronées).
La raison principale, je crois, est due au grand nombre de variables de contrôle que chaque technique possède. Même un léger changement dans une variable de contrôle donnera un résultat différent.
Comment améliorer votre modèle après avoir vérifié l'erreur de validation croisée? Eh bien, cela dépend de votre modèle. Avec un peu de chance, après avoir essayé plusieurs fois, vous aurez une idée des variables de contrôle les plus importantes et pourrez les manipuler afin de trouver une erreur faible.
la source