La régularisation peut-elle être utile si nous ne nous intéressons qu'à la modélisation, pas aux prévisions?

19

La régularisation peut-elle être utile si nous nous intéressons uniquement à l'estimation (et à l'interprétation) des paramètres du modèle, pas à la prévision ou à la prédiction?

Je vois à quel point la régularisation / validation croisée est extrêmement utile si votre objectif est de faire de bonnes prévisions sur les nouvelles données. Mais que se passe-t-il si vous faites de l'économie traditionnelle et que tout ce qui vous intéresse est d'estimer β ? La validation croisée peut-elle également être utile dans ce contexte? La lutte I de difficulté conceptuelle avec est que nous pouvons réellement calculer L(Oui,Oui^) sur des données de test, mais nous ne pouvons jamais Compute L(β,β^) parce que le vrai β est , par définition , jamais observé. (Prenez comme étant donné l'hypothèse qu'il existe même un vraiβ, c'est-à-dire que nous connaissons la famille de modèles à partir desquels les données ont été générées.)

Supposons que votre perte soit . Vous faites face à un compromis biais-variance, non? Donc, en théorie, vous feriez mieux de faire une régularisation. Mais comment pouvez-vous éventuellement sélectionner votre paramètre de régularisation?L(β,β^)=β-β^

Je serais heureux de voir un exemple numérique simple d'un modèle de régression linéaire, avec les coefficients , où la fonction de perte du chercheur est par exemple \ lVert \ beta - \ hat {\ beta} \ rVert , ou même simplement (\ beta_1 - \ hat {\ beta} _1) ^ 2 . Comment, dans la pratique, pourrait-on utiliser la validation croisée pour améliorer la perte attendue dans ces exemples?β(β1,β2,,βk)β-β^(β1-β^1)2


Edit : DJohnson m'a indiqué https://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdf , qui est pertinent pour cette question. Les auteurs écrivent que

Les techniques d'apprentissage automatique ... fournissent un moyen discipliné de prédire Oui^ qui (i) utilise les données elles-mêmes pour décider comment faire le compromis biais-variance et (ii) permet de rechercher un ensemble très riche de variables et formes fonctionnelles. Mais tout a un coût: il faut toujours garder à l'esprit que parce qu'ils sont réglés pour Oui^ ils ne donnent pas (sans beaucoup d'autres hypothèses) des garanties très utiles pour β^ .

Un autre article pertinent, encore une fois grâce à DJohnson: http://arxiv.org/pdf/1504.01132v3.pdf . Cet article répond à la question avec laquelle je me débattais ci-dessus:

Un ... défi fondamental à l'application de méthodes d'apprentissage automatique telles que les arbres de régression standard au problème de l'inférence causale est que les approches de régularisation basées sur la validation croisée reposent généralement sur l'observation de la «vérité fondamentale», c'est-à-dire des résultats réels dans un échantillon de validation croisée. Cependant, si notre objectif est de minimiser l'erreur quadratique moyenne des effets du traitement, nous rencontrons ce que [11] appelle le «problème fondamental de l'inférence causale»: l'effet causal n'est observé pour aucune unité individuelle, et donc nous ne le faisons pas directement avoir une vérité fondamentale. Nous y répondons en proposant des approches pour construire des estimations non biaisées de l'erreur quadratique moyenne de l'effet causal du traitement.

Adrian
la source
2
La validation croisée n'est qu'une méthode parmi les kits d'outils d'exploration de données et d'apprentissage automatique. Le ML est de plus en plus utilisé en économie - voir le site Web de Susan Athey à Stanford (elle est une universitaire intéressée par l'intégration des techniques du ML dans l'économie) ou cet article Prediction Policy Problems de Kleinberg, et al., Dans une version non fermée ici: cs. cornell.edu/home/kleinber/aer15-prediction.pdf
Mike Hunter
9
S'il vous plaît, les gens, faites preuve d'ambiguïté: ML pour beaucoup suggère l'apprentissage automatique et pour beaucoup d'autres suggère une probabilité maximale. (Définition: vous êtes du côté de l'apprentissage automatique de la clôture si ML se traduit automatiquement pour vous par apprentissage automatique.)
Nick Cox
3
@Aksakal mon expérience est que l'économétrie traditionnelle, telle qu'elle est enseignée aux étudiants de premier cycle et aux cycles supérieurs, ne prête pratiquement aucune attention à la validation croisée. Regardez Hayashi, qui est un manuel classique. Bien sûr, peut-être la validation croisée et le compromis biais-variance sont mentionnés dans un cours spécifiquement sur les prévisions, mais pas dans le cours de base que tous les étudiants commencent. Cela vous semble-t-il juste?
Adrian
2
@Adrian Je vois que les gens votent pour fermer cette question car trop large. Il se peut que ce soit le cas, mais comme je le vois, vous demandez essentiellement: "Le CV peut-il être utile si nous ne nous intéressons qu'à la modélisation, pas aux prévisions?" - si je vous comprends bien, votre question peut être facilement éditée et simplifiée, elle est donc plus claire et certainement pas trop large (même intéressante!).
Tim
2
@Adrian c'est donc une question très intéressante! Je crains que vous ayez rendu les choses ouvertement compliquées et que la référence à l'économétrie ne soit pas cruciale ici (car c'est la même chose dans d'autres domaines où des méthodes statistiques sont utilisées). Je vous encourage à modifier votre question pour la simplifier.
Tim

Réponses:

2

Oui, lorsque nous voulons des estimations biaisées de faible variance. J'aime particulièrement le post de gung ici Quel problème les méthodes de retrait résolvent-elles? S'il vous plaît, permettez-moi de coller la figure de Gung ici ...

entrez la description de l'image ici Si vous vérifiez l'intrigue faite, vous comprendrez pourquoi nous avons besoin de régularisation / retrait. Au début, je me sens étrange pourquoi nous avons besoin d'estimations biaisées? Mais en regardant ce chiffre, je me suis rendu compte, avoir un modèle à faible variance a beaucoup d'avantages: par exemple, il est plus "stable" dans l'utilisation de la production.

Haitao Du
la source
Oui, mais comment sélectionner le paramètre de régularisation? Lorsque l'objectif est de minimiser l'erreur de prédiction, nous pouvons utiliser un ensemble de validation. Comment utiliser un ensemble de validation si nous n'observons jamais les vrais paramètres du modèle?
Adrian
Voir la citation sur le "problème fondamental de l'inférence causale" au bas de ma question.
Adrian
1

La validation croisée peut-elle être utile si nous ne nous intéressons qu'à la modélisation (c'est-à-dire à l'estimation des paramètres), pas à la prévision?

Oui il peut. Par exemple, l'autre jour, j'utilisais l'estimation de l'importance des paramètres via les arbres de décision. Chaque fois que je crée un arbre, je vérifie l'erreur de validation croisée. J'essaie de diminuer l'erreur autant que possible, puis je passe à l'étape suivante d'estimation de l'importance des paramètres. Il est possible que si la première arborescence que vous construisez est très mauvaise et que vous ne vérifiez pas l'erreur, vous aurez des réponses moins précises (sinon erronées).

La raison principale, je crois, est due au grand nombre de variables de contrôle que chaque technique possède. Même un léger changement dans une variable de contrôle donnera un résultat différent.

Comment améliorer votre modèle après avoir vérifié l'erreur de validation croisée? Eh bien, cela dépend de votre modèle. Avec un peu de chance, après avoir essayé plusieurs fois, vous aurez une idée des variables de contrôle les plus importantes et pourrez les manipuler afin de trouver une erreur faible.

PeyM87
la source