Quand arrêter d'affiner un modèle?

15

J'étudie les statistiques de nombreux livres depuis 3 ans et grâce à ce site j'ai beaucoup appris. Néanmoins, une question fondamentale reste pour moi sans réponse. Il peut avoir une réponse très simple ou très difficile, mais je sais que cela nécessite une compréhension approfondie des statistiques.

Lors de l'ajustement d'un modèle aux données, que ce soit une approche fréquentiste ou bayésienne, nous proposons un modèle, qui peut consister en une forme fonctionnelle de vraisemblance, un a priori ou un noyau (non paramétrique), etc. Le problème est n'importe quel modèle s'adapte à un échantillon avec un certain niveau de bonté. On peut toujours trouver un modèle meilleur ou pire par rapport à ce qui est actuellement à portée de main. À un moment donné, nous arrêtons et commençons à tirer des conclusions, généralisons aux paramètres de population, rapportons des intervalles de confiance, calculons le risque, etc. Même si nous utilisons des outils pour estimer la distance KL attendue tels que AIC, MDL, etc., cela ne dit rien sur notre position absolue, mais améliore simplement notre estimation sur une base relative.

Supposons maintenant que nous souhaitions définir une procédure étape par étape à appliquer à tout ensemble de données lors de la création de modèles. Que faut-il spécifier comme règle d'arrêt? Pouvons-nous au moins limiter l'erreur de modèle qui nous donnera un point d'arrêt objectif (ce qui est différent de l'arrêt de la formation à l'aide d'un échantillon de validation, car il donne également un point d'arrêt au sein de la classe de modèle évaluée plutôt que par rapport au vrai DGP)?

Cagdas Ozgenc
la source
1
Je pense que vous devriez ajouter à la question d'autres balises que la simple inférence, par exemple certaines balises de modélisation et la sélection de modèles. Je pense que cela pourrait être pertinent car c'est également le rasoir d'Occam . Voici également un article qui en discute avec la modélisation bayésienne.
Gumeo
Parfois, vous construisez un modèle particulier parce qu'il est particulièrement bon pour estimer certains paramètres, pas parce que vous pensez que la distribution globale est précise (voir M-estimation, équations d'estimation généralisées), etc. Donc, si vous vous souciez vraiment d'une estimation décente de l'emplacement, vous pouvez être mieux avec un mauvais modèle mais qui n'est pas facilement jeté par le bruit (pour votre paramètre d'intérêt). En général, voir Estimation robuste.
Question très intéressante. Juste un commentaire qui, au moins dans le cadre bayésien, pose également la question de la moyenne sur le sous-ensemble plausible de modèles plutôt que d'en choisir un. Je ne suis pas sûr d'une manière théorique de répondre à la question du PO et je suppose que cela se fait pratiquement si le modèle choisi est assez bon pour le problème que nous essayons de résoudre. Peut-être avons-nous besoin d'une sélection de modèle par les méthodes MCMC ou quelque chose comme ça! Je peux imaginer une approche MCMC imbriquée pour cela ...
Luca
@Luca Cela a été fait. Cependant, le problème demeure car l'espace des modèles définis par le prieur bayésien peut ou non contenir le vrai modèle. Même s'il l'a fait l'erreur de modèle est toujours là, c'est l'erreur du modèle moyen par rapport au vrai DGP.
Cagdas Ozgenc du
1
+1 pour la question. En grande partie, les préoccupations sont philosophiques ou épistémiologiques, c'est-à-dire non seulement «que savons-nous et comment le savons-nous», mais «que pouvons- nous savoir et comment pouvons- nous le savoir? Comme l'a dit le physicien Richard Feynman, "il est impossible de trouver une réponse qui, un jour, ne se révélera pas fausse". En d'autres termes et à moins que vous ne soyez religieux, il y a un doute raisonnable s'il existe une vérité univoque et éternelle sur laquelle ancrer quoi que ce soit. .
Mike Hunter

Réponses:

12

Malheureusement, cette question n'a pas de bonne réponse. Vous pouvez choisir le meilleur modèle en fonction du fait qu'il minimise l'erreur absolue, l'erreur quadratique, maximise la vraisemblance, en utilisant certains critères qui pénalisent la vraisemblance (par exemple AIC, BIC) pour ne mentionner que quelques-uns des choix les plus courants. Le problème est qu'aucun de ces critères ne vous permettra de choisir le meilleur modèle objectivement, mais plutôt le meilleur à partir duquel vous avez comparé. Un autre problème est que, tout en optimisant, vous pouvez toujours vous retrouver dans un maximum / minimum local. Encore un autre problème est que votre choix de critères de sélection de modèle est subjectif . Dans de nombreux cas, vous décidez consciemment ou semi-consciemment de ce qui vous intéresse et choisissez les critères en fonction de cela. Par exemple, l'utilisation de BIC plutôt que d'AIC conduit à des modèles plus parcimonieux, avec moins de paramètres. Habituellement, pour la modélisation, vous êtes intéressé par des modèles plus parcimonieux qui mènent à des conclusions générales sur l'univers, tandis que pour le prédire, il ne doit pas en être ainsi et un modèle parfois plus compliqué peut avoir un meilleur pouvoir prédictif (mais pas nécessairement et souvent ce ne est pas). Dans d'autres cas encore, des modèles parfois plus compliqués sont préférés pour des raisons pratiques , par exemple lors de l'estimation d'un modèle bayésien avec MCMC, un modèle avec des hyperpriors hiérarchiques peut se comporter mieux en simulation que le plus simple. D'un autre côté, nous avons généralement peur de sur- équiperet le modèle plus simple présente un risque moindre de sur-ajustement, c'est donc un choix plus sûr. Un bon exemple pour cela est une sélection automatique de modèle par étapes qui n'est généralement pas recommandée car elle conduit facilement à des estimations surajustées et biaisées. Il existe également un argument philosophique, le rasoir d'Occam , selon lequel le modèle le plus simple est le modèle préféré. Notez également que nous discutons ici de la comparaison de différents modèles, alors que dans des situations réelles, cela peut également être le cas pour que l'utilisation de différents outils statistiques puisse conduire à des résultats différents - il y a donc une couche supplémentaire de choix de la méthode!

Tout cela conduit à un fait triste, mais divertissant, dont nous ne pouvons jamais être sûrs. Nous commençons par l'incertitude, utilisons des méthodes pour y faire face et nous nous retrouvons avec l'incertitude. Cela peut être paradoxal, mais rappelez-vous que nous utilisons des statistiques parce que nous pensons que le monde est incertain et probabiliste (sinon nous choisirions une carrière de prophètes), alors comment pourrions-nous éventuellement aboutir à des conclusions différentes? Il n'y a pas de règle d'arrêt objectif, il existe plusieurs modèles possibles, tous sont faux (désolé pour le cliché!) Car ils essaient de simplifier la réalité compliquée (en constante évolution et probabiliste). Nous trouvons certains d'entre eux plus utiles que d'autres pour nos besoins et parfois nous le faisonsθμ

Vous pouvez aller encore plus loin et découvrir qu'il n'y a pas de «probabilité» dans la réalité - c'est juste une approximation de l'incertitude qui nous entoure et il existe également d'autres façons de l'approcher comme par exemple la logique floue (voir Kosko, 1993 pour discuter). Même les outils et les théorèmes très basiques sur lesquels nos méthodes sont fondées sont des approximations et ne sont pas les seuls possibles. Nous ne pouvons tout simplement pas être certains dans une telle configuration.

La règle d'arrêt que vous recherchez est toujours spécifique au problème et subjective, c'est-à-dire basée sur ce que l'on appelle un jugement professionnel. Soit dit en passant, il existe de nombreux exemples de recherche qui ont montré que les professionnels ne sont souvent pas meilleurs et parfois même pire dans leur jugement que les profanes (par exemple, relancés dans des articles et des livres de Daniel Kahneman ), tout en étant plus enclins à la confiance excessive (c'est en fait un argument sur la raison pour laquelle nous ne devrions pas essayer d'être "sûrs" de nos modèles).


Kosko, B. (1993). Pensée floue: la nouvelle science de la logique floue. New York: Hyperion.

Tim
la source
1
μ
1
L'affirmation est vraie lorsque ses hypothèses sont satisfaites (par exemple, on nous donne un échantillon fixe, ce qui est vrai dans la pratique). Prise hors contexte et avec des violations d'hypothèses, elle peut bien entendu être faussée.
Richard Hardy
1
@CagdasOzgenc est quelqu'un qui a une méthodologie pour créer un modèle qui reflète parfaitement la réalité, qu'il n'est pas nécessaire d'arrêter la règle ou de mesurer l'erreur du modèle - le modèle est parfait par définition. Si vous connaissez les règles de construction d'un tel modèle, il n'est pas nécessaire de mesurer la divergence de votre modèle par rapport au vrai DGP, car connaître le vrai DGP utilise simplement ces connaissances. D'un autre côté, si votre modèle est une simplification basée sur les données dont vous disposez, alors les règles générales de statistiques s'appliquent, comme décrit dans ma réponse.
Tim
1
@CagdasOzgenc toujours, si vous connaissez la "vérité", alors la règle d'arrêt est simple: arrêtez lorsque votre modèle correspond à la "vérité". Si vous ne savez pas quelle est la vérité, alors "tous les modèles sont [également] faux ..." et vous devez utiliser des statistiques. Si vous ne le savez pas, vous ne pouvez pas en mesurer la divergence.
Tim
1
@Luca Cela signifie très bien, mais il est abstrait.
Tim
4

Il existe tout un champ appelé statistiques non paramétriques qui évite l'utilisation de modèles solides. Cependant, votre préoccupation concernant l'ajustement des modèles, en soi, est valable. Malheureusement, il n'y a pas de procédure mécanique pour ajuster les modèles qui serait universellement acceptée comme "optimale". Par exemple, si vous souhaitez définir le modèle qui maximise la probabilité de vos données, vous serez alors conduit à la fonction de distribution empirique.

Cependant, nous avons généralement des hypothèses et des contraintes de fond, telles que la continuité avec des premier et deuxième moments finis. Pour de tels cas, une approche consiste à choisir une mesure comme l'entropie différentielle de Shannon et à la maximiser sur l'espace de distributions continues qui satisfont vos contraintes aux limites.

Ce que je voudrais souligner, c'est que si vous ne voulez pas simplement utiliser par défaut l'ECDF, vous devrez ajouter des hypothèses, au-delà des données, pour y arriver, et cela nécessite une expertise en la matière, et, oui , le redouté ..... jugement professionnel

Alors, y a-t-il un point d'arrêt garanti pour la modélisation ... la réponse est non. Y a-t-il un assez bon endroit pour s'arrêter? Généralement, oui, mais ce point dépendra de plus que des données et de certains desiderata statistiques, vous allez généralement prendre en compte les risques d'erreurs différentes, les limites techniques à la mise en œuvre des modèles et la robustesse de ses estimations, etc.

Comme l'a souligné @Luca, vous pouvez toujours faire la moyenne sur une classe de modèles, mais, comme vous l'avez souligné à juste titre, cela ne fera que pousser la question au niveau supérieur d'hyperparamètres. Malheureusement, nous semblons vivre au sein d'un oignon en couches infinies ... dans les deux sens!


la source