Pensée bayésienne sur le sur-ajustement

20

J'ai consacré beaucoup de temps au développement de méthodes et de logiciels pour valider des modèles prédictifs dans le domaine statistique fréquentiste traditionnel. En mettant davantage d'idées bayésiennes en pratique et en enseignant, je vois certaines différences clés à adopter. Premièrement, la modélisation prédictive bayésienne demande à l'analyste de réfléchir sérieusement aux distributions antérieures qui peuvent être personnalisées en fonction des caractéristiques candidates, et ces priorités tireront le modèle vers elles (c.-à-d., Réaliser un rétrécissement / pénalisation / régularisation avec différentes quantités de pénalisation pour différentes caractéristiques prédictives ). Deuxièmement, la "vraie" voie bayésienne n'aboutit pas à un modèle unique mais on obtient une distribution postérieure entière pour une prédiction.

Compte tenu de ces caractéristiques bayésiennes, que signifie le sur-ajustement? Faut-il l'évaluer? Si c'est le cas, comment? Comment savoir quand un modèle bayésien est fiable pour une utilisation sur le terrain? Ou est-ce un point discutable puisque le postérieur emportera toutes les incertitudes de prudence lorsque nous utiliserons le modèle que nous avons développé pour la prédiction?

Comment la pensée changerait-elle si nous forçions le modèle bayésien à être distillé à un seul nombre, par exemple le risque moyen / mode / médian postérieur?

Je vois ici une réflexion connexe . Une discussion parallèle peut être trouvée ici .

Question de suivi :: si nous sommes entièrement bayésiens et que nous passons un peu de temps à penser aux priors avant de voir les données, et que nous adaptons un modèle où la vraisemblance des données a été spécifiée de manière appropriée, sommes-nous obligés d'être satisfaits de notre modèle en ce qui concerne le sur-ajustement ? Ou devons-nous faire ce que nous faisons dans le monde fréquentiste où un sujet choisi au hasard peut être bien prédit en moyenne, mais si nous choisissons un sujet qui a une prédiction très faible ou qui a une valeur prédite très élevée, il y aura une régression à la moyenne?

Frank Harrell
la source
1
Voir mdpi.com/1099-4300/19/10/555/htm 5.1, 5.2
Tim
1
Andrew Gelman a un article de blog très pertinent sur andrewgelman.com/2017/04/12/bayesian-posteriors-calibrated
Frank Harrell

Réponses:

6

Je pourrais commencer par dire qu'un modèle bayésien ne peut pas systématiquement sur-ajuster (ou sous-ajuster) les données qui sont tirées de la distribution prédictive antérieure, qui est la base d'une procédure pour valider que le logiciel bayésien fonctionne correctement avant d'être appliqué aux données collectées à partir du monde.

Mais il peut surdimensionner un seul ensemble de données tiré de la distribution prédictive précédente ou un seul ensemble de données collecté dans le monde en ce sens que les différentes mesures prédictives appliquées aux données que vous avez conditionnées sont plus belles que ces mêmes mesures prédictives appliquées aux données futures qui sont généré par le même processus. Le chapitre 6 du livre bayésien de Richard McElreath est consacré au sur-ajustement.

La gravité et la fréquence du sur-ajustement peuvent être atténuées par de bons antérieurs, en particulier ceux qui renseignent sur l'ampleur d'un effet. En attribuant une probabilité a priori nulle à des valeurs invraisemblablement élevées, vous découragez la distribution postérieure d'être trop excitée par un aspect idiosyncratique des données que vous conditionnez et qui peut suggérer un effet invraisemblablement important.

Les meilleures façons de détecter le sur-ajustement impliquent une validation croisée avec absence, qui peut être approximée à partir d'une distribution postérieure qui ne laisse aucune observation en dehors de l'ensemble de conditionnement. Il existe une hypothèse qu'aucune "observation" individuelle [*] sur laquelle vous conditionnez n'a un effet trop important sur la distribution postérieure, mais cette hypothèse est vérifiable en évaluant la taille de l'estimation du paramètre de forme dans une distribution de Pareto généralisée qui est ajustement à l'importance des poids d'échantillonnage (qui sont dérivés du log-vraisemblance d'une observation évaluée pour chaque tirage de la distribution postérieure). Si cette hypothèse est satisfaite, vous pouvez obtenir des mesures prédictives pour chaque observation qui sont comme si cette observation avait été omise, le postérieur avait été tiré de conditionnel aux observations restantes, et la distribution prédictive postérieure avait été construite pour l'observation omise. Si vos prédictions d'observations omises souffrent, votre modèle était sur-adapté au départ. Ces idées sont mises en œuvre dans leloo package pour R, qui comprend des citations comme ici et .

En ce qui concerne la distillation à un seul nombre, j'aime calculer la proportion d'observations qui se situent dans des intervalles prédictifs de 50%. Dans la mesure où cette proportion est supérieure à la moitié, le modèle est trop adapté, bien que vous ayez besoin de plus d'une poignée d'observations afin de couper le bruit dans la fonction d'indicateur d'inclusion. Pour comparer différents modèles (qui peuvent surajouter), la densité prédictive logarithmique attendue (qui est calculée par la loofonction dans le loopackage) est une bonne mesure (proposée par IJ Good) car elle prend en compte la possibilité qu'un modèle plus flexible puisse mieux correspondre aux données disponibles qu'un modèle moins flexible, mais devrait prédire les données futures de façon pire. Mais ces idées peuvent être appliquées à l'attente de toute mesure prédictive (qui peut être plus intuitive pour les praticiens); voir la E_loofonction dans le paquet loo .

[*] Vous devez choisir ce qui constitue une observation dans un modèle hiérarchique. Par exemple, souhaitez-vous prédire un nouveau patient ou un nouveau point temporel pour un patient existant? Vous pouvez le faire dans les deux sens, mais le premier nécessite que vous (ré) écrivez la fonction de probabilité pour intégrer les paramètres spécifiques au patient.

Ben Goodrich
la source
2
Ben très instructif. Merci beaucoup d'avoir pris le temps de répondre en détail. Pour répondre à votre question sur la portée, je fais référence aux nouveaux patients. Il me reste une question philosophique générale que j'ai ajoutée à la fin de la question d'origine.
Frank Harrell
2
J'ai tendance à penser que des chèques comme ceux-ci reflètent des aspects de nos croyances antérieures que nous n'avons pas ou n'avons pas pu intégrer dans les distributions antérieures que nous avons utilisées. Par exemple, en principe, vous devez spécifier un PDF antérieur commun sur tous les paramètres, mais presque toujours, il y a beaucoup de suppositions que cela est indépendant de cela, a priori , non pas parce que vous croyez vraiment qu'ils sont indépendants mais simplement parce que spécifiant la structure de dépendance multivariée est très difficile. Les fonctions multivariées telles que les prédictions peuvent vous aider à savoir après coup si les entrées étaient conjointement sensibles.
Ben Goodrich
Cela est extrêmement logique et très instructif. Il me reste un peu de dilemme concernant l'évaluation de la précision prédictive pour les sujets "extrêmes", c'est-à-dire ceux dont les valeurs prédites sont très faibles ou très élevées. [Et pour Bayes, qui a prédit des valeurs. Est-ce que ces sujets ont une distribution postérieure décalée ou ceux avec une moyenne postérieure basse / haute?]
Frank Harrell
1
Une autre réflexion à ce sujet: Il semble que dans de nombreuses situations, les praticiens ont des croyances assez cohérentes et non controversées sur le dénominateur de la règle de Bayes. Par exemple, si quelqu'un a tel ou tel cancer, quelle est sa répartition du temps de survie sans autre condition? Mais il est plus difficile et plus controversé de spécifier le numérateur de la règle de Bayes de telle sorte que si vous intégrez tous les paramètres, vous vous retrouvez avec ce que vous croyez être le dénominateur. La vérification prédictive (antérieure et postérieure) est une sorte d'alignement du numérateur sur le dénominateur de la règle de Bayes.
Ben Goodrich
1

Le sur-ajustement signifie que le modèle fonctionne bien sur l'ensemble d'entraînement, mais fonctionne mal sur l'ensemble de test. À mon humble avis, il provient de deux sources: les données et le modèle que nous utilisons (ou notre subjectivité).

Les données sont probablement le facteur le plus important. Avec tous les modèles / approches que nous utilisons, nous supposons implicitement que nos données sont suffisamment représentatives, c'est-à-dire que ce que nous obtenons de nos données (de formation) peut également être généralisé à la population. En pratique, ce n'est pas toujours le cas. Si les données ne sont pas iid alors standardk CV plié n'a aucun sens pour éviter le sur-ajustement.

Par conséquent, si nous sommes fréquentistes, la source du sur-ajustement vient du MLE. Si nous sommes bayésiens, cela vient du choix (subjectif) de la distribution antérieure (et bien sûr du choix de la vraisemblance)). Donc, même si vous utilisez la distribution postérieure / moyenne / médiane, vous êtes déjà surajusté depuis le début et ce surajustement est poursuivi. Le bon choix de distribution préalable et de probabilité aidera mais ce sont toujours les modèles, vous ne pouvez jamais éviter de sur-ajuster complètement.

SiXUlm
la source
Ignorant la vraisemblance des données, ce qui est courant pour les approches fréquentistes et bayésiennes, l'idée que le sur-ajustement vient du choix du prieur est perspicace. Cela implique qu'il n'y a aucun moyen de vérifier le sur-ajustement, car il n'y a aucun moyen ni besoin de vérifier l'a priori si nous avons fait toutes nos réflexions de pré-données sur l'a priori à l'avance. Mais je reste avec le sentiment sombre que les prédictions extrêmes montreront un sur-ajustement (régression vers la moyenne). La priorité concerne les paramètres, pas les extrêmes dans les données.
Frank Harrell