Empêcher l'échec de Pareto de l'importance lissée (PSIS-LOO) d'échouer

10

J'ai récemment commencé à utiliser la validation croisée par échantillonnage d'importance non lissée de Pareto (PSIS-LOO), décrite dans ces articles:

  • Vehtari, A. et Gelman, A. (2015). Pareto a lissé l'échantillonnage d'importance. préimpression arXiv ( lien ).
  • Vehtari, A., Gelman, A., et Gabry, J. (2016). Évaluation pratique du modèle bayésien à l'aide de la validation croisée avec sortie unique et WAIC. préimpression arXiv ( lien )

Cela représente une approche très attrayante de l'évaluation du modèle hors échantillon car elle permet d'effectuer LOO-CV avec une seule exécution MCMC, et elle est prétendument meilleure que les critères d'information existants tels que WAIC.

Le SIEP-LOO dispose d'un diagnostic pour vous dire si l'approximation est fiable, à savoir donnée par les exposants estimés des distributions de Pareto ajustées aux queues des distributions empiriques de poids d'importance (un poids par point de données). En bref, si un poids estimé , de mauvaises choses peuvent se produire.k^ik^i0.7

Malheureusement, j'ai trouvé que dans mon application de cette méthode à mon problème, pour la majorité des modèles d'intérêt, je trouve qu'une grande partie du k^i0.7 . Sans surprise, certaines des log-vraisemblances de LOO rapportées étaient manifestement absurdes (par rapport à d'autres ensembles de données). En tant que double vérification, j'ai effectué une validation croisée traditionnelle (et longue) en 10 fois, constatant qu'en effet dans le cas ci-dessus, PSIS-LOO donnait des résultats terriblement faux (à la hausse, les résultats étaient en très bon accord avec 10 -pli CV pour les modèles dans lesquels tous k^i0.7 ). Pour mémoire, j'utilise l' implémentation MATLAB de PSIS-LOO par Aki Vehtari.

Peut-être que je suis très malchanceux dans la mesure où mon problème actuel et premier dans lequel j'applique cette méthode est "difficile" pour PSIS-LOO, mais je soupçonne que ce cas pourrait être relativement courant. Pour des cas comme le mien, le papier Vehtary, Gelman & Gabry dit simplement:

Même si l'estimation du SIEP a une variance finie, lorsque , l'utilisateur devrait envisager d'échantillonner directement à partir de pour la problématique , utiliser -fold cross- validation ou utiliser un modèle plus robuste.p(θde|y-i)ikk^>0.7p(θs|yi)ik

Ce sont des solutions évidentes mais pas vraiment idéales car elles prennent beaucoup de temps ou nécessitent un violon supplémentaire (j'apprécie que MCMC et l' évaluation du modèle sont toutes des violons, mais moins c'est mieux).

Y a-t-il une méthode générale que nous pouvons appliquer à l'avance pour essayer d' empêcher PSIS-LOO d'échouer? J'ai quelques idées provisoires, mais je me demande s'il existe déjà une solution empirique que les gens ont adoptée.

lacerbi
la source

Réponses:

8

Pour mémoire, j'ai posté une question similaire à la liste de diffusion des utilisateurs de Stan , que vous pouvez trouver ici . Un des auteurs du document PSIS-LOO original et d'autres contributeurs de Stan m'ont répondu. Ce qui suit est mon résumé personnel.

La réponse courte est qu'il n'existe aucune méthode générale connue pour empêcher l'échec de PSIS-LOO. Si PSIS-LOO échoue, c'est généralement parce que le modèle a des problèmes , et le résoudre est nécessairement laissé à l'utilisateur.

Plus précisément, la raison pour laquelle PSIS-LOO peut échouer est généralement due au fait qu'une ou plusieurs distributions de LOO sont décalées et / ou plus larges que la position postérieure complète, probablement en raison d'observations influentes, et l'importance de la distribution d'échantillonnage s'effondre en un ou quelques points.

Je pensais que vous pourriez essayer d'adopter une forme d' approche de trempe postérieure parallèle pour résoudre ce problème. L'idée n'est pas nécessairement fausse, mais on m'a fait remarquer que:

  • la trempe postérieure des manuels nécessiterait encore beaucoup de manipulations au cas par cas pour trouver le ou les niveaux de température appropriés, car il n'y a pas de moyen évident ou connu de le faire (d'ailleurs, pour cette raison, Stan n'inclut pas la trempe parallèle);
  • si vous utilisez plus de deux niveaux de température (car il peut être nécessaire d'avoir une approche robuste), le coût de calcul final approche celui de la validation croisée K-fold, ou de l'exécution de MCMC sur les distributions LOO problématiques.

En bref, si PSIS-LOO échoue, il semble difficile d'obtenir une méthode aussi robuste et générale que d'autres correctifs simples; c'est pourquoi Vehtari, Gelman & Gabry a suggéré ces méthodes selon le devis que j'ai publié dans ma question d'origine.

lacerbi
la source