Échantillonnage à partir d'une distribution incorrecte (en utilisant MCMC et autrement)

15

Ma question de base est: comment échantillonner à partir d'une distribution incorrecte? Est-il même judicieux d'échantillonner à partir d'une distribution incorrecte?

Le commentaire de Xi'an ici répond en quelque sorte à la question, mais je cherchais plus de détails à ce sujet.

Plus spécifique à MCMC:

En parlant de MCMC et de lecture d'articles, les auteurs insistent sur l'obtention de distributions postérieures appropriées. Il y a le fameux article de Geyer (1992) où l'auteur a oublié de vérifier si leur postérieur était correct (sinon un excellent article).

Mais, supposons que nous avons une vraisemblance et une distribution a priori incorrecte sur θ de telle sorte que le postérieur résultant soit également impropre, et MCMC est utilisé pour échantillonner à partir de la distribution. Dans ce cas, qu'est-ce que l'échantillon indique? Y a-t-il des informations utiles dans cet exemple? Je suis conscient que la chaîne de Markov ici est alors soit transitoire soit nulle récurrente. Y a-t-il des points positifs à retenir si elle est nulle et récurrente ?F(X|θ)θ

Enfin, dans la réponse de Neil G ici , il mentionne

vous pouvez généralement échantillonner (en utilisant MCMC) à partir de la partie postérieure, même si elle est incorrecte.

Il mentionne qu'un tel échantillonnage est courant dans l'apprentissage profond. Si cela est vrai, comment cela a-t-il un sens?

Greenparker
la source
1
Ce jstor.org/stable/pdf/2246228.pdf?_=1462943547901 peut être intéressant
peuhp
@peuhp Certainement utile. Ce que je comprends de l'article, c'est que si les fonctionnelles à évaluer à partir des échantillons sont intégrables, alors l'échantillonnage à partir d'un postérieur incorrect est logique. Mon interprétation est-elle correcte?
Greenparker
3
Oui. Considérons un cas trivial de postérieur impropre, où l'irrégularité est due à de grosses queues, et une fonction qui est égale à zéro en dehors de et qui a toutes les belles propriétés d'intégrabilité sur [ 0 , 1 ] . Le fait que le postérieur soit incorrect n'est pas pertinent car la seule partie du postérieur qui compte est la partie sur [ 0[0,1][0,1] . [0,1]
jbowman

Réponses:

10

L'échantillonnage à partir d'un mauvais postérieur (densité) n'a pas de sens d'un point de vue probabiliste / théorique. La raison en est que la fonction f n'a pas d'intégrale finie sur l'espace des paramètres et, par conséquent, ne peut pas être liée à un modèle de probabilité ( mesure finie) ( Ω , σ , P ) (espace, algèbre sigma, mesure de probabilité ).FF(Ω,σ,P)

Si vous avez un modèle avec un mauvais avant qui conduit à un mauvais postérieur, dans de nombreux cas, vous pouvez toujours en échantillonner à l'aide de MCMC, par exemple Metropolis-Hastings, et les "échantillons postérieurs" peuvent sembler raisonnables. Cela semble intrigant et paradoxal à première vue. Cependant, la raison en est que les méthodes MCMC sont limitées aux limitations numériques des ordinateurs dans la pratique, et par conséquent, tous les supports sont limités (et discrets!) Pour un ordinateur. Ensuite, sous ces restrictions (délimitation et caractère discret), le postérieur est en fait approprié dans la plupart des cas.

Il y a une grande référence par Hobert et Casella qui présente un exemple (de nature légèrement différente) où vous pouvez construire un échantillonneur Gibbs pour un postérieur, les échantillons postérieurs semblent parfaitement raisonnables, mais le postérieur est incorrect!

http://www.jstor.org/stable/2291572

Un exemple similaire est récemment apparu ici . En fait, Hobert et Casella avertissent le lecteur que les méthodes MCMC ne peuvent pas être utilisées pour détecter une irrégularité de la partie postérieure et que cela doit être vérifié séparément avant de mettre en œuvre des méthodes MCMC. En résumé:

  1. Certains échantillonneurs MCMC, tels que Metropolis-Hastings, peuvent (mais ne devraient pas) être utilisés pour échantillonner à partir d'un postérieur incorrect puisque l'ordinateur délimite et dicrétise l'espace des paramètres. Seulement si vous avez d' énormes échantillons, vous pouvez être en mesure d'observer certaines choses étranges. La façon dont vous pouvez détecter ces problèmes dépend également de la distribution "instrumentale" utilisée dans votre échantillonneur. Ce dernier point nécessite une discussion plus approfondie, je préfère donc le laisser ici.
  2. (Hobert et Casella). Le fait que vous puissiez construire un échantillonneur de Gibbs (modèle conditionnel) pour un modèle avec un a priori incorrect n'implique pas que le postérieur (modèle conjoint) est correct.
  3. Une interprétation probabiliste formelle des échantillons postérieurs nécessite la propriété du postérieur. Les résultats et les preuves de convergence ne sont établis que pour des distributions / mesures de probabilité appropriées.

PS (un peu ironique): Ne croyez pas toujours ce que les gens font en Machine Learning. Comme l'a déclaré le professeur Brian Ripley: "l'apprentissage automatique est une statistique moins toute vérification des modèles et des hypothèses".

Barre
la source
(+1) Excellente réponse, et je suis d'accord avec la plupart de ce que je pensais. Je vais lire la référence Hobert + Casella. Sauriez-vous par hasard que quelque chose de mieux peut arriver si la chaîne de Markov est nulle et récurrente? En outre, acceptez la remarque du PS.
Greenparker
@Greenparker Les chaînes de Markov récurrentes nulles n'ont pas de distribution stationnaire. Ensuite, ils sont inutiles dans le contexte de MCMC (où vous construisez des chaînes de Markov avec une distribution stationnaire égale à la distribution cible), voir par exemple ici et ici .
Rod
5

Donner une alternative, plus appliquée, vue de l'excellente réponse de Rod ci-dessus -

+/-dix100 est indétectable, mais l'un n'a pas de moments et l'autre a des moments de tous les ordres.

1/X , c'est une mauvaise nouvelle pour les algorithmes qui calculent les valeurs attendues, mais si je la tronque au nombre estimé de personnes à San Francisco, un nombre un peu plus élevé que le nombre de hot-dogs qui seront en fait vendus au parc AT&T le week-end prochain, tout va bien, du moins en termes d'existence de moments. Dans ce dernier cas, vous pouvez le considérer comme une sorte d'application en deux étapes du réelavant - celui que j'utilise pour le calcul, qui n'a pas de limite supérieure, et la "fonctionnalité supplémentaire" de celle-ci où elle est égale à zéro au-dessus de la population de San Francisco ... ", avec la" fonctionnalité supplémentaire "appliquée dans une étape postérieure à la génération de l'échantillon. Le véritable a priori n'est pas celui qui est utilisé dans le calcul MCMC (dans mon exemple.)

Donc, en principe, je serais tout à fait d'accord avec l'utilisation d'un échantillon généré par MCMC à partir d'une distribution incorrecte dans le travail appliqué, mais je ferais beaucoup attention à la façon dont cette irrégularité s'est produite et à la façon dont l'échantillon aléatoire en sera affecté. . Idéalement, l'échantillon aléatoire ne serait pas affecté par celui-ci, comme dans mon exemple de hot-dog, où dans un monde raisonnable, vous ne généreriez jamais réellement un nombre aléatoire supérieur au nombre de personnes à San Francisco ...

Vous devez également être conscient du fait que vos résultats peuvent être assez sensibles à la caractéristique du postérieur qui l'a rendu incorrect, même si vous le tronquez ultérieurement en grand nombre (ou toute autre modification appropriée pour votre modèle). ) Vous souhaitez que vos résultats soient robustes à de légers changements qui font passer votre postérieur d'un mauvais à un bon. Cela peut être plus difficile à garantir, mais cela fait partie du problème plus large de s'assurer que vos résultats sont robustes à vos hypothèses, en particulier celles qui sont faites pour plus de commodité.

jbowman
la source
+1, tactique intéressante. Vous pouvez également fournir la troncature comme votre véritable a priori. J'imagine qu'en faisant mcmc cela ne peut pas banjax trop de vos calculs, et éviterait la nécessité de discuter de l'utilisation d'une approximation.
conjectures
@conjectures - certainement, dans ce cas! Il s'agissait simplement d'un exemple simple, destiné à illustrer le point a) il peut y avoir une différence entre l'a priori utilisé dans le calcul MCMC et l'a priori réel, b) la différence peut être résolue par le post-traitement de l'échantillon MCMC (pour un degré raisonnable de "résolution"), et c) l'inexactitude des résultats de la précédente utilisée dans le calcul du MCMC n'implique pas l'inexactitude des résultats après le post-traitement.
jbowman