J'adapte un HLM bayésien dans JAGS en utilisant la validation croisée k-fold (k = 5). Je voudrais savoir si les estimations du paramètre sont stables dans tous les plis. Quelle est la meilleure façon de procéder?
Une idée est de trouver les différences des postérieurs de et de voir si 0 est dans l'IC à 95% de la différence. En d'autres termes, est 0 dans l'intervalle de 95% de β k = 1 - β k = 2 (puis répéter pour toutes les paires de plis).
Une autre idée est de traiter les postérieurs de chaque pli comme des chaînes MCMC différentes et de calculer le Gelman (facteur de réduction d'échelle potentiel) à travers ces pseudo-chaînes.
L'une d'entre elles est-elle préférable et existe-t-il des alternatives?
bayesian
cross-validation
Jack Tanner
la source
la source
Réponses:
Je ne sais pas si cela peut être considéré comme un commentaire ou une réponse. Je mets ici parce que cela ressemble à une réponse.
Dans la validation croisée k-fold, vous partitionnez vos données en k groupes. Si vous couvrez même les "bases", vous sélectionnez uniformément et aléatoirement des membres pour chacun des k bacs.
Lorsque je parle de données, je considère chaque ligne comme un échantillon et chaque colonne comme une dimension. J'ai l'habitude d'utiliser diverses méthodes pour déterminer l'importance variable, l'importance des colonnes.
Et si, en tant qu'exercice de réflexion, vous vous écartiez de l'uniforme "manuel" au hasard et déterminiez quelles lignes étaient importantes? Peut-être qu'ils informent une seule variable à la fois, mais peut-être qu'ils en informent davantage. Y a-t-il des lignes moins importantes que d'autres? Peut-être que bon nombre des points sont informatifs, peut-être peu.
Connaissant l'importance de la variable, vous pourriez peut-être les regrouper par importance. Peut-être pourriez-vous faire un seul bac avec les échantillons les plus importants. Cela pourrait définir la taille de votre "k". De cette façon, vous détermineriez le kième seau "le plus informatif" et le compareriez aux autres, et au seau le moins informatif.
Cela pourrait vous donner une idée de la variation maximale des paramètres de votre modèle. Ce n'est qu'une forme.
Une deuxième façon de diviser les kth godets est par l'ampleur et la direction de l'influence. Vous pouvez donc mettre des échantillons qui influencent un ou plusieurs paramètres dans une direction dans un compartiment et placer des échantillons qui influencent le même paramètre ou les paramètres dans la direction opposée dans un autre compartiment.
La variation des paramètres sous cette forme pourrait donner un balayage plus large aux variables, basé non pas sur la densité de l'information, mais sur la race de l'information.
Bonne chance.
la source
Ce n'est peut-être pas une réponse complète, mais si 0 n'est PAS dans l'IC à 95% pour plusieurs différences, il est assez sûr de dire qu'elles ne sont pas identiques à un niveau de 0,05.
la source