J'enseigne la physique à des élèves du secondaire et j'aimerais que mes élèves effectuent une comparaison rudimentaire de modèles bayésiens pour les données de leurs expériences. J'ai trouvé un moyen pour eux de le faire (voir ci-dessous), mais je ne suis pas certain que ce soit correct. J'apprécierais beaucoup tout commentaire à ce sujet (en particulier les commentaires négatifs!), Ou des suggestions sur la façon de le faire mieux.
Je voudrais comparer une théorie linéaire, avec les paramètres pente et interception , à une hypothèse nulle d'une constante ie pente = 0. Dans les deux cas, je suppose un bruit symétrique gaussien.
Les élèves peuvent dériver, à l'aide d'Excel, les estimations du maximum de vraisemblance pour la pente et l'ordonnée à l'origine ( et ), ainsi que leurs erreurs et .
- Pour l'a priori sur la pente, je considère un gaussien large, centré sur l'estimation du maximum = vraisemblance ( ) et avec un écart type dix fois supérieur. Mon raisonnement est que je m'attends à ce qu'ils trouvent les paramètres de ligne "corrects" au moins dans une amplitude, et en pratique ils en trouveront encore plus proches donc si je remplace la pente "correcte" par son MLE, je ne changerai pas le trop de chiffres.
- Pour la vraisemblance de la preuve donnée par une théorie linéaire particulière, je considère la distribution gaussienne multivariée standard, avec un écart type ( ) lié à la somme des résidus au carré.
- La probabilité des preuves de la théorie linéaire en général, c'est-à-dire l'intégrale de l'a priori et de la vraisemblance ci-dessus, est donc estimée être l'a priori et la vraisemblance au point MLE, multiplié par l'erreur dans la pente .
- La probabilité de la preuve donnée l'hypothèse nulle est supposée être un autre gaussien multivarié, utilisant maintenant l'écart-type total ( ), basé sur la différence de la moyenne-Y.
C'est la partie dont je suis le moins sûr: j'estime que le facteur de Bayes est le rapport des deux probabilités ci-dessus (3 et 4 ci-dessus), ce qui me permet de trouver la formule suivante:
Cela nous donnerait-il des estimations raisonnables pour le facteur Bayes? Toute rétroaction est la bienvenue.
la source
Réponses:
Tout d'abord, permettez-moi de dire que le test sensible d'une hypothèse forte telle que nécessite une distribution préalable réfléchie pour , car le facteur Bayes dépend de manière critique de cet a priori. Beaucoup de Bayésiens ne testeront pas une hypothèse précise, mais je le ferai.a=0 a
Avant de continuer, je dois vous dire que je ne comprends pas vraiment ce que vous dites que vous faites et que je peux donc vous donner des conseils que vous ne cherchez pas. J'espère que vous pourrez suivre la notation de mai.
Soit les données observations: , où (selon le modèle plus général et inclut la pente) (Je supprime la variable indépendante de la liste des arguments de conditionnement pour la simplicité de notation.) La probabilité est donnée par Étant donné un a priori pour , la distribution postérieure est où la probabilité des données selon le modèle plus général estn y=((x1,y1),…,(xn,yn))
Avec ces expressions, nous pouvons maintenant écrire le marginal postérieur pour : Nous allons maintenant réorganiser cette expression: Puisque cette expression est vraie pour chaque valeur de , elle est vraie en particulier pour : Notez que le numérateur dans la fraction sur le côté gauche est la probabilité des données selon le modèle restreint (c'est-à-dire restreint àa
La fraction de droite nous donne un moyen d'évaluer le facteur Bayes: elle dit de diviser la densité postérieure évaluée à par la densité antérieure évaluée à . (Soit dit en passant, la "formule" est appelée le rapport de densité Savage-Dickey.) Maintenant, il est évident pourquoi un prior réfléchi pour est requis. Si nous laissons la densité a priori pour très incertaine, la densité a priori sera très faible partout, y compris à , mais la densité postérieure à n'ira pas à zéro, et par conséquent le facteur de Bayes ira à l'infini. Dans ce cas, "garbage in" produit "garbage out".a=0 a=0 a a a=0 a=0
Vous pouvez imaginer que si vous ne suivez pas les étapes que j'ai décrites, vous ne serez pas soumis à ce problème, mais vous vous tromperez. La logique que j'ai présentée s'applique quel que soit «l'algorithme» que vous appliquez.
Mais les étapes fournissent un algorithme qui peut être utile. Supposons que la priorité des paramètres soit donnée par la "priorité de Jeffreys" Cela revient à utiliser un a priori incorrect sur les "paramètres de nuisance" . C'est bien, mais un tel a priori ne serait pas approprié pour pour la raison que j'ai discutée ci-dessus. Avec cet a priori, --- la probabilité (marginale) pour --- sera proportionnelle à une distribution de Student , dont les paramètres dépendent des données . Cette distribution est un résumé complet des données, qui peuvent être rejetées. Maintenant, vous devez choisir un préalable approprié et bien informé pour
J'espère que vous trouverez quelque chose d'utile dans ce que j'ai dit.
la source