Comparaison du modèle bayésien au lycée

8

J'enseigne la physique à des élèves du secondaire et j'aimerais que mes élèves effectuent une comparaison rudimentaire de modèles bayésiens pour les données de leurs expériences. J'ai trouvé un moyen pour eux de le faire (voir ci-dessous), mais je ne suis pas certain que ce soit correct. J'apprécierais beaucoup tout commentaire à ce sujet (en particulier les commentaires négatifs!), Ou des suggestions sur la façon de le faire mieux.

Je voudrais comparer une théorie linéaire, avec les paramètres pente et interception , à une hypothèse nulle d'une constante ie pente = 0. Dans les deux cas, je suppose un bruit symétrique gaussien.aba

Les élèves peuvent dériver, à l'aide d'Excel, les estimations du maximum de vraisemblance pour la pente et l'ordonnée à l'origine ( et ), ainsi que leurs erreurs et .a^b^dadb

  1. Pour l'a priori sur la pente, je considère un gaussien large, centré sur l'estimation du maximum = vraisemblance ( ) et avec un écart type dix fois supérieur. Mon raisonnement est que je m'attends à ce qu'ils trouvent les paramètres de ligne "corrects" au moins dans une amplitude, et en pratique ils en trouveront encore plus proches donc si je remplace la pente "correcte" par son MLE, je ne changerai pas le trop de chiffres.a^
  2. Pour la vraisemblance de la preuve donnée par une théorie linéaire particulière, je considère la distribution gaussienne multivariée standard, avec un écart type ( ) lié à la somme des résidus au carré.σe
  3. La probabilité des preuves de la théorie linéaire en général, c'est-à-dire l'intégrale de l'a priori et de la vraisemblance ci-dessus, est donc estimée être l'a priori et la vraisemblance au point MLE, multiplié par l'erreur dans la pente .da
  4. La probabilité de la preuve donnée l'hypothèse nulle est supposée être un autre gaussien multivarié, utilisant maintenant l'écart-type total ( ), basé sur la différence de la moyenne-Y.σT
  5. C'est la partie dont je suis le moins sûr: j'estime que le facteur de Bayes est le rapport des deux probabilités ci-dessus (3 et 4 ci-dessus), ce qui me permet de trouver la formule suivante:

    B10=da(10|a^|2π)(σT/σe)Ne

Cela nous donnerait-il des estimations raisonnables pour le facteur Bayes? Toute rétroaction est la bienvenue.

Professeur de physique
la source
J'ai modifié votre formule à l'aide de MathJax pour lui donner un aspect plus simple et plus facile à lire. N'hésitez pas à le modifier si je l'ai mal traduit
Marquis de Carabas
Je vous remercie! Cependant, les deux derniers termes (le rapport s et la racine carrée de e) doivent être en dehors de la fraction ou au numérateur.
PhysicsTeacher
1
Oh! C'est comme LaTex! J'ai corrigé les formules; Merci encore.
PhysicsTeacher

Réponses:

1

Tout d'abord, permettez-moi de dire que le test sensible d'une hypothèse forte telle que nécessite une distribution préalable réfléchie pour , car le facteur Bayes dépend de manière critique de cet a priori. Beaucoup de Bayésiens ne testeront pas une hypothèse précise, mais je le ferai.a=0a

Avant de continuer, je dois vous dire que je ne comprends pas vraiment ce que vous dites que vous faites et que je peux donc vous donner des conseils que vous ne cherchez pas. J'espère que vous pourrez suivre la notation de mai.

Soit les données observations: , où (selon le modèle plus général et inclut la pente) (Je supprime la variable indépendante de la liste des arguments de conditionnement pour la simplicité de notation.) La probabilité est donnée par Étant donné un a priori pour , la distribution postérieure est où la probabilité des données selon le modèle plus général est ny=((x1,y1),,(xn,yn))

p(yi|a,b,σ2)=N(yi|b+axi,σ2).
xi
p(y|a,b,σ2)=i=1np(yi|a,b,σ2).
(a,b,σ2)
p(a,b,σ2|y)=p(y|a,b,σ2)p(a,b,σ2)p(y),
p(y)=p(y|a,b,σ2)p(a,b,σ)dσ2dbda=(p(y|a,b,σ2)p(b,σ2)dσ2db)p(a|b,σ2)da=p(y|a)p(a|b,σ2)da,
où j'ai utilisé . Notez que est la vraisemblance (marginale) pour et est le prioritaire conditionnel pour . Si l'a priori de est indépendant de , alors . Je suppose que c'est vrai.p(a,b,σ2)=p(a|b,σ2)p(b,σ2)p(y|a)ap(a|b,σ2)aa(b,σ2)p(a|b,σ2)=p(a)

Avec ces expressions, nous pouvons maintenant écrire le marginal postérieur pour : Nous allons maintenant réorganiser cette expression: Puisque cette expression est vraie pour chaque valeur de , elle est vraie en particulier pour : Notez que le numérateur dans la fraction sur le côté gauche est la probabilité des données selon le modèle restreint (c'est-à-dire restreint àa

p(a|y)=p(y|a)p(a)p(y).
p(y|a)p(y)=p(a|y)p(a).
aa=0
p(y|a=0)p(y)=p(a=0|y)p(a=0).
a=0). Et, comme déjà indiqué, le dénominateur est la probabilité des données selon le modèle plus général. Par conséquent, le côté gauche est le facteur Bayes en faveur du modèle restreint par rapport au modèle plus général.

La fraction de droite nous donne un moyen d'évaluer le facteur Bayes: elle dit de diviser la densité postérieure évaluée à par la densité antérieure évaluée à . (Soit dit en passant, la "formule" est appelée le rapport de densité Savage-Dickey.) Maintenant, il est évident pourquoi un prior réfléchi pour est requis. Si nous laissons la densité a priori pour très incertaine, la densité a priori sera très faible partout, y compris à , mais la densité postérieure à n'ira pas à zéro, et par conséquent le facteur de Bayes ira à l'infini. Dans ce cas, "garbage in" produit "garbage out".a=0a=0aaa=0a=0

Vous pouvez imaginer que si vous ne suivez pas les étapes que j'ai décrites, vous ne serez pas soumis à ce problème, mais vous vous tromperez. La logique que j'ai présentée s'applique quel que soit «l'algorithme» que vous appliquez.

Mais les étapes fournissent un algorithme qui peut être utile. Supposons que la priorité des paramètres soit donnée par la "priorité de Jeffreys" Cela revient à utiliser un a priori incorrect sur les "paramètres de nuisance" . C'est bien, mais un tel a priori ne serait pas approprié pour pour la raison que j'ai discutée ci-dessus. Avec cet a priori, --- la probabilité (marginale) pour --- sera proportionnelle à une distribution de Student , dont les paramètres dépendent des données . Cette distribution est un résumé complet des données, qui peuvent être rejetées. Maintenant, vous devez choisir un préalable approprié et bien informé pour

p(b,σ2)1/σ2.
(b,σ2)ap(y|a)atyta . Cela fait, vous pouvez calculer numériquement de chaque côté l'équation "Savage-Dickey".

J'espère que vous trouverez quelque chose d'utile dans ce que j'ai dit.

mef
la source
Hmm, apparemment, je ne peux pas laisser de longs commentaires ou les modifier pendant beaucoup de temps. Je vais aller droit au but: comment suis-je censé calculer le côté droit? Mon prieur est Je suppose qu'après les données, c'est Le facteur Bayes est donc le rapport de ces deux à a = 0?p(a)=110|a^|2πe(aa^)22(10|a^|2p(a|y)=1σa|2πe(aa^)22σa2
PhysicsTeacher
Je ne comprends pas votre précédent car il semble impliquer les données via l'estimation du maximum de vraisemblance.
mef
Oui, on joue un peu à faire semblant ici (c'est pour le lycée!). Le véritable a priori est le même sauf que la valeur donnée dans la littérature pour la pente attendue est utilisée à la place de . Afin de donner une formule de forme fermée qui ne dépend pas de l'expérience explicite, je suppose que puisque c'est un large a priori et que ne sera pas loin de la valeur de la littérature, nous pouvons les échanger sans changer les nombres beaucoup. a^hata
PhysicsTeacher
Je ne comprends pas la justification de vos hypothèses sur le prieur. Néanmoins, la réponse à la question dans votre premier commentaire est "oui". Je pense que vous constaterez que le facteur Bayes (BF) est assez sensible à votre choix de variance préalable. Si vous changez 10 en 20 (par exemple), je pense que vous obtiendrez un grand changement dans le BF. Et c'est ce que j'essayais de faire valoir.
mef
Merci beaucoup mef! Je ne comprends toujours pas si mon calcul d'origine est raisonnable, mais au moins j'ai maintenant un point de comparaison. Je vérifierai la réponse au changement du facteur de 10 à 20 et à l'échange de la littérature contre la valeur . a^
PhysicsTeacher