Donc, je pense que j'ai une bonne compréhension des bases de la probabilité fréquentiste et de l'analyse statistique (et à quel point elle peut être utilisée). Dans un monde fréquentiste, il est logique de poser une question telle que "cette distribution est-elle différente de cette distribution", car les distributions sont supposées être réelles, objectives et immuables (pour une situation donnée, au moins), et ainsi nous pouvons comprendre quelle est la probabilité qu'un échantillon soit tiré d'une distribution en forme d'un autre échantillon.
Dans la vision du monde bayésienne, nous ne nous soucions que de ce que nous attendons, compte tenu de nos expériences passées (je suis encore un peu vague sur cette partie, mais je comprends le concept de mise à jour bayésienne). Si tel est le cas, comment un bayésien peut-il dire "cet ensemble de données est différent de cet ensemble de données"?
Aux fins de cette question, je ne me soucie pas de la signification statistique, ou similaire, de la façon de quantifier la différence. Je m'intéresse également aux distributions paramétriques et non paramétriques.
la source
Réponses:
Réfléchissez à votre déclaration en tant que Frequentist et rendez-la plus précise en premier. Un Frequentist ne pouvait pas dire que "l'ensemble de données A est différent de l'ensemble de données B", sans autre précision.
Tout d'abord, vous devez indiquer ce que vous entendez par «différent». Peut-être que vous voulez dire "avoir des valeurs moyennes différentes". Là encore, vous pourriez vouloir dire «avoir des écarts différents». Ou peut-être autre chose?
Ensuite, vous devez indiquer le type de test que vous utiliserez, qui dépend de ce que vous pensez être des hypothèses valides sur les données. Supposez-vous que les ensembles de données sont tous deux normalement distribués sur certains moyens? Ou pensez-vous qu'ils sont tous deux distribués en version bêta? Ou autre chose?
Maintenant, pouvez-vous voir que la deuxième décision ressemble beaucoup aux précédents dans les statistiques bayésiennes? Ce n'est pas seulement "mon expérience passée", mais plutôt ce que je crois, et ce que mes collègues vont croire, sont des hypothèses raisonnables sur mes données. (Et les Bayésiens peuvent utiliser des a priori uniformes, ce qui pousse les choses vers les calculs fréquentistes.)
EDIT: En réponse à votre commentaire: la prochaine étape est contenue dans la première décision que j'ai mentionnée. Si vous voulez décider si les moyennes de deux groupes sont différentes, vous devriez regarder la distribution de la différence des moyennes des deux groupes pour voir si cette distribution contient ou non zéro, à un certain niveau de confiance. Exactement à quel point près de zéro vous comptez pour zéro et exactement quelle partie de la distribution (postérieure) que vous utilisez est déterminée par vous et le niveau de confiance que vous désirez.
Une discussion de ces idées peut être trouvée dans un article de Kruschke , qui a également écrit un livre très lisible Doing Bayesian Data Analysis , qui couvre un exemple aux pages 307-309, "Are Different Groups Equal?". (Deuxième édition: p. 468-472.) Il a également un blog sur le sujet , avec quelques questions et réponses.
NOUVELLE MODIFICATION: Votre description du processus bayésien n'est pas non plus tout à fait correcte. Les Bayésiens ne se soucient que de ce que les données nous disent, à la lumière de ce que nous savions indépendamment des données. (Comme Kruschke le fait remarquer, le prior ne se produit pas nécessairement avant les données. C'est ce que la phrase implique, mais c'est vraiment juste notre connaissance en excluant certaines des données.) Ce que nous savions indépendamment d'un ensemble particulier de données peut être vague ou spécifique et peut être basé sur un consensus, un modèle du processus de génération de données sous-jacent, ou peut simplement être le résultat d'une autre expérience (pas nécessairement antérieure).
la source
ce document pourrait être intéressant: http://arxiv.org/pdf/0906.4032v1.pdf
Il donne un bon résumé de certaines approches fréquentistes et bayésiennes du problème à deux échantillons, et discute les cas paramétriques et non paramétriques.
Cela pourrait ajouter quelque chose aux autres réponses pour donner un exemple simple. Supposons que vous ayez deux ensembles de données et y où chaque x i et chaque y j est soit un 0x y xi yj 0 soit un . Vous supposez un modèle de Bernoulli iid dans les deux cas, donc chaque x i ∼ B e r n ( p ) et chaque y i ∼ B e r n ( q ) . Votre scénario de test d' hypothèses dans les deux fréquentistes et les paramètres de Bayes peuvent être:1 xi∼Bern(p) yi∼Bern(q)
pas nécessairement égal.H1:p,q
Les probabilités pour les données dans chaque cas sont:
Sous : L 0 ( p ) = f ( x , y ; p ) = ∏ iH0 L0(p)=f(x,y;p)=∏ipi(1−p)1−i∏jpj(1−p)1−j
The Bayes factor can be combined with some prior beliefs on the probability ofH0 or H1 being true, to give the probability of H0 versus H1 after seeing the data. If we assume apriori that each hypothesis is equally likely, so p(H0)=p(H1)=1/2 , then this gives:
Intuitively, if this ratio is>1 , then the posterior probability of H0 is larger than H1 , so you would say that H0 has a higher probability of being true under these assumptions for the prior and model.
One nice thing about the Bayes factor is how it automatically penalises more complex models (such asH1 here). A nice paper offering some more intuition is here: http://quasar.as.utexas.edu/papers/ockham.pdf.
Hope that helps along with the other answers already posted.
la source
Given data, how strongly do we believe that 2 groups do not come from the same population (H_1: they do not come from the same population vs H_0: they come from the same population). This can be done with a Bayesian t-test.
Complexity is used to figure out how much the prior is overlapping with one hypothesis. Fit is used to figure out how much the posterior is overlapping with one hypothesis. Combined you can compare the hypotheses and express your posterior belief in whether or not they come from the same population.
la source