Les statistiques bayésiennes sont-elles vraiment une amélioration par rapport aux statistiques traditionnelles (fréquentistes) pour la recherche comportementale?

19

Lors de la participation à des conférences, les partisans des statistiques bayésiennes ont poussé un peu à évaluer les résultats des expériences. Elle est considérée comme à la fois plus sensible, appropriée et sélective vis-à-vis des découvertes authentiques (moins de faux positifs) que les statistiques fréquentistes.

J'ai exploré un peu le sujet et je ne suis pas convaincu jusqu'à présent des avantages de l'utilisation des statistiques bayésiennes. Les analyses bayésiennes ont été utilisées pour réfuter les recherches de Daryl Bem soutenant la précognition, cependant, je reste donc prudemment curieux de savoir comment les analyses bayésiennes pourraient bénéficier même à mes propres recherches.

Je suis donc curieux de savoir ce qui suit:

  • Puissance dans une analyse bayésienne vs une analyse fréquentiste
  • Sensibilité à l'erreur de type 1 dans chaque type d'analyse
  • Le compromis entre la complexité de l'analyse (le bayésien semble plus compliqué) et les avantages obtenus. Les analyses statistiques traditionnelles sont simples, avec des directives bien établies pour tirer des conclusions. La simplicité pourrait être considérée comme un avantage. Est-ce que cela vaut la peine d’abandonner?

Merci pour tout aperçu!

un arrêt
la source
1
Les statistiques bayésiennes sont des statistiques traditionnelles - pouvez-vous donner un exemple concret de ce que vous entendez par statistiques traditionnelles?
1
@OphirYoktan: Il parle de la probabilité de fréquence par rapport à la probabilité bayésienne. C'est même mentionné dans le titre de la question.
5
Je pense que cette question devrait être déplacée ici: stats.stackexchange.com
Mark Lapierre
2
J'ai posé une question sur les méta pour savoir si cela devrait être sur le sujet.
1
Je pense que cette question peut potentiellement avoir une réponse «bonne» ou «correcte». Par exemple, si quelqu'un pouvait dire "pour chaque test fréquentiste avec une erreur de type 1 et une erreur de type 2 , il existe un test bayésien avec une erreur de type 1 et une erreur de type 2 ", ce serait une bonne réponse . Ou quelque chose comme "chaque test fréquentiste est équivalent à un test bayésien avec un préalable non informatif". C'est-à-dire que cela ne doit pas être une guerre religieuse entre fréquentistes et bayésiens. Je ne fais que discuter parce que je ne comprends pas comment les réponses sont liées aux questions spécifiques du PO. αβαβ-X
SheldonCooper

Réponses:

14

Une réponse rapide au contenu à puces:

1) Erreur de puissance / type 1 dans une analyse bayésienne vs une analyse fréquentiste

Poser des questions sur le type 1 et la puissance (c'est-à-dire un moins la probabilité d'erreur de type 2) implique que vous pouvez placer votre problème d'inférence dans un cadre d'échantillonnage répété. Peut tu? Si vous ne pouvez pas, il n'y a pas d'autre choix que de vous éloigner des outils d'inférence fréquentiste. Si vous le pouvez, et si le comportement de votre estimateur sur de nombreux échantillons de ce type est pertinent, et si vous n'êtes pas particulièrement intéressé à faire des énoncés de probabilité sur des événements particuliers, alors je n'ai aucune raison valable de bouger.

L'argument ici n'est pas que de telles situations ne se produisent jamais - certainement elles le font - mais qu'elles ne se produisent généralement pas dans les domaines où les méthodes sont appliquées.

2) Le compromis entre la complexité de l'analyse (le bayésien semble plus compliqué) et les avantages obtenus.

Il est important de se demander où va la complexité. Dans les procédures fréquentistes, la mise en œuvre peut être très simple, par exemple minimiser la somme des carrés, mais les principes peuvent être arbitrairement complexes, tournant généralement autour de quel (s) estimateur (s) choisir, comment trouver le (s) bon (s) test (s), que penser quand ils sont en désaccord. À titre d'exemple. voir la discussion toujours animée, reprise dans ce forum, de différents intervalles de confiance pour une proportion!

Dans les procédures bayésiennes, la mise en œuvre peut être arbitrairement complexe même dans des modèles qui semblent devoir «être» simples, généralement en raison d'intégrales difficiles, mais les principes sont extrêmement simples. Cela dépend plutôt de l'endroit où vous aimeriez être en désordre.

3) Les analyses statistiques traditionnelles sont simples, avec des directives bien établies pour tirer des conclusions.

Personnellement, je ne me souviens plus, mais mes étudiants n'ont certainement jamais trouvé cela simple, principalement en raison de la prolifération des principes décrite ci-dessus. Mais la question n'est pas vraiment de savoir si une procédure est simple, mais si elle est plus proche d'avoir raison étant donné la structure du problème.

Enfin, je ne suis pas du tout d'accord qu'il existe des "lignes directrices bien établies pour tirer des conclusions" dans l'un ou l'autre paradigme. Et je pense que c'est une bonne chose. Bien sûr, "trouver p <0,05" est une ligne directrice claire, mais pour quel modèle, avec quelles corrections, etc.? Et que dois-je faire lorsque mes tests ne concordent pas? Un jugement scientifique ou technique est nécessaire ici, comme ailleurs.

conjugateprior
la source
Je ne suis pas sûr que poser des questions sur les erreurs de type 1 / type 2 implique quoi que ce soit sur un cadre d'échantillonnage répété. Il semble que même si mon hypothèse nulle ne peut pas être échantillonnée à plusieurs reprises, il est toujours significatif de se renseigner sur la probabilité d'erreur de type 1. La probabilité dans ce cas, bien sûr, n'est pas sur toutes les hypothèses possibles, mais plutôt sur tous les échantillons possibles de ma seule hypothèse.
SheldonCooper
Il me semble que l'argument général est le suivant: bien que faire une erreur de type 1 (ou 2) puisse être défini pour une inférence `` one shot '' (Type 1 vs 2 n'est qu'une partie d'une typologie d'erreurs que je peux faire) à moins que mon cette erreur est intégrée dans des essais répétés, aucun type d'erreur ne peut avoir une probabilité fréquentiste.
conjugateprior
Ce que je dis, c'est que faire une erreur de type 1 (ou 2) est toujours intégré dans des essais répétés. Chaque essai échantillonne un ensemble d'observations à partir de l'hypothèse nulle. Donc, même s'il est difficile d'imaginer échantillonner une hypothèse différente, des essais répétés sont toujours là car il est facile d'imaginer échantillonner un ensemble différent d'observations à partir de cette même hypothèse.
SheldonCooper
1
Devinette-moi ceci: comment décide-t-on "qu'est-ce qui est aléatoire?" Par exemple, supposons que vous ayez une urne, quelqu'un échantillonne "au hasard" de l'urne. Supposons également qu'un "observateur intelligent" soit également présent, et qu'ils connaissent le contenu exact de l'urne. L'échantillonnage est-il toujours "aléatoire", même si "l'observateur intelligent" peut prédire avec certitude exactement ce qui sera tiré? Est-ce que quelque chose à propos de l'urne a changé si elles ne sont plus présentes?
Probabilislic
1
Le problème que j'ai avec la nature "répétée" des fréquentistes est que pour travailler, les conditions doivent rester les mêmes. Mais si les conditions restent les mêmes, vous devriez pouvoir regrouper vos ensembles de données et obtenir une meilleure estimation. Le fréquentateur ignore les informations passées précisément dans les conditions où il est raisonnable de les prendre en compte.
probabilités
5

Les statistiques bayésiennes peuvent être dérivées de quelques principes logiques. Essayez de rechercher «probabilité comme logique étendue» et vous trouverez une analyse plus approfondie des principes fondamentaux. Mais fondamentalement, les statistiques bayésiennes reposent sur trois "desiderata" de base ou principes normatifs:

  1. La plausibilité d'une proposition doit être représentée par un seul nombre réel
  2. p(UNE|C(0))C(0)C(1)p(UNE|C(1))>p(UNE|C(0))p(B|UNEC(0))=p(B|UNEC(1))p(UNEB|C(0))p(UNEB|C(1))p(UNE¯|C(1))<p(UNE¯|C(0))
  3. La plausibilité d'une proposition doit être calculée de manière cohérente . Cela signifie a) si une plausibilité peut être motivée de plus d'une manière, toutes les réponses doivent être égales; b) Dans deux problèmes où l'on nous présente les mêmes informations, nous devons assigner les mêmes plausibilités; et c) nous devons tenir compte de toutes les informations disponibles. Nous ne devons pas ajouter d'informations qui n'existent pas et nous ne devons pas ignorer les informations dont nous disposons.

Ces trois desiderata (ainsi que les règles de la logique et de la théorie des ensembles) déterminent de manière unique les règles de somme et de produit de la théorie des probabilités. Ainsi, si vous souhaitez raisonner en fonction des trois desiderata ci-dessus, vous devez adopter une approche bayésienne. Vous n'êtes pas obligé d'adopter la "philosophie bayésienne" mais vous devez adopter les résultats numériques. Les trois premiers chapitres de ce livre les décrivent plus en détail et en fournissent la preuve.

Enfin et surtout, la «machinerie bayésienne» est l'outil de traitement de données le plus puissant dont vous disposez. Cela est principalement dû à la desiderata 3c) en utilisant toutes les informations dont vous disposez (cela explique également pourquoi les Bayes peuvent être plus compliqués que les non-Bayes). Il peut être assez difficile de décider «ce qui est pertinent» en utilisant votre intuition. Le théorème de Bayes le fait pour vous (et il le fait sans ajouter d'hypothèses arbitraires, également en raison de 3c).

H0H1L1H0L2H0

  1. P(H0|E1,E2,)Eje
  2. P(H1|E1,E2,)
  3. O=P(H0|E1,E2,)P(H1|E1,E2,)
  4. H0O>L2L1

H0O>>1H1O<<1O1

Maintenant, si le calcul devient "trop ​​difficile", vous devez alors approximer les chiffres ou ignorer certaines informations.

Pour un exemple réel avec des chiffres élaborés, voir ma réponse à cette question

probabilitéislogique
la source
3
Je ne sais pas comment cela répond à la question. Les habitués sont bien sûr en désaccord avec le desideratum 1 de cette liste, donc le reste de l'argument ne s'applique pas à eux. Elle ne répond également à aucune des questions spécifiques du PO, telles que "l'analyse bayésienne est-elle plus puissante ou moins sujette aux erreurs qu'une analyse fréquentiste".
SheldonCooper
@sheldoncooper - si un fréquentiste n'est pas d'accord avec le desideratum 1, sur quelle base peut-il construire un intervalle de confiance à 95%? Ils doivent exiger un numéro supplémentaire.
probabilités
@sheldoncooper - et en outre, les probabilités d'échantillonnage devraient être redéfinies, car elles ne sont elles aussi que 1 chiffre. Un fréquentiste ne peut pas rejeter le desideratum 1 sans rejeter sa propre théorie
probabilitéislogique
1
p(H1|...)p(E1,E2,...|H0)H0
1
"ils ne peuvent pas rejeter le desideratum 1 sans rejeter leur propre théorie" - que voulez-vous dire par là? Les Frequentistes n'ont aucune notion de "plausibilité". Ils ont une notion de «fréquence d'apparition dans des essais répétés». Cette fréquence remplit des conditions similaires à vos trois desiderata et se trouve donc suivre des règles similaires. Ainsi pour tout ce pour quoi la notion de fréquence est définie, vous pouvez utiliser les lois de probabilité sans aucun problème.
SheldonCooper