Où s'est passé le débat fréquentiste-bayésien?

59

Le monde des statistiques était divisé entre fréquentistes et bayésiens. Ces jours-ci, il semble que tout le monde fasse un peu des deux. Comment se peut-il? Si les différentes approches conviennent à différents problèmes, pourquoi les pères fondateurs de la statistique ne l'ont-ils pas vu? Ou bien, le débat a-t-il été remporté par les Frequentists et les vrais bayésiens subjectifs sont-ils passés à la théorie de la décision?

JohnRos
la source
13
J'ai fait cette CW en partant du principe qu'il est peu probable qu'il y ait une seule réponse faisant autorité ou meilleure. (N'hésitez pas à persuader l'un des mods sinon, si vous êtes en désaccord!) On pourrait plaider en faveur de la clôture de la question au motif qu'elle est potentiellement litigieuse, mais (à mon humble avis), elle est sur le sujet et intéressante. Toutefois, toute réponse controversée, polémique ou non prise en charge, si elle devait apparaître, serait supprimée sans autre explication.
whuber

Réponses:

58

Je suis en fait légèrement en désaccord avec la prémisse. Tout le monde est bayésien, s’ils se voient réellement attribuer une distribution de probabilité au préalable. Le problème survient lorsqu'ils ne le font pas, et je pense qu'il existe encore un fossé assez important sur ce sujet.

Cela dit, je conviens cependant que de plus en plus de gens sont moins enclins à mener des guerres saintes et à faire ce qui semble être approprié dans une situation donnée.

Je dirais que, au fur et à mesure que la profession progressait, les deux parties ont réalisé que les approches de l'autre partie présentaient des avantages. Les bayésiens se sont rendus compte qu'évaluer l'efficacité des procédures bayésiennes si elles étaient utilisées à maintes reprises (par exemple, cet intervalle de confiance à 95% contient-il réellement le paramètre réel environ 95% du temps?) Nécessitait une vision fréquentiste. Sans cela, il n'y a pas d'étalonnage de ce "95%" sur un nombre du monde réel. Robustesse? Construction de modèle par ajustement itératif, etc.? Des idées apparues dans le monde fréquentiste et qui ont été adaptées par les bayésiens à partir de la fin des années 1980 environ. Les fréquencistes ont compris que la régularisation était bonne et l’utilisent assez couramment ces temps-ci - et les a priori bayésiens peuvent facilement être interprétés comme une régularisation. Modélisation non paramétrique via des splines cubiques avec une fonction de pénalité? Votre pénalité est mon avant! Maintenant, nous pouvons tous nous entendre.

L’autre influence majeure, je pense, est l’amélioration spectaculaire de la disponibilité de logiciels de haute qualité qui vous permettra d’effectuer des analyses rapidement. Cela vient en deux parties - les algorithmes, par exemple, l’échantillonnage de Gibbs et Metropolis-Hastings, et le logiciel lui-même, R, SAS, ... Je pourrais être plus un pur bayésien si je devais écrire tout mon code en C (je n’aurais pas le temps d’essayer quoi que ce soit d’autre), mais, dans l’état actuel des choses, j’utiliserai gam dans le package mgcv en R chaque fois que mon modèle me permet de l’intégrer dans ce cadre sans trop écraser, et je suis un meilleur statisticien pour cela. Familiarité avec les méthodes de votre adversaire et conscience des efforts qu'elle peut fournir pour améliorer / améliorer la qualité de son utilisation dans certaines situations, même si celles-ci peuvent ne pas correspondre à 100% à votre cadre par défaut pour réfléchir à un problème,

jbowman
la source
5
@Dikran: Je suis d'accord avec la mise en garde que je contesterais personnellement avec le mot choix de l' adversaire . :)
cardinal
2
@ cardinal je ne sais pas, épouser ses collègues peut être amusant (à condition que vous sachiez tous les deux que ce n'est pas ce que vous voulez vraiment dire!; o)
Dikran Marsupial
3
@Dikran - Merci de votre compréhension! Je ne pensais pas que le mot «adversaire» était exactement le bon mot non plus, mais je l’y ai quand même collé, en partie juste pour le plaisir, et en partie parce que je ne pouvais pas penser à un meilleur qui préservait encore un sentiment d’opposition.
jbowman
5
@ jbowman: Notez que les statistiques bayésiennes à la Bonne, Lindley ou DeFinetti, signifient que le prieur est subjectif / mental et non objectif / physique. Pour cette raison, je ne suis pas d'accord avec: "... tout le monde est bayésien". C'est pourquoi Robbins a dû utiliser le terme "Empirical Bayes" pour introduire la "nouvelle" idée d'un antécédent fréquentiste. Je conviens toutefois qu’aujourd’hui, l’utilisation d’un système d’échantillonnage à plusieurs niveaux, créant ainsi un préalable fréquentiste, suffirait pour être qualifiée de «statistique bayésienne».
JohnRos
2
@JohnRos - Ce à quoi je pensais était plutôt le classique "quelle est la probabilité que vous ayez la tuberculose si vous êtes positif au test de dépistage de la tuberculose?" situation. (Je présume que) peu de statisticiens fréquentistes s'opposeraient à l'utilisation du taux de TB approprié de base, quel qu'il soit, en tant que probabilité préalable et le mettant à jour avec la probabilité de test. Bien sûr, ils s'opposeraient toujours à l'idée que leur précédent soit subjectif, et je pouvais voir un raisonnement de l'autre côté qui le prétendrait subjectif malgré les données sous-jacentes, alors prenez le point (+1).
jbowman
35

Ceci est une question difficile à répondre. Le nombre de personnes qui font vraiment les deux est encore très limité. Les Bayésiens les plus durs méprisent les utilisateurs des statistiques classiques pour leur utilisation de p valeurs , une statistique absurde et incohérente sur le plan interne pour les Bayésiens; et les grands statisticiens ne connaissent tout simplement pas les méthodes bayésiennes pour les commenter. À la lumière de cela, vous verrez beaucoup de critiques sur les tests de signification de l'hypothèse nulle dans la littérature bayésienne (allant jusqu'à la biologie presque pure ou les revues de psychologie pure), avec peu ou pas de réponse de la part des leaders.

Il existe des manifestations contradictoires quant à "qui a gagné le débat" dans la profession de la statistique. D'un côté, la composition d'un département de statistiques moyen est la suivante: dans la plupart des endroits, vous trouverez 10 à 15 professionnels par rapport à un ou deux Bayésiens, bien que certains départements soient purement bayésiens, sans aucun éditeur, sauf probablement pour les postes de consultant. (Harvard, Duke, Carnegie Mellon, Colombie-Britannique, Montréal en Amérique du Nord; je connais moins la scène européenne). D'autre part, vous verrez que dans des revues comme JASA ou JRSS, 25 à 30% des articles sont probablement bayésiens. D'une certaine manière, la renaissance bayésienne ressemble peut-être à l'éclatement des papiers ANOVA dans les années 1950: à l'époque, les gens pensaient que pratiquement n'importe quel problème statistique pouvait être qualifié de problème ANOVA; maintenant,

Mon sentiment est que les domaines appliqués ne dérangent pas pour comprendre les détails philosophiques, mais simplement avec ce qui est plus facile à travailler. La méthodologie bayésienne est trop compliquée: en plus des statistiques, vous devez également apprendre l’art du calcul (configuration de l’échantillonneur, blocage, diagnostics de convergence, blah-blah-blah) et être prêt à défendre vos priors (si vous utilisez objectifs préalables objectifs, ou devez-vous utiliser des objectifs a priori informatifs si le champ est à peu près réglé sur la vitesse de la lumière étant de 3e8 m / s, ou même si le choix de l’antériorité détermine si votre postérieur sera correct ou non). Donc, dans la plupart des applications médicales ou de psychologie ou d’économie, vous verrez des approches générales dans les articles écrits par des chercheurs de fond,

Je pense qu’un domaine où le cadre bayésien manque toujours est celui des diagnostics de modèles - et c’est un domaine important pour les praticiens. Dans le monde bayésien, pour diagnostiquer un modèle, vous devez en construire un plus compliqué et choisir celui qui convient le mieux au facteur bayésien ou au facteur BIC. Donc, si vous n'aimez pas l'hypothèse de normalité pour votre régression linéaire, vous pouvez créer une régression avec les erreurs de Student et laisser les données générer une estimation des degrés de liberté, ou bien vous pouvez devenir très chic et avoir un processus de Dirichlet pour votre les termes d'erreur et faire des sauts MH entre différents modèles. L’approche classique consisterait à créer un graphique QQ de résidus étudiés et à supprimer les valeurs aberrantes, ce qui est encore une fois beaucoup plus simple.

J'ai édité un chapitre dans un livre à ce sujet - voir http://onlinelibrary.wiley.com/doi/10.1002/9780470583333.ch5/summary . C’est un document très archétypal, qui a donné environ 80 références sur ce débat, toutes appuyant le point de vue bayésien. (J'ai demandé à l'auteur de l'étendre dans une version révisée, ce qui en dit long sur ce sujet :)). Jim Berger de Duke, l'un des principaux théoriciens bayésiens, a donné un certain nombre de conférences et rédigé un certain nombre d'articles très réfléchis sur le sujet.

StasK
la source
14

Il existe une bonne raison de conserver les deux, car un bon artisan voudra choisir le meilleur outil pour la tâche à accomplir. Les méthodes bayésienne et fréquentiste ont toutes deux des applications dans lesquelles elles constituent le meilleur outil.

Cependant, le mauvais outil est souvent utilisé car les statistiques fréquentistes se prêtent mieux à une approche de "livre de recettes de statistiques" qui les rend plus faciles à appliquer en sciences et en génie que leurs homologues bayésiennes, même si les méthodes bayésiennes fournissent une réponse plus directe aux la question posée (qui est généralement ce que nous pouvons déduire de l'échantillon de données particulier que nous avons réellement). Je ne suis pas très favorable à cela, car l’approche du «livre de recettes» conduit à l’utilisation de statistiques sans une compréhension solide de ce que vous êtes en train de faire, c’est pourquoi des erreurs telles que l’erreur de valeur p reviennent encore et encore.

Cependant, à mesure que le temps avance, les outils logiciels pour l'approche bayésienne vont s'améliorer et ils seront utilisés plus fréquemment comme le dit Jbowman à juste titre.

Je suis un Bayésien par penchant (cela me semble beaucoup plus logique que l’approche fréquentiste), mais j’utilise des statistiques fréquentistes dans mes articles, en partie parce que j’aurai du mal avec les critiques si j’utilise les statistiques bayésiennes car elles sera "non standard".

Enfin (un peu la langue dans la joue; o), pour citer Max Plank, «une nouvelle vérité scientifique ne triomphe pas en convaincant ses adversaires et en leur faisant voir la lumière, mais plutôt parce que ses adversaires finissent par mourir et qu'une nouvelle génération grandit, qui est familière avec ça."

Dikran Marsupial
la source
10

Je ne pense pas que les fréquentateurs et les bayésiens apportent des réponses différentes aux mêmes questions. Je pense qu'ils sont prêts à répondre à des questions différentes . Par conséquent, je ne pense pas qu'il soit logique de parler beaucoup de victoire ou même de compromis.

Considérez toutes les questions que nous pourrions vouloir poser. Beaucoup ne sont que des questions impossibles ("Quelle est la vraie valeur de ?"). Il est plus utile d'examiner le sous-ensemble de ces questions auquel il est possible de répondre en fonction de diverses hypothèses. Le sous-ensemble le plus large correspond aux questions auxquelles vous pouvez répondre lorsque vous vous autorisez à utiliser des a priori. Appelez cet ensemble BF. Il y a un sous-ensemble de BF, qui est l'ensemble des questions qui ne dépendent d'aucun préalable. Appelez ce deuxième sous-ensemble F. F est un sous-ensemble de BF. Définir B = BF \ B.θ

Cependant, nous ne pouvons pas choisir les questions auxquelles répondre. Afin de faire des déductions utiles sur le monde, nous devons parfois répondre à des questions qui sont en B et cela signifie utiliser un préalable.

Idéalement, avec un estimateur, vous feriez une analyse approfondie. Vous pouvez utiliser un préalable, mais il serait également intéressant de pouvoir prouver que votre estimateur contient de bonnes choses qui ne dépendent d'aucun préalable. Cela ne signifie pas que vous pouvez laisser tomber le précédent, peut-être que les questions vraiment intéressantes nécessitent un préalable.

Tout le monde est d’accord sur la façon de répondre aux questions en F. L’inquiétude est de savoir si les questions vraiment «intéressantes» sont en F ou en B?

Un exemple: un patient qui entre chez le médecin est en bonne santé (H) ou malade (S). Nous effectuons un test qui donnera un résultat positif (+) ou négatif (-). Le test ne donne jamais de faux négatifs - c'est-à-dire . Mais cela donnera parfois des faux positifs - P ( + | H ) = 0.05P(-|S)=0P(+|H)=0,05

Nous avons un morceau de carte et la machine d’essai écrira + ou - sur un côté de la carte. Imaginez, si vous voulez, que nous avons un oracle qui connaît la vérité, et cet oracle écrit le véritable état, H ou S, de l’autre côté de la carte avant de la mettre dans une enveloppe.

En tant que médecin formé aux statistiques, que pouvons-nous dire de la carte dans l’environnement avant d’ouvrir la carte? Les affirmations suivantes peuvent être faites (celles-ci sont en F ci-dessus):

  • Si S sur un côté de la carte, l'autre côté sera +. P(+|S)=1
  • Si H, l'autre côté sera + avec une probabilité de 5%, - avec une probabilité de 95%. P(-|H)=0.95
  • P((-,S)(+,H))0.95

P((-,S))P((+,H))P(S)

C'est aussi loin que nous pouvons aller si loin. Avant d'ouvrir l'enveloppe , nous pouvons faire des déclarations très positives sur la précision du test. Il y a (au moins) 95% de probabilité que le résultat du test corresponde à la vérité.

Mais que se passe-t-il lorsque nous ouvrons la carte? Étant donné que le résultat du test est positif (ou négatif), que pouvons-nous dire s’ils sont en bonne santé ou malades?

P(S)P(S)

Dans cet exemple simple, il est clair que tout le monde avec un résultat de test négatif est en bonne santé. Il n’ya pas de faux négatifs et chaque statisticien renverra donc volontiers ce patient chez lui. Par conséquent, il n’a aucun sens de payer pour les conseils d’un statisticien si le résultat du test n’a pas été positif .

Les trois points ci-dessus sont corrects et assez simples. Mais ils sont aussi inutiles! La question vraiment intéressante, dans ce modèle certes artificiel, est la suivante:

P(S|+)

P(S)

Je ne nie pas que ce modèle est peut-être trop simpliste, mais il montre que si nous voulons faire des déclarations utiles sur la santé de ces patients, nous devons commencer par avoir une certaine idée de leur santé.

Aaron McDaid
la source
2
H+5%-95%P(-|S)=0.95P(-|S)=0
1
P(-|H)=0.95P(-|S)=0.95
2
P(S)+20P(S)
1
P(S)P(S)
6

Comme vous le verrez, il y a beaucoup de débats fréquentistes-bayésiens. En fait, je pense que c'est plus chaud que jamais et moins dogmatique. Vous pourriez être intéressé par mon blog: http://errorstatistics.com

Mayo
la source
2
Je connais votre travail via les écrits de Shalizi & Gelman. Je vais définitivement suivre le blog. Et pourtant, je me demande si les "Bayes" de Gelman sont identiques aux "Bayes" de
DeFinetti
1

Beaucoup de gens (en dehors des experts) qui se croient fréquentistes sont en fait bayésiens. Cela rend le débat un peu inutile. Je pense que le bayésianisme a gagné, mais qu'il y a encore beaucoup de bayésiens qui se croient fréquentistes. Il y a des gens qui pensent qu'ils n'utilisent pas de prieurés et qui sont donc fréquentistes. C'est une logique dangereuse. Il ne s’agit pas tant de priors (prieurs uniformes ou non uniformes), la vraie différence est plus subtile.

(Je ne suis pas officiellement au département de statistique; je possède une formation en maths et en informatique. J'écris en raison des difficultés que j'ai eues pour essayer de discuter de ce "débat" avec d'autres non-statisticiens, et même avec certains débuts de carrière. statisticiens.)

Le MLE est en réalité une méthode bayésienne. Certaines personnes diront "Je suis un fréquentiste parce que j'utilise le MLE pour estimer mes paramètres". J'ai vu cela dans la littérature évaluée par les pairs. Cela n'a aucun sens et est basé sur ce mythe (non dit, mais implicite) selon lequel un fréquentiste est quelqu'un qui utilise un préalable uniforme au lieu d'un précédent non uniforme).

μ=0θ

XN(μ=0,σ2=θ)

Considérons maintenant la fonction de vraisemblance. Cette fonction a deuxXθθX

F(X,θ)=Pσ2=θ(X=X)=12πθe-X22θ

Xθ

La carte thermique

θθX

Cette distinction entre les tranches horizontales et verticales est cruciale et j’ai trouvé que cette analogie m’a aidé à comprendre l’approche fréquentiste du biais .

Un bayésien est quelqu'un qui dit

θF(X,θ)

g(θ)

θF(X,θ)g(θ)

Ainsi, un bayésien fixe x et examine la tranche verticale correspondante dans ce tracé de contour (ou dans le tracé de variante incorporant le précédent). Dans cette tranche, l'aire sous la courbe n'a pas besoin d'être égale à 1 (comme je l'ai dit précédemment). Un intervalle de confiance (IC) bayésien à 95% est l'intervalle qui contient 95% de la surface disponible. Par exemple, si la zone est 2, la zone située sous l'IC Bayesien doit être de 1,9.

θ

θ

N(μ=0,σ2=θ)θX-3θ+3θ

θ

Ce n'est pas la seule façon de construire le CI fréquentiste, ce n'est même pas un bon (étroit), mais supportez-moi un instant.

La meilleure façon d'interpréter le mot «intervalle» ne consiste pas en un intervalle sur une ligne à un jour, mais à le considérer comme une zone située dans le plan à deux dimensions ci-dessus. Un "intervalle" est un sous-ensemble du plan 2D, et non d'une ligne 1D. Si quelqu'un propose un tel «intervalle», nous devons alors vérifier s'il est valide à un niveau de confiance / crédible de 95%.

Un fréquentiste vérifiera la validité de cet «intervalle» en considérant chaque tranche horizontale à tour de rôle et en examinant l'aire sous la courbe. Comme je l'ai dit précédemment, la zone sous cette courbe sera toujours une. La condition essentielle est que la zone comprise dans cet "intervalle" soit au moins égale à 0,95.

Un bayésien vérifiera la validité en regardant plutôt les tranches verticales. Là encore, l'aire sous la courbe sera comparée à la sous-zone située sous l'intervalle. Si cette dernière correspond à au moins 95% de la première, l'intervalle est un intervalle crédible bayésien valide à 95%.

Maintenant que nous savons comment vérifier si un intervalle particulier est «valide», la question est de savoir comment choisir la meilleure option parmi les options valides. Cela peut être un art noir, mais généralement vous voulez l'intervalle le plus étroit. Les deux approches tendent à s'accorder ici - les tranches verticales sont prises en compte et l'objectif est de rendre l'intervalle le plus étroit possible à l'intérieur de chaque tranche verticale.

Je n'ai pas tenté de définir l'intervalle de confiance fréquentiste le plus étroit possible dans l'exemple ci-dessus. Voir les commentaires de @ cardinal ci-dessous pour des exemples d'intervalles plus étroits. Mon objectif n'est pas de trouver les meilleurs intervalles, mais d'insister sur la différence entre les tranches horizontale et verticale pour déterminer la validité. Un intervalle qui satisfait les conditions d'un intervalle de confiance fréquentiste à 95% ne satisfait généralement pas les conditions d'un intervalle crédible bayésien à 95%, et inversement.

Les deux approches souhaitent des intervalles étroits, c'est-à-dire que lorsque l'on considère une tranche verticale, on souhaite que l'intervalle (1-d) de cette tranche soit aussi étroit que possible. La différence réside dans la manière dont les 95% sont appliqués - un fréquentiste ne se penchera que sur les intervalles proposés où 95% de la surface de chaque tranche horizontale est inférieure à cet intervalle, tandis qu'un bayésien insistera pour que chaque tranche verticale soit telle que 95% de sa surface soit sous l'intervalle.

Beaucoup de non-statisticiens ne comprennent pas cela et se concentrent uniquement sur les tranches verticales. cela les rend bayésiens même s'ils pensent le contraire.

Aaron McDaid
la source
3
(-1) Je pense que cet article montre des incompréhensions fondamentales sur plusieurs points. Il est difficile de savoir même par où commencer.
cardinal
1
Abordons celui qui semble constituer la majorité de ce post. Dans l'exemple donné, X2/θ~χ12θ(θ^,θ^vous)P(θ(θ^,θ^vous))=1-α θXX2/θ
1
[X2/q1-α,)qbbχ12[X2/q1-α/2,X2/qα/2]pourtant, ce dernier intervalle n’est même pas le plus court, qui peut être trouvé par une simple procédure numérique. En résumé , la prémisse principale de l'argument dans la réponse semble passer complètement à côté de l'essentiel.
cardinal
Bonjour @ cardinal, je comprends vos points dans vos deux derniers commentaires. En fait, je pense que vos arguments correspondent à ce que j'ai dit :-) OK, Il existe différentes manières de construire des intervalles de confiance fréquentistes. Vous acceptez la méthode que j'ai décrite est valide. Et vous soulignez (raisonnablement) que ma méthode n’est pas la plus étroite. Je pense que votre tout premier commentaire n’a pas été très utile.
Aaron McDaid
2
@ Cardinal, j'accepte que la fin de ma réponse ne soit pas utile et soit fondamentalement fausse, je vais ranger ça. Cela me distrait de mon argument principal, à savoir que beaucoup de personnes en dehors du département de statistiques qui ont une opinion bien arrêtée sur ce point n’apprécient pas la différence fondamentale entre les deux approches: les deux approches semblent avoir une bonne surface sous la courbe (au moins 95%). ), mais la différence est de savoir s'il faut prendre une coupe horizontale (Frequentist) ou verticale (Bayésienne) sur la carte thermique. Est-ce que je suis juste ici, et est-ce que cela vaut la peine de faire cette remarque?
Aaron McDaid