Existe-t-il des exemples où les intervalles crédibles bayésiens sont évidemment inférieurs aux intervalles de confiance fréquentistes

81

Une question récente sur la différence entre la confiance et les intervalles crédibles m'a amené à relire l'article d'Edwin Jaynes sur ce sujet:

Jaynes, ET, 1976. «Intervalles de confiance vs intervalles bayésiens», dans Fondements de la théorie de la probabilité, de l'inférence statistique et des théories statistiques de la science, WL Harper et CA Hooker (éd.), D. Reidel, Dordrecht, p. 175; ( pdf )

Dans l’abrégé, Jaynes écrit:

... nous présentons les solutions bayésiennes et orthodoxes à six problèmes statistiques courants impliquant des intervalles de confiance (y compris des tests de significativité basés sur le même raisonnement). Dans tous les cas, nous trouvons que la situation est exactement l'inverse, c'est-à-dire que la méthode bayésienne est plus facile à appliquer et donne les mêmes résultats, voire meilleurs. En effet, les résultats orthodoxes ne sont satisfaisants que lorsqu'ils concordent étroitement (ou exactement) avec les résultats bayésiens. Aucun exemple contraire n'a encore été produit.

(c'est moi qui souligne)

Le document a été publié en 1976, alors peut-être que les choses ont évolué. Ma question est la suivante: existe-t-il des exemples où l'intervalle de confiance fréquentiste est nettement supérieur à l'intervalle crédible bayésien (conformément au défi implicitement posé par Jaynes)?

Les exemples basés sur des hypothèses antérieures incorrectes ne sont pas acceptables car ils ne disent rien sur la cohérence interne des différentes approches.

Dikran Marsupial
la source
21
Sous des hypothèses plutôt modérées, (a) les procédures d’estimation bayésiennes sont admissibles et (b) tous les estimateurs admissibles, ou presque, sont bayésiens par rapport à certains antérieurs. Il n’est donc pas surprenant que l’intervalle de confiance bayésien «donne les mêmes résultats, voire de meilleurs résultats». Notez que mes affirmations (a) et (b) font partie de l' analyse fréquentiste de la théorie de la décision rationnelle. Là où les fréquentistes se séparent des Bayésiens, ce n’est pas sur les mathématiques ni même sur les procédures statistiques, mais sur le sens, la justification et l’utilisation correcte d’un prior pour un problème particulier.
whuber
1
Ainsi, le commentaire ci-dessus implique-t-il que la réponse à la question du PO est «Aucun exemple de ce genre ne peut être construit»? Ou peut-être existe-t-il un exemple pathologique qui viole les hypothèses sur lesquelles repose l'admissibilité?
1
@Srikant: Bonne question. Je pense qu’il faut commencer par enquêter dans une situation où il existe des estimateurs admissibles non-bayésiens - pas nécessairement «pathologiques», mais au moins un qui offre l’occasion de trouver un «exemple contraire».
whuber
2
J'ajouterais un peu de clarté aux "hypothèses antérieures incorrectes ..." en précisant que la réponse bayésienne et la réponse fréquentiste doivent utiliser la même information , sinon vous ne faites que comparer les réponses à deux questions différentes. Grande question cependant (+1 de moi)
probabilitéislogic
3
pathologie ou pas, ce serait probablement le premier du genre. Je suis très désireux de voir cet exemple, car ces "pathologies" ont généralement un bon élément d'apprentissage
probabilité,

Réponses:

52

J'ai dit plus tôt que j'essaierais de répondre à la question, alors voilà ...

Jaynes était un peu vilain dans son article en ce sens qu'un intervalle de confiance fréquentiste n'est pas défini comme un intervalle dans lequel on pourrait s'attendre à ce que la vraie valeur de la statistique se situe avec une probabilité élevée (spécifiée), il n'est donc pas surprenant que les contradictions se produisent si elles sont interprétées comme si elles étaient. Le problème, c’est que c’est souvent ainsi que les intervalles de confiance sont utilisés, puisqu’un intervalle très susceptible de contenir la valeur réelle (compte tenu de ce que nous pouvons déduire de notre échantillon de données) correspond à ce que nous recherchons souvent.

La question clé pour moi est que lorsqu'une question est posée, il est préférable d'avoir une réponse directe à cette question. Que les intervalles crédibles bayésiens soient pires que les intervalles de confiance fréquentistes dépend de la question qui a été posée. Si la question posée était:

(a) "Donnez-moi un intervalle où la vraie valeur de la statistique réside dans la probabilité p", il apparaît alors qu'un fréquentiste ne peut pas réellement répondre à cette question directement (et cela introduit le type de problèmes que Jaynes discute dans son article), mais un Bayesian peut, raison pour laquelle un intervalle crédible bayésien est supérieur à l’intervalle de confiance fréquentiste dans les exemples donnés par Jaynes. Mais ce n'est que parce que c'est la "mauvaise question" pour le fréquentiste.

(b) "Donnez-moi un intervalle où, si l'expérience était répétée un grand nombre de fois, la vraie valeur de la statistique se situerait dans p * 100% de tels intervalles", alors la réponse fréquentiste est exactement ce que vous voulez. Le bayésien peut également être en mesure de donner une réponse directe à cette question (même s’il ne s’agit peut-être pas simplement d’un intervalle crédible). Le commentaire de Whuber sur la question suggère que c'est le cas.

Il s’agit donc essentiellement de spécifier correctement la question et d’interpréter correctement la réponse. Si vous souhaitez poser la question (a), utilisez un intervalle de confiance bayésien. Si vous souhaitez poser la question (b), utilisez un intervalle de confiance fréquentiste.

Dikran Marsupial
la source
2
Bien dit, en particulier à quelle question un IC répond-il réellement. Dans l'article de Jaynes, il mentionne toutefois que les IC (et la plupart des procédures fréquentistes) sont conçues pour bien fonctionner "à long terme" (par exemple à quelle fréquence voyez-vous ou "pour les grandes n environ ... "hypothèses dans les méthodes fréquentistes?), mais il y a beaucoup de telles procédures qui peuvent le faire. Je pense que c’est là que les techniques fréquentistes (cohérence, biais, convergence, etc.) peuvent être utilisées pour évaluer diverses procédures bayésiennes difficiles à décider. n
probabilitéislogique
1
"Jaynes était un peu vilain dans son journal ..." Je pense que ce que Jaynes essayait de dire (ou ce que j'en ai dit) est que les intervalles de confiance sont utilisés pour répondre à la question a) dans un grand nombre de cas. les cas (je suppose que toute personne qui a seulement une formation fréquentiste utilisera les IC pour répondre à la question a) et pensera qu'elle est une réponse fréquente appropriée)
probabilité du
2
oui, par "un peu vilain", je voulais juste dire que Jaynes faisait valoir son point de manière plutôt mal intentionnée (mais aussi divertissante) (ou du moins c'est ce que je lisais). Mais s'il ne l'avait pas fait, cela n'aurait probablement eu aucun impact.
Dikran Marsupial le
23

Ceci est un exemple "complet" donné dans un livre écrit par Larry Wasserman Toutes les statistiques de la page 216 ( 12.8 Forces et faiblesses de l'inférence bayésienne ). En gros, je fournis ce que Wasserman n’a pas dans son livre: 1) une explication de ce qui se passe réellement, plutôt qu’une file d’attente; 2) la réponse fréquentiste à la question, que Wasserman ne donne commodément pas; et 3) une démonstration que la confiance équivalente calculée en utilisant la même information souffre du même problème.

Dans cet exemple, il énonce la situation suivante

  1. Une observation, X, avec une distribution d'échantillonnage:(X|θ)N(θ,1)
  2. Distribution préalable de (il utilise en fait un général pour la variance, mais son diagramme est spécialisé pour )(θ)N(0,1)τ2τ2=1

Il montre ensuite que l'utilisation d'un intervalle bayésien à 95% de crédibilité dans cette configuration a finalement une couverture fréquentiste de 0% lorsque la vraie valeur de devient arbitrairement grande. Par exemple, il fournit un graphique de la couverture (p218), et vérifiant à l'œil lorsque la valeur vraie de est 3, la couverture est d'environ 35%. Il poursuit ensuite en disant:θθ

... Que devrions-nous conclure de tout cela? L'important est de comprendre que les méthodes fréquentistes et bayésiennes répondent à des questions différentes. Pour combiner des croyances antérieures avec des données conformément à des principes, utilisez l'inférence bayésienne. Pour construire des procédures avec des performances garanties à long terme, telles que des intervalles de confiance, utilisez des méthodes fréquentistes ... (p217)

Et puis passe à autre chose sans explication ni explication des raisons pour lesquelles la méthode bayésienne a apparemment si mal fonctionné. En outre, il ne donne pas de réponse de la part de l’approche fréquentiste, il se contente de donner une idée générale du «long terme» - une tactique politique classique (mettez l’accent sur votre force et la faiblesse des autres, mais ne comparez jamais la situation à la fois).

Je montrerai comment le problème énoncé peut être formulé en termes fréquentistes / orthodoxes, puis je montrerai que le résultat qui utilise des intervalles de confiance donne exactement la même réponse que le problème bayésien . Ainsi, tout défaut bayésien (réel ou perçu) n'est pas corrigé en utilisant des intervalles de confiance.τ=1

Ok, alors vas-y. La première question que je pose est la suivante: quel est l’état des connaissances décrit par l’ancien ? Si quelqu'un était "ignorant" à propos de , alors la manière appropriée de l'exprimer est . Maintenant , supposons que nous ignorions, et nous avons observé , indépendamment de . Que serait notre postérieur pour ?θN(0,1)θp(θ)1YN(θ,1)Xθ

p(θ|Y)p(θ)p(Y|θ)exp(12(Yθ)2)

Donc . Cela signifie que la distribution antérieure donnée dans l'exemple de Wassermans équivaut à avoir observé une copie iid de égale à . Méthodes fréquentistes ne peuvent pas faire face à un avant, mais il peut être considéré comme ayant fait 2 observations de la distribution d'échantillonnage, un égal à , et un égal à . Les deux problèmes sont entièrement équivalents et nous pouvons en fait donner la réponse fréquentiste à la question.(θ|Y)N(Y,1)X00X

Comme nous avons affaire à une distribution normale avec une variance connue, la moyenne est une statistique suffisante pour construire un intervalle de confiance pour . La moyenne est égale à et a une distribution d'échantillonnageθx¯=0+X2=X2

(x¯|θ)N(θ,12)

Ainsi, un CI est donné par:(1α)%

12X±Zα/212

Mais, utilisant les résultats de l'exemple 12.8 pour Wasserman, il montre que l' intervalle crédible postérieur pour est donné par:(1α)%θ

cX±cZα/2
.

Où . Ainsi, brancher la valeur à donne et l'intervalle crédible devient:c=τ21+τ2τ2=1c=12

12X±Zα/212

Qui sont exactement les mêmes que l'intervalle de confiance! Donc, tout défaut dans la couverture présentée par la méthode bayésienne, n'est pas corrigé en utilisant l'intervalle de confiance fréquentiste! [Si le fréquentiste choisit d’ignorer le préalable, la comparaison sera alors juste, et le bayésien devra également ignorer ce précédent et utiliser l’ignorance antérieure , et les deux intervalles seront toujours égaux - ].p(θ)1X±Zα/2)

Alors qu'est-ce qui se passe ici? Le problème est essentiellement un problème de non-robustesse de la distribution d'échantillonnage normale. car le problème équivaut à avoir déjà observé une copie de iid, . Si vous avez observé , il est extrêmement peu probable que cela se soit produit si la valeur vraie est (probabilité que lorsque vaut 0,000032). Cela explique pourquoi la couverture est si mauvaise pour les grandes "valeurs vraies", car elles rendent effectivement l'observation implicite contenue dans le précédent une valeur aberrante . En fait, vous pouvez montrer que cet exemple est fondamentalement équivalent à montrer que la moyenne arithmétique a une fonction d’influence non bornée.X=00θ=4X0θ=4

Généralisation. Maintenant, certaines personnes peuvent dire "mais vous n'avez envisagé que , ce qui peut constituer un cas spécial". Ce n'est pas vrai: toute valeur de peut être interprétée comme observant iid copies de qui étaient toutes égales à , en plus du de la question. L'intervalle de confiance aura les mêmes "mauvaises" propriétés de couverture pour les grands . Mais cela devient de plus en plus improbable si vous continuez à observer les valeurs de (et aucune personne rationnelle ne continuerait à s’inquiéter des gros si vous continuez à voir ).τ=1τ2=1N (N=0,1,2,3,)NX0Xθ0θ0

probabilislogic
la source
1
Merci pour l'analyse. AFAICS est-il juste un exemple de problème causé par une hypothèse antérieure incorrecte (informative) et ne dit rien sur la cohérence interne de l'approche bayésienne?
Dikran Marsupial le
1
Non, le préalable n'est pas nécessairement incorrect, à moins que quelqu'un n'ait pas observé la valeur avant de mener l'expérience (ou obtenu des connaissances équivalentes). Cela signifie fondamentalement que, lorsque le vrai devient arbitrairement grand, la probabilité d'observer ces observations implicites devient arbitrairement petite (comme si on obtenait un "échantillon malchanceux"). 0θ
Probistislogic
on peut voir en notant que l'échantillon se compose d'une observation à et un autre à . est fixé (car cela a été observé), mais sera "proche" de dans la plupart des cas. Donc, quand devient grand, la moyenne de l'échantillon s'éloigne de et de , et comme la variance est fixe, la largeur de l'IC est fixe, de sorte qu'elle ne contiendra pas éventuellement ni ni , et donc pas être proche de l'une ou l'autre des deux valeurs probables de (l'une d'elles est aberrante quand elles se séparent, pour fixe )X 0 X θ θ X 00X0XθθX0X0θθ
Probistislogic
10

Le problème commence par votre phrase:

Les exemples basés sur des hypothèses antérieures incorrectes ne sont pas acceptables car ils ne disent rien sur la cohérence interne des différentes approches.

Ouais, comment savez-vous que votre prieur est correct?

Prenons le cas de l'inférence bayésienne en phylogénie. La probabilité d'au moins un changement est liée au temps évolutif (longueur de branche t) par la formule

P=1e43ut

avec u étant le taux de substitution.

Maintenant, vous voulez faire un modèle de l'évolution, basé sur la comparaison des séquences d'ADN. Essentiellement, vous essayez d’estimer un arbre dans lequel vous essayez de modéliser le plus près possible la quantité de changement entre les séquences d’ADN. Le P ci-dessus est la chance d'au moins un changement sur une branche donnée. Les modèles évolutifs décrivent les chances de changement entre deux nucléotides quelconques et la fonction d'estimation est déduite de ces modèles évolutifs, soit avec p en tant que paramètre, soit avec t en tant que paramètre.

Vous n'avez aucune connaissance sensible et vous avez choisi un appartement avant pour p. Cela implique de manière inhérente une priorité décroissante de manière exponentielle pour t. (Cela devient encore plus problématique si vous voulez définir un appartement avant sur t. L'avant implicite sur p dépend fortement de l'endroit où vous avez coupé la plage de t.)

En théorie, t peut être infini, mais lorsque vous autorisez une plage infinie, l'aire sous la fonction de densité est également égale à l'infini. Vous devez donc définir un point de troncature pour le précédent. Maintenant, lorsque vous choisissez un point de troncature suffisamment grand, il n’est pas difficile de prouver que les deux extrémités de l’intervalle crédible augmentent et, à un moment donné, la valeur réelle n’est plus contenue dans cet intervalle. Sauf si vous avez une très bonne idée de la méthode antérieure, les méthodes bayésiennes ne sont pas garanties égales ni supérieures aux autres méthodes.

ref: Joseph Felsenstein: Inférer les phylogénies, chapitre 18

En passant, je commence à en avoir marre de cette querelle Bayesian / Frequentist. Ce sont deux cadres différents et la Vérité Absolue non plus. Les exemples classiques des méthodes pro bayésiennes sont invariants du calcul des probabilités, et pas un fréquentiste ne les contredira. L'argument classique contre les méthodes bayésiennes implique invariablement le choix arbitraire d'un prieur. Et des priors sensibles sont certainement possibles.

Tout se résume à l'utilisation correcte de l'une ou l'autre méthode au bon moment. J'ai vu très peu d'arguments / comparaisons où les deux méthodes ont été appliquées correctement. Les hypothèses de toute méthode sont très sous-estimées et trop souvent ignorées.

EDIT: pour clarifier, le problème réside dans le fait que l'estimation basée sur p diffère de l'estimation basée sur t dans le cadre bayésien lorsque l'on travaille avec des priors non informatifs (ce qui est dans un certain nombre de cas la seule solution possible). Ce n'est pas vrai dans le cadre de ML pour l'inférence phylogénétique. Il ne s'agit pas d'un faux préalable, c'est inhérent à la méthode.

Joris Meys
la source
3
Il est possible de s'intéresser aux différences entre les statistiques bayésiennes et fréquentistes sans que ce soit une querelle. Il est important de connaître les failles ainsi que les avantages de l’approche privilégiée. J'ai spécifiquement exclu les a priori car ce n'est pas un problème de cadre, mais une affaire de GIGO. La même chose s’applique aux statistiques fréquentistes, par exemple en supposant une distribution paramétrique incorrecte pour les données. Ce ne serait pas une critique de la méthodologie fréquentiste, juste de la méthode particulière. BTW, je n'ai pas de problème particulier avec les a priori inappropriés.
Dikran Marsupial le
3
Premier exemple de Jaynes: Pas un statisticien sensé n'utilisera jamais un test F et un test T sur cet ensemble de données. En dehors de cela, il compare un test bilatéral à P (b> a), qui n'est pas la même hypothèse testée. Donc, son exemple n'est pas juste, ce qu'il admet essentiellement plus tard. A côté de cela, vous ne pouvez pas comparer "les frameworks". De quoi parle-t-on alors? ML, REML, LS, méthodes pénalisées, ...? intervalles pour coefficients, statistiques, prédictions, ...? Vous pouvez également demander si le service luthérien est équivalent ou supérieur aux services chiites. Ils parlent du même Dieu.
Joris Meys
Pourriez-vous préciser quelles sont vos données et quels sont les paramètres que vous estimeriez dans votre modèle? Je suis un peu confus sur ce point. Aussi, pourriez-vous s'il vous plaît utiliser $$ au lieu de $ pour centrer la formule? La taille de la police est très petite pour le moment.
@Srikant: L'exemple du livre de Felsensteins est basé sur un modèle de Jukes-Cantor pour l'évolution de l'ADN. Les données sont des séquences d'ADN. Vous souhaitez estimer la probabilité de changement dans votre séquence, qui est liée à la longueur de votre branche en fonction de la formule mentionnée. Les longueurs de branches sont définies comme le temps d'évolution: plus les chances de changement sont grandes, plus le temps écoulé entre l'ancêtre et l'état actuel est long. Désolé, mais je ne peux pas résumer toute la théorie qui sous-tend ML et l’inférence phylogénétique bayésienne en un seul post. Felsenstein avait besoin de la moitié d'un livre pour ça.
Joris Meys
Je suppose que je voulais juste que vous clarifiiez quelles variables dans votre équation étaient des données et lesquelles étaient le paramètre car cela n'était pas clair dans votre message, en particulier à quelqu'un comme moi qui est un outsider. Je suis toujours perdu mais je suppose que je devrais lire le livre pour en savoir plus.
10

Keith Winstein,

EDIT: Juste pour clarifier, cette réponse décrit l'exemple donné dans Keith Winstein Answer sur King avec le jeu statistique cruel. Les réponses bayésienne et Frequentist utilisent toutes deux la même information, à savoir ignorer les informations sur le nombre de pièces justes et injustes lors de la construction des intervalles. Si cette information n'est pas ignorée, le fréquentiste devrait utiliser la vraisemblance bêta-binomiale intégrée comme distribution d'échantillonnage dans la construction de l'intervalle de confiance, auquel cas l'intervalle de confiance de Clopper-Pearson n'est pas approprié et doit être modifié. Un ajustement similaire devrait avoir lieu dans la solution bayésienne.

EDIT: J'ai également clarifié l'utilisation initiale du clopper Pearson Interval.

EDIT: hélas, mon alpha est dans le mauvais sens, et mon intervalle de clopper pearson est incorrect. Mes plus humbles excuses à @whuber, qui l’a correctement souligné, mais avec qui j’ai initialement été en désaccord et ignoré.

Le CI utilisant la méthode Clopper Pearson est très bon

Si vous n'obtenez qu'une observation, alors l'intervalle de Clopper Pearson peut être évalué de manière analytique. Supposons que la pièce apparaisse comme un "succès" (têtes), vous devez choisir tel queθ

[Pr(Bi(1,θ)X)α2][Pr(Bi(1,θ)X)α2]

Lorsque ces probabilités sont et , de sorte que le CI Clopper Pearson implique que (et trivialement toujours vrai ) lorsque . Lorsque ces probabilités sont et ; le CI Clopper Pearson implique donc que ou lorsque . Donc, pour un IC à 95%, on obtient quand , etX=1Pr(Bi(1,θ)1)=θPr(Bi(1,θ)1)=1θα21α2X=1X=0Pr(Bi(1,θ)0)=1Pr(Bi(1,θ)0)=1θ1θα2θ1α2X=0[0.025,1]X=1[0,0.975] lorsque .X=0

Ainsi, celui qui utilise l'intervalle de confiance Clopper Pearson ne sera jamais décapité. Lors de l'observation de l'intervalle, il s'agit essentiellement de tout l'espace des paramètres. Mais l’intervalle CP fait cela en donnant une couverture de 100% à un intervalle supposé de 95%! En gros, les Frequentists "trichent" en donnant un intervalle de confiance de 95% supérieur à la couverture demandée (même si qui ne tricherait pas dans une telle situation? Si c'était moi, je donnerais à l'ensemble [0, 1] intervalle). Si le roi demandait un IC exact à 95%, cette méthode fréquentiste échouerait indépendamment de ce qui s'est réellement passé (peut-être une meilleure existe-t-elle?).

Qu'en est-il de l'intervalle bayésien? (en particulier l'intervalle bayésien des plus hautes postérités postérieures (HPD))

Parce que nous savons a priori que les têtes et les queues peuvent se relever, l’uniforme précédent est un choix raisonnable. Ceci donne une distribution postérieure de . Il ne nous reste plus qu'à créer un intervalle avec une probabilité postérieure de 95%. Semblable au clopper pearson CI, la distribution cumulative bêta est analytique ici aussi, de sorte que et réglant sur 0,95 donne lorsque et lorsque . Donc, les deux intervalles crédibles sont(θ|X)Beta(1+X,2X)Pr(θθe|x=1)=1(θe)2Pr(θθe|x=0)=1(1θe)2θe=0.050.224X=1θe=10.050.776X=0(0,0.776) lorsque et lorsqueX=0(0.224,1)X=1

Ainsi, le Bayésien sera décapité pour son intervalle HPD Credible dans le cas où il obtiendrait la mauvaise pièce et que la pièce Bad se dresserait avec un risque de .11012+1×1100

Première observation, l'intervalle bayésien est inférieur à l'intervalle de confiance. Une autre chose est que le Bayésien serait plus proche de la couverture réelle indiquée, 95%, que le fréquentiste. En fait, le Bayésien est à peu près aussi proche de la couverture de 95% que l'on peut obtenir dans ce problème. Et contrairement à l'affirmation de Keith, si la mauvaise pièce est choisie, 10 Bayésiens sur 100 perdront en moyenne leur tête (pas tous, car la mauvaise pièce doit venir en tête pour que l'intervalle ne contienne pas ). 0.1

Il est intéressant de noter que si l’intervalle CP pour une observation a été utilisé à plusieurs reprises (nous avons donc N intervalles de ce type, basés chacun sur une observation) et que la proportion réelle se situait entre et , la couverture de l’IC à 95% sera toujours de 100. % et pas 95%! Cela dépend clairement de la valeur réelle du paramètre! Il s'agit donc au moins d'un cas où l'utilisation répétée d'un intervalle de confiance ne conduit pas au niveau de confiance souhaité.0.0250.975

Pour citer un véritable intervalle de confiance de 95%, il devrait y avoir par définition des cas (c'est-à-dire au moins un) de l'intervalle observé qui ne contiennent pas la valeur vraie du paramètre . Sinon, comment justifier la balise à 95%? Ne serait-il pas juste valide ou invalide d'appeler cela un intervalle de 90%, 50%, 20% ou même 0%?

Je ne vois pas comment il serait satisfaisant de dire «cela signifie en réalité 95% ou plus» sans restriction complémentaire. En effet, la solution mathématique évidente est l’ensemble de l’espace des paramètres et le problème est trivial. supposons que je veuille un IC à 50%? si elle ne limite que les faux négatifs, alors tout l'espace de paramètre est un CI valide utilisant uniquement ce critère.

Peut-être un meilleur critère est-il (et c'est ce que je crois implicite dans la définition de Kieth) "aussi proche que possible de 95%, sans aller au-dessous de 95%". L'intervalle bayésien aurait une couverture plus proche de 95% que celle du fréquentiste (mais pas beaucoup) et ne passerait pas sous la couverture à 95% (couverture lorsque et couverture lorsque ).100%X=0100×1012+9101012+1%>95%X=1

En conclusion, il semble un peu étrange de demander un intervalle d'incertitude, puis d'évaluer cet intervalle en utilisant la valeur vraie dont nous doutions. Une comparaison "plus juste", tant pour la confiance que pour les intervalles crédibles, me semble être la vérité de la déclaration d'incertitude donnée avec l'intervalle .

probabilislogic
la source
Dans votre premier paragraphe principal, vous semblez avoir confondu et . D'où vient la valeur de 10 ^ 12 + 1? Qu'entendez-vous par "décapité" ?? Ce texte semble nécessiter une relecture et une révision. 1 - αα1α
whuber
α 1 - α1012 correspond au billion de pièces justes et 1 à la pièce injuste. Et je n'ai pas confondu et l'intervalle de Clopper Pearson répertorié [ici] [1]α1α
probabilislogic
[désolé typo] (correction TeX) est pour les milliards de dollars justes, et 1 est pour la pièce injuste, un dessus c'est une approximation approximative. à la probabilité d'avoir la "mauvaise" pièce. La décapitation est la conséquence de donner le mauvais intervalle de confiance. Et je n'ai pas confondu et l'intervalle Clopper Pearson indiqué sur la page du wiki (intervalle de confiance des proportions binomiales dans la recherche). Une partie de l’intervalle CP correspond à une tautologie lors d’une observation. Le côté "bascule" lorsque X = 1 à X = 0, raison pour laquelle il existe et . α 1 - α 1 α1012α1α 1-θθ1α21θθ
probabilitéislogique
Voulez-vous dire la réponse de Keith Winstein?
whuber
@ Whuber, oui, je veux dire la réponse de Keith Winstein.
Probistislogic
8

Les intervalles de confiance Frequentist ont limité le taux de faux positifs (erreurs de type I) et garantissent que leur couverture sera limitée par le paramètre de confiance, même dans le pire des cas. Les intervalles de crédibilité bayésiens ne le sont pas.

Donc, si vous tenez à de faux positifs et que vous devez les lier, l’intervalle de confiance est l’approche que vous souhaitez utiliser.

Par exemple, disons que vous avez un roi diabolique avec une cour de 100 courtisans et courtisanes et qu'il veut jouer à un jeu statistique cruel avec eux. Le roi a un sac d'un billion de pièces justes, plus une pièce injuste dont la probabilité de tête est de 10%. Il va effectuer le jeu suivant. Tout d'abord, il tirera une pièce de façon uniforme au hasard dans le sac.

Ensuite, la pièce sera distribuée dans une pièce de 100 personnes et chacune d'entre elles sera contrainte de faire une expérience dessus, en privé, puis chaque personne indiquera un intervalle d'incertitude de 95% de la probabilité, à son avis, de la tête de la pièce.

Toute personne qui donne un intervalle qui représente un faux positif - c'est-à-dire un intervalle qui ne couvre pas la valeur réelle de la probabilité de tête - sera décapitée.

Si nous voulions exprimer la fonction / a posteriori / probabilité de distribution du poids de la pièce, alors bien sûr, un intervalle de crédibilité est ce qui fait cela. La réponse sera toujours l'intervalle [0.5, 0.5] indépendamment du résultat. Même si vous retournez zéro tête ou une tête, vous direz quand même [0.5, 0.5], car il est beaucoup plus probable que le roi ait tiré une pièce équitable et que vous ayez eu une journée sur 1/1024 avec dix têtes d'affilée. , que le roi a tiré la pièce injuste.

Ce n'est donc pas une bonne idée pour les courtisans et les courtisanes! Parce que lorsque la pièce injuste sera tirée, toute la salle (les 100 personnes) se trompera et toutes se feront décapiter.

Dans ce monde où les faux positifs sont le plus important, nous avons besoin d’une garantie absolue que le taux de faux positifs sera inférieur à 5%, quelle que soit la pièce tirée. Ensuite, nous devons utiliser un intervalle de confiance, comme Blyth-Still-Casella ou Clopper-Pearson, qui fonctionne et fournit une couverture d'au moins 95% quelle que soit la valeur vraie du paramètre, même dans le pire des cas . Si tout le monde utilise cette méthode à la place, quelle que soit la pièce tirée, nous pouvons garantir au bout du compte que le nombre attendu de mauvaises personnes ne sera pas supérieur à cinq.

Le problème est donc le suivant: si votre critère exige la limitation des faux positifs (ou une garantie équivalente), vous devez utiliser un intervalle de confiance. C'est ce qu'ils font. Les intervalles de crédibilité peuvent être un moyen plus intuitif d’exprimer l’incertitude, ils peuvent très bien fonctionner grâce à une analyse fréquentiste, mais ils ne fourniront pas la garantie des faux positifs que vous obtiendrez lorsque vous le demanderez.

(Bien sûr, si vous vous souciez également des faux négatifs, vous aurez besoin d'une méthode offrant des garanties à ce sujet également ...)

Keith Winstein
la source
6
Matière à réflexion, toutefois, l'exemple donné est injuste, car l'approche fréquentiste permet de considérer les coûts relatifs des coûts faux positifs et faux négatifs, mais pas l'approche bayésienne. La bonne chose à faire selon la théorie de la décision bayésienne est de donner un intervalle de [0,1] car il n'y a pas de pénalité associée aux faux négatifs. Ainsi, dans une comparaison des cadres identique, aucun des bayésiens ne serait jamais décapité non plus. La question de la limitation des faux positifs me donne cependant une direction dans laquelle chercher une réponse au défi de Jaynes.
Dikran Marsupial le
1
Notez également que si la pièce sélectionnée est retournée assez souvent, l’intervalle de confiance bayésien finira par être centré sur la fréquence à long terme des têtes de la pièce plutôt que sur la précédente. Si ma vie dépendait de l'intervalle contenant la probabilité réelle d'une tête, je ne lancerais pas la pièce une seule fois!
Dikran Marsupial le
1
Si nous en avons un peu plus parlé, cet exemple n’est pas valide, car le critère utilisé pour mesurer le succès n’est pas le même que celui impliqué par la question posée par le roi. Le problème réside dans la clause "peu importe la pièce qui est tirée", une clause conçue pour intercepter toute méthode qui utilise les connaissances antérieures sur la rareté de la pièce biaisée. En l'occurrence, les Bayesains peuvent également établir des limites (limites du PAC, par exemple). Si on leur avait demandé, cela aurait été le cas et je suppose que la réponse serait la même que l'intervalle Clopper-Pearson. Pour être un test équitable, la même information doit être donnée aux deux approches.
Dikran Marsupial
1
Dikran, il n'est pas nécessaire qu'il y ait des "Bayésiens" et des "Fréquentistes". Ce ne sont pas des écoles de philosophie incompatibles auxquelles on ne peut s’abonner qu’à une seule! Ce sont des outils mathématiques dont l'efficacité peut être démontrée dans le cadre commun de la théorie des probabilités. Mon point est que SI l'exigence est une limite absolue pour les faux positifs, quelle que soit la valeur vraie du paramètre, ALORS un intervalle de confiance est la méthode qui permet d'atteindre cet objectif. Bien sûr, nous sommes tous d’accord sur les mêmes axiomes de probabilité et la même réponse peut être déduite de nombreuses manières.
Keith Winstein
1
La question posée est un peu ambiguë car elle n’indique pas clairement les informations dont disposent les 100 personnes. Connaissent-ils la distribution dans le sac? car s'ils le font, ils "expérimentent" ne rien, on donnerait simplement l'intervalle ou même les deux valeurs et (donne le requis couverture). Si nous savons seulement qu'il y a un sac de pièces dans lequel tirer, le Bayésien spécifiera l'intervalle entier [0,1], car les faux positifs sont tout ce qui compte dans cette question (et la taille de l'intervalle ne le fait pas). [0.1,0.5]0,5 100% 95%0.10.5100%95%
probabilitéislogique
0

existe-t-il des exemples où l'intervalle de confiance fréquentiste est clairement supérieur à l'intervalle crédible bayésien (selon le défi implicitement posé par Jaynes)?

Voici un exemple : le vrai est égal à mais le précédent sur est concentré autour de . Je fais des statistiques pour un essai clinique et mesure le risque de mort, alors le résultat bayésien est un désastre, n'est-ce pas? Plus sérieusement, quel est "l'intervalle" crédible bayésien? En d'autres termes: quel est le préalable sélectionné? Peut-être que Jaynes a proposé un moyen automatique de sélectionner un avant, je ne sais pas!10 θ 1 θθ10θ1θ

Bernardo a proposé un "préalable de référence" à utiliser comme standard pour la communication scientifique [et même un "intervalle de référence crédible" ( Bernardo - régions crédibles objectives )]. En supposant que ce soit "l'approche" bayésienne, la question qui se pose est la suivante: quand un intervalle est-il supérieur à un autre? Les propriétés fréquentistes de l'intervalle bayésien ne sont pas toujours optimales, pas plus que les propriétés bayésiennes de "l'intervalle fréquentiste"
(au fait, quel est "l'intervalle fréquentiste?)

Stéphane Laurent
la source
Je spécule, mais je soupçonne que cette réponse est destinée à recevoir le même traitement que d’autres. Quelqu'un dira simplement qu'il s'agit d'un problème de choix médiocre de la procédure préalable bayésienne, et non d'une faiblesse inhérente, qui, à mon avis, tente en partie de se soustraire à une critique valable.
cardinal
Le commentaire de @ cardinal est tout à fait correct. Le prieur ici est par ordre de grandeur, rendant la critique très faible. L'information préalable importe aussi pour les fréquentistes; ce que l'on sait a priori devrait déterminer, par exemple, quelles estimations et statistiques de test sont utilisées. Si ces choix sont basés sur des informations erronées selon un ordre de grandeur, on peut s'attendre à des résultats médiocres. être bayésien ou fréquentiste n'entre pas en ligne de compte.
Invité
Mon "exemple" n'était pas la partie importante de ma réponse. Mais qu'est-ce qu'un bon choix d'avant? Il est facile d’imaginer un prieur dont le support contient le vrai paramètre mais pas le postérieur; l’intervalle fréquentiste est donc supérieur?
Stéphane Laurent
Cardinal et l'invité ont raison, ma question incluait explicitement "Les exemples basés sur des hypothèses antérieures incorrectes ne sont pas acceptables, car ils ne disent rien sur la cohérence interne des différentes approches." pour une bonne raison. Les tests fréquentistes peuvent être basés sur des hypothèses incorrectes ainsi que sur celles bayésiennes (le cadre bayésien énonce les hypothèses de manière plus explicite); la question est de savoir si le cadre a des faiblesses. De plus, si la valeur vraie était dans le précédent, mais pas la postérieure, cela impliquerait que les observations ont exclu la possibilité que la vraie valeur soit correcte!
Dikran Marsupial
1
Peut-être devrais-je modifier ma réponse et supprimer mon "exemple" - ce n'est pas la partie sérieuse de ma réponse. Ma réponse portait principalement sur la signification de "l'approche" bayésienne. Comment appelez-vous l'approche bayésienne? Cette approche nécessite le choix d’un préalable subjectif ou utilise-t-elle une méthode automatique pour sélectionner un préalable non informatif? Dans le second cas, il est important de mentionner le travail de Bernardo. Deuxièmement, vous n'avez pas défini la relation de "supériorité" entre les intervalles: quand dites-vous qu'un intervalle est supérieur à un autre?
Stéphane Laurent