Si le principe de vraisemblance se heurte à la probabilité fréquentiste, alors en rejetons-nous un?

19

Dans un commentaire récemment publié ici, un commentateur a signalé un blog de Larry Wasserman qui souligne (sans aucune source) que l'inférence fréquentiste se heurte au principe de vraisemblance.

Le principe de vraisemblance dit simplement que les expériences produisant des fonctions de vraisemblance similaires devraient produire une inférence similaire.

Deux parties à cette question:

  1. Quelles parties, saveur ou école d'inférence fréquentiste violent spécifiquement le principe de vraisemblance?

  2. S'il y a un affrontement, devons-nous rejeter l'un ou l'autre? Si oui, alors lequel? Je vais suggérer, pour les besoins de la discussion, que si nous devons rejeter quelque chose, nous devons rejeter les parties de l'inférence fréquentiste qui s'affrontent, car Hacking et Royall m'ont convaincu que le principe de vraisemblance est axiomatique.

Michael Lew
la source
2
Je n'ai jamais compris pourquoi le principe de vraisemblance devrait être un axiome.
Stéphane Laurent
6
Salut Stéphane. Le problème est que Birnbaum a prouvé que la vraisemblance est équivalente à deux autres principes si naturels qu'ils devraient nécessairement tenir. Nous avons écrit une courte critique sur ce résultat. Ici: ime.usp.br/~pmarques/papers/redux.pdf
Zen
@Zen Merci. À première vue, je suis en désaccord avec cette phrase écrite sous le principe de conditionnalité: "Ce qui compte, c'est ce qui s'est réellement passé". Je devrais plutôt dire "Ce qui compte, c'est ce qui s'est réellement passé parmi les problèmes qui auraient pu se produire" (désolé si mon anglais n'est pas correct). C'est ce que j'ai affirmé dans ma discussion avec gui11aume: dans un certain sens, le principe de vraisemblance prétend que la conception de l'expérience n'a pas d'importance, et je ne peux pas être d'accord avec ce point.
Stéphane Laurent
1
@Zen Maintenant, j'ai lu plus attentivement votre article. C'est vrai qu'il est difficile d'être en désaccord avec le principe de conditionnalité et le principe d'invariance.
Stéphane Laurent
1
LP n'est pas si populaire de nos jours pour des raisons pratiques. En l'adoptant religieusement, vous évitez d'utiliser des a priori dépendants du modèle tels que les a priori conjugués de Jeffreys et les tests d'hypothèses qui peuvent être utiles dans de nombreux contextes. Je crois que les statistiques, tout comme la physique , ne peuvent pas être axiomatisées de manière significative (bien que cette discussion puisse ressembler à ceci ). Mais il est important d'identifier les avantages et les inconvénients des différents paradigmes.

Réponses:

12

La partie de l'approche fréquentiste qui se heurte au principe de vraisemblance est la théorie des tests statistiques (et le calcul de la valeur p). Il est généralement mis en évidence par l'exemple suivant.

Supposons que deux Frequentist veulent étudier une pièce biaisée, qui fait tourner les «têtes» avec une propabilité inconnue . Ils soupçonne qu'il est sollicité vers « queue », de sorte qu'ils postulent la même hypothèse nulle p = 1 / 2 et la même hypothèse alternative p < 1 / 2 .pp=1/2p<1/2

Le premier statisticien lance la pièce jusqu'à ce que les «têtes» se présentent, ce qui se produit 6 fois. Le second décide de lancer la pièce 6 fois et n'obtient qu'une seule tête dans le dernier lancer.

Selon le modèle du premier statisticien, la valeur de p est calculée comme suit:

p(1p)5+p(1p)6+...=p(1p)511p=p(1p)4.

Selon le modèle du deuxième statisticien, la valeur de p est calculée comme suit:

(61)p(1p)5+(60)(1p)6=(5p+1)(1p)5.

En remplaçant par , le premier trouve une valeur p égale à , le second trouve une valeur p égale à .1 / 2 1 / 2 5 = 0,03125 sept / 2 × 1 / 2 5 = 0,109375p1/21/25=0.031257/2×1/25=0.109375

Donc, ils obtiennent des résultats différents parce qu'ils ont fait des choses différentes, non? Mais selon le principe de vraisemblance , ils devraient arriver à la même conclusion. En bref, le principe de vraisemblance stipule que la vraisemblance est tout ce qui compte pour l'inférence. Ainsi, le choc vient du fait que les deux observations ont la même probabilité, proportionnelle à (la probabilité est déterminée jusqu'à une constante de proportionnalité).p(1p)5

Pour autant que je sache, la réponse à votre deuxième question est davantage une opinion débattue. J'essaie personnellement d'éviter d'effectuer des tests et de calculer les valeurs de p pour la raison ci-dessus, et pour d'autres expliqués dans ce blog .

EDIT: Maintenant que j'y pense, les estimations de par intervalles de confiance seraient également différentes. En fait, si les modèles sont différents, l'IC diffère par sa construction.p

gui11aume
la source
1
J'ai l'impression que le principe de vraisemblance est manifestement violé dans les statistiques fréquentistes (tests d'hypothèses, intervalles de confiance) parce que nous prenons en considération la probabilité de chaque résultat possible, pas seulement la probabilité basée sur le résultat réel. Droite ?
Stéphane Laurent
@ Stéphane Laurent oui, c'est aussi comme ça que je le comprends. James Berger a une belle citation dans Statistical Decision Theory and Bayesian Analysis , qui dit que le Frequentist rejette parfois l'hypothèse à cause de données qui n'ont jamais été observées (cela sonne mieux, mais je ne m'en souviens pas).
gui11aume
Merci, gui11aume. Ai-je raison d'interpréter cela comme un exemple où la «signification» des valeurs de P varie selon l'intention de l'expérimentateur? Je suppose que c'est le cas lorsque les valeurs P sont interprétées comme une sorte de seuil d'erreur de taux de faux positifs, car elles devraient être uniformément réparties sous l'hypothèse nulle? Est-ce nécessaire avec l'approche de Fisher où les valeurs P sont présentées comme des indices de la force des preuves?
Michael Lew
4
(+1) Ce type de divergences apparaît généralement lorsqu'une règle d'arrêt est impliquée dans l'un des modèles.
1
@Scortchi En fait, je me suis trompé en pensant que l'une des valeurs P pointe vers la fonction de vraisemblance correcte et l'autre non: elles pointent toutes les deux vers la même fonction de vraisemblance qui présente les preuves pertinentes pour la probabilité des têtes. Vous devez ignorer les deux dernières phrases de mon commentaire précédent. (Je ne peux pas le modifier, n'est-ce pas?)
Michael Lew
4

J'aime l'exemple de @ gui11aume (+1), mais il peut donner l'impression que la différence entre deux valeurs ne se produit qu'en raison des différentes règles d'arrêt utilisées par les deux expérimentateurs.p

En fait, je pense que c'est un phénomène beaucoup plus général. Considérez le deuxième expérimentateur dans la réponse de @ gui11aume: celui qui lance une pièce six fois et observe les têtes uniquement lors du dernier lancer. Les résultats ressemblent à ça: quelle est la valeur ? L'approche habituelle consisterait à calculer la probabilité qu'une pièce équitable aboutisse à une ou plusieurs têtes. Il y a possibilités sur un total de avec une ou plusieurs têtes, d'où le .p 7 64 p = 7 / 64 0,109

TTTTTH,
p764p=7/640.109

Mais pourquoi ne pas prendre une autre statistique de test ? Par exemple, dans cette expérience, nous avons observé cinq queues d'affilée. Prenons la longueur de la plus longue séquence de queues comme statistique de test. Il y a possibilités avec cinq ou six queues de suite, donc .p = 3 / 64 0,0473p=3/640.047

Donc, si dans ce cas le taux d'erreur était fixé à , le choix de la statistique de test peut facilement rendre les résultats significatifs ou non, et cela n'a rien à voir avec les règles d'arrêt en soi .α=0.05


Partie spéculative

Maintenant, philosophiquement, je dirais que le choix fréquentiste de la statistique de test est en quelque sorte vague similaire au choix bayésien de prior. Nous choisissons l'une ou l'autre statistique de test parce que nous pensons que la pièce injuste se comporterait de telle ou telle manière (et nous voulons avoir le pouvoir de détecter ce comportement). N'est-ce pas similaire à mettre la priorité sur les types de pièces?

Dans l'affirmative, le principe de vraisemblance selon lequel tous les éléments de preuve sont dans la vraisemblance ne s'oppose pas aux valeurs de , car la valeur de n'est alors pas seulement la "quantité de preuves". C'est "une mesure de surprise", mais quelque chose ne peut être une mesure de surprise que si cela explique ce qui nous surprendrait! La valeur tente de combiner en une seule quantité scalaire à la fois les preuves et une sorte d'anticipations antérieures (comme représenté dans le choix de la statistique de test). Dans l'affirmative, il ne faut pas la comparer à la vraisemblance elle-même, mais peut-être plutôt à la postérieure?p pppp

Je serais très intéressé d'entendre quelques opinions sur cette partie spéculative, ici ou sur le chat.


Mise à jour après discussion avec @MichaelLew

Je crains que mon exemple ci-dessus ne soit à la hauteur de ce débat. Le choix d'une statistique de test différente entraîne également un changement dans la fonction de vraisemblance. Ainsi, deux valeurs différentes calculées ci-dessus correspondent à deux fonctions de vraisemblance différentes, et ne peuvent donc pas être un exemple de "conflit" entre le principe de vraisemblance et les valeurs . La beauté de l'exemple de @ gui11aume est que la fonction de vraisemblance reste exactement la même, même si les valeurs diffèrent.p pppp

Je dois encore réfléchir à ce que cela signifie pour ma partie "spéculative" ci-dessus.

amibe dit réintégrer Monica
la source
Pensées intéressantes. Oui, je suis d'accord qu'il ne doit pas y avoir de conflit entre les valeurs LP et P tant que les valeurs P ne sont pas interprétées comme des preuves de la même manière que la fonction de vraisemblance. La fonction de vraisemblance contient les preuves pertinentes pour le paramètre d'intérêt étant donné le modèle statistique . Lorsque vous modifiez la statistique de test, vous modifiez le modèle, de sorte que la fonction de vraisemblance pour votre modèle alternatif sera (enfin, peut) différer de la fonction de vraisemblance pour l'original.
Michael Lew
Michael, je ne sais pas exactement ce que "modèle statistique" signifie, mais une probabilité avec une pièce n'est-elle pas déjà un modèle? Comment la modification des statistiques de test modifie-t-elle le modèle? p
Amoeba dit Reinstate Monica
En dehors de cela, j'ai trouvé cette question parce que je relisais votre papier "To P or not to P" (et googlé "principe de vraisemblance"). J'aime généralement le papier, mais je suis complètement dérouté par la section 4.4. Vous écrivez que les valeurs de p ne doivent pas être "ajustées" en tenant compte des règles d'arrêt; mais je ne vois aucun ajustement dans les formules 5-6. Quelles seraient les valeurs de p "non ajustées"? Voulez-vous dire que l'un d'eux est ajusté et un autre non? Si oui, lequel et pourquoi pas l'inverse?
Amoeba dit Reinstate Monica
Le modèle statistique est souvent ignoré ou tacitement supposé invariant. Cependant, pour les pièces, il inclut une probabilité fixe inconnue de têtes, une sélection aléatoire d'observations et, pour la statistique de test tête hors essais, la distribution binomiale des résultats possibles. Je ne sais pas quelle est la distribution des résultats pour les statistiques de test de queues dans une rangée mais je pense que c'est différent. Même si c'est le même, le modèle qui a votre statistique de test n'est pas le même modèle que l'original et donc la fonction de vraisemblance peut être différente même si elle contient toutes les preuves.
Michael Lew
J'ai presque fini de retravailler complètement ce papier. Il est pertinent pour cette discussion mais n'est pas encore prêt à être soumis. (Est-ce le chat?)
Michael Lew