Un exemple où le principe de vraisemblance * compte vraiment *?

20

Existe-t-il un exemple où deux tests défendables différents avec des probabilités proportionnelles conduiraient à des inférences nettement différentes (et également défendables), par exemple, où les valeurs de p sont de l'ordre de grandeur très éloignées, mais le pouvoir des alternatives est similaire?

Tous les exemples que je vois sont très stupides, comparant un binôme à un binôme négatif, où la valeur de p du premier est de 7% et du second de 3%, qui sont "différents" seulement dans la mesure où l'on prend des décisions binaires sur des seuils arbitraires d'importance comme 5% (qui, soit dit en passant, est une norme assez faible pour l'inférence) et ne prennent même pas la peine de regarder la puissance. Si je modifie le seuil de 1%, par exemple, les deux aboutissent à la même conclusion.

Je n'ai jamais vu d'exemple où cela conduirait à des inférences nettement différentes et défendables . Existe-t-il un tel exemple?

Je demande parce que j'ai vu beaucoup d'encre dépensée sur ce sujet, comme si le principe de vraisemblance était quelque chose de fondamental dans les fondements de l'inférence statistique. Mais si le meilleur exemple que l'on a est des exemples stupides comme celui ci-dessus, le principe semble complètement sans conséquence.

Ainsi, je cherche un exemple très convaincant, où si l'on ne suit pas la LP, le poids de la preuve pointerait massivement dans une direction, étant donné un test, mais, dans un test différent avec une probabilité proportionnelle, le poids de la preuve serait être écrasante dans une direction opposée, et les deux conclusions semblent raisonnables.

Idéalement, on pourrait démontrer que nous pouvons avoir des réponses arbitrairement éloignées, mais raisonnables, comme des tests avec contre avec des probabilités proportionnelles et une puissance équivalente pour détecter la même alternative.p=0.1p=1010

PS: la réponse de Bruce ne répond pas du tout à la question.

statslearner2
la source
5
Lors des tests de signification, on peut toujours changer la décision en modifiant le seuil. Pourriez-vous donc expliquer ce que vous entendez par «nettement», «idiot» ou «convaincant»? BTW, vous semblez lire l'article de Wikipedia .
whuber
2
Bienvenue sur CV, @statslearner. Pouvez-vous donner un exemple d'une ou plusieurs approches spécifiques de l'inférence qui n'utilisent pas le principe de vraisemblance que vous aimeriez voir contrasté?
Alexis
1
@whuber, idéalement, je voudrais voir que vous pouvez construire des réponses arbitrairement différentes telles que, si vous voulez utiliser des valeurs de p, quelque chose comme contre p = 10 - 5 , et les deux calculs semblent toujours défendables. p=0.5p=105
statslearner2
3
Je ne peux pas suivre ce commentaire car n'a aucun sens. Quoi qu'il en soit, avez-vous envisagé de simplement changer les chiffres donnés dans l'exemple Wikipedia? p=105
whuber
6
La différence significative avec les implications pratiques est le traitement des règles d'arrêt: sous le LP, elles n'ont pas d'importance, en dehors du LP qu'elles font. Consultez Berger et Wolpert (1987) pour plus de détails.
Xi'an

Réponses:

7

Pensez à une situation hypothétique où une hypothèse ponctuelle nulle est vraie, mais on continue l'échantillonnage jusqu'à p<0.05 (cela se produira toujours tôt ou tard, c'est-à-dire que cela se produira avec la probabilité 1), puis décide d'arrêter l'essai et de rejeter la valeur nulle. Il s'agit d'une règle d'arrêt certes extrême, mais considérez-la pour le bien de l'argument.

Cette procédure idiote aura un taux d'erreur de 100% de type I, mais il n'y a rien de mal à cela selon le principe de vraisemblance.

Je dirais que cela compte comme «vraiment» important. Vous pouvez bien sûr choisir n'importe quel α dans cet argument. Les Bayésiens peuvent utiliser un seuil fixe sur le facteur Bayes s'ils le souhaitent. La même logique s'applique. La principale leçon ici est que vous ne pouvez pas adhérer à LP et avoir une garantie de taux d'erreur. Il n'y a pas de repas gratuit.

amibe dit réintégrer Monica
la source
4
Je pensais aussi à cet exemple. Mais je ne l'ai pas mentionné car il est en effet débile. Mais en réalité, c'est ce qui se passe dans la pratique de manière indirecte et informelle.
Sextus Empiricus
1
Quelles sont les 2 statistiques et leur probabilité dans votre exemple? Dans le nég. binôme vs cas binomial nous avons: 1) statistiques 1, nombre d'essais jusqu'à 3 têtes, vraisemblablement nég binomial; 2) statistiques 2, nombre de têtes dans n essais, comme binôme de hotte. Dans votre exemple, je ne vois pas quelles sont les deux statistiques et si elles ont des probabilités proportionnelles.
statslearner2
1
Dans votre exemple, il s'agirait probablement de "nombre d'essais jusqu'à p <0,05", dont je doute fort qu'il soit proportionnel au binôme, donc je ne suis pas sûr que votre exemple soit valide, Amoeba.
statslearner2
1
Je ne pense pas que le principe de vraisemblance dise "il n'y a rien de mal à cela". Le principe de vraisemblance filtre les mauvaises procédures. Le fait que la procédure n'obéit pas au principe de vraisemblance n'est pas la même chose qu'elle est approuvée par le principe de probabilité. Une analyse bayésienne de ce problème de test séquentiel, qui obéit bien sûr au principe de vraisemblance, a des propriétés parfaitement fines, car elle ne mettra pas en œuvre la procédure "idiote" que vous décrivez.
mec
3
@amoeba considérons sous l'alternative ou θ = 0 sous le nul, avec Y iN ( θ , 1 ) . Il est facile de montrer que le logarithme du facteur Bayes est à peu près 1θN(0,τ1)θ=0YiN(θ,1)Znest lastatistique de testZhabituelle. Rejeter lorsque le facteur Bayes est supérieur à1équivaut alors à rejeter lorsque| Zn| >O(12[log(τ/n)+Zn2]ZnZ1. Sous le nul, cela n'est pas garanti de se produire dans le cadre des tests séquentiels (cf. la loi du logarithme itéré); par conséquent, la procédure bayésienne ne sera pas victime du problème que vous avez décrit. |Zn|>O(logn)
gars
4

Avis de non-responsabilité: je crois que cette réponse est au cœur de tout l'argument, donc cela vaut la peine d'être discuté, mais je n'ai pas complètement exploré la question. En tant que tel, je me réjouis des corrections, des améliorations et des commentaires.

L'aspect le plus important concerne les données collectées séquentiellement. Par exemple, supposons que vous ayez observé des résultats binaires et que vous ayez vu 10 succès et 5 échecs. Le principe de vraisemblance dit que vous devriez arriver à la même conclusion sur la probabilité de succès, que vous ayez collecté des données jusqu'à ce que vous ayez eu 10 succès (binôme négatif) ou que vous ayez mené 15 essais, dont 10 succès (binôme) .

Pourquoi est-ce important?

Parce que selon le principe de vraisemblance (ou du moins, une certaine interprétation de celui-ci), il est tout à fait correct de laisser les données influencer lorsque vous allez arrêter de collecter des données, sans avoir à modifier vos outils d'inférence.

Conflit avec les méthodes séquentielles

L'idée que l'utilisation de vos données pour décider quand arrêter de collecter des données sans modifier vos outils inférentiels va complètement à l'encontre des méthodes traditionnelles d'analyse séquentielle. L'exemple classique est celui des méthodes utilisées dans les essais cliniques. Afin de réduire l'exposition potentielle à des traitements nocifs, les données sont souvent analysées à des moments intermédiaires avant l'analyse. Si l'essai n'est pas encore terminé, mais les chercheurs disposent déjà de suffisamment de données pour conclure que le traitement fonctionne ou est nocif, l'éthique médicale nous dit que nous devons arrêter l'essai; si le traitement fonctionne, il est éthique d'arrêter l'essai et de commencer à mettre le traitement à la disposition des patients non soumis à l'essai. S'il est nocif, il est plus éthique d'arrêter afin que nous arrêtions d'exposer les patients de l'essai à un traitement nocif.

Le problème est maintenant que nous avons commencé à faire des comparaisons multiples, nous avons donc augmenté notre taux d'erreur de type I si nous ne modifions pas nos méthodes pour tenir compte des comparaisons multiples. Ce n'est pas tout à fait la même chose que les problèmes de comparaisons multiples traditionnels, car il s'agit vraiment de comparaisons partielles multiples (c'est-à-dire que si nous analysons les données une fois avec 50% des données collectées et une fois avec 100%, ces deux échantillons ne sont clairement pas indépendants!) , mais en général, plus nous effectuons de comparaisons, plus nous devons modifier nos critères de rejet de l'hypothèse nulle pour préserver le taux d'erreur de type I, avec plus de comparaisons prévues nécessitant plus de preuves pour rejeter la valeur nulle.

Cela place les chercheurs cliniques dans un dilemme; voulez-vous vérifier fréquemment vos données, mais augmentez ensuite vos preuves requises pour rejeter la nullité, ou voulez-vous vérifier rarement vos données, augmenter votre pouvoir mais potentiellement ne pas agir de manière optimale en matière d'éthique médicale (c.-à-d. retarder la mise sur le marché du produit ou exposer les patients inutilement longtemps à un traitement nocif).

Je comprends (peut-être à tort) que le principe de vraisemblance semble nous dire que peu importe le nombre de fois où nous vérifions les données, nous devons faire la même déduction. Cela signifie essentiellement que toutes les approches de la conception des essais séquentiels sont totalement inutiles; utilisez simplement le principe de vraisemblance et arrêtez-vous une fois que vous avez collecté suffisamment de données pour tirer une conclusion. Comme vous n'avez pas besoin de modifier vos méthodes d'inférence pour ajuster le nombre d'analyses que vous avez préparées, il n'y a pas de dilemme de compromis entre le nombre de vérifications et la puissance. Bam, tout le domaine de l'analyse séquentielle est résolu (selon cette interprétation).

Personnellement, ce qui est très déroutant pour moi, c'est qu'un fait bien connu dans le domaine de la conception séquentielle, mais assez subtil, est que la probabilité de la statistique de test final est largement modifiée par la règle d'arrêt; fondamentalement, les règles d'arrêt augmentent la probabilité de manière discontinue aux points d'arrêt. Voici un tracé d'une telle distorsion; la ligne pointillée est le PDF de la statistique de test finale sous la valeur nulle si les données ne sont analysées qu'après la collecte de toutes les données, tandis que la ligne continue vous donne la distribution sous la valeur nulle de la statistique de test si vous vérifiez les données 4 fois avec une donnée donnée règle.

Cela dit, je crois comprendre que le principe de vraisemblance semble impliquer que nous pouvons jeter tout ce que nous savons sur la conception séquentielle Frequentist et oublier combien de fois nous analysons nos données. De toute évidence, les implications de cela, en particulier pour le domaine des modèles cliniques, sont énormes. Cependant, je n'ai pas réfléchi à la façon dont ils justifient d'ignorer comment les règles d'arrêt modifient la probabilité de la statistique finale.

Une discussion légère peut être trouvée ici , principalement sur les diapositives finales.

Cliff AB
la source
2
+1. Je trouve conceptuellement plus facile de penser à une situation hypothétique lorsque l'hypothèse nulle est vraie mais on continue à échantillonner jusqu'à (ce mur arrive toujours tôt ou tard, c'est-à-dire qu'il arrivera avec la probabilité 1) et décide alors d'arrêter l'essai. Cette procédure idiote aura un taux d'erreur de 100% de type I, même si elle est conforme à la LP. p<0.05
amibe dit Réintégrer Monica
@amoeba: Je suis d'accord que votre exemple est assez simple (+1). Le but de ma réponse est de souligner pourquoi y a-t-il même une discussion. Je pense que la réponse est que si les implications et les interprétations de la LP étaient correctes, cela signifierait que les essais cliniques n'auraient plus à choisir entre une puissance maximale et une exposition inutile, ce qui serait un gain absolument énorme. En général, cela libérerait également les chercheurs de la nécessité de deviner à l'avance la taille appropriée de l'échantillon, ce qui améliore considérablement l'utilité des tests statistiques.
Cliff AB
Eh bien, je pense que tout le cadre des tests fréquentistes est incompatible avec le LP, et c'est exactement comme ça. On utilise des tests fréquentistes si l'on veut une garantie sur les taux d'erreur. Il s'avère que cela est incompatible avec LP. Voir aussi le paradoxe de Lindley et tout ça. Eh bien, difficile. J'étais excité par ces questions, mais maintenant je ne le suis plus. Il n'y a pas de repas gratuit; il faut faire des choix. Notez que de nombreuses procédures bayésiennes violent également LP .
amibe dit Réintégrer Monica
"la probabilité de la statistique de test finale est largement modifiée par la règle d'arrêt" Le pdf est modifié, ainsi que la probabilité (mais uniquement par une constante), mais vous pouvez toujours vous retrouver avec une fonction de vraisemblance qui est la même jusqu'à constante de proportionnalité. Par exemple, la distribution binomiale et la distribution binomiale négative pour succès et n essais ont toutes deux une probabilité L ( p | n , k ) qui est proportionnelle à p k p n - kknL(p|n,k)pkpnk
Sextus Empiricus
3

Aperçu des tests LR pour les données exponentielles.

Soit X1,X2,,Xn un échantillon aléatoire de Exp(rate=λ), sorte que E(Xi)=μ=1/λ. Pour x>0, la fonction de densité est f(x)=λeλx et le CDF est F(x)=1eλx.

1. La statistique de test est un échantillon minimum.

Soit V=X(1)=minn(Xi).Alors VExp(nλ).Comme contour de la preuve,

P(V>v)=P(X1>v,,Xn>v)=[eλv]n=enλv,
sorte queP(Vv)=1enλv,pourv>0.

Pour tester H9:μμ0 contre Ha:μ>μ0, au niveau α=5%, nous considérons V comme une observation unique à partir de sa distribution exponentielle. Nous constatons que le rapport de vraisemblance log indique le rejet lorsque V>c,P(V>c|μ=μ0)=0.05.

Pour le cas spécifique dans lequel n=100 et μ0=10,λ0=0.1, on a vitesse exponentielle10=n/μ0=100/10=10, de sorte quec=0.2295 à partir de R, où la distribution exponentielle est paramétrée par la vitesse.

 qexp(.95, 10)
 [1] 0.2995732
 1 - pexp(0.2996, 10)
 [1] 0.04998662

En conséquence, la puissance par rapport à l'alternative μa=100 (taux n/μa=1) est d'environ 74%.

1 - pexp(0.2996, 1)
[1] 0.7411146

2. La statistique de test est la moyenne de l'échantillon.

Les notes de classe d'Oxford U. (deuxième page) montrent que le test du rapport de vraisemblance de H0:μμ0 contre H0:μ>μ0 au niveau de 5% de rejet de signification pour X¯>c,P(X¯>c|μ=μ0)=0.5. Furthermore, one can show using moment generating functions that X¯Gamma(n,nλ).

For the specific case in which n=100 and μ0=10,λ0=0.1, we have X¯Gamma(100,10), so that c=11.7.

qgamma(.95, 100, 10)
[1] 11.69971
1 - pgamma(11.7, 100, 10)
[1] 0.04997338

Accordingly, power against the alternative μa=14 is about 95.6%.

1 - pgamma(11.7, 100, 100/14)
[1] 0.9562513

Clearly, for purposes of testing hypotheses about the exponential mean μ, the information in the sufficient statistic X¯ is much greater than the information in the sample minimum.

BruceET
la source
I don't think this address the question at all.Are the two likelihoods proportional? You first need to show the likelihood of the two experiments are proportional, otherwise the likelihood principle does not apply. Second, in this example the two tests lead to the same conclusion, so it's even more underwhelming than the example of the binomial versus negative binomial.
statslearner2
I just checked the document, the likelihoods are not proportional, since the first likelihood has v in the exponent and the other has xi, thus the likelihood principle should not apply here, it's fine for the two tests to lead to different conclusions according to the likelihood principle.
statslearner2
2
Bruce, just to clarify what the liklihood principle states: it says that if you have two experiments where the likelihoods differ only by a constant, then you should derive the same conclusion from them. This happens in the binomial versus negative binomial case, where they differ only in the binomial coefficient part (constant). Your example shows two tests where their likelihoods do not differ only by a constant, so the LP does not apply.
statslearner2
@statslearner2 the likelihood function for observing a sample x1,...,xn is:
f(x1,...,xn)=i=1nλeλxi
This is the same whether you select the minimum or the mean as a criteria to perform the test. The violation that occurs here can be seen as the type in which the definition of 'extreme cases' is different and the integration to compute the p-value is done differently.
Sextus Empiricus
3

Violation by different pdf functions f(x,θ) and g(x,θ)

This case will be an example of 'violation' because the probability distribution functions f(x,θ) g(x,θ) are intrinsically different. Even when f and g, differ, they may relate to the likelihood principle because at fixed measurement x they give the same functions of θ up to scaling. The difference, opens up a possibility for "violations".


The coin flip with or without optional stopping rule

The coin flip with or without optional stopping rule is a typical example, the pdf is binomial or negative binomial which are different pdf functions and lead to different calculation of p-values, and confidence intervals, but they lead to the same likelihood functions for fixed sample/measurement (up to scaling).

fNegative Binomial(n|k,p)=(n1k1)pk(1p)nkfBinomial(k|n,p)=(nk)pk(1p)nk


More extreme example

Consider some measurement of X which is distributed as

L(θ|x)=f(x|θ)={0 if x<0a if 0x<1(1a)θexp(θ(x1)) if x1

where a is some known parameter that depends on the type of experiment, and θ is some parameter that may be unknown and could be inferred from the measurement x.

For any given x and a the likelihood function is proportional to the same function that is independent from a:

  • If x<1 then L(θ|x)1
  • If x1 then L(θ|x)θexp(θ(x1))

But, albeit the same likelihood function, the p-value can vary widely depending on the experiment (ie the value of a). For instance when you measure x=2 and test H0:θ=1 against H0:θ<1 then the p-value is

P(X>2|θ=1)=(1a)exp(1)


Intuition: The reason for violation in these cases is that p-values and hypothesis tests are not solely based on the likelihood function for the particular observed value x.

The p-value is not calculated from the likelihood f(θ|x) with x fixed, but with the pdf f(x|θ) with θ fixed which is a different slice. Confidence intervals, p-value, and hypothesis tests, are different things than the information from likelihood ratios.

p-values are not really evidence: The p-value relates to type I error which is a measure that relates to an ensemble of measurements rather than to a single measurement. This type I error or p-value is not the same as 'evidential meaning' from Birnbaums 'foundations of statistical evidence'. This relates a lot to the problems with p-values and scientist searching for outcomes solely with statistical significance rather than important effects.

Do we need examples where inferences are markedly different? The extreme case is a contrived example. Such a case, or anything with a similar extreme difference, is of course not occurring easily in practice. It is more often the case that the difference will be small such as in the cases that you refer to as silly.

To ask for examples where the likelihood principle 'really matters', or where two different inferences lead to extremely different results, is a bit of a loaded question. At least when the intention for this question relates to some philosophical argument. It is a loaded question because it presupposes that principles that matter should lead to extremely varying results. In many practical cases the results are however small (in terms of different p-values less than an order). I believe that this is not a strange for two different, but both plausible, methods to result in more or less similar results. I would consider the likelihood principle not to be 'less violated' when the differences are only small.

Sextus Empiricus
la source
Regarding Case 1: I think choosing a different test statistic can (should?) be seen as changing the likelihood function.
amoeba says Reinstate Monica
2
@MartijnWeterings yes it is choosing a different test statistics, what matters is the likelihood of the statistics, not of the data. Otherwise I can take a sequence of 100 flips and compute several statsistics: number of runs of heads, number of alternations of heads and tails. None of this violates the LP.
statslearner2
You need to pick two statistics that will have proportional likelihoods, such as the number of trials until 3 success or the number of successes in n trials etc.
statslearner2
1

Here is an example adapted from Statistical decision theory and Bayesian analysis by James O. Berger (Second edition page 29).

Say that two species of wasps can be distinguished by the number of notches on the wings (call this x) and by the number of black rings around the abdomen (call this y). The distribution of the characters in the two species (labelled H0 and H1) are as follows:

Table adapted from Statistical decision theory and Bayesian analysis by James O. Berger.

Say that we find a specimen with 1 notch on the wings and 1 ring around the abdomen. The weight of evidence if 100 times bigger in favor of H1 against H0 for both characters.

Now if someone wanted to set up a test for H0 at 5% level, the decision rule would be for the first character “accept H0 if there is 1 notch on the wing, otherwise reject it”, and for the second character “accept H0 if there are 3 rings around the abdomen, otherwise reject it”. There are many other possibilities, but these ones are most powerful tests at this level. Yet, they lead to different conclusions for both characters.


Note: one could of course set up a test with the rule “accept H0 if there are 1 or 3 rings around the abdomen, otherwise reject it”. The question is whether we prefer a test at 5% level with type II risk 0, or a test at 4.9% level with type II risk 0.00001. The difference is so small that we would probably not care, but as I understand it, this is the core of the argument for the likelihood principle: it is not a good idea to make the result depend on something that seems irrelevant.


The likelihood functions are proportional, and yet the p-value of x=1 is 0.95, and that of y=1 is 0.001 (assuming that we reject H0 with events of the form yα). It is obvious from the structure of the table that I could have chosen any number smaller than 0.001. Also, the type II risk of the rejection is 0, so it looks like there is nothing “wrong” here.

Still, I admit that this example is somewhat contrived and not completely honest because it plays with the difficulty of arranging tests with discrete data. One could find equivalent examples with continuous data but they would be even more contrived. I agree with the OP that the likelihood principle has almost no practical value; I interpret it as a principle to guarantee some consistency within the theory.

gui11aume
la source