Johansson (2011) dans « Hail the impossible: p-values, evidence, and vraisemblability » (voici également un lien vers le journal ) déclare que des valeurs de plus faibles sont souvent considérées comme des preuves plus solides contre le nul. Johansson implique que les gens considéreraient les preuves contre le zéro comme plus fortes si leur test statistique produisait une valeur de p de 0,01 , que si leur test statistique produisait une valeur de p de 0,45 . Johansson énumère quatre raisons pour lesquelles la valeur p ne peut pas être utilisée comme preuve contre le null:
- est uniformément distribué sous l'hypothèse nulle et ne peut donc jamais indiquer la preuve de la nullité.
- est conditionné uniquement à l'hypothèse nulle et n'est donc pas adapté pour quantifier les preuves, car les preuves sont toujours relatives dans le sens d'être des preuves pour ou contre une hypothèse par rapport à une autre hypothèse.
- désigne la probabilité d'obtenir des preuves (étant donné la valeur nulle), plutôt que la force des preuves.
- dépend de données non observées et d'intentions subjectives et implique donc, étant donné l'interprétation probante, que la force probante des données observées dépend de choses qui ne se sont pas produites et d'intentions subjectives.
Malheureusement, je ne peux pas obtenir une compréhension intuitive de l'article de Johansson. Pour moi, une valeur de de 0,01 indique qu'il y a moins de chance que la valeur nulle soit vraie, qu'une valeur de p de 0,45 . Pourquoi les valeurs p inférieures ne sont-elles pas des preuves plus solides contre null?
Réponses:
Mon appréciation personnelle de ses arguments:
Sa suggestion d'utiliser le rapport de vraisemblance comme mesure de la preuve est à mon avis une bonne idée (mais ici l'idée d'un facteur Bayes est plus générale), mais dans le contexte dans lequel il l'apporte est un peu particulier: il part d'abord les motifs des tests de Fisherian où il n'y a pas d'hypothèse alternative pour calculer le rapport de vraisemblance. Mais comme preuve contre le Null est Fisherian. Il confond donc Fisher et Neyman-Pearson. Deuxièmement, la plupart des statistiques de test que nous utilisons sont (fonctions de) le rapport de vraisemblance et dans ce cas p est une transformation du rapport de vraisemblance. Comme le dit Cosma Shalizi :p p
Ici est la densité sous l'état "signal" et p ( x ) la densité sous l'état "bruit". La mesure de "suffisamment probable" serait ici P ( q ( X ) / p ( x ) > t o b s ∣ H 0 ) qui est p . Notez que dans les tests Neyman-Pearson corrects, t o b s est remplacé par un t fixe ( s ) tel que Pq(x) p(x) P(q(X)/p(x)>tobs∣H0) p tobs t(s) . P(q(X)/p(x)>t(s)∣H0)=α
la source
La raison pour laquelle des arguments comme celui de Johansson sont si souvent recyclés semble être liée au fait que les valeurs P sont des indices de la preuve par rapport au nul mais ne sont pas des mesures de la preuve. Les preuves ont plus de dimensions qu'aucun nombre unique ne peut mesurer, et il y a donc toujours des aspects de la relation entre les valeurs P et les preuves que les gens peuvent trouver difficiles.
J'ai passé en revue de nombreux arguments utilisés par Johansson dans un article qui montre la relation entre les valeurs de P et les fonctions de vraisemblance, et donc des preuves: http://arxiv.org/abs/1311.0081 Malheureusement, cet article a maintenant été rejeté trois fois, bien que ses arguments et leurs preuves n'aient pas été réfutés. (Il semble que ce soit désagréable pour les arbitres qui ont des opinions comme Johansson plutôt que fausses.)
la source
Ajout à la belle réponse de @ Momo:
la source
Johansson parle-t-il des valeurs de p de deux expériences différentes? Si c'est le cas, la comparaison des valeurs p peut être comme comparer des pommes à des côtelettes d'agneau. Si l'expérience "A" implique un grand nombre d'échantillons, même une petite différence sans conséquence peut être statistiquement significative. Si l'expérience "B" ne concerne que quelques échantillons, une différence importante peut être statistiquement non significative. Pire encore (c'est pourquoi j'ai dit des côtelettes d'agneau et non des oranges), les écailles peuvent être totalement incomparables (psi dans l'un et kwh dans l'autre).
la source