Pour certains tests R
, il existe une limite inférieure sur les calculs de valeur p de . Je ne sais pas pourquoi c'est ce nombre, s'il y a une bonne raison à cela ou si c'est simplement arbitraire. Beaucoup d'autres logiciels de statistiques vont juste à , donc c'est un niveau de précision beaucoup plus élevé. Mais je n’ai pas vu trop d’articles rapportant ou .0.0001
Est-ce une pratique courante / meilleure de rapporter cette valeur calculée ou est-il plus typique de signaler autre chose (comme p < 0.000000000000001
)?
...But I haven't seen too many papers reporting p<2.22⋅10−16....
Voir certains articles sur GWAS . Plusieurs articles présentent des résultats pour des valeurs de pence par centaines, par exemple: Région KLK du cancer de la prostate, p = 9x10 ^ -186.Réponses:
Il y a une bonne raison pour cela.
La valeur peut être trouvée via
noquote(unlist(format(.Machine)))
Si vous regardez l'aide, (
?".Machine"
):Il s'agit essentiellement d'une valeur en dessous de laquelle vous pouvez être certain que la valeur n'aura pas de sens numérique, en ce sens qu'une valeur plus petite ne sera probablement pas un calcul précis de la valeur que nous tentions de calculer. (Après avoir étudié un peu d'analyse numérique, en fonction des calculs effectués par la procédure spécifique, il y a de fortes chances que l'absence de signification numérique vienne bien au-delà de cela.)
Mais la signification statistique aura été perdue bien plus tôt. Notez que les valeurs p dépendent d’hypothèses. Plus vous avancez dans l’extrême extrême, plus la valeur p réelle (plutôt que la valeur nominale calculée) sera affectée par les hypothèses erronées, même dans certains cas 'ai seulement un peu tort. Etant donné que les hypothèses ne seront tout simplement pas toutes exactement satisfaites, les valeurs p moyennes peuvent être raisonnablement précises (en termes de précision relative, peut-être seulement par une fraction modeste), mais des valeurs p extrêmement petites peuvent être exclues par de nombreux ordres de ordre de grandeur.
C’est-à-dire que la pratique habituelle (quelque chose comme le "<0.0001" que vous dites est courant dans les paquets, ou la règle APA que Jaap mentionne dans sa réponse) n’est probablement pas si éloignée de la pratique sensée, mais du point approximatif où perdre du sens au-delà de dire « c'est très très petit » variera bien sûr beaucoup en fonction des circonstances.
C’est une des raisons pour lesquelles je ne peux pas suggérer de règle générale - il ne peut y avoir une règle unique qui convient même à distance à tout le monde dans toutes les circonstances - changez légèrement les circonstances et la large ligne grise qui marque le changement de plutôt significatif à relativement le sens va changer, parfois par un long chemin.
Si vous deviez spécifier suffisamment d'informations sur les circonstances exactes (par exemple, c'est une régression, avec cette non-linéarité, cette variation dans cette variable indépendante, ce type et ce degré de dépendance dans le terme d'erreur, ce type et ce montant d'hétéroscédasticité, cette forme de distribution d’erreurs), je pouvais simuler de «vraies» valeurs p pour que vous puissiez les comparer avec les valeurs p nominales, afin que vous puissiez voir quand elles étaient trop différentes pour que la valeur nominale ait un sens.
Mais cela nous amène à la deuxième raison pour laquelle, même si vous aviez spécifié suffisamment d'informations pour simuler les vraies valeurs p, je ne pouvais toujours pas déclarer de manière responsable une limite, même dans ces circonstances.
Ce que vous rapportez dépend des préférences des personnes - des votres et de votre public. Imaginez que vous m'en ayez suffisamment parlé des circonstances pour que je décide de tracer la ligne à un nominal de .10 - 6p 10−6
On pourrait penser que tout va bien - sauf votre propre fonction de préférence (ce qui vous convient si vous examiniez la différence entre les valeurs p nominales données par les packages de statistiques et celles résultant de la simulation lorsque vous supposez un ensemble particulier). d’échecs des hypothèses) pourrait le mettre à et les éditeurs du journal que vous voulez soumettre pourraient mettre leur règle générale à couper à , alors que le prochain journal pourrait le dire à et le suivant peut ne pas avoir de règle générale et l'éditeur spécifique que vous avez obtenu peut accepter des valeurs encore plus basses que celles que j'ai données ... mais l'un des arbitres peut alors avoir une coupure spécifique! 10 - 4 10 - 310−5 10−4 10−3
En l'absence de connaissance de leurs fonctions et règles de préférence et en l'absence de vos propres services publics, comment puis-je suggérer de manière responsable un choix général d'actions à prendre?
Je peux au moins vous dire le genre de choses que je fais (et je ne suggère pas que ce soit un bon choix pour vous):
Il y a peu de circonstances (en dehors de la simulation de valeurs p) dans lesquelles je gagnerais moins de (je peux mentionner ou non la valeur rapportée par le package, mais je ne ferais rien du tout. si ce n’est pas très petit, j’insiste généralement sur le sens du nombre exact). Parfois, je prends une valeur quelque part dans la gamme de à et dis que p était beaucoup moins que cela. À l’occasion, je fais effectivement comme suggéré ci-dessus - effectuez des simulations pour voir à quel point la p-value est sensible à diverses violations des hypothèses, en particulier s’il ya un type de violation qui m’inquiète. 10 - 5 10 - 410−6 10−5 10−4
C'est certainement utile pour informer un choix - mais je suis aussi susceptible de discuter des résultats de la simulation que de les utiliser pour choisir une valeur limite, donnant ainsi à d'autres une chance de choisir la leur.
Une solution de rechange à la simulation consiste à examiner certaines procédures plus robustes * face aux diverses défaillances potentielles d'hypothèses et à voir quelle différence cela pourrait faire avec la valeur p. Leurs valeurs p ne seront pas non plus particulièrement significatives, mais elles donnent au moins une idée de l’impact que cela pourrait avoir. Si certains sont très différent de celui nominal, il donne aussi plus d'une idée qui les violations des hypothèses pour étudier l'impact de. Même si vous ne signalez aucune de ces alternatives, cela donne une meilleure idée de la signification de votre petite valeur p.
* Notez qu'ici nous n'avons pas vraiment besoin de procédures robustes pour les violations flagrantes de certaines hypothèses. ceux qui sont moins affectés par des écarts relativement légers de l’hypothèse pertinente devraient convenir à cet exercice.
Je dirai que lorsque vous effectuez de telles simulations, même avec des violations mineures, dans certains cas, il peut être surprenant de constater à quel point même les valeurs p les plus petites peuvent être fausses. Cela a fait plus pour changer la façon dont j'interprète personnellement une p-valeur que pour changer les seuils spécifiques que je pourrais utiliser.
Lorsque je soumets les résultats d'un test d'hypothèse à un journal, j'essaie de savoir s'ils ont une règle. S'ils ne le font pas, j'ai tendance à me faire plaisir, puis à attendre que les arbitres se plaignent.
la source
La pratique courante dépend de votre domaine de recherche. Le manuel de l'American Psychological Association (APA), qui est l'un des styles de citation les plus utilisés, indique (p. 139, 6e édition):
la source
Ces valeurs p extrêmes se produisent plus souvent dans les champs contenant de très grandes quantités de données, telles que la génomique et la surveillance des processus. Dans ces cas, il est parfois signalé sous la forme -log 10 (valeur p). Voir, par exemple, cette figure tirée de Nature , où les valeurs p descendent à 1e-26.
-log 10 (valeur-p) est appelé "LogWorth" par les statisticiens avec lesquels je travaille chez JMP.
la source
dans R, "<2e-16" ne signifie pas littéralement <2e-16, mais signifie plutôt que la valeur est si petite que R ne peut ni l’enregistrer ni l’afficher.
Dans le test de régression, p est souvent aussi petit que 4.940656e-324, quand il émet "<2e-16", le nombre est même inférieur à 4.940656e-324.
la source
<2e-16
, la valeur est inférieure à2e-16
, littéralement.format.pval
ou simplement l'essayer, comme dansformat.pval(1e-16)
.