Le consensus général sur une question similaire, est-il erroné de qualifier les résultats de "hautement significatifs"? est que "hautement significatif" est un moyen valide, bien que non spécifique, de décrire la force d'une association dont la valeur p est bien inférieure à votre seuil de signification prédéfini. Mais qu'en est-il de la description des valeurs de p légèrement supérieures à votre seuil? J'ai vu certains articles utiliser des termes comme «quelque peu significatif», «presque significatif», «approchant de l'importance», etc. Je trouve ces termes un peu délirants, dans certains cas, une manière fallacieuse limite de tirer un résultat significatif d'une étude avec des résultats négatifs. Ces termes sont-ils acceptables pour décrire des résultats qui «manquent juste» votre seuil de valeur de p?
13
Réponses:
Si vous voulez autoriser la «signification» à admettre des degrés, alors assez juste («quelque peu significatif», «assez significatif»), mais évitez les expressions qui suggèrent que vous êtes toujours attaché à l'idée d'un seuil, comme «presque significatif» , "approche de la signification", ou "à l'aube de la signification" (mon préféré de "Toujours pas significatif" sur le blog Erreur probable ), si vous ne voulez pas paraître désespéré.
la source
De mon point de vue, la question se résume à ce que signifie réellement effectuer un test de signification. Le test de signification a été conçu comme un moyen de prendre la décision de rejeter l'hypothèse nulle ou de ne pas la rejeter. Fisher lui-même a introduit la tristement célèbre règle de 0,05 pour prendre cette décision (arbitraire).
Fondamentalement, la logique du test de signification est que l'utilisateur doit spécifier un niveau alpha pour rejeter l'hypothèse nulle (conventionnellement 0,05) avant de collecter les données . Après avoir terminé le test de signification, l'utilisateur rejette la valeur nulle si la valeur p est inférieure au niveau alpha (ou ne la rejette pas autrement).
La raison pour laquelle vous ne pouvez pas déclarer un effet hautement significatif (par exemple, au niveau de 0,001) est que vous ne pouvez pas trouver de preuves plus solides que vous ne l'avez voulu. Donc, si vous définissez votre niveau alpha à 0,05 avant le test, vous ne pouvez trouver des preuves qu'au niveau 0,05, quelle que soit la valeur de vos valeurs p. De la même manière, parler d'effets "quelque peu significatifs" ou "approchant de la signification" n'a pas beaucoup de sens car vous avez choisi ce critère arbitraire de 0,05. Si vous interprétez la logique des tests de signification très littéralement, tout ce qui dépasse 0,05 n'est pas significatif.
Je conviens que des termes tels que "approchant de l'importance" sont souvent utilisés pour améliorer les perspectives de publication. Cependant, je ne pense pas que les auteurs puissent être blâmés pour cela parce que la culture de publication actuelle dans certaines sciences repose encore fortement sur le "Saint Graal" de 0,05.
Certaines de ces questions sont abordées dans:
Gigerenzer, G. (2004). Statistiques stupides. The Journal of Socio-Economics, 33 (5), 587-606.
Royall, R. (1997). Preuve statistique: un paradigme de vraisemblance (Vol. 71). Presse CRC.
la source
Cette pente glissante rappelle le cadre Fisher vs Neyman / Pearson pour les tests de signification d'hypothèse nulle (NHST). D'une part, on veut faire une évaluation quantitative de la probabilité d'un résultat sous l'hypothèse nulle (par exemple, la taille des effets). D'un autre côté, à la fin de la journée, vous voulez une décision discrète quant à savoir si vos résultats sont ou ne sont probablement pas dus au hasard. Nous nous sommes retrouvés avec une sorte d'approche hybride qui n'est pas très satisfaisante.
Dans la plupart des disciplines, le p conventionnel pour la signification est fixé à 0,05, mais il n'y a vraiment aucune raison pour laquelle il doit en être ainsi. Lorsque je passe en revue un article, je n'ai absolument aucun problème avec un auteur qualifiant de 0,06 significatif, ou même 0,07, à condition que la méthodologie soit saine et que l'ensemble de l'image, y compris toutes les analyses, les chiffres, etc., raconte une histoire cohérente et crédible. Lorsque vous rencontrez des problèmes, c'est lorsque les auteurs tentent de créer une histoire à partir de données triviales avec de petites tailles d'effet. Inversement, je ne pourrais pas vraiment «croire» qu'un test est pratiquement significatif même lorsqu'il atteint une signification p <0,05 conventionnelle. Un de mes collègues a dit un jour: "Vos statistiques devraient simplement confirmer ce qui est déjà apparent dans vos chiffres."
Cela dit, je pense que Vasilev a raison. Étant donné le système de publication défectueux, vous devez à peu près inclure des valeurs p, et donc vous devez à peu près utiliser le mot «significatif» pour être pris au sérieux, même s'il nécessite des adjectifs comme «marginalement» (que je préfère). Vous pouvez toujours vous battre dans le cadre d'un examen par les pairs, mais vous devez d'abord y arriver.
la source
La différence entre deux valeurs de p elle-même n'est généralement pas significative. Donc, peu importe que votre valeur p soit de 0,05, 0,049, 0,051 ...
En ce qui concerne les valeurs de p en tant que mesure de la force d'association: Une valeur de p n'est pas directement une mesure de la force d'association. Une valeur de p est la probabilité de trouver des données aussi extrêmes ou plus extrêmes que les données que vous avez observées, étant donné que le paramètre est supposé être 0 (si l'on s'intéresse à l'hypothèse nulle - voir le commentaire de Nick Cox). Cependant, ce n'est souvent pas la quantité qui intéresse le chercheur. De nombreux chercheurs sont plutôt intéressés à répondre à des questions comme «quelle est la probabilité que le paramètre soit supérieur à une valeur seuil choisie? Si c'est ce qui vous intéresse, vous devez intégrer des informations préalables supplémentaires dans votre modèle.
la source
Le fait que «presque significatif» ait du sens ou non dépend de la philosophie de l'inférence statistique. Il est parfaitement valable de considérer le niveau alpha comme une ligne dans le sable, auquel cas il ne faut faire attention que sip < α ou p > α . Pour un tel «absolutiste», «presque significatif» n'a aucun sens. Mais il est également parfaitement valable de considérer les valeurs de p comme fournissant des mesures continues de la force du support (pas la force de l'effet, bien sûr). Pour un tel "continualiste", "presque significatif" est une manière sensée de décrire un résultat avec une valeur p modérée. Le problème se pose lorsque les gens mélangent ces deux philosophies - ou pire, ne savent pas que les deux existent. (Soit dit en passant - les gens assument souvent ces cartes proprement sur Neyman / Pearson et Fisher, mais ils ne le font pas; d'où mes termes certes maladroits pour eux). Plus de détails à ce sujet dans un article de blog sur ce sujet ici: https://scientistseessquirrel.wordpress.com/2015/11/16/is-nearly-significant-ridiculous/
la source
J'ai tendance à penser que dire quelque chose est presque statistiquement significatif n'est pas correct d'un point de vue technique. Une fois que vous avez défini votre niveau de tolérance, le test statistique de signification est défini. Il faut revenir à l'idée d'échantillonner les distributions. Si votre niveau de tolérance est de 0,05 et que vous obtenez une valeur de p de 0,053, c'est simplement par hasard que l'échantillon utilisé a produit cette statistique. Vous pourriez très bien obtenir un autre échantillon qui pourrait ne pas donner les mêmes résultats. Je pense que la probabilité que cela se produise est basée sur le niveau de tolérance défini et non sur la statistique de l'échantillon. N'oubliez pas que vous testez des échantillons par rapport à un paramètre de population et que les échantillons ont leur propre distribution d'échantillonnage. Donc, à mon avis, soit quelque chose est statistiquement significatif, soit ce n'est pas le cas.
la source
La valeur de p est uniformément répartie sur[ 0 , 1 ] en dessous de H0 donc obtenir un résultat avec une valeur de p de 0,051 est aussi probable que d'obtenir un résultat avec une valeur de p de 1. Puisque vous devez définir le niveau de signification avant d'obtenir des données, vous rejetez la valeur nulle pour chaque valeur de p p > α . Puisque vous ne rejetez pas votre valeur nulle, vous devez supposer une valeur p uniformément distribuée, une valeur supérieure ou inférieure est essentiellement dénuée de sens.
C'est une histoire complètement différente lorsque vous rejetez la valeur nulle, car la valeur de p n'est pas uniformément répartie sousH1 mais la distribution dépend du paramètre.
Voir par exemple Wikipedia .
la source