Est-il erroné de qualifier les résultats de «presque» ou «quelque peu» significatifs?

13

Le consensus général sur une question similaire, est-il erroné de qualifier les résultats de "hautement significatifs"? est que "hautement significatif" est un moyen valide, bien que non spécifique, de décrire la force d'une association dont la valeur p est bien inférieure à votre seuil de signification prédéfini. Mais qu'en est-il de la description des valeurs de p légèrement supérieures à votre seuil? J'ai vu certains articles utiliser des termes comme «quelque peu significatif», «presque significatif», «approchant de l'importance», etc. Je trouve ces termes un peu délirants, dans certains cas, une manière fallacieuse limite de tirer un résultat significatif d'une étude avec des résultats négatifs. Ces termes sont-ils acceptables pour décrire des résultats qui «manquent juste» votre seuil de valeur de p?

Nuclear Wang
la source
3
Je ne crois pas que quiconque ait suggéré de qualifier «l'importance» pour décrire la «force d'une association»; ce dernier ressemble plus à une mesure de la taille de l'effet. Quoi qu'il en soit, voir ici pour une liste plus complète.
Scortchi - Réintégrer Monica
1
@Scortchi - D'après ma compréhension, une très petite valeur de p est très significative, ce qui signifie une forte association entre la variable en question et la cible. Ceci est le résultat d'une grande taille d'effet, d'un grand nombre de données ou des deux. Pour les valeurs de p élevées, les preuves étayant une association entre variable et cible sont faibles. Aimez aussi cette liste dans votre lien.
Nuclear Wang
9
L'obtention d'une très petite valeur de p pour une petite taille d'effet ne pouvait guère être appelée une "association forte". Ce ne serait qu'une association détectable .
whuber
2
J'ai vu des gens utiliser ces phrases beaucoup dans l'industrie, mais pas dans les articles universitaires.
Aksakal
1
Peut-être que votre inconfort vient de croire que les valeurs de p (ou tout autre nombre dérivé d'un échantillon) sont des mesures précises de quelque chose.
Eric Towers

Réponses:

14

Si vous voulez autoriser la «signification» à admettre des degrés, alors assez juste («quelque peu significatif», «assez significatif»), mais évitez les expressions qui suggèrent que vous êtes toujours attaché à l'idée d'un seuil, comme «presque significatif» , "approche de la signification", ou "à l'aube de la signification" (mon préféré de "Toujours pas significatif" sur le blog Erreur probable ), si vous ne voulez pas paraître désespéré.

Scortchi - Réintégrer Monica
la source
9
(+1) pour le lien. Mais je pense que le point culminant de la créativité poétique est "au bord du gouffre de la signification (p = 0,06)" .
Alecos Papadopoulos
1
@AlecosPapadopoulos: Vous avez raison, bien que "flirter avec des niveaux de signification conventionnels" et "planer plus près de la signification statistique" méritent des mentions honorables. "Quasi-significatif" est peut-être un gagnant dans une catégorie différente.
Scortchi - Réintégrer Monica
4
En effet les deux premiers sont d'un véritable esprit cinématographique, le premier du film "Statistical Gigolo" (qui d'autre flirterait avec un niveau conventionnel ?), Tandis que le second du film "Dying on the Tail", où l'on voit le vautour menaçant (valeur p) planant sur le héros mourant (signification statistique).
Alecos Papadopoulos
1
Personnellement, j'abandonnerais le mot «significatif» dans ma formulation et j'appellerais p = 0,06 «assez intéressant». À tort ou à raison, lorsque j'ai rencontré pour la première fois des valeurs de p dans un cours Six Sigma, l'instructeur a suggéré que pour 0,05 <= 0,1, la bonne étiquette était `` plus de données requises '' (basé sur un environnement industriel où des points de données supplémentaires sont difficiles à acquérir , si complètement différent de tout scénario de «Big Data»
Robert de Graaf
6

De mon point de vue, la question se résume à ce que signifie réellement effectuer un test de signification. Le test de signification a été conçu comme un moyen de prendre la décision de rejeter l'hypothèse nulle ou de ne pas la rejeter. Fisher lui-même a introduit la tristement célèbre règle de 0,05 pour prendre cette décision (arbitraire).

Fondamentalement, la logique du test de signification est que l'utilisateur doit spécifier un niveau alpha pour rejeter l'hypothèse nulle (conventionnellement 0,05) avant de collecter les données . Après avoir terminé le test de signification, l'utilisateur rejette la valeur nulle si la valeur p est inférieure au niveau alpha (ou ne la rejette pas autrement).

La raison pour laquelle vous ne pouvez pas déclarer un effet hautement significatif (par exemple, au niveau de 0,001) est que vous ne pouvez pas trouver de preuves plus solides que vous ne l'avez voulu. Donc, si vous définissez votre niveau alpha à 0,05 avant le test, vous ne pouvez trouver des preuves qu'au niveau 0,05, quelle que soit la valeur de vos valeurs p. De la même manière, parler d'effets "quelque peu significatifs" ou "approchant de la signification" n'a pas beaucoup de sens car vous avez choisi ce critère arbitraire de 0,05. Si vous interprétez la logique des tests de signification très littéralement, tout ce qui dépasse 0,05 n'est pas significatif.

Je conviens que des termes tels que "approchant de l'importance" sont souvent utilisés pour améliorer les perspectives de publication. Cependant, je ne pense pas que les auteurs puissent être blâmés pour cela parce que la culture de publication actuelle dans certaines sciences repose encore fortement sur le "Saint Graal" de 0,05.

Certaines de ces questions sont abordées dans:

Gigerenzer, G. (2004). Statistiques stupides. The Journal of Socio-Economics, 33 (5), 587-606.

Royall, R. (1997). Preuve statistique: un paradigme de vraisemblance (Vol. 71). Presse CRC.

Martin R. Vasilev
la source
1
Vous mélangez la philosophie scientifique de Fisher avec l'approche de Neyman / Pearson si vous ajoutez un niveau alpha aux tests de signification de Fisher.
RBirkelbach
5

Cette pente glissante rappelle le cadre Fisher vs Neyman / Pearson pour les tests de signification d'hypothèse nulle (NHST). D'une part, on veut faire une évaluation quantitative de la probabilité d'un résultat sous l'hypothèse nulle (par exemple, la taille des effets). D'un autre côté, à la fin de la journée, vous voulez une décision discrète quant à savoir si vos résultats sont ou ne sont probablement pas dus au hasard. Nous nous sommes retrouvés avec une sorte d'approche hybride qui n'est pas très satisfaisante.

Dans la plupart des disciplines, le p conventionnel pour la signification est fixé à 0,05, mais il n'y a vraiment aucune raison pour laquelle il doit en être ainsi. Lorsque je passe en revue un article, je n'ai absolument aucun problème avec un auteur qualifiant de 0,06 significatif, ou même 0,07, à condition que la méthodologie soit saine et que l'ensemble de l'image, y compris toutes les analyses, les chiffres, etc., raconte une histoire cohérente et crédible. Lorsque vous rencontrez des problèmes, c'est lorsque les auteurs tentent de créer une histoire à partir de données triviales avec de petites tailles d'effet. Inversement, je ne pourrais pas vraiment «croire» qu'un test est pratiquement significatif même lorsqu'il atteint une signification p <0,05 conventionnelle. Un de mes collègues a dit un jour: "Vos statistiques devraient simplement confirmer ce qui est déjà apparent dans vos chiffres."

Cela dit, je pense que Vasilev a raison. Étant donné le système de publication défectueux, vous devez à peu près inclure des valeurs p, et donc vous devez à peu près utiliser le mot «significatif» pour être pris au sérieux, même s'il nécessite des adjectifs comme «marginalement» (que je préfère). Vous pouvez toujours vous battre dans le cadre d'un examen par les pairs, mais vous devez d'abord y arriver.

HEITZ
la source
5

La différence entre deux valeurs de p elle-même n'est généralement pas significative. Donc, peu importe que votre valeur p soit de 0,05, 0,049, 0,051 ...

En ce qui concerne les valeurs de p en tant que mesure de la force d'association: Une valeur de p n'est pas directement une mesure de la force d'association. Une valeur de p est la probabilité de trouver des données aussi extrêmes ou plus extrêmes que les données que vous avez observées, étant donné que le paramètre est supposé être 0 (si l'on s'intéresse à l'hypothèse nulle - voir le commentaire de Nick Cox). Cependant, ce n'est souvent pas la quantité qui intéresse le chercheur. De nombreux chercheurs sont plutôt intéressés à répondre à des questions comme «quelle est la probabilité que le paramètre soit supérieur à une valeur seuil choisie? Si c'est ce qui vous intéresse, vous devez intégrer des informations préalables supplémentaires dans votre modèle.

RBirkelbach
la source
6
Je suis d'accord avec l'esprit de cela, mais les petits caractères nécessitent toujours une vigilance totale. "étant donné que le paramètre est supposé être 0": souvent, mais pas toujours. Les valeurs de p peuvent également être calculées pour d'autres hypothèses. Aussi, pour "supposé" lire "hypothétique".
Nick Cox
Vous avez tout à fait raison - je vais modifier ma réponse!
RBirkelbach
3

Le fait que «presque significatif» ait du sens ou non dépend de la philosophie de l'inférence statistique. Il est parfaitement valable de considérer le niveau alpha comme une ligne dans le sable, auquel cas il ne faut faire attention que sip<α ou p>α. Pour un tel «absolutiste», «presque significatif» n'a aucun sens. Mais il est également parfaitement valable de considérer les valeurs de p comme fournissant des mesures continues de la force du support (pas la force de l'effet, bien sûr). Pour un tel "continualiste", "presque significatif" est une manière sensée de décrire un résultat avec une valeur p modérée. Le problème se pose lorsque les gens mélangent ces deux philosophies - ou pire, ne savent pas que les deux existent. (Soit dit en passant - les gens assument souvent ces cartes proprement sur Neyman / Pearson et Fisher, mais ils ne le font pas; d'où mes termes certes maladroits pour eux). Plus de détails à ce sujet dans un article de blog sur ce sujet ici: https://scientistseessquirrel.wordpress.com/2015/11/16/is-nearly-significant-ridiculous/

Stephen Heard
la source
1

J'ai tendance à penser que dire quelque chose est presque statistiquement significatif n'est pas correct d'un point de vue technique. Une fois que vous avez défini votre niveau de tolérance, le test statistique de signification est défini. Il faut revenir à l'idée d'échantillonner les distributions. Si votre niveau de tolérance est de 0,05 et que vous obtenez une valeur de p de 0,053, c'est simplement par hasard que l'échantillon utilisé a produit cette statistique. Vous pourriez très bien obtenir un autre échantillon qui pourrait ne pas donner les mêmes résultats. Je pense que la probabilité que cela se produise est basée sur le niveau de tolérance défini et non sur la statistique de l'échantillon. N'oubliez pas que vous testez des échantillons par rapport à un paramètre de population et que les échantillons ont leur propre distribution d'échantillonnage. Donc, à mon avis, soit quelque chose est statistiquement significatif, soit ce n'est pas le cas.

Chris Kwaramba
la source
0

La valeur de p est uniformément répartie sur [0,1] en dessous de H0 donc obtenir un résultat avec une valeur de p de 0,051 est aussi probable que d'obtenir un résultat avec une valeur de p de 1. Puisque vous devez définir le niveau de signification avant d'obtenir des données, vous rejetez la valeur nulle pour chaque valeur de p p>α. Puisque vous ne rejetez pas votre valeur nulle, vous devez supposer une valeur p uniformément distribuée, une valeur supérieure ou inférieure est essentiellement dénuée de sens.

C'est une histoire complètement différente lorsque vous rejetez la valeur nulle, car la valeur de p n'est pas uniformément répartie sous H1 mais la distribution dépend du paramètre.

Voir par exemple Wikipedia .

snaut
la source
Je ne te suis pas tout à fait. Oui, dans toute distribution continue, la probabilité d'obtenir un résultat d'exactement 0,051 est égale à la probabilité d'obtenir un résultat d'exactement 1 - c'est zéro. Mais les tests d'hypothèse examinent la probabilité de voir une valeur au moins aussi extrême que celle observée. Vous trouverez toujours une valeur de p au moins aussi extrême que 1, mais il est beaucoup moins probable de voir une valeur de p aussi extrême que 0,051. Qu'est-ce qui rend cette différence «vide de sens»?
Nuclear Wang
Sous le zéro, il est aussi probable d'observer une valeur de p dans l'intervalle [0.05,0.051] que d'observer une valeur de p dans l'intervalle [0.999,1]. L'observation d'une valeur de p plus proche du seuil n'est pas plus une preuve contre le 0 que d'observer toute autre valeur de p en dehors de la zone de rejet.
snaut
Certains appellent une valeur ap de 0,05 significative, d'autres utilisent 0,01 ou 0,1 comme seuil. Ainsi, parmi 3 chercheurs qui effectuent la même analyse et trouvent une valeur de p de 0,03, deux pourraient la qualifier de significative et une non. S'ils trouvent tous une valeur de p de 0,91, aucun ne l'appellera significative. Une valeur de p plus proche du seuil signifie que plus d'individus jugeront qu'il y a suffisamment de preuves pour rejeter la valeur nulle. Je ne vois pas pourquoi p = 0,051 et p = 1 devraient être indiscernables en termes de soutien pour H1 - certaines personnes soutiendront à juste titre H1 avec p = 0,051; personne ne le fera avec p = 1.
Nuclear Wang