Est-il erroné de qualifier les résultats de «hautement significatifs»?

18

Pourquoi les statisticiens nous découragent-ils de qualifier les résultats de " très significatifs" lorsque la valeur est bien inférieure au niveau conventionnel de ?pα0.05

Est-il vraiment faux de faire confiance à un résultat qui a 99,9% de chances de ne pas être une erreur de type I ( ) de plus qu'un résultat qui ne vous donne que cette chance à 99% ( )?p=0.001p=0.01

z8080
la source
16
Il peut être utile de lire la réponse de @ gung ici . En bref: pour la décision «significatif vs non significatif» ou «rejeter l'hypothèse nulle vs ne pas rejeter l'hypothèse nulle», il importe seulement que la valeur soit inférieure à votre α que vous avez définie avant l'étude (Neyman & Pearson) . D'un autre côté, vous pouvez considérer la valeur p comme une mesure continue de la preuve par rapport à l'hypothèse nulle qui n'a pas de «seuil» (Fisher). pαp
COOLSerdash
10
Vous semblez avoir une idée fausse sérieuse sur les valeurs de p (les valeurs de p ne sont pas des probabilités d'erreur) qui, si elles sont corrigées, pourraient vous aider à comprendre pourquoi vous pourriez entendre certaines choses des statisticiens.
gars
10
J'avoue que j'utilise parfois des phrases comme «hautement significatif». Ailleurs dans les rapports, un grand nombre des résultats initiaux devront peut-être être ajustés pour plusieurs tests, où «hautement significatif» acquiert le sens plus technique de «reste significatif même après un ajustement approprié pour des comparaisons multiples». Même lorsque tous les lecteurs s'accordent sur l' approprié à utiliser (ce qui est rare pour les analyses utilisées par plusieurs parties prenantes), ce qui est "significatif" ou non dépend de l'ensemble d'hypothèses que chaque lecteur avait en tête avant de consulter le rapport. α
whuber
7
Tous les statisticiens ne disent pas que c'est faux. J'utilise le terme moi-même à l'occasion (certes rare) - par exemple pour signifier que sur ces données, le zéro aurait été rejeté par des personnes opérant à des niveaux de signification sensiblement inférieurs à celui que j'utilisais, mais il est important de ne pas y attacher plus de sens qu'il ne l'a fait. Je dirais simplement qu'il faut faire preuve de prudence - parfois en grande partie - lors de l' interprétation du sens d'une telle phrase, plutôt que d'être spécifiquement erronée . Certains des points ici seraient pertinents.
Glen_b -Reinstate Monica
7
(ctd) ... par comparaison, je pense que les personnes utilisant des tests d'hypothèse ne répondent tout simplement pas à leur question d'intérêt (ce qui, je pense, est très souvent le cas). Mieux vaut se concentrer sur cette question flagrante et importante, plutôt que d'être trop dogmatique sur une infélicité mineure dans la façon dont ils expriment une très petite valeur p.
Glen_b -Reinstate Monica

Réponses:

17

Je pense qu'il n'y a pas grand-chose de mal à dire que les résultats sont "très significatifs" (même si oui, c'est un peu bâclé).

Cela signifie que si vous aviez défini un niveau de signification beaucoup plus petit , vous auriez quand même jugé les résultats significatifs. Ou, de manière équivalente, si certains de vos lecteurs ont un α beaucoup plus petit en tête, ils peuvent toujours juger vos résultats significatifs.αα

Notez que le niveau de signification est dans l'œil du spectateur, tandis que la valeur p est (avec quelques mises en garde) une propriété des données.αp

Observer n'est tout simplement pas la même chose qu'observer p = 0,04 , même si les deux peuvent être qualifiés de «significatifs» par les conventions standard de votre domaine ( α = 0,05 ). Une valeur p minuscule signifie une preuve plus forte contre le zéro (pour ceux qui aiment le cadre de Fisher pour les tests d'hypothèse); cela signifie que l'intervalle de confiance autour de la taille de l'effet exclura la valeur nulle avec une marge plus grande (pour ceux qui préfèrent les IC aux valeurs de p ); cela signifie que la probabilité postérieure du nul sera plus petite (pour les Bayésiens avec certains antérieurs); tout cela est équivalent et signifie simplement que les résultats sont plus convaincantsp=dix-dixp=0,04α=0,05pp. Voir Les valeurs de p plus petites sont-elles plus convaincantes? pour plus de discussion.

Le terme "hautement significatif" n'est pas précis et n'a pas besoin de l'être. Il s'agit d'un jugement d'expert subjectif, similaire à l'observation d'une taille d'effet étonnamment grande et à l'appeler "énorme" (ou peut-être simplement "très grand"). Il n'y a rien de mal à utiliser des descriptions qualitatives et subjectives de vos données, même dans la rédaction scientifique; à condition bien sûr que l'analyse quantitative objective soit également présentée.


Voir également quelques excellents commentaires ci-dessus, +1 à @whuber, @Glen_b et @COOLSerdash.

amibe dit réintégrer Monica
la source
2
PP<0,05
Ce n'est pas bâclé du tout. Il est bien documenté comme ayant une définition formelle.
Hibou le
3

C'est une question courante.

Une question similaire peut être "Pourquoi p <= 0,05 est-il considéré comme significatif?" ( http://www.jerrydallal.com/LHSP/p05.htm )

@ Michael-Mayer a donné une partie de la réponse: la signification n'est qu'une partie de la réponse. Avec suffisamment de données, certains paramètres apparaissent généralement comme «significatifs» (recherchez la correction de Bonferroni). Les tests multiples sont un problème spécifique en génétique où de grandes études à la recherche de signification sont courantes et des valeurs de p <10 -8 sont souvent requises ( http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2621212/ ).

En outre, un problème avec de nombreuses analyses est qu'elles étaient opportunistes et non pré-planifiées (c'est-à-dire "Si vous torturez suffisamment les données, la nature avouera toujours." - Ronald Coase).

Généralement, si une analyse est pré-planifiée (avec une correction d'analyse répétée pour la puissance statistique), elle peut être considérée comme significative. Souvent, des tests répétés par plusieurs individus ou groupes sont le meilleur moyen de confirmer que quelque chose fonctionne (ou non). Et la répétition des résultats est le plus souvent le bon test de signification.

Bill Denney
la source
2

Un test est un outil pour une décision en noir et blanc, c'est-à-dire qu'il essaie de répondre à une question oui / non comme «y a-t-il un véritable effet de traitement?». Souvent, en particulier si l'ensemble de données est volumineux, une telle question est tout à fait un gaspillage de ressources. Pourquoi poser une question binaire s'il est possible d'obtenir une réponse à une question quantitative du type «quel est le véritable effet du traitement»? qui répond implicitement aussi à la question oui / non? Ainsi, au lieu de répondre à une question oui / non non informative avec une grande certitude, nous recommandons souvent l'utilisation d'intervalles de confiance qui contiennent beaucoup plus d'informations.

Michael M
la source
2
+1 Bien que vous puissiez être plus explicite sur la façon dont cela répond à la question du PO (ce n'est pas si évident).
@Matthew: Je suis entièrement d'accord.
Michael M
Merci Michael. Mais je suppose que les intervalles de confiance (qui donnent la réponse "échelle continue") feraient référence à la taille de l'effet, non? Néanmoins, n'y a-t-il pas besoin d'une réponse binaire également pour compléter la réponse continue, c'est-à-dire si cet effet (dont la taille est décrite par les IC) répond au niveau α convenu? Ou peut-être pouvez-vous même donner des CI pour la valeur p elle-même?
z8080
(A) La "taille de l'effet" fait généralement référence à une version standardisée de l'effet du traitement et donc moins facile à interpréter que l'effet lui-même. (B) CI pour les valeurs de p sont parfois ajoutés pour les valeurs de p simulées pour exprimer l'incertitude de simulation. (C) Si votre niveau est de 0,05, dans presque toutes les situations de test, la décision noir / blanc du test peut être dérivée en regardant les 95% ci correspondants.
Michael M
(suite) Votre question est en quelque sorte liée à la suivante: est-il plus utile de déclarer que même le 99,9999% ci est incompatible avec le nul ou que même la limite inférieure du 95% ci pour le véritable effet est très prometteuse?
Michael M