Un journal de psychologie interdit les valeurs prédictives et les intervalles de confiance; est-il vraiment sage de cesser de les utiliser?

73

Le 25 février 2015, la revue Basic and Applied Social Psychology a publié un éditorial interdisant les valeurs et les intervalles de confiance de tous les articles à venir.p

Plus précisément, ils disent (le formatage et l’accent sont les miens):

  • [...] avant la publication, les auteurs devront supprimer tous les vestiges du NHSTP [procédure de test de significativité de l'hypothèse nulle] ( valeurs valeurs valeurs , déclarations sur les différences «significatives» ou leur absence , etc).t FptF

  • De manière analogue au fait que le NHSTP ne fournit pas la probabilité de l'hypothèse nulle, nécessaire pour justifier son rejet, les intervalles de confiance ne permettent pas de conclure que le paramètre d'intérêt de la population est susceptible de se situer dans les limites indiquées. intervalle. Par conséquent, les intervalles de confiance sont également bannis de BASP.

  • [...] en ce qui concerne les procédures bayésiennes, nous nous réservons le droit de procéder à des jugements au cas par cas. Les procédures bayésiennes ne sont donc ni requises ni interdites par BASP.

  • [...] Des procédures statistiques inférentielles sont-elles nécessaires? - Non [...] Cependant, le système BASP nécessitera des statistiques descriptives détaillées, notamment la taille de l'effet.

Ne discutons pas ici des problèmes liés à l'utilisation abusive des valeurs ; il y a déjà beaucoup d'excellentes discussions sur les CV que l'on peut trouver en parcourant le tag p-value . La critique des valeurs va souvent de pair avec un conseil pour signaler les intervalles de confiance pour les paramètres d'intérêt. Par exemple, dans cette réponse très argumentée, @gung suggère de rendre compte de la taille des effets avec des intervalles de confiance les entourant. Mais ce journal interdit également les intervalles de confiance.ppp

Quels sont les avantages et les inconvénients d'une telle approche pour la présentation des données et des résultats expérimentaux par rapport à l'approche "traditionnelle" avec valeurs , intervalles de confiance et dichotomie significative / non significative? La réaction à cette interdiction semble être principalement négative. alors quels sont les inconvénients alors? L'American Statistical Association a même publié un bref commentaire décourageant sur cette interdiction, affirmant que "cette politique pourrait avoir ses propres conséquences négatives". Quelles pourraient être ces conséquences négatives?p

Ou, comme @whuber a suggéré de le dire, cette approche devrait-elle être préconisée de manière générale comme un paradigme de la recherche quantitative? et si non, pourquoi pas?

PS Notez que ma question ne concerne pas l'interdiction elle-même ; il s'agit de l'approche suggérée. Je ne parle pas non plus de l’inférence fréquentiste vs bayésienne. L’éditorial est assez négatif sur les méthodes bayésiennes aussi; il s’agit donc essentiellement d’utiliser des statistiques et de ne pas utiliser de statistiques du tout.


Autres discussions: Reddit , Gelman .

amibe
la source
14
Il existe une correspondance univoque entre les valeurs p et les intervalles de confiance dans les modèles de régression linéaire. Je ne vois donc pas de raison valable pour interdire les valeurs p mais conserver les intervalles de confiance aurait beaucoup de sens. Mais interdire à la fois les valeurs p et les intervalles de confiance laisse un vide dans la description des résultats ... Je me demande si elles permettent de signaler les erreurs standard (ce serait une autre mesure du même groupe de mappage un à un).
Richard Hardy
7
Tout pourrait être mal utilisé, donc interdire des choses sur cette condition est, eh bien ... étrange. Je ne suis pas fan des valeurs-p, mais cela semble être une approche assez naïve du problème. Une chose est encourageante d'utiliser des éléments appropriés, mais interdire des choses ne semble pas être une bonne façon de régler le problème ...
Tim
12
Bonne idée. L'utilisation de statistiques ne fait que masquer la nature non scientifique de ce champ.
Aksakal
4
Cela semble être une réaction excessive à la frustration suscitée par l’utilisation abusive des valeurs p. Je serais bien plus heureux d'interdire l'utilisation abusive de valeurs p plutôt que de valeurs p en général.
TrynnaDoStat le
8
Le quatrième élément de votre liste indique qu'ils n'exigent pas d' estimations ponctuelles, ce qui constituerait une inférence, mais la taille des effets indiquée sous forme de statistiques descriptives. (Néanmoins, quelques lignes dans l'éditorial, "nous encourageons l'utilisation d'échantillons plus grands que ce qui est typique dans la plupart des recherches en psychologie, car à mesure que la taille de l'échantillon augmente, les statistiques descriptives deviennent de plus en plus stables et les erreurs d'échantillonnage sont moins problématiques". J'attends avec impatience que l'éditorial de 2016 appelle à des recherches sur la formalisation quantitative de cette notion de stabilité et de comptabilisation des effets de l'erreur d'échantillonnage.)
Scortchi - Réintégrer Monica

Réponses:

23

La première phrase de l'éditorial actuel de 2015 auquel le PO renvoie, se lit comme suit:

L'éditorial de 2014 en psychologie sociale de base et appliquée (BASP) * a * souligné * que la procédure de test de signification de l'hypothèse nulle (NHSTP) est invalide ...

(mon emphase)

En d'autres termes, pour les éditeurs, il est un fait scientifique déjà prouvé que le "test de signification pour une hypothèse nulle" est invalide, et que l'éditorial de 2014 ne le souligne que moins, alors que l'éditorial actuel de 2015 ne fait que mettre en œuvre ce fait.

L'utilisation abusive (même malveillante) de NHSTP est en effet bien discutée et documentée. Et il n’est pas rare dans l’histoire de l’humanité que "les choses soient interdites" car il a été constaté qu’après tout ce qu’elles avaient été dites et faites, elles ont été mal utilisées plus qu’elles n’ont pas été utilisées à bon escient (mais ne devrions-nous pas le tester statistiquement?). Cela peut être une solution de second choix: réduire ce qui en moyenne (statistiques inférentielles) a entraîné des pertes plutôt que des gains, nous prédisons donc (statistiques inférentielles) que cela sera également préjudiciable à l'avenir.

Mais le zèle révélé derrière le libellé de la première phrase ci - dessus, fait ce regard -Exactement, comme Zélote approche plutôt qu'une décision tête froide pour couper la main qui tend à voler plutôt que d' offrir. Si vous lisez l'éditorial d'un an mentionné dans la citation ci-dessus (DOI: 10.1080 / 01973533.2014.865505), vous verrez qu'il ne s'agit que d'une partie du remaniement des politiques de la Revue par un nouvel éditeur.

En parcourant l'éditorial, ils écrivent

... Au contraire, nous pensons que la barre p <0,05 est trop facile à franchir et sert parfois de prétexte pour des recherches de moindre qualité.

Il semble donc que leur conclusion relative à leur discipline est que les hypothèses nulles sont rejetées "trop ​​souvent", de sorte que les conclusions alléguées peuvent acquérir une signification statistique fallacieuse. Ce n'est pas le même argument que le dicton "invalide" de la première phrase.

Ainsi, pour répondre à la question, il est évident que, pour les rédacteurs en chef de la revue, leur décision est non seulement sage, mais qu'elle a déjà été mise en œuvre avec retard: ils semblent penser qu'ils ont supprimé quelle partie des statistiques est devenue nuisible, en maintenant parties bénéfiques - ils ne semblent pas croire qu'il y a quelque chose ici qui doit être remplacé par quelque chose "d'équivalent".

Sur le plan épistémologique, il s’agit là d’un cas où les spécialistes des sciences sociales se soustraient en partie à la tentative de rendre leur discipline plus objective dans ses méthodes et résultats en utilisant des méthodes quantitatives, car ils sont parvenus à la conclusion (comment?) Que, finalement, , la tentative a créé "plus de mal que de bien". Je dirais que c'est une affaire très importante, en principe possible, et qui nécessiterait des années de travail pour la démontrer "au-delà de tout doute raisonnable" et aider réellement votre discipline. Mais seulement un ou deux éditoriaux et articles publiés vont probablement déclencher une guerre civile (statistiques inférentielles).

La dernière phrase de l'éditorial de 2015 se lit comme suit:

Nous espérons et prévoyons que l'interdiction du NHSTP aura pour effet d'améliorer la qualité des manuscrits soumis en libérant les auteurs de la structure déréglée de la pensée du NHSTP, éliminant ainsi un obstacle important à la pensée créative. Le NHSTP a dominé la psychologie pendant des décennies; nous espérons qu'en instaurant la première interdiction du NHSTP, nous démontrerons que la psychologie n'a pas besoin de l'aide du NHSTP et que d'autres journaux font de même.

Alecos Papadopoulos
la source
5
Oui ... nous devons faire attention lorsque nous écrivons sur ce site des réponses sardonnantes: elles pourraient être (complètement) mal comprises!
whuber
4
@ naught101 ... ça ne serait pas très diplomatique. Notez que la manière dont le NHSTP est condamné évite aux psychologues eux-mêmes de l’avoir utilisé pendant toutes ces décennies. Si cela était écrit comme vous le proposez, cela ressemblerait beaucoup plus à une attaque directe contre leurs collègues en tant que scientifiques. Dans son libellé actuel, le texte implique essentiellement que des psychologues pleins de bonnes intentions ont malheureusement été induits en erreur en utilisant cette approche, par "quelqu'un", qui a abusé de son "pouvoir d'autorité scientifique" en la matière ... Peut-être par de mauvais statisticiens conduits impérialisme?
Alecos Papadopoulos
4
Un mauvais ouvrier blâme ses outils.
naught101
3
@BrianDHall Je suggérerais de rechercher plus de ressources faisant autorité sur les questions entourant le NHSTP (ce site inclus), plutôt que les travaux de l'auteur sur la question. La question est difficile et subtile - à partir de votre commentaire, il convient d’abord de discuter de la sémantique "accepter" et "affirmer" ...
Alecos Papadopoulos
6
@ naught101: Si vous remarquez que l'ouvrier ne peut pas manipuler la tronçonneuse correctement, vous pouvez ne pas en vouloir à l'outil. Mais tu l'enlèverais toujours à l'ouvrier pour éviter d'autres dommages ;-)
nikie
19

J’ai le sentiment que l’interdiction des tests d’hypothèses est une excellente idée, à l’exception de quelques hypothèses «d’existence», par exemple, tester l’hypothèse nulle selon laquelle il n’existe pas de perception extra-sensorielle où tout ce qu’il faudrait démontrer pour prouver que l’ESP existe est non aléatoire. . Mais je pense que le journal n’a pas compris que le principal moteur d’une mauvaise recherche en psychologie est l’utilisation d’un seuil sur les valeursIl a été démontré en psychologie et dans la plupart des domaines que de nombreux jeux aboutissent à un . Cela inclut la substitution d'hypothèses, la suppression d'observations et la sous-configuration des données. Ce sont les seuils qui devraient être interdits d’abord.P < 0,05PP<0.05

L'interdiction des intervalles de confiance est également excessive, mais pas pour les raisons que d'autres ont énoncées. Les intervalles de confiance ne sont utiles que s’ils sont mal interprétés comme des intervalles bayésiens dignes de foi (pour des prior non appropriés). Mais ils sont toujours utiles. Le fait que leur interprétation fréquentiste exacte n'aboutisse qu'à une confusion implique que nous devons «sortir de Dodge» et aller à l'école bayésienne ou de vraisemblance. Mais des résultats utiles peuvent être obtenus en interprétant de manière erronée les anciennes limites de confiance.

Il est dommage que les rédacteurs de la revue aient mal compris les statistiques bayésiennes et ne sachent pas qu'il existe une inférence de vraisemblance pure. Ce qu'ils cherchent peut être facilement fourni par des distributions bayésiennes postérieures utilisant des a priori légèrement sceptiques.

Frank Harrell
la source
+1, merci. Permettez-moi de clarifier les intervalles de confiance. Les intervalles de confiance sont liés aux erreurs-types, il est donc probablement suggéré de ne plus les utiliser. Considérons le cas le plus simple: une valeur est mesurée sur un groupe de sujets / objets; Supposons que la moyenne soit 3. Pour autant que je sache, ce journal suggère de l'indiquer simplement comme 3. Mais ne voudriez-vous pas voir l'erreur type également, par exemple ? Cela signifie bien sûr que l’intervalle de confiance à 95% est égal à , ce qui signifie également que , donc tout est lié. Je ne sais pas comment vous proposez de le signaler. 3 ± 0,5 3 ± 1 p < 0,05n3±0.53±1p<0.05
amibe dit de réintégrer Monica
4
Je pense que les erreurs types sont simplifiées à l'excès (parce qu'elles supposent des distributions symétriques) mais que des mesures utiles de la précision, comme l'erreur quadratique moyenne. Vous pouvez penser à un intervalle de précision basé sur l'erreur quadratique moyenne sans envisager la couverture de probabilité. Je ne vois donc pas où aucune de ces discussions n’entraînerait la moindre insistance sur les erreurs types. Et je ne proposais pas que nous arrêtions d'utiliser les CL. Mais la difficulté avec les CL provient principalement des tentatives d’interprétation des probabilités.
Frank Harrell
Hmmm. Intéressant. Il me semble qu’il ya un si petit pas entre l’erreur standard et l’IC (un facteur constant!), Qu’il serait étrange de les traiter différemment. Mais peut-être est-ce un point sémantique; Ce que vous voulez dire, c'est que les gens pensent les erreurs standard et les IC différemment et ont tendance à être plus confus à propos des CI. Je me demande ce que dit la politique de ce journal à propos des erreurs standard (la rédaction ne les mentionne pas explicitement).
amibe dit de réintégrer Monica
2
Dans les situations symétriques, l'erreur type est un élément constitutif d'un intervalle de confiance. Mais dans de nombreux cas, l'intervalle de confiance correct est asymétrique et ne peut donc pas être basé sur une erreur standard. Certaines variétés de bootstrap et de rétro-transformation sont deux approches de ce type. Les intervalles de confiance de probabilité de profil viennent particulièrement à l'esprit ici.
Frank Harrell
@Frank Harrell - En ce qui concerne "l'inférence de vraisemblance pure", je suis d'accord pour dire que mettre l'accent sur le résumé de la vraisemblance des données sans pour autant l'enrichir de seuils semble être la réponse que les éditeurs cherchaient. Le livre "Probabilité" de AWF Edwards (1972) exprime directement l'inquiétude de l'éditeur: "Nous pouvons reporter l'examen de ces arguments (par exemple, le test de signification) à des chapitres ultérieurs et passer immédiatement à la description d'une procédure, basée sur le concept de probabilité de Fisher , qui n’est ouvert à aucun de ces objets pouvant être assimilés à des tests de signification. "
John Mark
13

Je considère cette approche comme une tentative de remédier à l'incapacité de la psychologie sociale à reproduire de nombreux "résultats significatifs" publiés antérieurement.

Ses inconvénients sont:

  1. qu'il ne traite pas de nombreux facteurs conduisant à des effets parasites. Par exemple,

    • A) Les gens peuvent toujours jeter un coup d'œil à leurs données et arrêter de mener leurs études lorsqu'un effet leur semble suffisamment important pour présenter un intérêt.

    • B) Les effets de grande taille semblent toujours avoir un pouvoir important lors des évaluations rétrospectives du pouvoir.

    • C) Les gens continueront de pêcher pour des effets intéressants et importants (tester plusieurs hypothèses dans une expérience puis rapporter celle qui est apparue) ou

    • D) prétendre qu’un effet étrange et inattendu était attendu depuis le début.

    Ne faut-il pas s'efforcer d'abord de résoudre ces problèmes?

  2. En tant que domaine à suivre, il rendra assez horrible la révision des découvertes passées. Il n'y a aucun moyen d'évaluer quantitativement la crédibilité de différentes études. Si chaque revue implémentait cette approche, de nombreux spécialistes des sciences sociales diraient qu'il existe des preuves pour X lorsqu'il est totalement difficile de déterminer à quel point il est crédible. parler de. N'est-ce pas le point d'avoir des statistiques? Fournir une méthode cohérente pour évaluer les nombres. À mon avis, cette nouvelle approche causerait des dégâts si elle était largement mise en œuvre.

  3. Ce changement n'encourage pas les chercheurs à soumettre les résultats d'études portant sur des effets de petite taille, il ne traite donc pas réellement de l'effet tiroir de fichiers (ou vont-ils publier les résultats avec des n grands indépendamment de la taille de l'effet?). Si nous publions tous les résultats d'études soigneusement conçues, même si la crédibilité des résultats des études individuelles peut être incertaine, des méta-analyses et des revues d'études fournissant une analyse statistique permettraient beaucoup mieux d'identifier la vérité.

captain_ahab
la source
2
@captain_ahab En ce qui concerne le point 3, il convient de mentionner que le précédent éditorial de l'éditeur (2014) encourageait explicitement la soumission d'études "à effet nul".
Alecos Papadopoulos
1
Je n'arrive pas à trouver un commentaire dans l'éditorial traitant de critères de publication, à part le besoin d'avoir des échantillons plus grands que la normale (la façon dont ils prévoient d'identifier les n acceptables sans statistiques inférentielles ne me semble pas claire). Pour moi, cet éditorial n'insiste pas sur le fait que la taille de l'effet est indifférente. Il me semble qu’ils chercheront toujours des effets et des histoires intéressants, ce qui, selon moi, est le principal problème des travaux en sciences sociales (c’est-à-dire la recherche post-hoc d’effets et d’histoires intéressants).
captain_ahab
2
Ce qui semble être une meilleure solution est que tous les scientifiques doivent consigner l’hypothèse, l’approche rationnelle, rationnelle et analytique d’une étude dans une place PUBLIQUE AVANT de la mener à bien. Et puis être limité à la publication de cette étude de la manière prescrite. Si un effet intéressant inattendu est trouvé, ils doivent se connecter publiquement, puis lancer une nouvelle étude sur cet effet. Cette approche, tout en contrôlant les faux positifs, permettrait également aux scientifiques de démontrer leur productivité sans publier de nouveaux effets.
captain_ahab
7

Je suis tombé sur une citation merveilleuse qui défend presque le même argument, mais pas tout à fait - car il s’agit d’un premier paragraphe d’un manuel qui traite principalement de statistiques fréquentistes et de tests d’hypothèses.

Les non-statisticiens, comme l'auteur, pensent généralement que si vous faites de bonnes expériences, les statistiques ne sont pas nécessaires. Ils ont bien raison. [...] Le hic, bien sûr, est qu'il est difficile de faire de bonnes expériences. La plupart des gens ont besoin de toute l'aide possible pour les empêcher de se ridiculiser en prétendant que leur théorie favorite est étayée par des observations qui ne font rien de tel. Et la partie principale de cette section de la statistique qui traite des tests d’importance est d’empêcher les gens de se ridiculiser. De ce point de vue, la fonction des tests de signification est d'empêcher les gens de publier des expériences et non de les encourager. Idéalement, en effet, les tests de signification ne doivent jamais apparaître en version imprimée, ils ont déjà été utilisés, le cas échéant, au stade préliminaire pour détecter des expériences inadéquates.

- David Colquhoun, Conférences sur la biostatistique , 1971

l'amibe dit de réintégrer Monica
la source
1
Votre message est vraiment un commentaire, plutôt qu'une réponse. Je m'abstiens donc de le revoter, mais je tiens à vous remercier pour le partage de la citation. Il y a tellement de malentendus évidents dans ce passage qu'il faudrait beaucoup d'efforts (pour ne pas dire d'espace) pour les signaler et les supprimer. En un mot, cependant, le contraire de ces affirmations est "l'efficacité". Si tout le monde avait le temps et le budget illimités, nous pourrions au moins aspirer à réaliser de "bonnes expériences". Mais lorsque les ressources sont limitées, il serait imprudent (et coûteux) de ne mener que des expériences "finales,… claires".
whuber
2
Merci pour votre commentaire, @whuber; Je suis d'accord avec ce que vous dites. Néanmoins, je dois ajouter que je trouve intéressant de dire que, dans l’idéal, les données expérimentales devraient être suffisamment convaincantes pour rendre superflues les tests d’hypothèses formelles. Ce n'est pas un idéal inaccessible! Dans mon domaine (où les valeurs p sont très utilisées), je trouve que les meilleurs articles sont convaincants sans eux: par exemple, parce qu'ils présentent une séquence de plusieurs expériences qui se soutiennent, qui, prises ensemble, ne peuvent évidemment pas être un coup de chance statistique. Re commentaire: c’était trop long pour un commentaire et j’ai pensé que c’était bien comme réponse en CW.
amibe dit de réintégrer Monica
Oui, je comprends pourquoi cela a dû être posté comme réponse et je n’ai donc pas voté pour le transférer dans un commentaire (ce qui couperait la dernière partie de la citation). Je conviens que l'idéal n'est pas inaccessible dans des cas particuliers . Je conviens également que c'est un idéal idéal à garder à l'esprit. Mais comme guide sur la façon de concevoir des expériences (qui est, globalement, une discipline d’allocation de ressources), cela pourrait être une terrible erreur. (C'est certainement discutable.) La suggestion qu'une "bonne" expérience ne nécessiterait jamais de méthodes statistiques est cependant une thèse qui ne résiste pas, même à un examen superficiel.
whuber
1
Peut-être une façon de lire le fait de dire que le test de signification initial suggérant qu'une substance stimule une certaine réponse physiologique n’a plus sa raison d’être au moment où vous publiez vos études sur les effets de différents types d’inhibiteurs sur la courbe dose-réponse.
Scortchi - Réintégrer Monica