Le 25 février 2015, la revue Basic and Applied Social Psychology a publié un éditorial interdisant les valeurs et les intervalles de confiance de tous les articles à venir.
Plus précisément, ils disent (le formatage et l’accent sont les miens):
[...] avant la publication, les auteurs devront supprimer tous les vestiges du NHSTP [procédure de test de significativité de l'hypothèse nulle] ( valeurs valeurs valeurs , déclarations sur les différences «significatives» ou leur absence , etc).t F
De manière analogue au fait que le NHSTP ne fournit pas la probabilité de l'hypothèse nulle, nécessaire pour justifier son rejet, les intervalles de confiance ne permettent pas de conclure que le paramètre d'intérêt de la population est susceptible de se situer dans les limites indiquées. intervalle. Par conséquent, les intervalles de confiance sont également bannis de BASP.
[...] en ce qui concerne les procédures bayésiennes, nous nous réservons le droit de procéder à des jugements au cas par cas. Les procédures bayésiennes ne sont donc ni requises ni interdites par BASP.
[...] Des procédures statistiques inférentielles sont-elles nécessaires? - Non [...] Cependant, le système BASP nécessitera des statistiques descriptives détaillées, notamment la taille de l'effet.
Ne discutons pas ici des problèmes liés à l'utilisation abusive des valeurs ; il y a déjà beaucoup d'excellentes discussions sur les CV que l'on peut trouver en parcourant le tag p-value . La critique des valeurs va souvent de pair avec un conseil pour signaler les intervalles de confiance pour les paramètres d'intérêt. Par exemple, dans cette réponse très argumentée, @gung suggère de rendre compte de la taille des effets avec des intervalles de confiance les entourant. Mais ce journal interdit également les intervalles de confiance.p
Quels sont les avantages et les inconvénients d'une telle approche pour la présentation des données et des résultats expérimentaux par rapport à l'approche "traditionnelle" avec valeurs , intervalles de confiance et dichotomie significative / non significative? La réaction à cette interdiction semble être principalement négative. alors quels sont les inconvénients alors? L'American Statistical Association a même publié un bref commentaire décourageant sur cette interdiction, affirmant que "cette politique pourrait avoir ses propres conséquences négatives". Quelles pourraient être ces conséquences négatives?
Ou, comme @whuber a suggéré de le dire, cette approche devrait-elle être préconisée de manière générale comme un paradigme de la recherche quantitative? et si non, pourquoi pas?
PS Notez que ma question ne concerne pas l'interdiction elle-même ; il s'agit de l'approche suggérée. Je ne parle pas non plus de l’inférence fréquentiste vs bayésienne. L’éditorial est assez négatif sur les méthodes bayésiennes aussi; il s’agit donc essentiellement d’utiliser des statistiques et de ne pas utiliser de statistiques du tout.
Réponses:
La première phrase de l'éditorial actuel de 2015 auquel le PO renvoie, se lit comme suit:
(mon emphase)
En d'autres termes, pour les éditeurs, il est un fait scientifique déjà prouvé que le "test de signification pour une hypothèse nulle" est invalide, et que l'éditorial de 2014 ne le souligne que moins, alors que l'éditorial actuel de 2015 ne fait que mettre en œuvre ce fait.
L'utilisation abusive (même malveillante) de NHSTP est en effet bien discutée et documentée. Et il n’est pas rare dans l’histoire de l’humanité que "les choses soient interdites" car il a été constaté qu’après tout ce qu’elles avaient été dites et faites, elles ont été mal utilisées plus qu’elles n’ont pas été utilisées à bon escient (mais ne devrions-nous pas le tester statistiquement?). Cela peut être une solution de second choix: réduire ce qui en moyenne (statistiques inférentielles) a entraîné des pertes plutôt que des gains, nous prédisons donc (statistiques inférentielles) que cela sera également préjudiciable à l'avenir.
Mais le zèle révélé derrière le libellé de la première phrase ci - dessus, fait ce regard -Exactement, comme Zélote approche plutôt qu'une décision tête froide pour couper la main qui tend à voler plutôt que d' offrir. Si vous lisez l'éditorial d'un an mentionné dans la citation ci-dessus (DOI: 10.1080 / 01973533.2014.865505), vous verrez qu'il ne s'agit que d'une partie du remaniement des politiques de la Revue par un nouvel éditeur.
En parcourant l'éditorial, ils écrivent
Il semble donc que leur conclusion relative à leur discipline est que les hypothèses nulles sont rejetées "trop souvent", de sorte que les conclusions alléguées peuvent acquérir une signification statistique fallacieuse. Ce n'est pas le même argument que le dicton "invalide" de la première phrase.
Ainsi, pour répondre à la question, il est évident que, pour les rédacteurs en chef de la revue, leur décision est non seulement sage, mais qu'elle a déjà été mise en œuvre avec retard: ils semblent penser qu'ils ont supprimé quelle partie des statistiques est devenue nuisible, en maintenant parties bénéfiques - ils ne semblent pas croire qu'il y a quelque chose ici qui doit être remplacé par quelque chose "d'équivalent".
Sur le plan épistémologique, il s’agit là d’un cas où les spécialistes des sciences sociales se soustraient en partie à la tentative de rendre leur discipline plus objective dans ses méthodes et résultats en utilisant des méthodes quantitatives, car ils sont parvenus à la conclusion (comment?) Que, finalement, , la tentative a créé "plus de mal que de bien". Je dirais que c'est une affaire très importante, en principe possible, et qui nécessiterait des années de travail pour la démontrer "au-delà de tout doute raisonnable" et aider réellement votre discipline. Mais seulement un ou deux éditoriaux et articles publiés vont probablement déclencher une guerre civile (statistiques inférentielles).
La dernière phrase de l'éditorial de 2015 se lit comme suit:
la source
J’ai le sentiment que l’interdiction des tests d’hypothèses est une excellente idée, à l’exception de quelques hypothèses «d’existence», par exemple, tester l’hypothèse nulle selon laquelle il n’existe pas de perception extra-sensorielle où tout ce qu’il faudrait démontrer pour prouver que l’ESP existe est non aléatoire. . Mais je pense que le journal n’a pas compris que le principal moteur d’une mauvaise recherche en psychologie est l’utilisation d’un seuil sur les valeursIl a été démontré en psychologie et dans la plupart des domaines que de nombreux jeux aboutissent à un . Cela inclut la substitution d'hypothèses, la suppression d'observations et la sous-configuration des données. Ce sont les seuils qui devraient être interdits d’abord.P < 0,05P P<0.05
L'interdiction des intervalles de confiance est également excessive, mais pas pour les raisons que d'autres ont énoncées. Les intervalles de confiance ne sont utiles que s’ils sont mal interprétés comme des intervalles bayésiens dignes de foi (pour des prior non appropriés). Mais ils sont toujours utiles. Le fait que leur interprétation fréquentiste exacte n'aboutisse qu'à une confusion implique que nous devons «sortir de Dodge» et aller à l'école bayésienne ou de vraisemblance. Mais des résultats utiles peuvent être obtenus en interprétant de manière erronée les anciennes limites de confiance.
Il est dommage que les rédacteurs de la revue aient mal compris les statistiques bayésiennes et ne sachent pas qu'il existe une inférence de vraisemblance pure. Ce qu'ils cherchent peut être facilement fourni par des distributions bayésiennes postérieures utilisant des a priori légèrement sceptiques.
la source
Je considère cette approche comme une tentative de remédier à l'incapacité de la psychologie sociale à reproduire de nombreux "résultats significatifs" publiés antérieurement.
Ses inconvénients sont:
qu'il ne traite pas de nombreux facteurs conduisant à des effets parasites. Par exemple,
A) Les gens peuvent toujours jeter un coup d'œil à leurs données et arrêter de mener leurs études lorsqu'un effet leur semble suffisamment important pour présenter un intérêt.
B) Les effets de grande taille semblent toujours avoir un pouvoir important lors des évaluations rétrospectives du pouvoir.
C) Les gens continueront de pêcher pour des effets intéressants et importants (tester plusieurs hypothèses dans une expérience puis rapporter celle qui est apparue) ou
D) prétendre qu’un effet étrange et inattendu était attendu depuis le début.
Ne faut-il pas s'efforcer d'abord de résoudre ces problèmes?
En tant que domaine à suivre, il rendra assez horrible la révision des découvertes passées. Il n'y a aucun moyen d'évaluer quantitativement la crédibilité de différentes études. Si chaque revue implémentait cette approche, de nombreux spécialistes des sciences sociales diraient qu'il existe des preuves pour X lorsqu'il est totalement difficile de déterminer à quel point il est crédible. parler de. N'est-ce pas le point d'avoir des statistiques? Fournir une méthode cohérente pour évaluer les nombres. À mon avis, cette nouvelle approche causerait des dégâts si elle était largement mise en œuvre.
Ce changement n'encourage pas les chercheurs à soumettre les résultats d'études portant sur des effets de petite taille, il ne traite donc pas réellement de l'effet tiroir de fichiers (ou vont-ils publier les résultats avec des n grands indépendamment de la taille de l'effet?). Si nous publions tous les résultats d'études soigneusement conçues, même si la crédibilité des résultats des études individuelles peut être incertaine, des méta-analyses et des revues d'études fournissant une analyse statistique permettraient beaucoup mieux d'identifier la vérité.
la source
Je suis tombé sur une citation merveilleuse qui défend presque le même argument, mais pas tout à fait - car il s’agit d’un premier paragraphe d’un manuel qui traite principalement de statistiques fréquentistes et de tests d’hypothèses.
la source