Le contexte
Un groupe de sociologues et de statisticiens ( Benjamin et al., 2017 ) ont récemment suggéré que le taux de faux positifs typique ( = .05) utilisé comme seuil pour déterminer la «signification statistique» devait être ajusté à un seuil plus conservateur. ( = .005). Un groupe concurrent de spécialistes des sciences sociales et de statisticiens ( Lakens et al., 2018 ) a répondu, arguant contre l'utilisation de ce seuil - ou de tout autre - choisi arbitrairement. Ce qui suit est une citation de Lakens et al. (p. 16) qui aide à illustrer le sujet de ma question:α
Idéalement, le niveau alpha est déterminé en comparant les coûts et les avantages à une fonction d'utilité à l'aide de la théorie de la décision. Cette analyse coûts-avantages (et donc le niveau alpha) diffère lors de l'analyse de grands ensembles de données existants par rapport à la collecte de données à partir d'échantillons difficiles à obtenir. La science est diverse et il appartient aux scientifiques de justifier le niveau alpha qu'ils décident d'utiliser. ... La recherche doit être guidée par des principes de science rigoureuse, et non par des heuristiques et des seuils de couverture arbitraires.
Question
Je me demande comment on pourrait s'y prendre pour justifier un alpha choisi d'une manière «guidée par des principes de science rigoureuse», comme Lakens et al. suggérer, dans la plupart des contextes de sciences sociales (c'est-à-dire en dehors de certains cas où l'on a une qualité plus concrète, comme le profit, à optimiser)?
Après la diffusion de Lakens et al., J'ai commencé à voir des calculateurs en ligne circuler pour aider les chercheurs à prendre cette décision. Lors de leur utilisation, les chercheurs doivent spécifier un "rapport de coût" des erreurs faussement positives et fausses négatives. Cependant, comme le suggère cette calculatrice ici , la détermination d'un tel rapport de coûts peut impliquer beaucoup de conjectures quantitatives:
Alors que certains coûts d'erreur sont faciles à quantifier en termes monétaires (coûts directs), d'autres sont difficiles à chiffrer (coûts indirects). ... Bien qu'il soit difficile de quantifier, vous devez vous efforcer de leur attribuer un chiffre.
Par exemple, bien que Lakens et al. suggèrent d'étudier des échantillons difficiles à atteindre comme facteur que l'on pourrait envisager pour justifier l'alpha, il semble qu'on reste à deviner à quel point cet échantillon est difficile à atteindre, et donc, comment ajuster la sélection de l'alpha en conséquence. Comme autre exemple, il me semble difficile de quantifier le coût de publication d'un faux positif, en termes de temps / argent que d'autres s'engageraient par la suite à poursuivre des recherches fondées sur une inférence erronée.
Si la détermination de ce rapport de coûts est en grande partie une question de supposition subjective, je me demande si ces décisions peuvent (encore une fois, en dehors de l'optimisation de quelque chose comme le profit) être "justifiées". Autrement dit, d'une manière qui existe en dehors des hypothèses formulées sur l'échantillonnage, les compromis, l'impact, etc.,? De cette façon, la détermination d'un rapport de coût des erreurs faussement positives / fausses négatives me semble être quelque chose qui s'apparente à la sélection d'un a priori dans l'inférence bayésienne - une décision qui peut être quelque peu subjective, influencer les résultats et donc être débattue - -mais je ne suis pas sûr que ce soit une comparaison raisonnable.
Sommaire
Pour concrétiser ma demande:
- Les taux de faux positifs / faux négatifs et leurs ratios de coûts peuvent-ils jamais être "rigoureusement" justifiés dans la plupart des contextes de sciences sociales?
- Si oui, quels sont les principes généralisables que l'on pourrait suivre pour justifier ces choix analytiques (et peut-être un exemple ou deux d'entre eux en action)
- Sinon, mon analogie avec la subjectivité potentielle dans le choix des ratios de coûts - comme s'apparentant à la sélection préalable bayésienne - est-elle raisonnable?
Les références
Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Wagenmakers, E., ... Johnson, V. (2017, 22 juillet). Redéfinir la signification statistique. Récupéré de psyarxiv.com/mky9j
Lakens, D., Adolfi, FG, Albers, CJ, Anvari, F., Apps, MA, ... Zwaan, RA (2018, 15 janvier). Justifiez votre Alpha. Récupéré de psyarxiv.com/9s3y6
Réponses:
(également publié sur twitter, mais republié ici) Ma tentative de réponse: je ne pense pas qu'une justification puisse être "purement" objective, mais elle peut être basée sur des critères défendables pour des raisons rationnelles / empiriques. Je pense que RSS est un exemple d'une façon dont vous pourriez justifier p <.005 pour certains types de recherche, mais je pense aussi qu'il existe d'autres circonstances où un alpha différent serait plus optimal que <.005 (soit plus ou moins) selon quel alpha est faisable et quel est le but de l'étude. Ainsi, par exemple, si vous avez 5 000 participants et que la plus petite taille d'effet d'intérêt est 0,10, vous pouvez utiliser p <0,001 et avoir une puissance de 90% (les nombres sont tous composés). En revanche, disons que vous exécutez une petite expérience comme «preuve de concept» initiale pour la ligne de recherche. Vous pourriez avoir N = 100, p <.10, 90% de puissance,
la source
J'ai beaucoup pensé à la même question ces derniers temps, et je suppose que beaucoup d'autres en psychologie le sont aussi.
Tout d'abord, chacune de vos questions porte sur la question de savoir si un choix est fait objectivement ou subjectivement, mais (comme d'autres l'ont noté ici), vous n'avez pas entièrement expliqué ce qui constituerait (selon vous) un choix objectif par rapport à un choix subjectif.
Vous pourriez être intéressé par le document Gelman & Hennig 2015 qui décompresse une variété de valeurs enveloppées dans l'utilisation courante des étiquettes «objectives» et «subjectives» en science. Dans leur formulation, «objectif» se rapporte aux valeurs de transparence, de consensus, d'impartialité et de correspondance avec la réalité observable, tandis que «subjectif» se rapporte aux valeurs de perspectives multiples et de dépendance au contexte.
En relation avec votre question 3, dans la perspective bayésienne, la probabilité est définie comme la quantification de l'incertitude sur le monde. D'après ce que je comprends, il y a une tension apparente entre les écoles de pensée «subjectiviste bayésienne» (les probabilités reflètent des états de croyance individuels) et «objectiviste bayésienne» (les probabilités reflètent la plausibilité du consensus). Au sein de l'école objectiviste, l'accent est davantage mis sur la justification de la distribution antérieure (et du modèle plus généralement) d'une manière transparente qui concorde avec le consensus et qui peut être vérifiée, mais le choix du modèle dépend certainement du contexte (c.-à-d. , dépend de l'état de la connaissance du consensus pour un problème particulier).
Dans la conception fréquentiste, les probabilités reflètent le nombre de fois où un événement se produira étant donné des réplications indépendantes infinies. Dans le cadre de Neyman-Pearson, on stipule une hypothèse alternative précise et un alpha précis, accepte le zéro précis ou l'alternative précise (que l'effet de population est exactement égal à celui stipulé) sur la base des données, puis rapporte la fréquence à long terme de le faire par erreur.
Dans ce cadre, nous avons rarement une estimation ponctuelle précise de la taille de l'effet de la population mais plutôt une fourchette de valeurs plausibles. Par conséquent, conditionnellement à un alpha donné, nous n'avons pas d'estimation précise du taux d'erreur de type 2, mais plutôt une fourchette de taux d'erreur de type 2 plausibles. De même, je suis d'accord avec votre point de vue général selon lequel nous n'avons généralement pas une idée précise des coûts et des avantages d'une erreur de type 1 ou d'une erreur de type 2. Cela signifie que nous sommes souvent confrontés à une situation où nous avons des informations très incomplètes sur ce que notre hypothèse devrait être en premier lieu, et encore moins d'informations sur quels seraient les coûts et avantages relatifs d'accepter ou de rejeter cette hypothèse.
à vos questions:
Je pense que oui, dans la mesure où une justification peut être transparente, conforme au consensus, impartiale et correspondre à la réalité (dans la mesure où nous utilisons les meilleures informations disponibles sur les coûts et les avantages).
Cependant, je pense que de telles justifications sont également subjectives, en ce sens qu'il peut y avoir plusieurs perspectives valides concernant la façon de définir l'alpha pour un problème donné, et en ce que ce qui constitue un alpha approprié peut être significativement dépendant du contexte.
Par exemple, au cours des dernières années, il est devenu clair que de nombreux effets dans la littérature reflètent des erreurs de type M ou de type S. Ils peuvent également refléter des erreurs de type 1, dans la mesure où une étude de réplication est en mesure de fournir des preuves d'un effet nul ou nul.
En relation avec cette observation, il existe un consensus émergent selon lequel le seuil de valeur p pour une réclamation avec certitude devrait être maintenu le même ou rendu plus strict (c.-à-d., Personne ne plaide pour une augmentation globale de l'alpha à 0,10 ou 0,20) . De même, il existe un consensus émergent sur le fait que les valeurs de p ne doivent pas être utilisées comme critère de publication (par exemple, le format du rapport enregistré).
Pour moi, cela reflète une sorte de source d'information «objective» - c'est-à-dire qu'à ma lecture, il y a un consensus croissant que les fausses déclarations coûtent cher sur le terrain (même si nous ne pouvons pas mettre un montant en dollars sur ces coûts). À ma lecture, il n'y a pas de consensus clair selon lequel le non-respect d'un seuil de valeur p représente un coût considérable pour le terrain. S'il y a des coûts, ils peuvent être atténués si le non-respect d'un seuil de valeur p n'a pas d'incidence sur le fait que l'estimation en fasse un article publié ou non.
Je ne suis pas sûr, mais je pencherais pour une sorte de principe selon lequel les décisions devraient être prises sur la base de jugements consensuels transparents (locaux ou mondiaux) sur les coûts et les avantages de différents types de choix analytiques dans un contexte particulier, même dans le visage d'informations malheureusement incomplètes sur ce que pourraient être ces coûts et avantages.
Oui, dans les traditions fréquentistes et bayésiennes, il y a place pour la subjectivité (c.-à-d. Perspectives multiples et dépendance au contexte) ainsi que l'objectivité (c.-à-d. Transparence, consensus, impartialité et correspondance avec la réalité observable) dans de nombreux aspects différents d'un modèle statistique et comment ce modèle est utilisé (la priorité choisie, la probabilité choisie, le seuil de décision choisi, etc.).
la source