Comment justifier rigoureusement les taux d'erreur faux positifs / faux négatifs choisis et le ratio de coûts sous-jacent?

12

Le contexte

Un groupe de sociologues et de statisticiens ( Benjamin et al., 2017 ) ont récemment suggéré que le taux de faux positifs typique ( = .05) utilisé comme seuil pour déterminer la «signification statistique» devait être ajusté à un seuil plus conservateur. ( = .005). Un groupe concurrent de spécialistes des sciences sociales et de statisticiens ( Lakens et al., 2018 ) a répondu, arguant contre l'utilisation de ce seuil - ou de tout autre - choisi arbitrairement. Ce qui suit est une citation de Lakens et al. (p. 16) qui aide à illustrer le sujet de ma question:ααα

Idéalement, le niveau alpha est déterminé en comparant les coûts et les avantages à une fonction d'utilité à l'aide de la théorie de la décision. Cette analyse coûts-avantages (et donc le niveau alpha) diffère lors de l'analyse de grands ensembles de données existants par rapport à la collecte de données à partir d'échantillons difficiles à obtenir. La science est diverse et il appartient aux scientifiques de justifier le niveau alpha qu'ils décident d'utiliser. ... La recherche doit être guidée par des principes de science rigoureuse, et non par des heuristiques et des seuils de couverture arbitraires.

Question

Je me demande comment on pourrait s'y prendre pour justifier un alpha choisi d'une manière «guidée par des principes de science rigoureuse», comme Lakens et al. suggérer, dans la plupart des contextes de sciences sociales (c'est-à-dire en dehors de certains cas où l'on a une qualité plus concrète, comme le profit, à optimiser)?

Après la diffusion de Lakens et al., J'ai commencé à voir des calculateurs en ligne circuler pour aider les chercheurs à prendre cette décision. Lors de leur utilisation, les chercheurs doivent spécifier un "rapport de coût" des erreurs faussement positives et fausses négatives. Cependant, comme le suggère cette calculatrice ici , la détermination d'un tel rapport de coûts peut impliquer beaucoup de conjectures quantitatives:

Alors que certains coûts d'erreur sont faciles à quantifier en termes monétaires (coûts directs), d'autres sont difficiles à chiffrer (coûts indirects). ... Bien qu'il soit difficile de quantifier, vous devez vous efforcer de leur attribuer un chiffre.

Par exemple, bien que Lakens et al. suggèrent d'étudier des échantillons difficiles à atteindre comme facteur que l'on pourrait envisager pour justifier l'alpha, il semble qu'on reste à deviner à quel point cet échantillon est difficile à atteindre, et donc, comment ajuster la sélection de l'alpha en conséquence. Comme autre exemple, il me semble difficile de quantifier le coût de publication d'un faux positif, en termes de temps / argent que d'autres s'engageraient par la suite à poursuivre des recherches fondées sur une inférence erronée.

Si la détermination de ce rapport de coûts est en grande partie une question de supposition subjective, je me demande si ces décisions peuvent (encore une fois, en dehors de l'optimisation de quelque chose comme le profit) être "justifiées". Autrement dit, d'une manière qui existe en dehors des hypothèses formulées sur l'échantillonnage, les compromis, l'impact, etc.,? De cette façon, la détermination d'un rapport de coût des erreurs faussement positives / fausses négatives me semble être quelque chose qui s'apparente à la sélection d'un a priori dans l'inférence bayésienne - une décision qui peut être quelque peu subjective, influencer les résultats et donc être débattue - -mais je ne suis pas sûr que ce soit une comparaison raisonnable.

Sommaire

Pour concrétiser ma demande:

  1. Les taux de faux positifs / faux négatifs et leurs ratios de coûts peuvent-ils jamais être "rigoureusement" justifiés dans la plupart des contextes de sciences sociales?
  2. Si oui, quels sont les principes généralisables que l'on pourrait suivre pour justifier ces choix analytiques (et peut-être un exemple ou deux d'entre eux en action)
  3. Sinon, mon analogie avec la subjectivité potentielle dans le choix des ratios de coûts - comme s'apparentant à la sélection préalable bayésienne - est-elle raisonnable?

Les références

Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Wagenmakers, E., ... Johnson, V. (2017, 22 juillet). Redéfinir la signification statistique. Récupéré de psyarxiv.com/mky9j

Lakens, D., Adolfi, FG, Albers, CJ, Anvari, F., Apps, MA, ... Zwaan, RA (2018, 15 janvier). Justifiez votre Alpha. Récupéré de psyarxiv.com/9s3y6

jsakaluk
la source
4
Pouvez-vous définir comment vous utilisez "objectivement justifié"? Les probabilités d'erreur de type I sont une préférence pour les chercheurs ... tout comme les probabilités d'erreur de type II a priori . De quelle manière un chercheur "justifierait-il objectivement", par exemple, un programme de recherche préféré, un collaborateur de recherche ou un bailleur de fonds préféré, ou une approche de formation et de mentorat pour un assistant de recherche préféré?
Alexis
1
Justifié objectivement comme dans plus qu'une simple préférence. L'article de Lakens et al. Circule actuellement sous le titre abrégé "JYA" [Justify Your Alpha], et ma lecture de leur argument, basé sur les citations ci-dessus, est qu'aucune préférence ancienne ne fera l'affaire. Pour être clair: je ne formule pas nécessairement l'argument selon lequel on peut objectivement justifier un taux d'erreur de type I / II choisi. Au contraire, mon enquête repose sur l'interprétation de Lakens et al. suggérer que vous pouvez, et si tel est le cas, alors je ne comprends pas comment on le ferait.
jsakaluk
3
Je ne vois pas le mot "objectivement" dans cette citation de Lakens et al. L'utilisent-ils vraiment dans leur journal? Si oui, vous pourriez peut-être ajouter une autre citation pour fournir un contexte plus spécifique? Sinon, je ne suis pas sûr que vous puissiez dire des choses comme "justifiant objectivement un alpha choisi, comme le suggèrent Lakens et al.".
amibe dit Réintégrer Monica le
2
J'ai mis à jour le message, qui est désormais dépourvu d '"objectivité". Ce n'était pas mon intention de mal interpréter l'argument, mais je peux comprendre si les lecteurs pensaient que j'avais écrit négligemment. Lakens et al. n'utilisez le descripteur de « guidée par des principes de rigueur scientifique », donc ma question est maintenant sur un pied de plus sûr. Cependant, je me demande encore ce que cela peut signifier; en quoi la conjecture est-elle apparemment nécessaire plus rigoureuse qu'une heuristique? Si cela fait une différence, je suis particulièrement curieux de voir comment un réaliste scientifique atteindrait une norme de justification "scientifiquement rigoureuse" pour l'alpha.
jsakaluk
2
α

Réponses:

1

(également publié sur twitter, mais republié ici) Ma tentative de réponse: je ne pense pas qu'une justification puisse être "purement" objective, mais elle peut être basée sur des critères défendables pour des raisons rationnelles / empiriques. Je pense que RSS est un exemple d'une façon dont vous pourriez justifier p <.005 pour certains types de recherche, mais je pense aussi qu'il existe d'autres circonstances où un alpha différent serait plus optimal que <.005 (soit plus ou moins) selon quel alpha est faisable et quel est le but de l'étude. Ainsi, par exemple, si vous avez 5 000 participants et que la plus petite taille d'effet d'intérêt est 0,10, vous pouvez utiliser p <0,001 et avoir une puissance de 90% (les nombres sont tous composés). En revanche, disons que vous exécutez une petite expérience comme «preuve de concept» initiale pour la ligne de recherche. Vous pourriez avoir N = 100, p <.10, 90% de puissance,

Mark Hoffarth
la source
1

J'ai beaucoup pensé à la même question ces derniers temps, et je suppose que beaucoup d'autres en psychologie le sont aussi.

Tout d'abord, chacune de vos questions porte sur la question de savoir si un choix est fait objectivement ou subjectivement, mais (comme d'autres l'ont noté ici), vous n'avez pas entièrement expliqué ce qui constituerait (selon vous) un choix objectif par rapport à un choix subjectif.

Vous pourriez être intéressé par le document Gelman & Hennig 2015 qui décompresse une variété de valeurs enveloppées dans l'utilisation courante des étiquettes «objectives» et «subjectives» en science. Dans leur formulation, «objectif» se rapporte aux valeurs de transparence, de consensus, d'impartialité et de correspondance avec la réalité observable, tandis que «subjectif» se rapporte aux valeurs de perspectives multiples et de dépendance au contexte.

En relation avec votre question 3, dans la perspective bayésienne, la probabilité est définie comme la quantification de l'incertitude sur le monde. D'après ce que je comprends, il y a une tension apparente entre les écoles de pensée «subjectiviste bayésienne» (les probabilités reflètent des états de croyance individuels) et «objectiviste bayésienne» (les probabilités reflètent la plausibilité du consensus). Au sein de l'école objectiviste, l'accent est davantage mis sur la justification de la distribution antérieure (et du modèle plus généralement) d'une manière transparente qui concorde avec le consensus et qui peut être vérifiée, mais le choix du modèle dépend certainement du contexte (c.-à-d. , dépend de l'état de la connaissance du consensus pour un problème particulier).

Dans la conception fréquentiste, les probabilités reflètent le nombre de fois où un événement se produira étant donné des réplications indépendantes infinies. Dans le cadre de Neyman-Pearson, on stipule une hypothèse alternative précise et un alpha précis, accepte le zéro précis ou l'alternative précise (que l'effet de population est exactement égal à celui stipulé) sur la base des données, puis rapporte la fréquence à long terme de le faire par erreur.

Dans ce cadre, nous avons rarement une estimation ponctuelle précise de la taille de l'effet de la population mais plutôt une fourchette de valeurs plausibles. Par conséquent, conditionnellement à un alpha donné, nous n'avons pas d'estimation précise du taux d'erreur de type 2, mais plutôt une fourchette de taux d'erreur de type 2 plausibles. De même, je suis d'accord avec votre point de vue général selon lequel nous n'avons généralement pas une idée précise des coûts et des avantages d'une erreur de type 1 ou d'une erreur de type 2. Cela signifie que nous sommes souvent confrontés à une situation où nous avons des informations très incomplètes sur ce que notre hypothèse devrait être en premier lieu, et encore moins d'informations sur quels seraient les coûts et avantages relatifs d'accepter ou de rejeter cette hypothèse.

à vos questions:

  1. Les taux de faux positifs / faux négatifs et leurs ratios de coûts peuvent-ils jamais être objectivement justifiés dans la plupart des contextes de sciences sociales?

Je pense que oui, dans la mesure où une justification peut être transparente, conforme au consensus, impartiale et correspondre à la réalité (dans la mesure où nous utilisons les meilleures informations disponibles sur les coûts et les avantages).

Cependant, je pense que de telles justifications sont également subjectives, en ce sens qu'il peut y avoir plusieurs perspectives valides concernant la façon de définir l'alpha pour un problème donné, et en ce que ce qui constitue un alpha approprié peut être significativement dépendant du contexte.

Par exemple, au cours des dernières années, il est devenu clair que de nombreux effets dans la littérature reflètent des erreurs de type M ou de type S. Ils peuvent également refléter des erreurs de type 1, dans la mesure où une étude de réplication est en mesure de fournir des preuves d'un effet nul ou nul.

En relation avec cette observation, il existe un consensus émergent selon lequel le seuil de valeur p pour une réclamation avec certitude devrait être maintenu le même ou rendu plus strict (c.-à-d., Personne ne plaide pour une augmentation globale de l'alpha à 0,10 ou 0,20) . De même, il existe un consensus émergent sur le fait que les valeurs de p ne doivent pas être utilisées comme critère de publication (par exemple, le format du rapport enregistré).

Pour moi, cela reflète une sorte de source d'information «objective» - c'est-à-dire qu'à ma lecture, il y a un consensus croissant que les fausses déclarations coûtent cher sur le terrain (même si nous ne pouvons pas mettre un montant en dollars sur ces coûts). À ma lecture, il n'y a pas de consensus clair selon lequel le non-respect d'un seuil de valeur p représente un coût considérable pour le terrain. S'il y a des coûts, ils peuvent être atténués si le non-respect d'un seuil de valeur p n'a pas d'incidence sur le fait que l'estimation en fasse un article publié ou non.

  1. Si oui, quels sont les principes généralisables que l'on pourrait suivre pour justifier ces choix analytiques (et peut-être un exemple ou deux d'entre eux en action)

Je ne suis pas sûr, mais je pencherais pour une sorte de principe selon lequel les décisions devraient être prises sur la base de jugements consensuels transparents (locaux ou mondiaux) sur les coûts et les avantages de différents types de choix analytiques dans un contexte particulier, même dans le visage d'informations malheureusement incomplètes sur ce que pourraient être ces coûts et avantages.

  1. Sinon, mon analogie avec la subjectivité potentielle dans le choix des ratios de coûts - comme s'apparentant à la sélection préalable bayésienne - est-elle raisonnable?

Oui, dans les traditions fréquentistes et bayésiennes, il y a place pour la subjectivité (c.-à-d. Perspectives multiples et dépendance au contexte) ainsi que l'objectivité (c.-à-d. Transparence, consensus, impartialité et correspondance avec la réalité observable) dans de nombreux aspects différents d'un modèle statistique et comment ce modèle est utilisé (la priorité choisie, la probabilité choisie, le seuil de décision choisi, etc.).

levain
la source
Ceci est une bonne réponse. Une pièce dont je ne suis pas si sûr est la demande de correspondance. Si nous comprenons ce terme de la même manière (je pense en termes de théorie de la correspondance de la vérité), alors en fait, il semble que la correspondance puisse être sur un terrain fragile si nous n'avons pas une idée précise des coûts du type Erreurs I / II. Au lieu de cela, il semble qu'il y ait une meilleure prétention à la cohérence (étant donné ces hypothèses initiales, le reste des chiffres "a du sens"), ou au pragmatisme (notre estimation des coûts d'erreur de type I / II est une fiction utile pour la planification des études).
jsakaluk
Peut-être que j'essaie trop de marier la "justification" à une correspondance / perspective réaliste, et dans ces autres façons de comprendre, les taux d'erreur de type I / II peuvent être choisis d'une manière qui est "justifiée"?
jsakaluk
Merci de m'avoir indiqué ces idées. Je dirais que dans un contexte donné, nous pouvons avoir de bonnes informations sur les coûts et avantages futurs, ou nous pouvons avoir des informations très médiocres. Dans un sens très approximatif, il existe un consensus croissant sur le fait que les faux positifs (p <seuil, le véritable effet est exactement nul) peuvent être plus nocifs pour le terrain que les cas de non-respect d'un seuil de signification (mais de toute façon la publication de l'estimation). Dans des circonstances locales spécifiques, il peut y avoir des coûts plus sérieux associés au non-respect d'un seuil d'importance.
levain
Tangentiellement, les concepts «alpha» et «erreur de type 2» n'existent que dans le cadre NP où l'analyste a précisé deux hypothèses précises et s'engage à accepter l'une ou l'autre à la fin de la procédure. Cependant, dans la pratique courante, les analystes sont souvent avertis de ne pas accepter la valeur nulle sur la base d'une estimation non significative avec une puissance incertaine, revenant essentiellement à une interprétation de style Fisher où il n'y a pas d'acceptation de la valeur nulle et «erreur de type 2».
levain
1
Il est amusant pour moi que les réseaux sociaux, la classe sociale et les interactions sociales derrière votre description du «consensus» soient en quelque sorte dissociés des croyances et des valeurs subjectives qui les sous-tendent tous.
Alexis