Règles d'arrêt facultatives absentes des manuels

Les règles d'arrêt affectent la relation entre les valeurs P et les taux d'erreur associés aux décisions. Un article récent de Simmons et al. 2011 invente le terme degrés de liberté des chercheurs pour décrire un ensemble de comportements qu'ils considèrent comme responsables de nombreux rapports dans la littérature en psychologie qui se sont révélés non reproductibles.

Parmi ces comportements, les règles d'arrêt facultatives ou les analyses intermédiaires non déclarées m'intéressent actuellement. Je décris leur effet sur les taux d'erreur pour mes élèves, mais ils ne semblent pas être décrits dans les manuels que mes élèves utilisent (ou ne font pas) utilisation!). Dans la librairie principale de mon université, il y a quatorze manuels de statistiques destinés aux étudiants de niveau d'introduction dans diverses disciplines telles que les biosciences, les affaires, l'ingénierie, etc. règle d'arrêt ».

Existe-t-il un manuel de statistiques de niveau introductif qui explique le problème des règles d'arrêt facultatives?

Simmons, JP, Nelson, LD et Simonsohn, U. (2011). Psychologie des faux positifs: une flexibilité non divulguée dans la collecte et l'analyse des données permet de présenter tout ce qui est significatif . Psychological Science, 22 (11), 1359–1366. doi: 10.1177 / 0956797611417632

references type-i-and-ii-errors optimal-stopping Michael Lew - réintègre Monica
la source

Le problème ne disparaît-il pas si vous abandonnez les statistiques fréquentistes et optez pour des méthodes informatiques ou bayésiennes? (Ou même un apprentissage automatique pur, selon la taille de votre ensemble de données) Ce n'est pas désinvolte - le mashup incompatible de Fisher et NP ne cause que des problèmes, même lorsqu'il est fait "correctement". À l'avenir, il n'y aura plus de fréquentateurs.

thedude

Oui, le problème disparaîtrait s'il n'y avait pas d'utilisation de méthodes conformes au principe de fréquence. Cependant, un tel avenir peut ne pas venir dans ce monde. Qu'Est-ce que c'est?

Michael Lew - réintègre Monica le

@ Michael: Presque sans aucun doute (c'est-à-dire, l'informatique) signifie "théorie de l'information".

cardinal

Sur un sujet connexe: errorstatistics.com/2013/04/06/…

Fr.

@thedude utilisant un cadre théorique différent introduit d' autres problèmes . Le problème ici est que vous traitez tous les mathématiques comme autre chose qu'une simple description du monde. Les statistiques fréquentistes sont un moyen très utile de décrire le monde, le bayésien en est un autre. Aucun des deux ne vous fournira un Oracle de vérité .

Indolering

Réponses:

Vous ne pouvez pas avoir de règle d'arrêt sans avoir une idée de votre distribution et de la taille de votre effet - que vous ne connaissez pas a priori.

De plus, oui, nous devons nous concentrer sur la taille de l'effet - et il n'a jamais été considéré comme correct de ne considérer que les valeurs p, et nous ne devrions certainement pas montrer des tableaux ou des graphiques qui montrent des valeurs p ou des valeurs F plutôt que la taille de l'effet.

Il y a des problèmes avec les tests d'inférence d'hypothèses statistiques traditionnels (que Cohen dit être dignes de son acronyme, et Fisher et Pearson se retourneraient tous les deux dans les tombes s'ils voyaient tout ce qui se fait en leurs noms violemment opposés aujourd'hui).

Pour déterminer N, vous devez avoir déjà déterminé une importance cible et un seuil de puissance, ainsi que faire beaucoup d'hypothèses sur la distribution, et en particulier, vous devez également avoir déterminé la taille de l'effet que vous souhaitez établir. L'indolérance a tout à fait raison de dire que cela devrait être le point de départ - quelle taille d'effet minimale serait rentable!

Les "nouvelles statistiques" préconisent de montrer les tailles d'effet (comme différence appariée le cas échéant), ainsi que les écarts-types ou variances associés (parce que nous devons comprendre la distribution), et les écarts-types ou intervalles de confiance (mais ce dernier est déjà verrouillage d'une valeur de p et une décision quant à savoir si vous prévoyez une direction ou un pari à sens unique). Mais définir un effet minimum du signe spécifié avec une prédiction scientifique, cela est clair - bien que le défaut pré-scientifique soit de faire des essais et des erreurs et de simplement rechercher les différences. Mais encore une fois, vous avez fait des hypothèses sur la normalité si vous procédez de cette façon.

Une autre approche consiste à utiliser les boîtes à moustaches comme approche non paramétrique, mais les conventions concernant les moustaches et les valeurs aberrantes varient considérablement et même elles-mêmes trouvent leur origine dans des hypothèses de distribution.

Le problème d'arrêt n'est en effet pas un problème de chercheur individuel fixant ou non N, mais que nous avons toute une communauté de milliers de chercheurs, où 1000 est bien plus que 1 / alpha pour le niveau traditionnel de 0,05. La réponse est actuellement proposée pour fournir les statistiques résumées (moyenne, stddev, stderr - ou "versions non paramétriques correspondantes - médiane, etc. comme pour le boxplot) pour faciliter la méta-analyse et présenter les résultats combinés de toutes les expériences, qu'elles se produisent avoir atteint ou non un niveau alpha particulier.

Le problème des tests multiples, qui est tout aussi difficile à résoudre et où les expériences sont maintenues trop simplistes au nom de la préservation du pouvoir, est étroitement lié au problème des tests multiples, tandis que des méthodologies trop complexes sont proposées pour analyser les résultats.

Je ne pense pas qu'il puisse y avoir un chapitre de livre de texte traitant définitivement de cela, car nous avons encore peu d'idée de ce que nous faisons ...

Pour le moment, la meilleure approche est probablement de continuer à utiliser les statistiques traditionnelles les plus appropriées au problème, combinées à l'affichage des statistiques récapitulatives - l'effet et l'erreur standard et N étant les plus importants. L'utilisation d'intervalles de confiance est fondamentalement équivalente au test T correspondant, mais permet de comparer les nouveaux résultats aux résultats publiés de manière plus significative, ainsi que de permettre une éthique encourageant la reproductibilité et la publication d'expériences reproduites et de méta-analyses.

En termes d'approches théoriques de l'information ou bayésiennes, ils utilisent différents outils et font des hypothèses différentes, mais n'ont toujours pas toutes les réponses non plus, et en fin de compte sont confrontés aux mêmes problèmes, ou pire, parce que l'inférence bayésienne recule de l'élaboration définitive. répondre et apporte simplement des preuves a priori relatif supposé ou absent.

À la fin, l'apprentissage automatique a également des résultats dont il doit tenir compte pour la signification - souvent avec des CI ou des tests T, souvent avec des graphiques, espérons-le, plutôt que de simplement comparer, et d'utiliser des versions correctement compensées lorsque les distributions ne correspondent pas. Il a également ses controverses sur le bootstrap et la validation croisée, le biais et la variance. Pire encore, il a la propension à générer et à tester des myriades de modèles alternatifs simplement en paramétrant de manière approfondie tous les algorithmes dans l'une des nombreuses boîtes à outils, appliqués aux ensembles de données soigneusement archivés pour permettre des tests multiples effrénés. Pire encore, il est encore dans les âges sombres en utilisant la précision, ou pire encore la mesure F, pour l'évaluation - plutôt que des méthodes correctes au hasard.

J'ai lu des dizaines d'articles sur ces questions, mais je n'ai rien trouvé de totalement convaincant - à l'exception des articles d'enquêtes négatives ou de méta-analyse qui semblent indiquer que la plupart des chercheurs ne traitent pas et n'interprètent pas correctement les statistiques par rapport à toute "norme". ", ancien ou nouveau. Puissance, tests multiples, dimensionnement et arrêt précoce, interprétation des erreurs standard et des intervalles de confiance, ... ce ne sont que quelques-uns des problèmes.

S'il vous plaît, abattez-moi - je voudrais me tromper! À mon avis, il y a beaucoup d'eau de bain, mais nous n'avons pas encore trouvé le bébé! À ce stade, aucune des vues extrêmes ou des approches de marque ne semble prometteuse comme étant la réponse, et ceux qui veulent jeter tout le reste ont probablement perdu le bébé.

David MW Powers
la source

Il ne s'agit pas de vous abattre, je ne pense pas qu'il puisse y avoir de solution à ces problèmes. Nous sommes des humains reconnaissant des modèles dans le monde, nous devons nous installer avec une validité convergente. Après sa pauvre tentative de prouver l'existence d'un dieu, Descartes a brisé la validité convergente. Parfois, il est là, parfois il ne l'est pas, mais nous nous heurtons généralement à nos pouvoirs infiniment petits de calcul cognitif.

Indolering

Je ne pense pas que les "règles d'arrêt" facultatives soient un terme technique en ce qui concerne l'arrêt optimal. Cependant, je doute que vous trouverez une discussion approfondie sur le sujet dans les manuels de statistiques de psychologie au niveau de l'intro.

La raison cynique de cela est que tous les étudiants en sciences sociales ont de faibles compétences en mathématiques. La meilleure réponse, à mon humble avis, est que de simples tests t ne conviennent pas à la plupart des expériences en sciences sociales. Il faut regarder la force de l'effet et déterminer si cela résout les différences entre les groupes. Le premier peut indiquer que le second est possible mais c'est tout ce qu'il peut faire.

Les mesures des dépenses sociales, la réglementation de l'État et l'urbanisation ont toutes des relations statistiquement significatives avec les mesures du comportement religieux. Cependant, le simple fait d'indiquer la valeur de p encadre le test dans une relation causale tout ou rien. Voir ce qui suit:

entrez la description de l'image ici

Les résultats des dépenses sociales et de l' urbanisation ont des valeurs p statistiquement significatives, mais les dépenses sociales sont beaucoup plus fortement corrélées. Ces dépenses sociales montrent une relation si forte avec d'autres mesures de la religiosité ( taux non religieux ainsi que confort dans la religion ) pour lesquelles l' urbanisation n'atteint même pas une valeur de p < .10, ce qui suggère que l' urbanisation n'a pas d'impact sur les croyances religieuses générales. Notez, cependant, que même les dépenses sociales n'expliquent pas l'Irlande ou les Philippines, montrant que certains autres effets sont comparativement plus forts que ceux de dépenses sociales .

S'appuyer sur des «règles d'arrêt» peut conduire à des faux positifs, en particulier dans les petits échantillons de psychologie. La psychologie en tant que domaine est vraiment freinée par ce genre de manigances statistiques. Cependant, placer toute notre foi sur une valeur p arbitraire est également assez stupide. Même si nous envoyions tous nos tailles d’échantillons et nos déclarations d’hypothèses à un journal avant de mener l’expérience, nous rencontrerions toujours des faux positifs collectivement la signification statistique.

La bonne chose à faire n'est pas d'arrêter l'exploration de données, la bonne chose à faire est de décrire les résultats par rapport à leur effet . Les théories sont jugées non seulement par la précision de leurs prédictions mais aussi par la utilité de ces prédictions. Quelle que soit la qualité de la méthodologie de recherche, un médicament qui améliore de 1% les symptômes du rhume ne vaut pas le coût d'être emballé dans une capsule.

Mise à jour à Pour être clair, je suis entièrement d'accord pour dire que les spécialistes des sciences sociales devraient être tenus à un niveau plus élevé: nous devons améliorer l'éducation, donner aux spécialistes des sciences sociales de meilleurs outils et augmenter les niveaux de signification à 3-sigma. J'essaie de souligner un point sous-représenté: la grande majorité des études de psychologie ne valent rien parce que la taille de l'effet est si petite.

Mais avec Amazon Turk, je peux compenser correctement l'exécution de 10 études parallèles et maintenir un niveau de confiance> 3 sigma à très bon marché. Mais si la force de l'effet est faible, il existe alors des menaces importantes pour la validité externe. L'effet de la manipulation peut être dû à une nouvelle, à l'ordre des questions, ou ...

Je n'ai pas le temps pour un essai, mais les problèmes de qualité dans les sciences sociales vont bien au-delà des méthodes statistiques de merde.

Indoloration
la source

Je comprends qu'il y a une confusion entre les études sociologiques (généralement non expérimentales) et cliniques ici. Cependant, votre première phrase n'a pas de sens: les règles d'arrêt sont un énorme domaine de recherche dans les essais cliniques. La raison en est que plusieurs hypothèses corrélées testées séquentiellement font partie d'un plan d'analyse prédéfini . Le lien dans la question des PO, cependant, n'est pas une question de mauvaises mathématiques, c'est une question de mauvaise science. Effectuer de multiples tests statistiques pour "ressentir" la bonne analyse et s'arrêter quand on trouve une signification est une mauvaise science, peu importe comment vous la coupez.

AdamO

@AdamO je suis d'accord! Quand j'ai écrit ceci, j'étais un étudiant de premier cycle essayant d'utiliser des méthodes d'exploration de données et quand je suis allé m'assurer que je faisais tout correctement (ce que j'étais), les premières réactions que j'ai reçues des professeurs et des statisticiens étaient ... naïves. Ironiquement, la procédure opérationnelle standard pour les laboratoires de sciences sociales consiste à mener des études pilotes jusqu'à ce qu'ils trouvent quelque chose d'intéressant. Je faisais la même chose, mais j'essayais de compenser: p

Indolering

L'article que vous citez ne fait aucune mention des règles d'arrêt et semble avoir peu de rapport avec le problème en question. Leur seule relation, très légère, est celle des tests multiples qui est un concept statistique et non scientifique.

Dans la littérature des essais cliniques, vous constaterez que les règles d'arrêt sont rendues rigoureuses avec des informations explicites sur les conditions dans lesquelles une étude «se penchera»: sur la base de l'année civile, ou des années-personnes, la définition d'un niveau alpha, et limite également les effets des traitements "efficaces" contre "nocifs". En effet, nous devons considérer la conduite rigoureuse de telles études comme un exemple de science bien menée . La FDA ira même jusqu'à dire que, suite à une constatation significative d'efficacité autre que celle préconisée, un deuxième essai doit être mené pour valider ces constatations. Cela reste un problème à tel point que Thomas Flemming recommande que toutes les études cliniquesvalidée par un deuxième essai de confirmation complètement indépendant, menée par des entités distinctes. Le problème des erreurs faussement positives est si grave lorsque l'on considère la vie et les soins médicaux.

Avec une surveillance apparemment inoffensive, d'autres domaines scientifiques ont perpétué une mauvaise éthique dans la recherche. En effet, les sciences sociales n'affectent pas les traitements que les gens reçoivent, elles traitent de résumés et de modèles conceptuels qui ne font que renforcer notre compréhension de l'interaction de la théorie et de l'observation. Cependant, tout consommateur de sciences sociales, profanes ou scientifiques, est souvent confronté à des résultats contradictoires: le chocolat est bon pour vous, le chocolat est mauvais pour vous (le chocolat est bon pour vous, soit dit en passant, le sucre et la graissedans le chocolat est mauvais pour vous), le sexe est bon pour vous, le mariage vous rend triste / le mariage vous rend heureux. Le domaine est négligent avec la mauvaise science. Même moi, je suis coupable de travailler sur des analyses où j'étais mécontent du langage fortement causal qui était alors lié à de fortes recommandations sur la politique et le soutien fédéral, totalement injustifié et pourtant il a été publié.

L'article de Simmons décrit efficacement comment la divulgation aiderait à rendre explicites les types de «raccourcis» que les chercheurs font dans les études sociales. Dans le tableau 1, Simmons donne un exemple de la façon dont le dragage de données augmente considérablement les taux d'erreur de faux positifs d'une manière typique des scientifiques contraires à l'éthique "à la recherche de résultats". Le résumé des résultats du tableau 2 décrit les aspects fréquemment omis des articles qui permettraient d'améliorer considérablement la compréhension de la façon dont plus d'une analyse a peut-être été menée.

Pour résumer, les règles d'arrêt ne seraient appropriées qu'avec une hypothèse prédéfinie: elles sont éthiquement solides et nécessitent des méthodes statistiques. L'article de Simmons admet qu'une grande partie de la recherche n'accorde même pas cela, et c'est éthiquement malsain, mais le langage statistique est convaincant pour savoir exactement pourquoi il est faux.

AdamO
la source

Je ne comprends pas pourquoi vous diriez que le document cité a peu d'incidence sur le problème en question. Il contient une section de titres intitulée "Un examen plus approfondi de la flexibilité de la taille de l'échantillon" qui concerne tout à fait l'arrêt facultatif. Jetez un autre regard.

Michael Lew - réintègre Monica le

@MichaelLew pour résumer la réponse: les règles d'arrêt ont à voir avec les essais cliniques, le recrutement et le suivi, mais tester une seule hypothèse prédéfinie c'est une pratique acceptable dans la recherche de dispositifs FDA et d'agents thérapeutiques. L'article de Simmons traite de l'éthique de la recherche, des critères et du piratage informatique dans la recherche et les universitaires en médecine sociale. Pouvez-vous décrire plus précisément comment vous voyez la relation? Vous pouvez peut-être modifier votre article pour définir les termes et fournir des références à d'autres publications, en particulier en ce qui concerne les «règles d'arrêt» que l'AFAIK n'existe pas en dehors des essais cliniques.

AdamO

Je ne pense pas non plus que votre qualification «d'autres domaines de la science ont perpétué une mauvaise éthique dans la recherche» soit juste ou utile. Le point de ma question initiale est qu'il ne semble y avoir aucune raison pour que les utilisateurs de statistiques à temps partiel soient même conscients des problèmes potentiels découlant des analyses intermédiaires non déclarées. Il est injuste d'appeler l'ignorance contraire à l'éthique.

Michael Lew - réintègre Monica le

@MichaelLew que définissez-vous comme une "analyse intermédiaire"?

AdamO

Adam, je ne pense pas que vous ayez raison de dire que "les règles d'arrêt n'existent pas en dehors des essais cliniques". Ils ne sont pas souvent mentionnés en dehors des essais cliniques (voir ma question d'origine), mais ils existent pour chaque expérience. Même un essai de taille d'échantillon fixe a la règle d'arrêt «continuer jusqu'à ce que la taille de l'échantillon soit atteinte».

Michael Lew - réintègre Monica le